論文の概要: Analysis of the Reasoning with Redundant Information Provided Ability of
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.04039v1
- Date: Fri, 6 Oct 2023 06:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 01:25:51.309559
- Title: Analysis of the Reasoning with Redundant Information Provided Ability of
Large Language Models
- Title(参考訳): 大規模言語モデルの能力を考慮した冗長情報による推論の解析
- Authors: Wenbei Xie
- Abstract要約: 大きな言語モデル(LLM)は、さまざまな自然言語処理タスクにまたがる印象的な機能を示している。
このギャップに対処するため,Reasoning with Redundant Information Provided (RRIP) と呼ばれる新しいQAタスクが導入された。
本研究は,LlaMA2-13B-chatとGPT-3.5 (generative pre-trained transformer 3.5)の2つのLLMを評価し,従来のQAタスクとRRIPタスクとの対比を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have demonstrated
impressive capabilities across a range of natural language processing tasks,
especially in reasoning, a cornerstone for achieving Artificial General
Intelligence (AGI). However, commonly used benchmarks may not fully encapsulate
the inferential abilities of these models in real-world scenarios. To address
this gap, a new form of Question-Answering (QA) task, termed Reasoning with
Redundant Information Provided (RRIP), is introduced. The study designed a
modified version of the grade school math 8K (GSM-8K) dataset which has several
variants focusing on different attributes of redundant information. This
investigation evaluates two popular LLMs, LlaMA2-13B-chat and generative
pre-trained transformer 3.5 (GPT-3.5), contrasting their performance on
traditional QA tasks against the RRIP tasks. Findings indicate that while these
models achieved moderate success on standard QA benchmarks, their performance
notably declines when assessed on RRIP tasks. The study not only highlights the
limitations of current LLMs in handling redundant information but also suggests
that future training of these models should focus on incorporating redundant
information into the training data to increase the performance on RRIP tasks.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、自然言語処理タスク、特に推論において、人工知能(Artificial General Intelligence, AGI)を実現するための基盤において、目覚ましい能力を示している。
しかし、一般的に使用されるベンチマークでは、実際のシナリオでこれらのモデルの推論能力を完全にカプセル化することはできない。
このギャップに対処するため,Reasoning with Redundant Information Provided (RRIP) と呼ばれる新しいQAタスクが導入された。
この研究は、冗長情報の異なる属性に着目したいくつかの変種を持つ小学校数学8K(GSM-8K)データセットの修正版を設計した。
本研究は,LlaMA2-13B-chatとGPT-3.5 (Generative Pre-trained Transformer 3.5)の2つのLLMを評価し,従来のQAタスクとRRIPタスクとの対比を行った。
これらのモデルが標準QAベンチマークで適度に成功したが、RRIPタスクで評価すると明らかに性能が低下している。
この研究は、冗長な情報を扱う際の現在のLLMの限界を強調するだけでなく、これらのモデルの将来のトレーニングは、RRIPタスクのパフォーマンスを向上させるために、冗長な情報をトレーニングデータに組み込むことに焦点を当てるべきであることを示唆している。
関連論文リスト
- RA-ISF: Learning to Answer and Understand from Retrieval Augmentation
via Iterative Self-Feedback [20.249150294489265]
大規模言語モデル(LLM)は多くのタスクにおいて例外的な性能を示すが、それでもパラメータに格納された知識に大きく依存している。
Retrieval-augmented Generation (RAG)メソッドは、外部知識を統合することでこの問題に対処する。
本稿では、反復的にタスクを分解し、3つのサブモジュールで処理し、モデルの問題解決能力を向上するフレームワークであるRetrieval Augmented Iterative Self-Feedback (RA-ISF)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:01:05Z) - Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Zero-shot Item-based Recommendation via Multi-task Product Knowledge
Graph Pre-Training [106.85813323510783]
本稿ではゼロショットアイテムベース勧告(ZSIR)タスクのための新しいパラダイムを提案する。
製品知識グラフ(PKG)のモデルを事前トレーニングして、PLMからアイテム機能を洗練します。
我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。
論文 参考訳(メタデータ) (2023-05-12T17:38:24Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - On the Usability of Transformers-based models for a French
Question-Answering task [2.44288434255221]
本稿では,大規模学習問題におけるトランスフォーマーに基づく言語モデルのユーザビリティに着目した。
本稿では,低リソース環境下での競合性を示すFrALBERTの新しいコンパクトモデルを提案する。
論文 参考訳(メタデータ) (2022-07-19T09:46:15Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。