論文の概要: Large Language Models Still Face Challenges in Multi-Hop Reasoning with External Knowledge
- arxiv url: http://arxiv.org/abs/2412.08317v1
- Date: Wed, 11 Dec 2024 11:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:54.547882
- Title: Large Language Models Still Face Challenges in Multi-Hop Reasoning with External Knowledge
- Title(参考訳): 外部知識を用いたマルチホップ推論における大きな言語モデルはまだ課題に直面している
- Authors: Haotong Zhang,
- Abstract要約: 我々は、Chain-of-Thoughtによる4つの推論ベンチマークでGPT-3.5モデルをテストする(そのバリエーション)。
その結果,多種多様な推論タスクにおいて大きな言語モデルによって達成された驚くべき性能にもかかわらず,モデルが人間との大きな差を示す深刻な欠点に悩まされていることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License:
- Abstract: We carry out a series of experiments to test large language models' multi-hop reasoning ability from three aspects: selecting and combining external knowledge, dealing with non-sequential reasoning tasks and generalising to data samples with larger numbers of hops. We test the GPT-3.5 model on four reasoning benchmarks with Chain-of-Thought prompting (and its variations). Our results reveal that despite the amazing performance achieved by large language models on various reasoning tasks, models still suffer from severe drawbacks which shows a large gap with humans.
- Abstract(参考訳): 大規模言語モデルのマルチホップ推論能力を,外部知識の選択と組み合わせ,非逐次推論タスクの処理,データサンプルへの一般化という3つの側面から検証する実験を行った。
GPT-3.5モデルをChain-of-Thoughtプロンプト(およびそのバリエーション)による4つの推論ベンチマークでテストする。
その結果,多種多様な推論タスクにおいて大きな言語モデルによって達成された驚くべき性能にもかかわらず,モデルが人間との大きな差を示す深刻な欠点に悩まされていることが明らかとなった。
関連論文リスト
- TypedThinker: Typed Thinking Improves Large Language Model Reasoning [44.8904486513791]
大規模言語モデルの問題解決能力を高めるフレームワークであるTypedThinkerを提案する。
TypedThinkerは、与えられた問題に対して適切な推論型を選択し、特定の推論型を効果的に実装する、という2つの主要な課題に対処する。
実験の結果、Mistral 7Bは3.4%、LLaMA3 8Bは16.7%の精度でベースラインモデルよりも大幅に改善された。
論文 参考訳(メタデータ) (2024-10-02T18:54:45Z) - Brainstorming Brings Power to Large Language Models of Knowledge Reasoning [17.14501985068287]
大規模言語モデル(LLM)は、言語生成、テキスト理解、知識推論において驚くべき能力を示した。
近年の研究では、多モデルコラボレーションの導入により、幅広いタスクにおけるモデルの推論能力が向上している。
本稿では,インプットに基づくマルチモデルブレインストーミングを提案する。ブレインストーミングのためのグループに,複数の推論と再推論のラウンドを組み込んだ結果,コンセンサスな回答が得られた。
論文 参考訳(メタデータ) (2024-06-02T14:47:14Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [64.47951359580556]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Assessing GPT4-V on Structured Reasoning Tasks [17.903409875791056]
マルチモーダルLCMへのチェイン・オブ・サートの拡張である視覚的チェイン・オブ・サートは、バニラモデルよりも大幅に改善されていることを示す。
また,これらのモデルをうまく動作させるシナリオの分類分析を行い,コヒーレントなマルチモーダル推論に関わる課題を強調した。
論文 参考訳(メタデータ) (2023-12-13T08:54:49Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - BRAINTEASER: Lateral Thinking Puzzles for Large Language Models [15.95314613982879]
BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。
最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。
横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
論文 参考訳(メタデータ) (2023-10-08T07:46:01Z) - Emergent Analogical Reasoning in Large Language Models [1.5469452301122177]
GPT-3は、多くの設定において、抽象的なパターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を持っていることを示す。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
論文 参考訳(メタデータ) (2022-12-19T00:04:56Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。