Fugu-MT 論文翻訳(概要): Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?

論文の概要: Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?

arxiv url: http://arxiv.org/abs/2411.16679v2
Date: Sat, 31 May 2025 11:16:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 20:53:53.054106
Title: Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?
Title（参考訳）: 大規模言語モデルは爆発的ショートカットを伴わない遅延マルチホップ推論を実現するか?
Authors: Sohee Yang, Nora Kassner, Elena Gribovskaya, Sebastian Riedel, Mor Geva,
Abstract要約: 大規模言語モデル(LLM)は、事実をリコールして、マルチホップクエリに応答するように構成する。 LLM は "Scarlett Johansson" の頭文字と "United States" の頭文字に遭遇してショートカットを発達させた可能性がある。我々は,LLMがショートカットを活用せずに,有望なマルチホップ推論能力を示すことを観察した。
参考スコア（独自算出の注目度）: 31.144358109084237
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We evaluate how well Large Language Models (LLMs) latently recall and compose facts to answer multi-hop queries like "In the year Scarlett Johansson was born, the Summer Olympics were hosted in the country of". One major challenge in such evaluation is that LLMs may have developed shortcuts by encountering the head entity "Scarlett Johansson" and the answer entity "United States" in the same training sequences or merely guess the answer based on frequency-based priors. To prevent shortcuts, we exclude test queries where the head and answer entities might have co-appeared during training. Through careful selection of relations and facts and systematic removal of cases where models might guess answers or exploit partial matches, we construct an evaluation dataset SOCRATES (ShOrtCut-fRee lATent rEaSoning). We observe that LLMs demonstrate promising latent multi-hop reasoning abilities without exploiting shortcuts, but only for certain types of queries. For queries requiring latent recall of countries as the intermediate answer, the best models achieve 80% latent composability, but this drops to just 5% for the recall of years. Comparisons with Chain-of-Thought highlight a significant gap between the ability of models to reason latently versus explicitly. Analysis reveals that latent representations of the intermediate answer are constructed more often in queries with higher latent composability, and shows the emergence of latent multi-hop reasoning during pretraining.
Abstract（参考訳）: 我々は,「スカーレット・ヨハンソンが誕生した年,夏季オリンピックが全国で開催されていた年」のように,大規模言語モデル (LLM) が最近,どのようにして事実を思い出し,複数のホップ質問に回答するかを評価した。このような評価における大きな課題の1つは、LLMが「スカーレット・ヨハンソン」(Scarlett Johansson) と「合衆国」(United States) と同一のトレーニングシーケンスで遭遇してショートカットを発達させたか、あるいは単に周波数ベースで答えを推測しただけである。ショートカットを防ぐため、トレーニング中にヘッドと応答エンティティが一緒に現れる可能性のあるテストクエリを除外する。関係や事実を慎重に選択し,モデルが解答を推測したり,部分一致を利用するようなケースを体系的に除去することで,評価データセットSOCRATES(ShOrtCut-fRee lATent rEaSoning)を構築した。 LLMはショートカットを活用することなく、特定の種類のクエリに対してのみ有望なマルチホップ推論能力を示す。中間回答として潜伏リコールを必要とするクエリでは、最高のモデルが80%潜伏コンポーザビリティを達成するが、これは数年のリコールでわずか5%に低下する。 Chain-of-Thoughtとの比較では、モデルが遅延的に、明示的に推論する能力の間に大きなギャップが浮かび上がっている。解析により、中間回答の潜在表現は、より高い潜在構成性を持つクエリでより頻繁に構築され、事前学習中に潜在マルチホップ推論が出現することを示す。

関連論文リスト

Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文参考訳（メタデータ） (2025-05-01T18:12:30Z)
Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks [22.859955360764275]
MLRBenchは多言語長文推論のための合成ベンチマークである。並列性があり、リークに耐性があり、任意のコンテキスト長に対してスケーラブルであるように設計されている。
論文参考訳（メタデータ） (2025-04-17T11:02:35Z)
SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios [33.72114830484246]
SCoRE(Scenario-based Commonsense Reasoning Evaluation)は、エンティティ、リレーション、論理ルールのシナリオスキーマからマルチホップ質問を合成するベンチマークである。 SCoREには100kのバイリンガル(中国語と英語の)複数選択質問が含まれており、推論チェーンは2-11ホップにまたがり、様々な難易度にグループ化されている。
論文参考訳（メタデータ） (2025-03-08T13:40:10Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文参考訳（メタデータ） (2024-09-08T19:22:58Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
Probing the Multi-turn Planning Capabilities of LLMs via 20 Question Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2023-10-02T16:55:37Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文参考訳（メタデータ） (2023-05-24T02:00:51Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)
Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文参考訳（メタデータ） (2022-10-07T06:50:23Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)
Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文参考訳（メタデータ） (2021-04-18T07:00:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。