論文の概要: SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2510.24427v1
- Date: Tue, 28 Oct 2025 13:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.207211
- Title: SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models
- Title(参考訳): SynthWorlds:言語モデルにおける推論と知識を両立させる並列世界制御
- Authors: Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim Althoff,
- Abstract要約: 本稿では,タスク推論の複雑さを現実の知識から切り離すフレームワークであるSynthWorldsを紹介する。
SynthWorldsでは、同一の相互接続構造を持つ2つの世界を表す並列コーパスを構築する。
実験では、記憶されたパラメトリック世界知識から得られるパフォーマンス向上モデルとして定義された、永続的な知識の優位性ギャップが明らかになる。
- 参考スコア(独自算出の注目度): 28.93090271914671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the reasoning ability of language models (LMs) is complicated by their extensive parametric world knowledge, where benchmark performance often reflects factual recall rather than genuine reasoning. Existing datasets and approaches (e.g., temporal filtering, paraphrasing, adversarial substitution) cannot cleanly separate the two. We present SynthWorlds, a framework that disentangles task reasoning complexity from factual knowledge. In SynthWorlds, we construct parallel corpora representing two worlds with identical interconnected structure: a real-mapped world, where models may exploit parametric knowledge, and a synthetic-mapped world, where such knowledge is meaningless. On top of these corpora, we design two mirrored tasks as case studies: multi-hop question answering and page navigation, which maintain equal reasoning difficulty across worlds. Experiments in parametric-only (e.g., closed-book QA) and knowledge-augmented (e.g., retrieval-augmented) LM settings reveal a persistent knowledge advantage gap, defined as the performance boost models gain from memorized parametric world knowledge. Knowledge acquisition and integration mechanisms reduce but do not eliminate this gap, highlighting opportunities for system improvements. Fully automatic and scalable, SynthWorlds provides a controlled environment for evaluating LMs in ways that were previously challenging, enabling precise and testable comparisons of reasoning and memorization.
- Abstract(参考訳): 言語モデル(LM)の推論能力の評価は、ベンチマーク性能が真の推論ではなく事実的リコールを反映する、広範囲なパラメトリック世界知識によって複雑である。
既存のデータセットとアプローチ(例えば、時間的フィルタリング、パラフレージング、逆置換)は、この2つをきれいに分離することはできない。
本稿では,タスク推論の複雑さを現実の知識から切り離すフレームワークであるSynthWorldsを紹介する。
SynthWorldsでは、モデルがパラメトリック知識を活用できる実世界と、そのような知識が無意味な合成世界という、相互接続構造を持つ2つの世界を表す並列コーパスを構築している。
これらのコーパスの上に、我々はケーススタディとして2つのミラータスクを設計する: マルチホップ質問応答とページナビゲーション。
パラメトリックオンリー(例えば、クローズドブックQA)と知識強化(例えば、検索強化)のLM設定の実験では、記憶されたパラメトリックワールドナレッジから得られる性能向上モデルとして定義された、永続的な知識優位性ギャップが示される。
知識獲得と統合メカニズムは減少するが、このギャップを排除せず、システム改善の機会を強調している。
完全に自動でスケーラブルなSynthWorldsは、これまで難しかった方法でLMを評価するための制御された環境を提供し、推論と記憶の正確かつテスト可能な比較を可能にする。
関連論文リスト
- Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning [14.165537595568729]
大規模言語モデルには、そのパラメータに広範な世界的知識が含まれており、多くの知識集約的なタスクに対する印象的なパフォーマンスを実現している。
しかし、新しい設定で展開する場合、LLMはしばしば、パラメトリック知識を新しい情報や馴染みのない情報と統合しなければならない状況に遭遇する。
この研究は、LLMが文脈内知識とパラメトリック知識を対実的推論のレンズを通して組み合わせることができるかどうかを考察する。
論文 参考訳(メタデータ) (2025-06-15T01:08:05Z) - SituatedThinker: Grounding LLM Reasoning with Real-World through Situated Thinking [39.73398416448668]
我々はSituatedThinkerを紹介した。これは大規模な言語モデルが現実世界の文脈で推論を基礎づけることを可能にするフレームワークだ。
強化学習を利用することで、SituatedThinkerは現実世界と意図的に推論して情報とフィードバックを得る。
実験結果から,マルチホップ質問応答と数理推論のベンチマークにおいて,大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-05-25T20:20:04Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。