論文の概要: Explanation Generation for Contradiction Reconciliation with LLMs
- arxiv url: http://arxiv.org/abs/2603.22735v1
- Date: Tue, 24 Mar 2026 03:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.266345
- Title: Explanation Generation for Contradiction Reconciliation with LLMs
- Title(参考訳): LLMとの競合緩和のための説明生成
- Authors: Jason Chan, Zhixue Zhao, Robert Gaizauskas,
- Abstract要約: 人間の推論の重要な側面は、矛盾を和らげる説明を仮説化する能力である。
大きな言語モデルの推論能力の増大にもかかわらず、そのような和解的な説明を仮説化できる能力は、まだほとんど解明されていない。
本稿では,既存の自然言語推論(NLI)データセットを再取得する新しい手法を提案し,スケーラブルな自動評価を可能にする品質指標を提案する。
- 参考スコア(独自算出の注目度): 6.916679603940271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing NLP work commonly treats contradictions as errors to be resolved by choosing which statements to accept or discard. Yet a key aspect of human reasoning in social interactions and professional domains is the ability to hypothesize explanations that reconcile contradictions. For example, "Cassie hates coffee" and "She buys coffee everyday" may appear contradictory, yet both are compatible if Cassie has the unenviable daily chore of buying coffee for all her coworkers. Despite the growing reasoning capabilities of large language models (LLMs), their ability to hypothesize such reconciliatory explanations remains largely unexplored. To address this gap, we introduce the task of reconciliatory explanation generation, where models must generate explanations that effectively render contradictory statements compatible. We propose a novel method of repurposing existing natural language inference (NLI) datasets, and introduce quality metrics that enable scalable automatic evaluation. Experiments with 18 LLMs show that most models achieve limited success in this task, and that the benefit of extending test-time compute by "thinking" plateaus as model size increases. Our results highlight an under-explored dimension of LLM reasoning and the need to address this limitation in enhancing LLMs' downstream applications such as chatbots and scientific aids.
- Abstract(参考訳): 既存のNLP作業では、どの文を受け入れたり破棄するかを選択することで、矛盾を解決すべきエラーとして扱うことが一般的である。
しかし、社会的相互作用や専門分野における人間の推論の重要な側面は、矛盾を和らげる説明を仮説化する能力である。
例えば、「キャシーはコーヒーを嫌い」と「彼女は毎日コーヒーを買う」は矛盾しているように思われるが、キャシーが同僚全員のためにコーヒーを買うという不可避な日々の雑用を持っていれば、どちらも相容れない。
大きな言語モデル(LLM)の推論能力の増大にもかかわらず、そのような和解的な説明を仮説化できる能力はほとんど解明されていない。
このギャップに対処するために、モデルが矛盾する文を効果的に表現する説明を生成するための和解的説明生成のタスクを導入する。
本稿では,既存の自然言語推論(NLI)データセットを再取得する新しい手法を提案し,スケーラブルな自動評価を可能にする品質指標を提案する。
18のLLMを用いた実験では、ほとんどのモデルがこのタスクで限られた成功を達成し、モデルのサイズが大きくなるにつれて「考える」ことでテスト時間計算を拡張する利点が示される。
以上の結果から,LLM推論の未探索次元と,チャットボットや科学支援など,LLMの下流的応用の強化に対処する必要性が浮き彫りになった。
関連論文リスト
- WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [34.350505059394536]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。