論文の概要: Reversal Blessing: Thinking Backward May Outpace Thinking Forward in Multi-choice Questions
- arxiv url: http://arxiv.org/abs/2502.18435v1
- Date: Tue, 25 Feb 2025 18:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:27.115637
- Title: Reversal Blessing: Thinking Backward May Outpace Thinking Forward in Multi-choice Questions
- Title(参考訳): 逆の祝福: 後ろ向きに考えると、前向きに考える
- Authors: Yizhe Zhang, Richard Bai, Zijin Gu, Ruixiang Zhang, Jiatao Gu, Emmanuel Abbe, Samy Bengio, Navdeep Jaitly,
- Abstract要約: 言語モデルは、通常左から右へ(L2R)自己回帰因子化を使用する。
いくつかのタスクにおいて,テキスト分布の代替因数分解が有用かどうかを検討する。
- 参考スコア(独自算出の注目度): 51.61404787000037
- License:
- Abstract: Language models usually use left-to-right (L2R) autoregressive factorization. However, L2R factorization may not always be the best inductive bias. Therefore, we investigate whether alternative factorizations of the text distribution could be beneficial in some tasks. We investigate right-to-left (R2L) training as a compelling alternative, focusing on multiple-choice questions (MCQs) as a test bed for knowledge extraction and reasoning. Through extensive experiments across various model sizes (2B-8B parameters) and training datasets, we find that R2L models can significantly outperform L2R models on several MCQ benchmarks, including logical reasoning, commonsense understanding, and truthfulness assessment tasks. Our analysis reveals that this performance difference may be fundamentally linked to multiple factors including calibration, computability and directional conditional entropy. We ablate the impact of these factors through controlled simulation studies using arithmetic tasks, where the impacting factors can be better disentangled. Our work demonstrates that exploring alternative factorizations of the text distribution can lead to improvements in LLM capabilities and provides theoretical insights into optimal factorization towards approximating human language distribution, and when each reasoning order might be more advantageous.
- Abstract(参考訳): 言語モデルは通常、左から右へ(L2R)自己回帰因子化を使用する。
しかし、L2R因子化は必ずしも最も誘導バイアスであるとは限らない。
そこで本研究では,テキスト分布の代替因数分解が,あるタスクにおいて有益かどうかを検討する。
本稿では,知識抽出と推論のためのテストベッドとして,マルチチョイス質問(MCQ)に着目して,右から左へのトレーニング(R2L)を説得力のある代替手段として検討する。
様々なモデルサイズ(2B-8Bパラメータ)およびトレーニングデータセットにわたる広範な実験により、R2Lモデルは、論理的推論、常識的理解、真理性評価タスクを含む、いくつかのMCQベンチマークにおいてL2Rモデルを大幅に上回ることが判明した。
解析の結果, この性能差は, キャリブレーション, 計算可能性, 方向性条件エントロピーなど, 複数の要因と根本的に関係している可能性が示唆された。
我々は,これらの要因が与える影響を,算術的タスクを用いた制御シミュレーション研究によって補足する。
我々の研究は、テキスト分布の代替因数分解の探索がLLM能力の向上につながることを実証し、人間の言語分布を近似するための最適因数分解に関する理論的洞察を提供する。
関連論文リスト
- Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs [11.805264893752154]
我々は,2つの構成データセット(QASCとBamboogle)で事実を演算することで,LLaMA 2とFlan-T5という2つの大言語モデルの推論能力を評価する。
両モデルとも (a) を併用するが, Flan-T5 は LLaMA 2 よりもばらつきが小さい。
このことは、モデルが故意に関係のあるデータセットを微調整することで、推移性の理解を深める可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-10-26T15:09:07Z) - Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension [9.67774998354062]
これまでの研究は主に、Chain-of-Thought(CoT)やデータ拡張による論理的推論能力の向上に重点を置いてきた。
本稿では,CoTの論理式を生成するためのPODA(Premise-Oriented Data Augmentation)フレームワークを提案する。
また,本論文では,原案と反実例の推論経路を比較検討する新たな思考経路コントラスト学習手法についても紹介する。
論文 参考訳(メタデータ) (2024-09-22T15:44:43Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - IRRGN: An Implicit Relational Reasoning Graph Network for Multi-turn
Response Selection [4.471148909362883]
Graph Networkへのインプシット推論は、発話間の暗黙的な抽出と、発話とオプションの抽出を目的としている。
モデルは、初めて MuTual データセットで人のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-12-01T13:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。