論文の概要: Reasoning Elicitation in Language Models via Counterfactual Feedback
- arxiv url: http://arxiv.org/abs/2410.03767v1
- Date: Wed, 2 Oct 2024 15:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:30:33.275388
- Title: Reasoning Elicitation in Language Models via Counterfactual Feedback
- Title(参考訳): 対実的フィードバックによる言語モデルにおける推論的励振
- Authors: Alihan Hüyük, Xinnuo Xu, Jacqueline Maasch, Aditya V. Nori, Javier González,
- Abstract要約: 事実と反事実の質問において精度のバランスをとる新しい指標を導出する。
本稿では,より優れた推論機構を実現するための微調整手法を提案する。
各種現実シナリオにおける微調整言語モデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 17.908819732623716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the increasing effectiveness of language models, their reasoning capabilities remain underdeveloped. In particular, causal reasoning through counterfactual question answering is lacking. This work aims to bridge this gap. We first derive novel metrics that balance accuracy in factual and counterfactual questions, capturing a more complete view of the reasoning abilities of language models than traditional factual-only based metrics. Second, we propose several fine-tuning approaches that aim to elicit better reasoning mechanisms, in the sense of the proposed metrics. Finally, we evaluate the performance of the fine-tuned language models in a variety of realistic scenarios. In particular, we investigate to what extent our fine-tuning approaches systemically achieve better generalization with respect to the base models in several problems that require, among others, inductive and deductive reasoning capabilities.
- Abstract(参考訳): 言語モデルの有効性の高まりにもかかわらず、その推論能力は未発達のままである。
特に、反実的質問応答による因果推論は欠如している。
この仕事は、このギャップを埋めることを目的としています。
まず、従来の事実のみに基づくメトリクスよりも、言語モデルの推論能力の完全なビューを捉えることで、事実と反事実の質問の正確さのバランスをとる新しいメトリクスを導出します。
第2に,提案手法を用いて,より優れた推論機構を実現するための微調整手法を提案する。
最後に,細調整言語モデルの性能を,様々なシナリオで評価する。
特に,我々の微調整アプローチが,帰納的推論能力や帰納的推論能力を必要とするいくつかの問題において,ベースモデルに対するより優れた一般化を実現するかを検討する。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Proceedings of the First International Workshop on Next-Generation Language Models for Knowledge Representation and Reasoning (NeLaMKRR 2024) [16.282850445579857]
推論は人間の知性の本質的な要素であり、批判的に考える能力において基本的な役割を果たす。
自然言語処理における最近の進歩は、トランスフォーマーに基づく言語モデルの出現とともに、これらのモデルが推論能力を示す可能性を示唆している。
言語モデルにおける推論について議論が続いているが、これらのモデルが実際に推論できる程度に注目することは容易ではない。
論文 参考訳(メタデータ) (2024-10-07T02:31:47Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Dialectical language model evaluation: An initial appraisal of the
commonsense spatial reasoning abilities of LLMs [10.453404263936335]
本稿では,コモンセンス推論のための言語モデルの弁証的評価について検討する。
この種の評価の目標は、集合的なパフォーマンス値を得るのではなく、失敗を見つけ、システムのバウンダリをマップすることにある。
本稿では,空間的推論の特定の場合に対して,このような評価を定性的に検討する。
論文 参考訳(メタデータ) (2023-04-22T06:28:46Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。