論文の概要: Crystal: Introspective Reasoners Reinforced with Self-Feedback
- arxiv url: http://arxiv.org/abs/2310.04921v2
- Date: Wed, 18 Oct 2023 14:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:08:23.353701
- Title: Crystal: Introspective Reasoners Reinforced with Self-Feedback
- Title(参考訳): クリスタル:自己フィードバックによる内省的推論
- Authors: Jiacheng Liu, Ramakanth Pasunuru, Hannaneh Hajishirzi, Yejin Choi,
Asli Celikyilmaz
- Abstract要約: 本稿では,イントロスペクティブ・コモンセンス推論器であるCrystalを開発するための新しい手法を提案する。
コモンセンス問題に対処するため、まず与えられた質問に関連する知識ステートメントのイントロスペクションを行い、その後、それまでのイントロスペクションされた知識に根ざした情報予測を行う。
実験により、クリスタルは標準的な微調整法と連鎖蒸留法の両方で著しく優れており、コモンセンス推論プロセスの透明性を高めていることが示された。
- 参考スコア(独自算出の注目度): 118.53428015478957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extensive work has shown that the performance and interpretability of
commonsense reasoning can be improved via knowledge-augmented reasoning
methods, where the knowledge that underpins the reasoning process is explicitly
verbalized and utilized. However, existing implementations, including
"chain-of-thought" and its variants, fall short in capturing the introspective
nature of knowledge required in commonsense reasoning, and in accounting for
the mutual adaptation between the generation and utilization of knowledge. We
propose a novel method to develop an introspective commonsense reasoner,
Crystal. To tackle commonsense problems, it first introspects for knowledge
statements related to the given question, and subsequently makes an informed
prediction that is grounded in the previously introspected knowledge. The
knowledge introspection and knowledge-grounded reasoning modes of the model are
tuned via reinforcement learning to mutually adapt, where the reward derives
from the feedback given by the model itself. Experiments show that Crystal
significantly outperforms both the standard supervised finetuning and
chain-of-thought distilled methods, and enhances the transparency of the
commonsense reasoning process. Our work ultimately validates the feasibility
and potential of reinforcing a neural model with self-feedback.
- Abstract(参考訳): 広範にわたる研究により、常識推論の性能と解釈性は、推論プロセスの基盤となる知識が明示的に言語化され、活用される知識増進推論手法によって改善できることが示されている。
しかし、「思考の連鎖」やその変種を含む既存の実装は、常識的推論に必要な知識の内省的な性質を捉え、知識の生成と利用の相互適応を考慮に入れていない。
本稿では,イントロスペクティブ・コモンセンス推論器であるクリスタルを開発するための新しい手法を提案する。
コモンセンス問題に対処するため、まず与えられた質問に関連する知識ステートメントのイントロスペクションを行い、その後、それまでのイントロスペクションされた知識に根ざした情報予測を行う。
モデルの知識イントロスペクションと知識ベース推論モードは、モデル自体が与えるフィードバックから得られる報酬を相互に適応させるために強化学習を介して調整される。
実験により、クリスタルは標準的な微調整法と連鎖蒸留法の両方に優れており、コモンセンス推論プロセスの透明性を高めることが示されている。
我々の研究は最終的に、自己フィードバックで神経モデルを強化する可能性と可能性を検証する。
関連論文リスト
- RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Eliciting Knowledge from Large Pre-Trained Models for Unsupervised
Knowledge-Grounded Conversation [45.95864432188745]
大規模事前学習の最近の進歩は、原文から知識を学ぶ可能性のある大きなモデルを提供する。
大規模モデルから最良の知識を引き出す様々な手法を提案する。
私たちの人間による研究は、幻覚はあるものの、大きなモデルは常識を出力できるという独特な利点を誇示していることを示している。
論文 参考訳(メタデータ) (2022-11-03T04:48:38Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - Entity-Based Knowledge Conflicts in Question Answering [29.973926661540524]
我々は、文脈情報が学習情報と矛盾する知識矛盾の問題を定式化する。
本稿では,幻覚を最小化し,分布外一般化を4%~7%改善するパラメトリック知識の過度依存を軽減する手法を提案する。
本研究は, 実践者が読解よりも幻覚の傾向を評価することの重要性を示し, 緩和戦略が情報進化への一般化を促進することを示すものである。
論文 参考訳(メタデータ) (2021-09-10T18:29:44Z) - Social Commonsense Reasoning with Multi-Head Knowledge Attention [24.70946979449572]
社会的コモンセンス推論には、テキストの理解、社会イベントに関する知識、その実践的な意味、およびコモンセンス推論スキルが必要である。
本稿では,半構造化コモンセンス推論規則を符号化し,それをトランスフォーマーベースの推論セルに組み込むことを学習する,新しいマルチヘッド知識アテンションモデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T10:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。