論文の概要: Tiered Reasoning for Intuitive Physics: Toward Verifiable Commonsense
Language Understanding
- arxiv url: http://arxiv.org/abs/2109.04947v1
- Date: Fri, 10 Sep 2021 15:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:30:26.137794
- Title: Tiered Reasoning for Intuitive Physics: Toward Verifiable Commonsense
Language Understanding
- Title(参考訳): 直観物理学のための階層型推論:検証可能なコモンセンス言語理解に向けて
- Authors: Shane Storks, Qiaozi Gao, Yichi Zhang, Joyce Chai
- Abstract要約: Tiered Reasoning for Intuitive Physics (TRIP) は、高密度アノテーションを用いた新しい常識推論データセットである。
実験の結果,大規模なLMは高い性能を達成できるが,有効に裏付ける証拠が得られず,予測を支援するのに苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 11.520156387997206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale, pre-trained language models (LMs) have achieved human-level
performance on a breadth of language understanding tasks. However, evaluations
only based on end task performance shed little light on machines' true ability
in language understanding and reasoning. In this paper, we highlight the
importance of evaluating the underlying reasoning process in addition to end
performance. Toward this goal, we introduce Tiered Reasoning for Intuitive
Physics (TRIP), a novel commonsense reasoning dataset with dense annotations
that enable multi-tiered evaluation of machines' reasoning process. Our
empirical results show that while large LMs can achieve high end performance,
they struggle to support their predictions with valid supporting evidence. The
TRIP dataset and our baseline results will motivate verifiable evaluation of
commonsense reasoning and facilitate future research toward developing better
language understanding and reasoning models.
- Abstract(参考訳): 大規模で事前訓練された言語モデル(LM)は、多言語理解タスクにおいて人間レベルの性能を達成した。
しかし、エンドタスクのパフォーマンスに基づく評価は、言語理解と推論における機械の真の能力にほとんど光を当てなかった。
本稿では,エンドパフォーマンスに加えて,基礎となる推論プロセスを評価することの重要性を強調した。
この目的に向けて,機械の推論プロセスの多層評価を可能にする高密度アノテーションを用いた新しいコモンセンス推論データセットであるTiered Reasoning for Intuitive Physics (TRIP)を導入する。
実験結果から,大規模なlmsは高いエンド性能を達成できるが,有効な裏付けによる予測支援に苦慮していることが示された。
TRIPデータセットとベースラインの結果は、コモンセンス推論の検証可能な評価を動機付け、よりよい言語理解と推論モデルの開発に向けた今後の研究を促進する。
関連論文リスト
- Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Can Pretrained Language Models (Yet) Reason Deductively? [72.9103833294272]
PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。
本研究の主目的は, PLMがまだ信頼性の高い導出的推論を行うことができないことである。
PLMは人間レベルの推論能力からは程遠いことがわかりました。
論文 参考訳(メタデータ) (2022-10-12T17:44:15Z) - An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文 参考訳(メタデータ) (2022-07-28T08:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。