論文の概要: Can Language Models perform Abductive Commonsense Reasoning?
- arxiv url: http://arxiv.org/abs/2207.05155v1
- Date: Thu, 7 Jul 2022 15:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-17 16:14:38.933470
- Title: Can Language Models perform Abductive Commonsense Reasoning?
- Title(参考訳): 言語モデルはアブダプティブ・コモンセンス推論を実行できるか?
- Authors: Seungone Kim
- Abstract要約: 帰納的推論(英: Abductive Reasoning)は、一連の観測から最も妥当な仮説を推測するタスクである。
この問題に対処する最もよく知られたベンチマークは、aNLIとaNLGである。
私は、この問題を解決するために試みられた方法論をレビューし、ベースラインモデルを再実装し、現在のアプローチが持つ弱点を分析します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abductive Reasoning is a task of inferring the most plausible hypothesis
given a set of observations. In literature, the community has approached to
solve this challenge by classifying/generating a likely hypothesis that does
not contradict with a past observation and future observation. Some of the most
well-known benchmarks that tackle this problem are aNLI and aNLG (pronounced as
alpha-NLI and alpha-NLG). In this report, I review over some of the
methodologies that were attempted to solve this challenge, re-implement the
baseline models, and analyze some of the weaknesses that current approaches
have. The code and the re-implemented results are available at this link.
- Abstract(参考訳): 帰納的推論(英: Abductive Reasoning)は、一連の観測から最も妥当な仮説を推測するタスクである。
文献では、過去の観察や将来の観察と矛盾しない可能性のある仮説を分類・生成することで、この課題を解決するためにコミュニティがアプローチしている。
この問題に対処する最もよく知られているベンチマークは、aNLIとaNLG(α-NLIとα-NLGと発音する)である。
この報告では、この課題を解決しようとした方法論のいくつかをレビューし、ベースラインモデルを再実装し、現在のアプローチが抱える弱点を分析します。
コードと再実装された結果はこのリンクで確認できる。
関連論文リスト
- A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem [38.84662767814454]
限られた訓練データの条件下で対処する主な課題は、パラメータ効率のよい方法で事前訓練された視覚言語モデルを微調整する方法である。
本稿では,既存の手法を統合化し,それらの性質を同定し,詳細な比較を支援するための統一的な計算フレームワークを提案する。
実演として、カーネルヒルベルト空間(RKHS)における表現子間のクラス間相関をモデル化し、既存の手法を拡張した。
論文 参考訳(メタデータ) (2024-10-15T15:22:30Z) - Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions [48.251724997889184]
我々は、ミス・コントラクタリー条件(PMC)に関する問題というベンチマークを開発する。
本稿では,これらのシナリオにおける数ショットプロンプト手法の性能を評価するための2つの新しい指標を提案する。
SMT-LIB Prompting (SLP) と呼ばれる,SMT-LIB言語を用いて直接解決する代わりに,この問題をモデル化する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:24:12Z) - Preemptive Answer "Attacks" on Chain-of-Thought Reasoning [7.233752893356647]
大きな言語モデル(LLM)は、Chain-of-Thoughtプロンプトと組み合わせることで、印象的な推論機能を示す。
本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。
実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。
論文 参考訳(メタデータ) (2024-05-31T15:15:04Z) - Evidence from counterfactual tasks supports emergent analogical reasoning in large language models [3.9189409002585562]
大規模な言語モデルでは、ゼロショット方式で幅広いテキストベースの類似問題を解くことができるという証拠を報告する。
最近の2つの注釈は、アルファベットの標準配列が任意に置換されるいわゆる反事実的タスクの証拠を引用して、これらの結果に異議を唱えている。
ここでは、これらの批判に回答し、本研究で使用した試験材料に関する誤解を明らかにし、言語モデルがこれらの新しい対実的タスク変種に一般化できることを示す。
論文 参考訳(メタデータ) (2024-04-14T21:51:02Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Faithfulness Tests for Natural Language Explanations [87.01093277918599]
ニューラルモデルの説明は、その予測のためのモデルの意思決定プロセスを明らかにすることを目的としている。
近年の研究では,サリエンシマップやファクトファクトファクトダクトなどの説明を行う手法が誤解を招く可能性があることが示されている。
本研究は,自然言語の説明の忠実さを評価する上での課題について考察する。
論文 参考訳(メタデータ) (2023-05-29T11:40:37Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。