Fugu-MT 論文翻訳(概要): Can Language Models perform Abductive Commonsense Reasoning?

論文の概要: Can Language Models perform Abductive Commonsense Reasoning?

arxiv url: http://arxiv.org/abs/2207.05155v1
Date: Thu, 7 Jul 2022 15:52:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-17 16:14:38.933470
Title: Can Language Models perform Abductive Commonsense Reasoning?
Title（参考訳）: 言語モデルはアブダプティブ・コモンセンス推論を実行できるか?
Authors: Seungone Kim
Abstract要約: 帰納的推論(英: Abductive Reasoning)は、一連の観測から最も妥当な仮説を推測するタスクである。この問題に対処する最もよく知られたベンチマークは、aNLIとaNLGである。私は、この問題を解決するために試みられた方法論をレビューし、ベースラインモデルを再実装し、現在のアプローチが持つ弱点を分析します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Abductive Reasoning is a task of inferring the most plausible hypothesis given a set of observations. In literature, the community has approached to solve this challenge by classifying/generating a likely hypothesis that does not contradict with a past observation and future observation. Some of the most well-known benchmarks that tackle this problem are aNLI and aNLG (pronounced as alpha-NLI and alpha-NLG). In this report, I review over some of the methodologies that were attempted to solve this challenge, re-implement the baseline models, and analyze some of the weaknesses that current approaches have. The code and the re-implemented results are available at this link.
Abstract（参考訳）: 帰納的推論(英: Abductive Reasoning)は、一連の観測から最も妥当な仮説を推測するタスクである。文献では、過去の観察や将来の観察と矛盾しない可能性のある仮説を分類・生成することで、この課題を解決するためにコミュニティがアプローチしている。この問題に対処する最もよく知られているベンチマークは、aNLIとaNLG(α-NLIとα-NLGと発音する)である。この報告では、この課題を解決しようとした方法論のいくつかをレビューし、ベースラインモデルを再実装し、現在のアプローチが抱える弱点を分析します。コードと再実装された結果はこのリンクで確認できる。

関連論文リスト

A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem [38.84662767814454]
限られた訓練データの条件下で対処する主な課題は、パラメータ効率のよい方法で事前訓練された視覚言語モデルを微調整する方法である。本稿では,既存の手法を統合化し,それらの性質を同定し,詳細な比較を支援するための統一的な計算フレームワークを提案する。実演として、カーネルヒルベルト空間(RKHS)における表現子間のクラス間相関をモデル化し、既存の手法を拡張した。
論文参考訳（メタデータ） (2024-10-15T15:22:30Z)
Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions [48.251724997889184]
我々は、ミス・コントラクタリー条件(PMC)に関する問題というベンチマークを開発する。本稿では,これらのシナリオにおける数ショットプロンプト手法の性能を評価するための2つの新しい指標を提案する。 SMT-LIB Prompting (SLP) と呼ばれる,SMT-LIB言語を用いて直接解決する代わりに,この問題をモデル化する手法を提案する。
論文参考訳（メタデータ） (2024-06-07T16:24:12Z)
Preemptive Answer "Attacks" on Chain-of-Thought Reasoning [7.233752893356647]
大きな言語モデル(LLM)は、Chain-of-Thoughtプロンプトと組み合わせることで、印象的な推論機能を示す。本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。
論文参考訳（メタデータ） (2024-05-31T15:15:04Z)
Evidence from counterfactual tasks supports emergent analogical reasoning in large language models [3.9189409002585562]
大規模な言語モデルでは、ゼロショット方式で幅広いテキストベースの類似問題を解くことができるという証拠を報告する。最近の2つの注釈は、アルファベットの標準配列が任意に置換されるいわゆる反事実的タスクの証拠を引用して、これらの結果に異議を唱えている。ここでは、これらの批判に回答し、本研究で使用した試験材料に関する誤解を明らかにし、言語モデルがこれらの新しい対実的タスク変種に一般化できることを示す。
論文参考訳（メタデータ） (2024-04-14T21:51:02Z)
Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文参考訳（メタデータ） (2024-03-01T18:55:20Z)
Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-03T12:35:29Z)
Question Decomposition Improves the Faithfulness of Model-Generated Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文参考訳（メタデータ） (2023-07-17T00:54:10Z)
Faithfulness Tests for Natural Language Explanations [87.01093277918599]
ニューラルモデルの説明は、その予測のためのモデルの意思決定プロセスを明らかにすることを目的としている。近年の研究では,サリエンシマップやファクトファクトファクトダクトなどの説明を行う手法が誤解を招く可能性があることが示されている。本研究は,自然言語の説明の忠実さを評価する上での課題について考察する。
論文参考訳（メタデータ） (2023-05-29T11:40:37Z)
Shortcomings of Question Answering Based Factuality Frameworks for Error Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文参考訳（メタデータ） (2022-10-13T05:23:38Z)
L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。 ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文参考訳（メタデータ） (2020-05-22T15:01:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。