Fugu-MT 論文翻訳(概要): Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification

論文の概要: Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification

arxiv url: http://arxiv.org/abs/2402.03686v3
Date: Mon, 27 May 2024 18:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 03:38:05.913045
Title: Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification
Title（参考訳）: 機械は複雑な推論に優れているか?
Authors: Soumya Sanyal, Tianyi Xiao, Jiacheng Liu, Wenya Wang, Xiang Ren,
Abstract要約: 本研究は,多文前提における係り受け検証問題について考察する。一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
参考スコア（独自算出の注目度）: 41.330719056639616
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Making inferences in text comprehension to understand the meaning is essential in language processing. This work studies the entailment verification (EV) problem of multi-sentence premises that requires a system to make multiple inferences implicitly. Studying EV for such complex premises is important because modern NLP problems, such as detecting inconsistent model-generated rationales, require complex multi-hop reasoning. However, current textual inference datasets mostly contain short premises that only partially focus on these challenges. To address this, we compile an EV benchmark that includes datasets from three NLP domains (NLI, contextual QA, and rationales) containing multi-sentence premises. On benchmarking humans and LLMs, we find that LLMs are better than humans in multi-hop reasoning across extended contexts, while humans perform better in simple deductive reasoning tasks. We also finetune a Flan-T5 model for EV using two training objectives to obtain a strong open-source model that outperforms GPT-3.5 and rivals GPT-4. Finally, we use this model to filter out inconsistent model-generated rationales in self-consistency decoding, resulting in a 6% accuracy improvement on average across three MCQ datasets.
Abstract（参考訳）: 意味を理解するためにテキスト理解で推論を行うことは、言語処理において不可欠である。本研究では,複数の推論を暗黙的に行うシステムを必要とする多文前提のEV問題について検討する。このような複雑な前提に対するEVの研究は、一貫性のないモデル生成的有理性を検出するような現代のNLP問題は、複雑なマルチホップ推論を必要とするため重要である。しかしながら、現在のテキスト推論データセットには、これらの課題に部分的に焦点を絞った短い前提がほとんど含まれています。これを解決するために,多文前提を含む3つのNLPドメイン(NLI,コンテキストQA,合理性)のデータセットを含むEVベンチマークをコンパイルする。人間とLLMのベンチマークでは、LLMは拡張されたコンテキストをまたいだマルチホップ推論において人間よりも優れており、人間は簡素な推論タスクにおいて優れた性能を発揮する。また、2つのトレーニング目標を用いてEV用Flan-T5モデルを微調整し、GPT-3.5と競合するGPT-4を上回る強力なオープンソースモデルを得る。最後に、このモデルを用いて、自己整合性復号における一貫性のないモデル生成論理をフィルタリングし、3つのMCQデータセットの平均で6%の精度向上をもたらす。

関連論文リスト

Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models [6.312798900093575]
大規模言語モデル (LLM) は複雑な数学的ベンチマークでは優れた性能を得るが、基本的な数学的推論では失敗することがある。本稿では,正確さと過度に考えることの基本的なトレードオフに焦点を当てる。本研究は,総合モデル評価のための高精度とトークン効率を組み合わせた調和平均計量であるOverthinking Scoreを紹介する。
論文参考訳（メタデータ） (2025-07-05T12:31:17Z)
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。 RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文参考訳（メタデータ） (2025-06-05T08:40:24Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文参考訳（メタデータ） (2025-02-27T14:14:50Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文参考訳（メタデータ） (2024-10-30T14:45:00Z)
Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文参考訳（メタデータ） (2024-10-21T17:00:06Z)
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文参考訳（メタデータ） (2024-07-23T20:40:37Z)
From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI [0.0]
本研究では,大規模言語モデル(LLM)の有効性について検討した。モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。回答者の66%がGPT-3.5の説明を「良い」か「優れている」と評価した。
論文参考訳（メタデータ） (2024-07-04T09:38:49Z)
Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。 GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文参考訳（メタデータ） (2024-06-24T23:02:56Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文参考訳（メタデータ） (2023-02-13T22:34:02Z)
Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文参考訳（メタデータ） (2022-05-25T05:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。