Fugu-MT 論文翻訳(概要): Constrained Reasoning Chains for Enhancing Theory-of-Mind in Large Language Models

論文の概要: Constrained Reasoning Chains for Enhancing Theory-of-Mind in Large Language Models

arxiv url: http://arxiv.org/abs/2409.13490v1
Date: Fri, 20 Sep 2024 13:27:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 06:53:09.583910
Title: Constrained Reasoning Chains for Enhancing Theory-of-Mind in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるミンド理論の強化のための制約付き推論チェイン
Authors: Zizheng Lin, Chunkit Chan, Yangqiu Song, Xin Liu,
Abstract要約: LLM(Large Language Models)が持つ理論-of-Mind(ToM)能力は制限されている。本稿ではドメイン知識とToM次元間の因果関係を利用して制約に対処するConstrained Chain-of-ToM(CCoToM)を提案する。 CCoToMは、使用したすべてのデータセットにまたがる大きなマージンで、従来の最先端メソッドを一貫して上回ります。
参考スコア（独自算出の注目度）: 39.81210971002642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Theory-of-Mind (ToM) ability possessed by Large Language Models (LLMs) has been shown to be limited. Most existing methods for improving ToM in LLMs adopt zero-shot prompting, and they face challenges including poor performance in complex ToM reasoning tasks and an inability to handle non-narrative contexts. We propose a zero-shot prompting method named Constrained Chain-of-ToM (CCoToM) that leverages domain knowledge and the causal relations between ToM dimensions to address these limitations. Specifically, CCoToM guides LLMs to construct explicit reasoning chains by first prompting LLMs to infer related ToM dimensions (e.g., belief). Afterward, CCoToM prompts LLMs to infer the queried ToM dimension based on the generated related ToM dimensions and corresponding causal relations. Additionally, CCoToM adaptively imposes constraints on prompts to introduce inductive biases and improve consistency between ToM dimensions. Besides narratives, CCoToM can also handle non-narrative contexts like conversations. Extensive experiments show that CCoToM consistently outperforms previous state-of-the-art methods by large margins across all LLMs and datasets used. We also conduct in-depth analyses to gain deeper insights into CCoToM. We have made our code publicly available.
Abstract（参考訳）: LLM(Large Language Models)が持つ理論-of-Mind(ToM)能力は制限されている。 LLMにおけるToMの改善手法の多くはゼロショットプロンプトを採用しており、複雑なToM推論タスクのパフォーマンスの低下や、非ナラティブコンテキストを扱うことができないといった問題に直面している。本稿では、ドメイン知識とToM次元間の因果関係を利用してこれらの制約に対処する、制約付きチェーン・オブ・ToM(CCoToM)というゼロショットプロンプト手法を提案する。具体的には、CCoToM は LLM に対して、まず LLM に関連する ToM 次元(例えば、信念)を推論するように促すことにより、明示的な推論連鎖を構築するよう誘導する。その後、CCoToMは、生成されたToM次元とそれに対応する因果関係に基づいて、問い合わせされたToM次元を推測するようにLCMに促す。さらに、CCoToMはインダクティブバイアスを導入し、ToM次元間の一貫性を改善するプロンプトに適応的に制約を課す。物語の他に、CCoToMは会話のような物語的でないコンテキストも扱える。大規模な実験により、CCoToMはすべてのLLMとデータセットに対して、従来の最先端の手法をはるかに上回っていることが示されている。また,CCoToMについてより深い知見を得るため,詳細な分析を行う。コードを公開しました。

関連論文リスト

MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification [12.449402503089164]
本稿では,各大規模言語モデルの証拠に形式的構造を提供する新しいフレームワークであるMArgEを紹介する。実験により,MArgEは単一LLMよりも有意に優れることが示された。
論文参考訳（メタデータ） (2025-08-04T16:40:02Z)
Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
Misaligning Reasoning with Answers -- A Framework for Assessing LLM CoT Robustness [3.9930400744726273]
我々は,回答と推論の関係を調べるために,MATCHAという新しい評価フレームワークを設計する。教育や医療といった分野では、推論は信頼性をモデル化するための鍵となる。以上の結果から,LLMは論理的タスクよりも多段階・常識的タスクに対する入力摂動の脆弱性が大きいことが示唆された。
論文参考訳（メタデータ） (2025-05-23T02:42:16Z)
RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。 CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文参考訳（メタデータ） (2025-05-19T16:25:55Z)
Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文参考訳（メタデータ） (2025-04-14T06:32:45Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-11-18T19:14:36Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
ToM-LM: Delegating Theory of Mind Reasoning to External Symbolic Executors in Large Language Models [5.455744338342196]
心の理論(りょうせい、英: Theory of Mind、ToM)とは、個人が心の状態を他人に当てはめる能力のこと。大きな言語モデル(LLM)は、ToMの能力といくつかの約束を示しているが、それでも複雑なToM推論に苦戦している。
論文参考訳（メタデータ） (2024-04-23T20:59:03Z)
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文参考訳（メタデータ） (2024-04-19T15:53:27Z)
Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-03-05T07:47:34Z)
Can Large Language Model Summarizers Adapt to Diverse Scientific Communication Goals? [19.814974042343028]
科学的な要約タスクにおける大規模言語モデル(LLM)の可制御性について検討する。 MuP レビュー生成タスクでは,非微調整 LLM が人間より優れていることが判明した。
論文参考訳（メタデータ） (2024-01-18T23:00:54Z)
Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文参考訳（メタデータ） (2023-11-27T22:23:27Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文参考訳（メタデータ） (2023-10-24T00:24:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。