論文の概要: Strategic Discourse Assessment: The Crooked Path to Innocence
- arxiv url: http://arxiv.org/abs/2506.01195v2
- Date: Tue, 02 Sep 2025 14:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 17:24:09.166567
- Title: Strategic Discourse Assessment: The Crooked Path to Innocence
- Title(参考訳): 戦略的談話の評価:無実への曲がりくねった道
- Authors: Anshun Asher Zheng, Junyi Jessy Li, David I. Beaver,
- Abstract要約: 我々は,Gricean と Game-theoretic pragmatics を基盤とした SDA を導入し,言語の戦略的利用を評価する。
提案手法には,言論移動のコミットメントに基づく分類法と,Gricean maxims に根ざした推定可能プロキシの利用という,2つの重要な適応が組み込まれている。
我々は,ターンにおけるベネフィット(BAT),ターンにおけるペナルティ(PAT),ターンにおける正規化相対ベネフィット(NRBAT)の3つの解釈可能な指標を導出し,談話の動きによる戦略的影響を定量化する。
- 参考スコア(独自算出の注目度): 23.337770980661677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language is often used strategically, particularly in high-stakes, adversarial settings, yet most work on pragmatics and LLMs centers on cooperativity. This leaves a gap in the systematic understanding of strategic communication in adversarial settings. To address this, we introduce SDA (Strategic Discourse Assessment), a framework grounded in Gricean and game-theoretic pragmatics to assess strategic use of language. It adapts the ME Game jury function to make it empirically estimable for analyzing dialogue. Our approach incorporates two key adaptations: a commitment-based taxonomy of discourse moves, which provides a finer-grained account of strategic effects, and the use of estimable proxies grounded in Gricean maxims to operationalize abstract constructs such as credibility. Together, these adaptations build on discourse theory by treating discourse as the strategic management of commitments, enabling systematic evaluation of how conversational moves advance or undermine discourse goals. We further derive three interpretable metrics-Benefit at Turn (BAT), Penalty at Turn (PAT), and Normalized Relative Benefit at Turn (NRBAT)-to quantify the perceived strategic effects of discourse moves. We also present CPD (the Crooked Path Dataset), an annotated dataset of real courtroom cross-examinations, to demonstrate the framework's effectiveness. Using these tools, we evaluate a range of LLMs and show that LLMs generally exhibit limited pragmatic understanding of strategic language. While model size shows an increase in performance on our metrics, reasoning ability does not help and largely hurts, introducing overcomplication and internal confusion.
- Abstract(参考訳): 言語はしばしば戦略的に使われており、特に高い評価、敵対的な設定では用いられるが、ほとんどの言語は実用学とLLMが協力性に重点を置いている。
このことは、敵の設定における戦略的コミュニケーションの体系的な理解にギャップを残している。
そこで我々は,Gricean と Game-theoretic pragmatics を基盤とした SDA (Strategic Discourse Assessment) を導入する。
ME Gameの審査員機能に適応し、対話の分析に経験的に推定できる。
提案手法には, 戦略効果の詳細な説明を提供するコミットメントに基づく談話移動の分類法と, 信頼性などの抽象構造を運用するために, Gricean maxims に根ざした推定可能プロキシの利用という2つの重要な適応が組み込まれている。
これらの適応は,言論をコミットメントの戦略的管理として扱うことによって,談話理論に基づいて構築される。
さらに、3つの解釈可能な指標であるBenefit at Turn (BAT), Penalty at Turn (PAT), Normalized Relative Benefit at Turn (NRBAT) を導出し、談話の動きの認識された戦略的効果を定量化する。
CPD(Crooked Path Dataset)は,実際の法廷交叉試験の注釈付きデータセットで,フレームワークの有効性を示す。
これらのツールを用いて, LLM の範囲を評価し, LLM が戦略言語に対する限定的な実践的理解を示すことを示す。
モデルのサイズはメトリクスのパフォーマンス向上を示していますが、推論能力は役に立ちません。
関連論文リスト
- On Theoretically-Driven LLM Agents for Multi-Dimensional Discourse Analysis [0.0]
本稿では,この課題に明示的な理論的知識を取り入れることのメリットを定量化するために,比較マルチエージェントフレームワークを提案する。
我々は、注釈付き政治討論のデータセットを利用して、4つの異なる言い換え機能を含む新しい標準を確立する。
我々は,2つの並列LLMエージェントシステムの評価を行った。1つはRetrieval-Augmented Generation (RAG)による議論理論により強化され,もう1つはゼロショットベースラインである。
論文 参考訳(メタデータ) (2026-02-14T10:30:39Z) - More at Stake: How Payoff and Language Shape LLM Agent Strategies in Cooperation Dilemmas [1.6487772637295166]
LLMは、インタラクティブでマルチエージェントな設定において、自律的なエージェントとしての役割をますます高めている。
繰り返しの社会的ジレンマにおいて,ペイオフ等級と言語文脈がLCM戦略をどう形成するかを検討する。
モデルと言語全体で、インセンティブに敏感な条件付き戦略や言語間の相違など、一貫した行動パターンを観察する。
論文 参考訳(メタデータ) (2026-01-27T01:36:50Z) - Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis [54.53152524778821]
言語モデル(LLM)への音声の統合は、その能力を大幅に拡張したが、多くの場合、中核となるテキスト能力の弱さを犠牲にしている。
本稿では,パラメータ重要度推定に基づく分析フレームワークを提案する。
レイヤワイズ学習率スケジューリングとローランド適応(LoRA)の2つの緩和戦略について検討する。
実験結果から,両手法は完全な微調整よりもテキスト能力の維持が良好であるとともに,下流の質問応答性能も向上していることがわかった。
論文 参考訳(メタデータ) (2025-09-28T09:04:40Z) - CHBench: A Cognitive Hierarchy Benchmark for Evaluating Strategic Reasoning Capability of LLMs [10.29314561183905]
ゲームプレイ能力は、大規模言語モデルの戦略的推論能力を評価する指標となる。
行動経済学の認知階層モデルに着想を得た新しい評価フレームワークであるCHBenchを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:10:26Z) - LLM Agents for Bargaining with Utility-based Feedback [23.357706450282002]
ユーティリティベースのフィードバックを中心とした包括的フレームワークを導入する。
1)新しいベンチマークデータセットであるBargainArena,(2)ユーティリティ理論にインスパイアされた人力による経済的な評価指標,(3)LCMを反復的にバリ取り戦略を洗練させる構造的フィードバックメカニズムである。
論文 参考訳(メタデータ) (2025-05-29T02:07:27Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues [3.2162648244439684]
本研究では,対話における応答の共感を測り,評価する上で,大規模言語モデルがいかに効果的かを調べるための枠組みを開発する。
我々の戦略は、最新かつ微調整されたLLMの性能を明示的で説明可能な特徴で近似することである。
以上の結果から,組込みのみを用いる場合,ジェネリックLLMに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-28T20:37:57Z) - Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.36683223327633]
大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。
実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。
従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文 参考訳(メタデータ) (2024-08-13T10:15:55Z) - ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文 参考訳(メタデータ) (2024-06-15T13:16:44Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。