論文の概要: Abstract Counterfactuals for Language Model Agents
- arxiv url: http://arxiv.org/abs/2506.02946v1
- Date: Tue, 03 Jun 2025 14:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.798639
- Title: Abstract Counterfactuals for Language Model Agents
- Title(参考訳): 言語モデルエージェントの抽象的対策
- Authors: Edoardo Pona, Milad Kazemi, Yali Du, David Watson, Nicola Paoletti,
- Abstract要約: 抽象対物(Abstract Counterfactuals)は、環境内の行動と相互作用の高レベルな特徴を強調するフレームワークである。
トークンレベルと潜時空間の両方の介入を考慮して,テキストベースのゲームと対実テキスト生成の実験を行う。
- 参考スコア(独自算出の注目度): 3.7540612510652176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual inference is a powerful tool for analysing and evaluating autonomous agents, but its application to language model (LM) agents remains challenging. Existing work on counterfactuals in LMs has primarily focused on token-level counterfactuals, which are often inadequate for LM agents due to their open-ended action spaces. Unlike traditional agents with fixed, clearly defined action spaces, the actions of LM agents are often implicit in the strings they output, making their action spaces difficult to define and interpret. Furthermore, the meanings of individual tokens can shift depending on the context, adding complexity to token-level reasoning and sometimes leading to biased or meaningless counterfactuals. We introduce \emph{Abstract Counterfactuals}, a framework that emphasises high-level characteristics of actions and interactions within an environment, enabling counterfactual reasoning tailored to user-relevant features. Our experiments demonstrate that the approach produces consistent and meaningful counterfactuals while minimising the undesired side effects of token-level methods. We conduct experiments on text-based games and counterfactual text generation, while considering both token-level and latent-space interventions.
- Abstract(参考訳): 対物推論は自律的なエージェントを分析し評価するための強力なツールであるが、言語モデル(LM)エージェントへの応用は依然として困難である。
LMのカウンターファクトアルに関する既存の研究は主にトークンレベルのカウンターファクトアルに焦点を合わせており、そのオープンエンドアクション空間のため、しばしばLMエージェントには不十分である。
固定された明確に定義されたアクション空間を持つ伝統的なエージェントとは異なり、LMエージェントのアクションは、出力する文字列において暗黙的であることが多く、アクション空間の定義と解釈が困難である。
さらに、個々のトークンの意味は、コンテキストによって変化し、トークンレベルの推論に複雑さを追加し、時にはバイアスや無意味な反事実につながる可能性がある。
本稿では,環境内におけるアクションとインタラクションの高レベルな特徴を強調するフレームワークである「emph{Abstract Counterfactuals}」を紹介し,ユーザ関連機能に合わせた反事実推論を可能にする。
本実験は,トークンレベルの手法の非望ましくない副作用を最小限に抑えつつ,一貫した有意義な反事実を生じさせることを示す。
トークンレベルと潜時空間の両方の介入を考慮して,テキストベースのゲームと対実テキスト生成の実験を行う。
関連論文リスト
- Computation Mechanism Behind LLM Position Generalization [59.013857707250814]
大規模言語モデル(LLM)は、テキストの位置を扱う際の柔軟性を示す。
彼らは位置摂動のあるテキストを理解し、より長いテキストに一般化することができる。
この研究は言語現象とLLMの計算機構を結びつける。
論文 参考訳(メタデータ) (2025-03-17T15:47:37Z) - AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence [54.317522790545304]
本稿では,言語エージェントの動作制約やルーチンに対するコンプライアンスを評価するための,デュアルシステムフレームワークであるAgentOrcaを提案する。
本フレームワークは,エージェントの自然言語プロンプトと,それに対応する実行可能コードが,自動検証のための基礎的真理として機能することを通じて,行動制約とルーチンを符号化する。
以上の結果から,o1のような大きな推論モデルではコンプライアンスが良好であり,他のモデルではパフォーマンスが著しく低下していることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment [18.256529559741075]
大きな言語モデル(LLM)はエージェントシステムのキーコンポーネントとして機能し、それらの常識的な知識は、位置や具現化されたアクションのための言語ベースのプランナーとしての性能に大きく影響する。
LLMのインクリメンタル学習(環境からのフィードバックに基づく)を評価し,テキストベースの環境を用いてコンテキスト内学習能力を制御する。
その結果、より大きな商用モデルはオープンウェイトに比べて性能がかなり低いが、ほとんどのモデルは合成語実験に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-17T12:20:39Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Unveiling and Manipulating Prompt Influence in Large Language Models [12.04811490937078]
Token Distribution Dynamics (TDD)は、大規模言語モデル(LLM)の生成におけるプロンプトの役割を公表し、操作するための、テキストカラーの簡易かつ効果的なアプローチである。
論文 参考訳(メタデータ) (2024-05-20T09:15:36Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。