Fugu-MT 論文翻訳(概要): Auditing and Controlling AI Agent Actions in Spreadsheets

論文の概要: Auditing and Controlling AI Agent Actions in Spreadsheets

arxiv url: http://arxiv.org/abs/2604.20070v1
Date: Wed, 22 Apr 2026 00:32:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:10.889949
Title: Auditing and Controlling AI Agent Actions in Spreadsheets
Title（参考訳）: スプレッドシートにおけるAIエージェントアクションの監査と制御
Authors: Sadra Sabouri, Zeinabsadat Saghi, Run Huang, Sujay Maladi, Esmeralda Eufracio, Sumit Gulwani, Souti Chattopadhyay,
Abstract要約: AIエージェントは、開始から終了まで自律的に洗練された多段階の知識ワークを実行することができる。ユーザがアウトプットを受け取るまでには、すべての基本的な決定は、その関与なしにすでに行われています。我々は、監査可能な制御可能なアクションに実行を分解するスプレッドシートAIエージェントであるPistaを紹介する。
参考スコア（独自算出の注目度）: 9.249091427192786
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in AI agent capabilities have outpaced users' ability to meaningfully oversee their execution. AI agents can perform sophisticated, multi-step knowledge work autonomously from start to finish, yet this process remains effectively inaccessible during execution, often buried within large volumes of intermediate reasoning and outputs: by the time users receive the output, all underlying decisions have already been made without their involvement. This lack of transparency leaves users unable to examine the agent's assumptions, identify errors before they propagate, or redirect execution when it deviates from their intent. The stakes are particularly high in spreadsheet environments, where process and artifact are inseparable. Each decision the agent makes is recorded directly in cells that belong to and reflect on the user. We introduce Pista, a spreadsheet AI agent that decomposes execution into auditable, controllable actions, providing users with visibility into the agent's decision-making process and the capacity to intervene at each step. A formative study (N = 8) and a within-subjects summative evaluation (N = 16) comparing Pista to a baseline agent demonstrated that active participation in execution influenced not only task outcomes but also users' comprehension of the task, their perception of the agent, and their sense of role within the workflow. Users identified their own intent reflected in the agent's actions, detected errors that post-hoc review would have failed to surface, and reported a sense of co-ownership over the resulting output. These findings indicate that meaningful human oversight of AI agents in knowledge work requires not improved post-hoc review mechanisms, but active participation in decisions as they are made.
Abstract（参考訳）: AIエージェント能力の進歩は、ユーザが実行を有意義に監視する能力を上回っている。 AIエージェントは、開始から終了まで、高度で多段階の知識処理を自律的に行うことができるが、このプロセスは実行中に事実上アクセス不能であり、しばしば中間的推論と出力の中に埋もれている。この透明性の欠如により、ユーザはエージェントの仮定を調べたり、伝播する前にエラーを特定したり、意図から逸脱した時に実行をリダイレクトすることができない。特に、プロセスとアーティファクトが分離できないスプレッドシート環境では、利害関係は高い。エージェントが行う各決定は、ユーザーに属し、反射する細胞に直接記録される。これは、実行を監査可能なコントロール可能なアクションに分解し、エージェントの意思決定プロセスと各ステップで介入する能力の可視性を提供する、スプレッドシートAIエージェントである。定式化研究 (N = 8) と,Pistaをベースラインエージェントと比較した要約的評価 (N = 16) により, 実行の活発な関与がタスクの成果だけでなく, タスクに対するユーザの理解, エージェントの認識, ワークフローにおける役割意識に影響を及ぼすことを示した。ユーザは、エージェントの行動に反映された自身の意図を特定し、ホット後のレビューが表面化しなかったであろうエラーを検出し、結果のアウトプットに対する共同所有意識を報告した。これらの結果は、知識労働におけるAIエージェントの有意義な人的監視は、ポストホックレビューのメカニズムを改善する必要はなく、意思決定に積極的に参加する必要があることを示唆している。

関連論文リスト

Agent Mentor: Framing Agent Knowledge through Semantic Trajectory Analysis [4.365760422569902]
我々は、Agent Mentorオープンソースライブラリの一部として実装された分析パイプラインを紹介する。システムの監視と漸進的な適応によって、他のエージェントの振る舞いを定義する。パイプラインは、エージェントの知識に修正命令を体系的に注入することで、パフォーマンスを向上させる。
論文参考訳（メタデータ） (2026-04-12T08:02:54Z)
Talk, Evaluate, Diagnose: User-aware Agent Evaluation with Automated Error Analysis [3.3237915628874632]
効果的なエージェント評価は、会話の質、効率性、およびエージェントエラーの体系的診断を取り入れて、正確性のみに留まらないと論じる。エージェントの旋回効率と中間進捗を両立させる新しい指標を提案する。 TEDフレームワークは、モデルとユーザの専門知識レベルをまたいだエージェントパフォーマンスに関する新たな洞察を明らかにします。
論文参考訳（メタデータ） (2026-03-16T16:14:28Z)
Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文参考訳（メタデータ） (2026-01-21T06:07:43Z)
AgentGuardian: Learning Access Control Policies to Govern AI Agent Behavior [20.817336331051752]
AgentGuardianは、コンテキスト対応アクセス制御ポリシーを強制することによって、AIエージェントの操作を統制し、保護する。正常なエージェント機能を保持しながら、悪意のある入力や誤解を招く入力を効果的に検出する。
論文参考訳（メタデータ） (2026-01-15T14:33:36Z)
Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文参考訳（メタデータ） (2025-12-04T14:47:05Z)
Agentic Metacognition: Designing a "Self-Aware" Low-Code Agent for Failure Prediction and Human Handoff [0.0]
自律エージェントの非決定論的性質は信頼性の課題を示す。二次的な「メタ認知」層は一次LCNC剤を活発に監視する。人間のイントロスペクションにインスパイアされたこのレイヤは、差し迫ったタスクの失敗を予測するように設計されている。
論文参考訳（メタデータ） (2025-09-24T06:10:23Z)
Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文参考訳（メタデータ） (2024-02-14T14:36:30Z)
My Actions Speak Louder Than Your Words: When User Behavior Predicts Their Beliefs about Agents' Attributes [5.893351309010412]
行動科学は、人々が時々無関係な情報を使用することを示唆している。この現象の例としては、人間とエージェントの相互作用においてより良い結果を経験したユーザーが、そのエージェントをより優れた能力を持ち、好意的であり、また、自身の行動の結果である、より悪い結果を経験したユーザーよりも、ポストホックアセスメントにおいてより整合性を示すと体系的に評価した。分析の結果,モデルの拡張の必要性が示唆され,そのような偏見を考慮し,エージェントがこのようなバイアスを検知し,積極的に行動し,ユーザの類似した偏見を補正するメカニズムも説明できる。
論文参考訳（メタデータ） (2023-01-21T21:26:32Z)
Explaining Reinforcement Learning Policies through Counterfactual Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文参考訳（メタデータ） (2022-01-29T00:52:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。