論文の概要: Overseeing Agents Without Constant Oversight: Challenges and Opportunities
- arxiv url: http://arxiv.org/abs/2602.16844v1
- Date: Wed, 18 Feb 2026 20:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.329807
- Title: Overseeing Agents Without Constant Oversight: Challenges and Opportunities
- Title(参考訳): 絶え間なく監視するエージェント : 課題と機会
- Authors: Madeleine Grunde-McLaughlin, Hussein Mozannar, Maya Murad, Jingya Chen, Saleema Amershi, Adam Fourney,
- Abstract要約: 本稿では, 基本動作トレースの有用性を検証し, 設計プローブによる3つの選択肢を探索し, エラー検出に対する新しいインターフェースの影響を検証する。
本研究は,エージェントシステムの人為的検証の課題として,ビルトイン仮定の管理,ユーザの主観的・変化的正当性基準,エージェントのプロセスを伝える上での欠点,そして,その重要性について考察する。
- 参考スコア(独自算出の注目度): 18.59016735781908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enable human oversight, agentic AI systems often provide a trace of reasoning and action steps. Designing traces to have an informative, but not overwhelming, level of detail remains a critical challenge. In three user studies on a Computer User Agent, we investigate the utility of basic action traces for verification, explore three alternatives via design probes, and test a novel interface's impact on error finding in question-answering tasks. As expected, we find that current practices are cumbersome, limiting their efficacy. Conversely, our proposed design reduced the time participants spent finding errors. However, although participants reported higher levels of confidence in their decisions, their final accuracy was not meaningfully improved. To this end, our study surfaces challenges for human verification of agentic systems, including managing built-in assumptions, users' subjective and changing correctness criteria, and the shortcomings, yet importance, of communicating the agent's process.
- Abstract(参考訳): 人間の監視を可能にするために、エージェントAIシステムは、しばしば推論とアクションステップのトレースを提供する。
情報的ではあるが圧倒的ではないトレースを設計することは、依然として重要な課題である。
コンピュータユーザエージェントを用いた3つのユーザスタディにおいて,検証のための基本動作トレースの有用性を検証し,設計プローブによる3つの代替策を探索し,新しいインタフェースが質問応答タスクにおける誤り発見に与える影響を検証した。
予想通り、現在のプラクティスは面倒で、有効性を制限しています。
逆に、提案した設計は、参加者がエラーを見つける時間を削減する。
しかし、参加者は判断に対する信頼度が高いことを報告したが、最終的な精度は有意に改善されなかった。
そこで本研究では,エージェントシステムの人為的検証の課題として,組み込み仮定の管理,ユーザの主観的・変化的正当性基準,エージェントのプロセスを伝える上での欠点,そして,その重要性について考察する。
関連論文リスト
- DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents [10.197402632091551]
DeepSearchQAは、難しい多段階情報検索タスクのエージェントを評価する900プロンプトのベンチマークである。
このデータセットは、エージェントが複雑な検索計画を実行し、完全な回答リストを生成する能力を評価するように設計されている。
論文 参考訳(メタデータ) (2026-01-28T19:20:47Z) - Agentic Metacognition: Designing a "Self-Aware" Low-Code Agent for Failure Prediction and Human Handoff [0.0]
自律エージェントの非決定論的性質は信頼性の課題を示す。
二次的な「メタ認知」層は一次LCNC剤を活発に監視する。
人間のイントロスペクションにインスパイアされたこのレイヤは、差し迫ったタスクの失敗を予測するように設計されている。
論文 参考訳(メタデータ) (2025-09-24T06:10:23Z) - Dark Patterns Meet GUI Agents: LLM Agent Susceptibility to Manipulative Interfaces and the Role of Human Oversight [51.53020962098759]
本研究では,エージェント,ヒト参加者,ヒトAIチームが,さまざまなシナリオにまたがる16種類の暗黒パターンにどのように反応するかを検討する。
フェーズ1では、エージェントが暗黒パターンを認識するのに失敗することが多く、たとえ認識されたとしても、保護行動よりもタスク完了を優先することが強調される。
第2段階では、認知的ショートカットと習慣的コンプライアンスにより、人間はしゃがみ込み、エージェントは手続き的な盲点から遠ざかる。
論文 参考訳(メタデータ) (2025-09-12T22:26:31Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Understanding How Blind Users Handle Object Recognition Errors: Strategies and Challenges [10.565823004989817]
本稿では,視覚障害者と物体認識システムとのインタラクションの理解を目的とした,誤りの特定と回避を目的とした研究について述べる。
視覚障害者12名を対象に,視覚障害者12名を対象に調査を行った。
我々は、カメラベースの補助技術やオブジェクト認識システムにおいて、エラーを特定するためのユーザエクスペリエンス、課題、戦略に関する洞察を得た。
論文 参考訳(メタデータ) (2024-08-06T17:09:56Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。
様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。
本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文 参考訳(メタデータ) (2023-12-08T06:22:12Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Unsupervised Person Re-Identification: A Systematic Survey of Challenges
and Solutions [64.68497473454816]
教師なしのRe-IDは、Re-ID担当者のスケーラビリティ問題に対処する可能性に注目が集まっている。
教師なしのRe-IDは、主に人物の特徴学習を監督するアイデンティティラベルが欠如しているため、難しい。
本調査では,課題と解決の観点から,教師なしのRe-IDに関する最近の研究を概観する。
論文 参考訳(メタデータ) (2021-09-01T00:01:35Z) - Improving Playtesting Coverage via Curiosity Driven Reinforcement
Learning Agents [0.4129225533930966]
本稿では,ゲーム状態カバレッジを最大化するためにトレーニングされた強化学習エージェントを用いて,与えられたシナリオを自動的に探索し,テストする問題に対処する。
好奇心のあるエージェントは、地図の周りのさまざまな領域に到達するために必要な複雑なナビゲーションメカニズムを学ぶことができ、潜在的な問題を特定するために必要なデータを提供します。
論文 参考訳(メタデータ) (2021-03-25T12:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。