Fugu-MT 論文翻訳(概要): Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

論文の概要: Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

arxiv url: http://arxiv.org/abs/2605.10365v1
Date: Mon, 11 May 2026 11:09:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.752552
Title: Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values
Title（参考訳）: Agent-ValueBench: エージェント値を評価するための総合ベンチマーク
Authors: Haonan Dong, Qiguan Feng, Kehan Jiang, Haoran Ye, Xin Zhang, Guojie Song,
Abstract要約: Agent-ValueBenchは、エージェント値専用の最初のベンチマークである。 16ドメインにわたる394の実行可能な環境を備え、4,335のバリューコンフリクトタスクを提供する。エージェント値は、解釈可能な反電流の下で、クロスモデル均質のバリュータイドとして最初に現れる。
参考スコア（独自算出の注目度）: 17.752804388034583
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous agents have rapidly matured as task executors and seen widespread deployment via harnesses such as OpenClaw. Safety concerns have rightly drawn growing research attention, and beneath them lie the values silently steering agent behavior. Existing value benchmarks, however, remain confined to LLMs, leaving agent values largely uncharted. From intuitive, empirical, and theoretical vantage points, we show that an agent's values diverge from those of its underlying LLM, and the agentic modality further introduces dataset-, evaluation-, and system-level challenges absent from text-only protocols. We close this gap with Agent-ValueBench, the first benchmark dedicated to agent values. It features 394 executable environments across 16 domains, offering 4,335 value-conflict tasks that cover 28 value systems and 332 dimensions. Every instance is co-synthesized through our purpose-built end-to-end pipeline and curated per-instance by professional psychologists. Each task ships with two pole-aligned golden trajectories whose checkpoints anchor a trajectory-level rubric-based judge. Benchmarking 14 frontier proprietary and open-weights models across 4 mainstream harnesses, we uncover three concerted findings. Agent values first manifest as a Value Tide of cross-model homogeneity beneath interpretable counter-currents. This tide bends non-additively under harness pull, and yet more decisively under deliberate steering via embedded skills. Together these results signal that the agent-alignment lever is shifting from classical model alignment and prompt steering toward harness alignment and skill steering.
Abstract（参考訳）: 自律エージェントはタスク実行者として急速に成熟し、OpenClawなどのハーネスを通じて広くデプロイされている。安全上の懸念は研究の注意を惹きつけており、その下にサイレントに操るエージェントの振る舞いの値がある。しかし、既存の値ベンチマークは LLM に限られており、エージェントの値はほとんどチャージされていない。直感的,経験的,理論的に有利な点から,エージェントの値は LLM のものとは異なっており,エージェントのモダリティはさらに,テキストのみのプロトコルから欠落するデータセット,評価,システムレベルの課題を導入している。我々はエージェント値に特化した最初のベンチマークであるAgent-ValueBenchとこのギャップを埋めます。 16のドメインにわたる394の実行可能な環境を備え、28のバリューシステムと332の次元をカバーする4,335のバリューコンフリクトタスクを提供する。それぞれのインスタンスは、私たちの目的に作られたエンドツーエンドパイプラインを通じて共合成され、専門家の心理学者によってインスタンス毎にキュレートされます。それぞれのタスクには2つの極方向のゴールデントラジェクトリがあり、チェックポイントはトラジェクトリレベルのルーリックベースのジャッジをアンカーする。 4つの主要なハーネスにまたがる14のフロンティアプロプライエタリモデルとオープンウェイトモデルのベンチマークを行い、3つの共同研究結果を明らかにした。エージェント値は、解釈可能な反電流の下で、クロスモデル均質のバリュータイドとして最初に現れる。この潮流は、無添加でハーネスの引力の下で曲げるが、より決定的に、組込み技術によって故意に操舵する。これらの結果から, エージェントアライメントレバーは従来のモデルアライメントから, ハーネスアライメント, スキルアライメントへとシフトしていることがわかる。

関連論文リスト

Consistency as a Testable Property: Statistical Methods to Evaluate AI Agent Reliability [6.195988633460139]
本稿では,AIエージェント信頼性のための厳密な計測科学を確立する。出力レベルの信頼性に$U$-statistics、軌道レベルの安定性にカーネルベースのメトリクスを活用することにより、エージェントを評価するための原則的なアプローチを提供する。
論文参考訳（メタデータ） (2026-05-11T13:06:24Z)
Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。 Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文参考訳（メタデータ） (2026-04-07T17:43:18Z)
ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。 1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文参考訳（メタデータ） (2026-04-02T13:26:20Z)
RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents [0.9821874476902969]
LLMエージェントは、単一のスカラーテストメトリクスで成功を判断するエンドツーエンドのMLエンジニアリングタスクをますます実行します。エージェントは、モデルを改善するのではなく、評価パイプラインを妥協することで、報告されたスコアを増やすことができる。ワークスペースベースのベンチマークであるRewardHackingAgentsを導入する。
論文参考訳（メタデータ） (2026-03-11T22:06:44Z)
Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文参考訳（メタデータ） (2026-01-21T06:07:43Z)
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents [45.71333459905404]
SmartSnapは、受動的でポストホックな検証から、エージェント自身による積極的な自己検証へのパラダイムシフトである。両ミッションで設計された新しいタイプのエージェントである「自己検証エージェント」を導入し、タスクを完了し、検証された証拠でその達成を証明した。モデルファミリとスケールにわたるモバイルタスクの実験は、SmartSnapパラダイムによって、スケーラブルなLLM駆動エージェントのトレーニングが可能になることを実証しています。
論文参考訳（メタデータ） (2025-12-26T14:51:39Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
Know your Trajectory -- Trustworthy Reinforcement Learning deployment through Importance-Based Trajectory Analysis [6.7842735984907465]
我々は、新しい状態重要度を定義・集約することで、軌道全体のランク付けを行う新しい枠組みを導入する。本研究では,エージェント体験の異種集合から最適軌跡の同定に成功していることを示す。標準のOpenAI Gym環境における実験により,提案する重要度指標が最適行動の同定に有効であることが検証された。
論文参考訳（メタデータ） (2025-12-07T16:52:08Z)
Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。モデル、足場、ベンチマークにまたがる3次元解析を行う。私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文参考訳（メタデータ） (2025-10-13T22:22:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。