論文の概要: MANTA: Multi-turn Assessment for Nonhuman Thinking & Alignment
- arxiv url: http://arxiv.org/abs/2605.16301v1
- Date: Sat, 18 Apr 2026 19:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.87377
- Title: MANTA: Multi-turn Assessment for Nonhuman Thinking & Alignment
- Title(参考訳): MANTA:非人間思考・アライメントのためのマルチターンアセスメント
- Authors: Allen Lu, Isabella Luong, Joyee Chen,
- Abstract要約: MANTAは、Inspect AIプラットフォーム上に構築された動的マルチターン評価フレームワークである。
Clude-sonnet-4-20250514およびopenai/gpt-4oの評価を行った。
また, LLM-as-judge 評価において, 体系的フォーマットバイアスを示す制御された4要素法であるSTYLEJUDGEを提案する。
- 参考スコア(独自算出の注目度): 0.1452394725421793
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Single-turn benchmarks such as AnimalHarmBench (AHB) have established important baselines for measuring animal welfare alignment in large language models (LLMs), but they miss a critical failure mode: models that respond appropriately when unpressured may capitulate when follow-up conversational turns introduce economic, social, or authority-based arguments. We introduce MANTA (Multi-turn Assessment for Nonhuman Thinking and Alignment), a dynamic multi-turn evaluation framework built on the Inspect AI platform that stress-tests frontier LLMs across realistic professional and everyday scenarios using adversarially generated follow-up questions. Unlike static benchmarks, MANTA generates pressure turns dynamically from each model's actual responses, producing targeted and realistic adversarial pressure. The framework evaluates models across up to 13 AHB-derived scoring dimensions on a continuous 0-1 scale. We present preliminary results from evaluations of claude-sonnet-4-20250514 and openai/gpt-4o, revealing consistent patterns: Turn 1 welfare framing is reliable but Turn 2 introduces substantial variance; evidence-based capacity attribution is the weakest dimension across all models and runs; and AI governance scenarios elicit significantly stronger welfare reasoning (mean score 0.91) than first-order practical scenarios. We additionally present STYLEJUDGE, a controlled four-judge study demonstrating systematic format bias in LLM-as-judge evaluation, with directly actionable implications for MANTA's scorer design. Code, dataset, and evaluation logs are available at https://github.com/Mycelium-tools/manta.
- Abstract(参考訳): AnimalHarmBench (AHB)のようなシングルターンベンチマークは、大きな言語モデル(LLM)における動物福祉アライメントを測定するための重要なベースラインを確立している。
Inspect AIプラットフォーム上に構築された動的マルチターン評価フレームワークであるMANTA(Multi-turn Assessment for Non Human Thinking and Alignment)を紹介する。
静的ベンチマークとは異なり、MANTAは各モデルの実際の応答から動的に圧力旋回を生成し、ターゲットと現実の対向圧を生成する。
このフレームワークは、連続した0-1スケールで最大13個のAHB由来のスコアリング次元のモデルを評価する。
ここでは、Claude-sonnet-4-20250514およびopenai/gpt-4oの評価から、一貫したパターンを明らかにする。 ターン1の福祉フレーミングは信頼できるが、ターン2は相当な分散を持ち、エビデンスベースの能力帰属は、すべてのモデルと実行において最も弱い次元であり、AIガバナンスのシナリオは、第一級の実践シナリオよりもはるかに強力な福祉推論(平均スコア0.91)をもたらす。
また, LLM-as-judge 評価における体系的形式バイアスを, MANTA のスコアラー設計に直接的な作用性を持たせることを目的とした, 制御された4次元モデルである STYLEJUDGE を提案する。
コード、データセット、評価ログはhttps://github.com/Mycelium-tools/manta.comから入手できる。
関連論文リスト
- Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality? [74.69723255239663]
グラウンドド・パーソナリティ・推論は、MLLMがそれぞれのビッグファイブ・格付けを、評価、推論、根拠の連鎖を通じて観察可能な証拠に固定することを要求する。
MM-OCEANは、人間の検証によるマルチエージェントパイプラインによって生成され、タイムスタンプによる行動観察、エビデンスに基づく特性分析、およびキューグラウンドMCQの7つのカテゴリがある。
この分析では、フィールド全体にわたって、正しい評価の51%が取得された手がかりに基づかず、ホリスティック・ギャラリング・レートは0-33.5%にしか達していないという顕著な偏見のギャップが明らかになった。
論文 参考訳(メタデータ) (2026-05-21T07:42:47Z) - Moral Sensitivity in LLMs: A Tiered Evaluation of Contextual Bias via Behavioral Profiling and Mechanistic Interpretability [22.32075837181307]
大規模言語モデル(LLM)は、微妙な倫理的推論を必要とする設定に徐々にデプロイされている。
偏りのある出力の確率を定量化する指標であるMoral Sensitivity Index (MSI)を導入する。
我々は、モデル間で最高のMSIスコアを生み出した犯罪バイアスシナリオを選択する。
論文 参考訳(メタデータ) (2026-05-04T23:12:32Z) - MEDLEY-BENCH: Scale Buys Evaluation but Not Control in AI Metacognition [37.95586695802894]
メタ認知(メタ認知)は、自分自身の推論を監視し、規制する能力であり、AIベンチマークでは未評価のままである。
我々は,行動メタ認知のベンチマークであるMEDLEY-BENCHを紹介した。
論文 参考訳(メタデータ) (2026-04-17T12:32:50Z) - Pressure Reveals Character: Behavioural Alignment Evaluation at Depth [3.634215320925722]
正直、安全、非マニピュレーション、ロバスト性、矯正性、スケジューリングの6つのカテゴリで904のシナリオにまたがるアライメントベンチマークを紹介します。
我々のシナリオでは、モデルを矛盾する命令、シミュレートされたツールアクセス、マルチターンエスカレーションの下に配置し、シングルターン評価が見逃す振る舞いの傾向を明らかにする。
トップパフォーマンスモデルでさえ特定のカテゴリにギャップがあるのに対して、ほとんどのモデルでは一貫性のある弱点が示されています。
論文 参考訳(メタデータ) (2026-02-24T11:52:17Z) - VAL-Bench: Measuring Value Alignment in Language Models [10.745372809345412]
大きな言語モデル(LLM)は、出力が人間の決定を形作るタスクにますます使われています。
既存のベンチマークは、主に拒否や事前定義された安全違反を追跡するが、モデルが一貫性のある価値システムを保持するかどうかを明らかにしない。
VAL-Bench(Value ALignment Benchmark)を導入し、モデルが公開討論の両面において安定的な価値スタンスを維持しているかどうかを評価する。
論文 参考訳(メタデータ) (2025-10-06T23:55:48Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。