論文の概要: Interactive Benchmarks
- arxiv url: http://arxiv.org/abs/2603.04737v1
- Date: Thu, 05 Mar 2026 02:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.0355
- Title: Interactive Benchmarks
- Title(参考訳): インタラクティブベンチマーク
- Authors: Baoqing Yue, Zihan Zhu, Yifan Zhang, Jichen Feng, Hufei Yang, Mengdi Wang,
- Abstract要約: 予算制約下でのインタラクティブなプロセスにおけるモデルの推論能力を評価する統一評価パラダイムであるInteractive Benchmarksを提案する。
このフレームワークを2つの設定でインスタンス化する: 対話的証明(Interactive Proofs) — モデルは判断者と相互作用し、論理と数学の客観的な真実や答えを推論する。
- 参考スコア(独自算出の注目度): 45.705288760439636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard benchmarks have become increasingly unreliable due to saturation, subjectivity, and poor generalization. We argue that evaluating model's ability to acquire information actively is important to assess model's intelligence. We propose Interactive Benchmarks, a unified evaluation paradigm that assesses model's reasoning ability in an interactive process under budget constraints. We instantiate this framework across two settings: Interactive Proofs, where models interact with a judge to deduce objective truths or answers in logic and mathematics; and Interactive Games, where models reason strategically to maximize long-horizon utilities. Our results show that interactive benchmarks provide a robust and faithful assessment of model intelligence, revealing that there is still substantial room to improve in interactive scenarios. Project page: https://github.com/interactivebench/interactivebench
- Abstract(参考訳): 標準ベンチマークは飽和、主観性、一般化の低さにより信頼性が増している。
我々は,モデルが積極的に情報を取得する能力を評価することは,モデルの知性を評価する上で重要であると論じる。
予算制約下でのインタラクティブなプロセスにおけるモデルの推論能力を評価する統一評価パラダイムであるInteractive Benchmarksを提案する。
このフレームワークを2つの設定でインスタンス化する: 対話的証明(Interactive Proofs) — モデルは判断者と相互作用し、論理と数学の客観的な真実や答えを推論する。
その結果、インタラクティブなベンチマークはモデルインテリジェンスを堅牢かつ忠実に評価し、インタラクティブなシナリオを改善するための十分な余地があることが判明した。
プロジェクトページ: https://github.com/interactivebench/interactivebench
関連論文リスト
- [Re] Benchmarking LLM Capabilities in Negotiation through Scoreable Games [0.0]
大規模言語モデル(LLM)はマルチエージェントネゴシエーションタスクにおいて大きな可能性を示す。
本研究では,Scoreable Games に基づくベンチマークの徹底性について検討する。
本結果は,モデル比較評価における文脈の重要性を強調した。
論文 参考訳(メタデータ) (2026-02-20T14:11:31Z) - IDRBench: Interactive Deep Research Benchmark [22.089706516440902]
インタラクティブディープリサーチを体系的に評価する最初のベンチマークであるIDRBenchを紹介する。
IDRBenchはモジュール型マルチエージェントリサーチフレームワークとオンデマンドインタラクション、スケーラブルなリファレンスグラウンドユーザシミュレータ、インタラクション認識評価スイートを組み合わせたものだ。
論文 参考訳(メタデータ) (2026-01-10T20:29:12Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [43.42688356541211]
基礎モデルはシングルターン推論において優れているが、動的環境におけるマルチターン探索に苦慮している。
これらのモデルを,経験から学び,適応し,情報を収集する能力に基づいて評価した。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation [0.0]
言語モデルのロールプレイング能力を評価するためのベンチマークを導入する。
異なる言語モデルを利用して、動的でマルチターンな会話でユーザをシミュレートし、その結果の対話を評価する。
英語とロシア語の両方で40以上のモデルを評価し,各モデルは8文字と8つの状況で64の会話に参加した。
論文 参考訳(メタデータ) (2024-09-10T19:00:44Z) - TETRIS: Towards Exploring the Robustness of Interactive Segmentation [39.1981941213761]
対話型セグメンテーションモデルに対するホワイトボックス逆攻撃において, 直接最適化により極端なユーザ入力を見つける手法を提案する。
本報告では,多数のモデルについて広範囲な評価を行った結果について報告する。
論文 参考訳(メタデータ) (2024-02-09T01:36:21Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Pseudointelligence: A Unifying Framework for Language Model Evaluation [14.95543156914676]
本稿では,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。
このフレームワークは,言語モデル評価における2つのケーススタディを推論し,既存の評価手法を解析するために利用できることを示す。
論文 参考訳(メタデータ) (2023-10-18T17:48:05Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。