論文の概要: ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2507.09313v2
- Date: Tue, 15 Jul 2025 11:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 13:21:48.45549
- Title: ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models
- Title(参考訳): ProactiveVideoQA: ビデオ大言語モデルにおけるプロアクティブインタラクションを評価する総合ベンチマーク
- Authors: Yueqian Wang, Xiaojun Meng, Yifan Wang, Huishuai Zhang, Dongyan Zhao,
- Abstract要約: 本稿では,プロアクティブインタラクションに関わるシステムの能力を評価するための,初の総合的なベンチマークであるProactiveVideoQAを紹介する。
また,モデル応答の時間的ダイナミクスを考慮した最初の指標であるPAUCを提案する。
これらの結果から,PAUCは,アクティブなインタラクションシナリオにおけるユーザエクスペリエンスをより忠実に評価できることがわかった。
- 参考スコア(独自算出の注目度): 41.35497807436858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing research focus on multimodal dialogue systems, the capability for proactive interaction is gradually gaining recognition. As an alternative to conventional turn-by-turn dialogue, users increasingly expect multimodal systems to be more initiative, for example, by autonomously determining the timing of multi-turn responses in real time during video playback. To facilitate progress in this emerging area, we introduce ProactiveVideoQA, the first comprehensive benchmark to evaluate a system's ability to engage in proactive interaction. Since model responses are generated at varying timestamps, we further propose PAUC, the first metric that accounts for the temporal dynamics of model responses. This enables a more accurate evaluation of systems operating in proactive settings. Through extensive benchmarking of various baseline systems on ProactiveVideoQA and a user study of human preferences, we show that PAUC is in better agreement with human preferences than traditional evaluation metrics, which typically only consider the textual content of responses. These findings demonstrate that PAUC provides a more faithful assessment of user experience in proactive interaction scenarios. Project homepage: https://github.com/yellow-binary-tree/ProactiveVideoQA
- Abstract(参考訳): マルチモーダル対話システムの研究が進むにつれ、積極的に対話する能力は徐々に認識されつつある。
従来のターンバイターンダイアログに代わるものとして、ビデオ再生中のマルチターン応答のタイミングを自律的に決定することで、マルチモーダルシステムがよりイニシアティブになることを期待している。
本稿では,この領域の進展を促進するために,プロアクティブビデオQA(ProactiveVideoQA)を導入し,プロアクティブインタラクションに係わるシステムの能力を評価する。
モデル応答は様々なタイムスタンプで生成されるので、モデル応答の時間的ダイナミクスを考慮に入れた最初の指標であるPAUCを提案する。
これにより、前向きな設定で動作するシステムのより正確な評価が可能になる。
ProactiveVideoQA上での様々なベースラインシステムの広範なベンチマークと人間の嗜好に関するユーザスタディを通じて、PAUCは従来の評価指標よりも人間の嗜好とよく一致していることを示す。
これらの結果から,PAUCは,アクティブなインタラクションシナリオにおけるユーザエクスペリエンスをより忠実に評価できることがわかった。
プロジェクトホームページ:https://github.com/yellow-binary-tree/ProactiveVideoQA
関連論文リスト
- HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - A Noise-Robust Turn-Taking System for Real-World Dialogue Robots: A Field Experiment [18.814181652728486]
本稿では,対話ロボットにおけるリアルタイムのターンテイクを向上させるために,ノイズロスト音声活動予測モデルを提案する。
ショッピングモールでのフィールド実験を行い,VAPシステムと従来のクラウドベース音声認識システムとの比較を行った。
その結果,提案方式は応答遅延を著しく低減し,より自然な会話へと繋がった。
論文 参考訳(メタデータ) (2025-03-08T14:53:20Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.532239489610056]
FB-Benchは、中国語の実際の使用シナリオ下での人間のフィードバックに対する大規模言語モデルの応答性を評価するために設計されたベンチマークである。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文 参考訳(メタデータ) (2024-10-12T07:40:01Z) - ProCIS: A Benchmark for Proactive Retrieval in Conversations [21.23826888841565]
本稿では,280万件以上の会話からなるプロアクティブな文書検索のための大規模データセットを提案する。
クラウドソーシング実験を行い、高品質で比較的完全な妥当性判定を行う。
また、各文書に関連する会話部分に関するアノテーションを収集し、前向きな検索システムの評価を可能にする。
論文 参考訳(メタデータ) (2024-05-10T13:11:07Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Simple Baselines for Interactive Video Retrieval with Questions and
Answers [33.17722358007974]
本稿では,質問応答による対話型ビデオ検索のための,シンプルで効果的なベースラインを提案する。
ユーザインタラクションをシミュレートするためにビデオQAモデルを用い,対話型検索タスクの生産性向上を可能にすることを示す。
MSR-VTT, MSVD, AVSDによる実験により, 問合せに基づくインタラクションを用いたフレームワークは, テキストベースのビデオ検索システムの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-08-21T00:32:19Z) - Our Model Achieves Excellent Performance on MovieLens: What Does it Mean? [43.3971105361606]
我々は、MovieLensデータセットの綿密な分析を行う。
MovieLensプラットフォームと対話する場合、異なる段階でのユーザインタラクションには大きな違いがある。
そこで本研究では,MovieLensシステムで使用されるインタラクション生成機構と,一般的な実世界のレコメンデーションシナリオとの相違について論じる。
論文 参考訳(メタデータ) (2023-07-19T13:44:32Z) - TransAct: Transformer-based Realtime User Action Model for
Recommendation at Pinterest [17.247452803197362]
本稿では、PinterestのHomefeedランキングアーキテクチャについて述べる。
本研究では,リアルタイム活動からユーザの短期的嗜好を抽出するシーケンシャルモデルであるTransActを提案する。
本稿では, アブレーション研究の結果, 生産時の課題, オンラインA/B実験の結果について述べる。
論文 参考訳(メタデータ) (2023-05-31T23:45:29Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - Evaluating Interactive Summarization: an Expansion-Based Framework [97.0077722128397]
対話型要約のためのエンドツーエンド評価フレームワークを開発した。
我々のフレームワークには、実際のユーザセッションの収集手順と、標準に依存する評価方法が含まれています。
当社のソリューションはすべて、ベンチマークとして公開されることを意図しています。
論文 参考訳(メタデータ) (2020-09-17T15:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。