Fugu-MT 論文翻訳(概要): AffectSeek: Agentic Affective Understanding in Long Videos under Vague User Queries

論文の概要: AffectSeek: Agentic Affective Understanding in Long Videos under Vague User Queries

arxiv url: http://arxiv.org/abs/2605.05640v1
Date: Thu, 07 May 2026 03:47:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.508646
Title: AffectSeek: Agentic Affective Understanding in Long Videos under Vague User Queries
Title（参考訳）: AffectSeek:Vagユーザーによる長いビデオのエージェントによる感情理解
Authors: Zhen Zhang, Yuhang Yang, Yunxiang Jiang, Yuhuan Lu, Haifeng Lu, Zheng Lian, Runhao Zeng, Xiping Hu,
Abstract要約: 我々は、長いビデオで感情的な瞬間を局所化するモデルを必要とする新しいタスクである textbfVague-Query-driven video Affective Understanding (VQAU) について研究する。 textbfAffectSeekも提案する。これは長いビデオの感情的瞬間を積極的に探求し、検証し、説明するエージェントフレームワークである。
参考スコア（独自算出の注目度）: 39.694740404232526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing affective understanding studies have mainly focused on recognizing emotions from images, audio signals, or pre-cliped video clips, where the affective evidence is already given. This passive and clip-centered setting does not fully reflect real-world scenarios, in which users often interact with long videos and express their needs through natural-language queries. In this paper, we study \textbf{Vague-Query-driven video Affective Understanding (VQAU)}, a new task that requires models to localize affective moments in long videos, predict their emotion categories, and generate evidence-grounded rationales under vague user queries. To support this task, we construct \textbf{VQAU-Bench}, a benchmark that integrates long videos, vague affective queries, temporal clip annotations, emotion labels, and rationale explanations into a unified evaluation framework. VQAU-Bench enables systematic assessment of semantic-temporal-affective alignment, affective moment localization, emotion classification, and rationale generation. To address the multi-step reasoning challenges of VQAU, we further propose \textbf{AffectSeek}, an agentic framework that actively seeks, verifies, and explains affective moments in long videos. AffectSeek decomposes VQAU into intent interpretation, candidate localization, clip verification, emotion reasoning, and rationale generation, and progressively aligns vague user intent with long-video evidence through role-specialized reasoning and cross-stage verification. Experiments show that VQAU remains challenging for existing affective recognition models and single-step vision-language models, while AffectSeek provides a simple yet effective framework for agentic long-video affective understanding.
Abstract（参考訳）: 既存の情緒的理解研究は主に、感情的証拠がすでに与えられている画像、音声信号、あるいはプレクリックビデオクリップから感情を認識することに焦点を当てている。この受動的でクリップ中心の設定は現実世界のシナリオを完全に反映していない。本稿では,感情的モーメントを長いビデオにローカライズし,感情のカテゴリを予測し,曖昧なユーザクエリの下でエビデンスを根拠とした有理性を生成するために,モデルを必要とする新しいタスクである「textbf{Vague-Query-driven video Affective Understanding (VQAU)}について検討する。このタスクを支援するために、長いビデオ、あいまいな感情的クエリ、時間的クリップアノテーション、感情ラベル、合理性説明を統合評価フレームワークに統合するベンチマークである「textbf{VQAU-Bench}」を構築した。 VQAU-Benchは、意味的・時間的・影響的アライメント、感情的モーメントローカライゼーション、感情分類、合理性生成の体系的な評価を可能にする。 VQAUの多段階的推論問題に対処するため,長編ビデオの感情モーメントを積極的に探求し,検証し,説明するエージェントフレームワークである‘textbf{AffectSeek} も提案する。 AffectSeekは、VQAUを意図的解釈、候補のローカライゼーション、クリップ検証、感情推論、合理的生成に分解し、ロール特殊化推論とクロスステージ検証を通じて、曖昧なユーザ意図と長いビデオ証拠とを段階的に整合させる。実験によると、VQAUは既存の感情認識モデルやシングルステップの視覚言語モデルにはまだ挑戦的であり、AffectSeekはエージェント的な長時間ビデオの感情理解のためのシンプルで効果的なフレームワークを提供する。

関連論文リスト

FACE-net: Factual Calibration and Emotion Augmentation for Retrieval-enhanced Emotional Video Captioning [81.33341786837974]
Emotional Video Captioning (EVC) は、ビデオで表現される本質的な感情で事実を記述することを目的とした、新たなタスクである。 FActual and Emotion Augmentation (FACE-net) を用いた検索強化フレームワークを提案する。 FACE-netは、事実と感情のセマンティクスを協調的にマイニングし、生成のための適応的で正確なガイダンスを提供する。
論文参考訳（メタデータ） (2026-03-18T07:53:15Z)
Know-Show: Benchmarking Video-Language Models on Spatio-Temporal Grounded Reasoning [18.15310805625469]
マルチモーダルビデオ言語モデル(Video-LMs)を評価するための新しいベンチマークであるKnow-Showを提案する。 Know-Showは、空間的(人、物、人、物)と時間的次元の5つのシナリオからなる単一の評価枠組み内での推論と局所化を統一する。 Charades、Action Genome、Ego4Dから2.5万の人間の言語質問で作られたこのベンチマークは、現在のビデオ-LMと人間の推論の間に大きなギャップを露呈している。このギャップを埋めるために、我々は、きめ細かい接地でビデオ-LMを増強するトレーニング不要なプラグインであるGRAMを提案する。
論文参考訳（メタデータ） (2025-12-05T08:15:49Z)
SeViCES: Unifying Semantic-Visual Evidence Consensus for Long Video Understanding [36.30263540665245]
本稿では,効果的で信頼性の高いロングビデオ理解のためのフレームワークを提案する。 SeViCESはトレーニング不要でモデルに依存しない2つの重要なコンポーネントを導入している。長いビデオ理解ベンチマークの実験によると、SeViCESは精度と堅牢性の両方で最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-10-23T14:55:28Z)
ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。 ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文参考訳（メタデータ） (2025-06-26T19:53:54Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。 VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-04-01T07:44:24Z)
Locate before Answering: Answer Guided Question Localization for Video Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-05T08:19:16Z)
Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。感情は時間的ダイナミクスが非常に多様である。微粒な時間的アノテーションは複雑で、労働集約的です。
論文参考訳（メタデータ） (2022-08-03T10:00:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。