論文の概要: Learning to Refuse: Refusal-Aware Reinforcement Fine-Tuning for Hard-Irrelevant Queries in Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2511.23151v1
- Date: Fri, 28 Nov 2025 12:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.898158
- Title: Learning to Refuse: Refusal-Aware Reinforcement Fine-Tuning for Hard-Irrelevant Queries in Video Temporal Grounding
- Title(参考訳): 難読化学習:ビデオ時間グラウンドにおける難解なクエリのための拒否認識強化細調整
- Authors: Jin-Seop Lee, SungJoon Lee, SeongJun Jung, Boyang Li, Jee-Hyong Lee,
- Abstract要約: ビデオ時間グラウンド(VTG)は、自然言語クエリに対応するビデオ内の時間セグメントをローカライズすることを目的としている。
本稿では,VTGにおける不適切なクエリを効果的に拒否するために,Refusal-Aware Reinforcement Fine-Tuning (RA-RFT)を提案する。
- 参考スコア(独自算出の注目度): 21.39095611185205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Temporal Grounding (VTG) aims to localize a temporal segment in a video corresponding to a natural language query. However, existing VTG models assume that a relevant segment always exists, causing them to always predict a target segment even when the query is irrelevant to the video. While recent approaches attempt to handle irrelevant queries, they can only reject those that are entirely unrelated to the video and still fail to handle hard-irrelevant queries that are semantically similar but not actually relevant. To address this, we propose Refusal-Aware Reinforcement Fine-Tuning (RA-RFT) to effectively refuse hard-irrelevant queries in VTG. Our method is based on the Group Relative Policy Optimization (GRPO) framework and integrates four reward objectives-format, refuse-IoU, explain, and query correction-to improve both relevance discrimination and fine-grained semantic reasoning. In addition, to effectively support RA-RFT, we construct a Hard-Irrelevant VTG (HI-VTG) dataset, which includes hard-irrelevant queries and their refusal answers. We demonstrate the effectiveness of our method across various relevance-aware VTG scenarios, including hard-irrelevant VTG, simply-shuffled RA-VTG, and human-annotated RA-VTG settings. We also show that the proposed method is scalable by applying it to various LVLM-based VTG models. Our code is available at https://github.com/JINSUBY/RA-RFT.
- Abstract(参考訳): ビデオ時間グラウンド(VTG)は、自然言語クエリに対応するビデオ内の時間セグメントをローカライズすることを目的としている。
しかしながら、既存のVTGモデルは、関連するセグメントが常に存在すると仮定し、クエリがビデオとは無関係である場合でも、常にターゲットセグメントを予測する。
最近のアプローチでは、無関係なクエリを処理しようとするが、ビデオとは無関係なクエリのみを拒否でき、意味的に類似しているが実際には関係のないクエリを処理できない。
これを解決するために,VTG の難解なクエリを効果的に拒否する Refusal-Aware Reinforcement Fine-Tuning (RA-RFT) を提案する。
提案手法は,GRPO(Group Relative Policy Optimization)フレームワークをベースとして,4つの報奨目的(format, refuse-IoU, explain, and query correct)を統合し,関連性判定と詳細なセマンティック推論の両方を改善する。
さらに、RA-RFTを効果的にサポートするために、ハード関連クエリと拒否応答を含むHard-Irrelevant VTG(HI-VTG)データセットを構築した。
本稿では,本手法の有効性を,関連のないVTG,単純シャッフルRA-VTG,人間アノテーションRA-VTG設定など,さまざまなVTGシナリオで示す。
また,提案手法は様々なLVLMベースのVTGモデルに適用することで拡張可能であることを示す。
私たちのコードはhttps://github.com/JINSUBY/RA-RFT.comで公開されています。
関連論文リスト
- Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT [1.614471032380076]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、未編集のビデオから特定の時間セグメントを特定することを目的としている。
既存のVTGモデルは、広範囲な注釈付きビデオテキストペアで訓練されている。
トレーニングや微調整を伴わないゼロショットVTGのためのGPT方式であるVTG-GPTを提案する。
論文 参考訳(メタデータ) (2024-03-04T14:22:02Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。
我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。
統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文 参考訳(メタデータ) (2023-07-31T14:34:49Z) - Towards Robust Referring Video Object Segmentation with Cyclic
Relational Consensus [42.14174599341824]
Referring Video Object (R-VOS) は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。
本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。
論文 参考訳(メタデータ) (2022-07-04T05:08:09Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。