Fugu-MT 論文翻訳(概要): SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding

論文の概要: SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding

arxiv url: http://arxiv.org/abs/2407.05118v2
Date: Mon, 15 Jul 2024 16:53:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 21:47:52.841851
Title: SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding
Title（参考訳）: しね(しね):構成的時間的接地のための主観的階層的負格付け
Authors: Zixu Cheng, Yujiang Pu, Shaogang Gong, Parisa Kordjamshidi, Yu Kong,
Abstract要約: 時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
参考スコア（独自算出の注目度）: 52.98133831401225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal grounding, also known as video moment retrieval, aims at locating video segments corresponding to a given query sentence. The compositional nature of natural language enables the localization beyond predefined events, posing a certain challenge to the compositional generalizability of existing methods. Recent studies establish the correspondence between videos and queries through a decompose-reconstruct manner to achieve compositional generalization. However, they only consider dominant primitives and build negative queries through random sampling and recombination, resulting in semantically implausible negatives that hinder the models from learning rational compositions. In addition, recent DETR-based methods still underperform in compositional temporal grounding, showing irrational saliency responses when given negative queries that have subtle differences from positive queries. To address these limitations, we first propose a large language model-driven method for negative query construction, utilizing GPT-3.5-Turbo to generate semantically plausible hard negative queries. Subsequently, we introduce a coarse-to-fine saliency ranking strategy, which encourages the model to learn the multi-granularity semantic relationships between videos and hierarchical negative queries to boost compositional generalization. Extensive experiments on two challenging benchmarks validate the effectiveness and generalizability of our proposed method. Our code is available at https://github.com/zxccade/SHINE.
Abstract（参考訳）: 時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。自然言語の構成的性質は、事前定義された事象を超越した局所化を可能にし、既存の方法の構成的一般化可能性に一定の課題を提起する。近年の研究では、合成一般化を実現するために、分解・再構成方式でビデオとクエリの対応性を確立する。しかし、彼らは支配的なプリミティブを考慮し、ランダムサンプリングと再結合を通じて負のクエリを構築するだけで、結果として意味的に不可解な負がモデルが合理的な構成を学習することを妨げる。さらに、最近のDETRに基づく手法は、構成的時間的グラウンドリングにおいてまだ不十分であり、正のクエリと微妙に異なる負のクエリを与えられたとき、不合理なサリエンシ応答を示す。これらの制約に対処するために、まず、GPT-3.5-Turboを用いて、意味論的に妥当なハード負のクエリを生成する、大きな言語モデルによる負のクエリ構築手法を提案する。続いて,ビデオと階層的負のクエリ間のマルチグラニュラリティ意味関係を学習し,合成の一般化を促進させる,粗大なサラレンシランキング戦略を導入する。提案手法の有効性と一般化性を検証した。私たちのコードはhttps://github.com/zxccade/SHINE.comから入手可能です。

関連論文リスト

Faithful Summarisation under Disagreement via Belief-Level Aggregation [10.334277776439423]
言語生成から信念レベルアグリゲーションを分離する不一致認識合成パイプラインを導入する。以上の結果から,大規模モデルは世代ごとの集約処理において,信念レベルアグリゲーションに十分一致するが,アーキテクチャや能力の面では安定ではないことが示唆された。対照的に、信念レベルのアグリゲーションと単純なプロンプトの利得が組み合わさって、モデル間の相反する性能を一貫して強く認識する。
論文参考訳（メタデータ） (2026-01-08T12:40:47Z)
KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。 KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。 WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-12-10T17:45:42Z)
ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning [44.49803237328707]
ReVSegは、事前訓練された視覚言語モデルのネイティブインターフェースにおけるシーケンシャルな決定として推論を実行する。我々は、多段階推論連鎖を最適化するために強化学習を採用し、モデルが結果駆動信号から判断品質を自己定義できるようにする。
論文参考訳（メタデータ） (2025-12-02T14:44:12Z)
When Retriever Meets Generator: A Joint Model for Code Comment Generation [3.6781644685120924]
RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。対照的な事前学習フェーズは、最寄りの探索のためのコード埋め込みを形作る。最終出力を研磨するために、軽量な自己精製ループが配置される。
論文参考訳（メタデータ） (2025-07-16T18:12:27Z)
Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning [5.4141465747474475]
大規模言語モデル(LLM)は、人間のようなテキストを生成し、適度な複雑さの問題を解くことで、顕著な性能を達成した。概念ネット知識グラフを用いて,LLMにおける抽象的常識推論を体系的に評価する。
論文参考訳（メタデータ） (2025-02-19T20:20:24Z)
Counterfactual Cross-modality Reasoning for Weakly Supervised Video Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。提案手法は, 対実的相互モダリティ推論法である。
論文参考訳（メタデータ） (2023-08-10T15:45:45Z)
Regularized Contrastive Learning of Semantic Search [0.0]
トランスフォーマーベースのモデルは、セマンティック表現を学習する能力に優れたため、検索モデルとして広く利用されている。本稿では,正規化コントラスト学習という新たな正規化手法を提案する。文ごとに異なるセマンティック表現を増補し、レギュレータとして対照的な目的に含める。
論文参考訳（メタデータ） (2022-09-27T08:25:19Z)
SeqZero: Few-shot Compositional Semantic Parsing with Sequential Prompts and Zero-shot Models [57.29358388475983]
近年の研究では、事前訓練された言語モデルと標準発話を併用する有望な結果が示されている。本稿では,SeqZeroという構文解析手法を提案する。特に、SeqZeroは、提案した制約付き再スケーリングを備えたアンサンブルによって、両方のモデルのメリットを明らかにします。
論文参考訳（メタデータ） (2022-05-15T21:13:15Z)
Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning [92.07643510310766]
ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-24T12:55:23Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
Grounded Graph Decoding Improves Compositional Generalization in Question Answering [68.72605660152101]
質問応答モデルは、長いシーケンスやより複雑なテスト構造のようなトレーニングパターンの新しい構成に一般化するのに苦労する。構造化された予測をアテンション機構でグラウンド化することで,言語表現の合成一般化を改善する手法であるグラウンドドグラフデコーディングを提案する。本モデルは,質問応答における合成一般化の挑戦的ベンチマークである構成自由ベース質問(CFQ)データセットにおいて,最先端のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2021-11-05T17:50:14Z)
End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文参考訳（メタデータ） (2021-09-23T10:03:32Z)
Compositional Generalization and Natural Language Variation: Can a Semantic Parsing Approach Handle Both? [27.590858384414567]
私たちは、自然言語のバリエーションと合成の一般化の両方を扱う意味解析アプローチを開発できますか? 我々は、この能力をよりよく評価するために、非合成データセットの新しいトレインとテスト分割を提案する。また、NQG-T5は、高精度文法に基づくアプローチと事前学習されたシーケンス・ツー・シーケンスモデルを組み合わせたハイブリッドモデルである。
論文参考訳（メタデータ） (2020-10-24T00:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。