論文の概要: Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
- arxiv url: http://arxiv.org/abs/2501.08326v1
- Date: Tue, 14 Jan 2025 18:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:04.570972
- Title: Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
- Title(参考訳): Omni-RGPT:Token Marksによる画像とビデオ領域レベルの理解の統合
- Authors: Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma,
- Abstract要約: 我々は、画像とビデオの両方の領域レベルの理解を容易にするために設計された大規模な言語モデルであるOmni-RGPTを提案する。
視覚的特徴空間内の対象領域をハイライトするトークンセットであるToken Markを紹介した。
また、大規模領域レベルのビデオインストラクションデータセット(VID-300k)も導入する。
- 参考スコア(独自算出の注目度): 59.12788703213031
- License:
- Abstract: We present Omni-RGPT, a multimodal large language model designed to facilitate region-level comprehension for both images and videos. To achieve consistent region representation across spatio-temporal dimensions, we introduce Token Mark, a set of tokens highlighting the target regions within the visual feature space. These tokens are directly embedded into spatial regions using region prompts (e.g., boxes or masks) and simultaneously incorporated into the text prompt to specify the target, establishing a direct connection between visual and text tokens. To further support robust video understanding without requiring tracklets, we introduce an auxiliary task that guides Token Mark by leveraging the consistency of the tokens, enabling stable region interpretation across the video. Additionally, we introduce a large-scale region-level video instruction dataset (RegVID-300k). Omni-RGPT achieves state-of-the-art results on image and video-based commonsense reasoning benchmarks while showing strong performance in captioning and referring expression comprehension tasks.
- Abstract(参考訳): Omni-RGPTは画像とビデオの両方の領域レベルの理解を容易にするために設計されたマルチモーダルな大規模言語モデルである。
時空間にまたがる一貫した領域表現を実現するために,視覚的特徴空間内の対象領域をハイライトするトークンの集合であるToken Markを導入する。
これらのトークンは、リージョンプロンプト(例えば、ボックスやマスク)を使用して空間領域に直接埋め込み、同時にテキストプロンプトに組み込まれ、ターゲットを指定する。
トラクレットを必要とせずに、より堅牢なビデオ理解を支援するために、トークンの一貫性を活用してToken Markをガイドする補助タスクを導入し、ビデオ間の安定した領域解釈を可能にする。
さらに,大規模領域レベルのビデオインストラクションデータセット(RegVID-300k)を導入する。
Omni-RGPTは、キャプションや表現理解タスクの参照において高いパフォーマンスを示しながら、画像およびビデオベースのコモンセンス推論ベンチマークの最先端結果を達成する。
関連論文リスト
- Moving Off-the-Grid: Scene-Grounded Video Representations [44.13534423774967]
自己教師型ビデオ表現モデルであるO Off-the-Grid (MooG) を提示する。
MooGはトークンを"オフ・ザ・グリッド"に移動させ、シーン要素を一貫して表現できるようにします。
我々は,MooGが「オン・ザ・グリッド」ベースラインと比較して,異なるビジョンタスクの強力な基盤を提供することを示す。
論文 参考訳(メタデータ) (2024-11-08T19:26:51Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。