Fugu-MT 論文翻訳(概要): ChatterBox: Multi-round Multimodal Referring and Grounding

論文の概要: ChatterBox: Multi-round Multimodal Referring and Grounding

arxiv url: http://arxiv.org/abs/2401.13307v1
Date: Wed, 24 Jan 2024 09:02:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 15:08:45.025697
Title: ChatterBox: Multi-round Multimodal Referring and Grounding
Title（参考訳）: chatterbox:マルチラウンドのマルチモーダル参照と接地
Authors: Yunjie Tian and Tianren Ma and Lingxi Xie and Jihao Qiu and Xi Tang and Yuan Zhang and Jianbin Jiao and Qi Tian and Qixiang Ye
Abstract要約: この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
参考スコア（独自算出の注目度）: 108.9673313949746
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this study, we establish a baseline for a new task named multimodal multi-round referring and grounding (MRG), opening up a promising direction for instance-level multimodal dialogues. We present a new benchmark and an efficient vision-language model for this purpose. The new benchmark, named CB-300K, spans challenges including multi-round dialogue, complex spatial relationships among multiple instances, and consistent reasoning, which are beyond those shown in existing benchmarks. The proposed model, named ChatterBox, utilizes a two-branch architecture to collaboratively handle vision and language tasks. By tokenizing instance regions, the language branch acquires the ability to perceive referential information. Meanwhile, ChatterBox feeds a query embedding in the vision branch to a token receiver for visual grounding. A two-stage optimization strategy is devised, making use of both CB-300K and auxiliary external data to improve the model's stability and capacity for instance-level understanding. Experiments show that ChatterBox outperforms existing models in MRG both quantitatively and qualitatively, paving a new path towards multimodal dialogue scenarios with complicated and precise interactions. Code, data, and model are available at: https://github.com/sunsmarterjie/ChatterBox.
Abstract（参考訳）: 本研究では,マルチモーダル・マルチラウンド・レファレンス・アンド・グラウンド(mrg)と呼ばれる新しいタスクのベースラインを確立し,インスタンスレベルのマルチモーダル対話の有望な方向性を開く。この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。 CB-300Kと名付けられた新しいベンチマークは、複数ラウンドの対話、複数のインスタンス間の複雑な空間関係、既存のベンチマークに示されている以上の一貫性のある推論といった課題にまたがっている。提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。インスタンス領域をトークン化することにより、言語ブランチは参照情報を知覚する能力を取得する。一方ChatterBoxは、視覚的な接地のためのトークン受信機にビジョンブランチに埋め込まれたクエリをフィードする。 CB-300Kと補助外部データの両方を用いて、モデル安定性とインスタンスレベルの理解能力を向上させる2段階最適化戦略が考案された。実験により、ChatterBoxはMRGの既存のモデルよりも定量的かつ質的に優れており、複雑で正確な対話を伴うマルチモーダル対話シナリオへの新たな道が開かれた。コード、データ、モデルは、https://github.com/sunsmarterjie/ChatterBox.comで入手できる。

関連論文リスト

ContextQFormer: A New Context Modeling Method for Multi-Turn Multi-Modal Conversations [38.40471808648207]
コンテキスト情報表現を強化するためのコンテキストモデリングモジュールであるContextQFormerを導入する。さらなる研究を容易にするために, 事前学習, 指導指導, 評価のためのマルチターンマルチモーダル対話データセット(TMDialog)を構築した。さらに、ContextQFormerはTMDialogの3つのベースラインと比較され、実験の結果、ContextQFormerはベースラインよりも利用率2%-4%の改善を実現している。
論文参考訳（メタデータ） (2025-05-29T05:41:26Z)
PointArena: Probing Multimodal Grounding Through Language-Guided Pointing [79.80132157576978]
ポインティングは、視覚的コンテキスト内で言語を接地するための基本的で直感的なメカニズムとして機能する。多様な推論シナリオを対象とするマルチモーダル評価のための総合的なプラットフォームであるPointArenaを紹介した。
論文参考訳（メタデータ） (2025-05-15T06:04:42Z)
IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-13T13:00:31Z)
From Unimodal to Multimodal: Scaling up Projectors to Align Modalities [16.733970553781887]
そこで本研究では,事前学習した凍結アンモダルエンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。これには、潜在空間における意味的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなプロジェクタのトレーニングが含まれる。
論文参考訳（メタデータ） (2024-09-28T17:57:32Z)
S3: A Simple Strong Sample-effective Multimodal Dialog System [61.31055673156622]
本稿では,多モーダルダイアログタスクであるS3モデルに対して,概念的にシンプルだが強力なベースラインを提案する。このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
論文参考訳（メタデータ） (2024-06-26T12:45:43Z)
Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文参考訳（メタデータ） (2024-03-11T01:07:36Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文参考訳（メタデータ） (2023-09-25T17:53:29Z)
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。 MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文参考訳（メタデータ） (2023-03-20T18:31:47Z)
Building Goal-Oriented Dialogue Systems with Situated Visual Context [12.014793558784955]
スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
論文参考訳（メタデータ） (2021-11-22T23:30:52Z)
Situated and Interactive Multimodal Conversations [21.391260370502224]
我々は,Situated Interactive MultiModal Conversations (SIMMC) をトレーニングエージェントの新たな方向性として紹介する。マルチモーダルWizard-of-Oz(WoZ)セットアップを用いて,13K人の対話(169K発話)を総括した2つのSIMMCデータセットを提供する。本稿では,構造化API予測や応答生成などの客観的評価プロトコルとして,SIMMC内のいくつかのタスクを提示する。
論文参考訳（メタデータ） (2020-06-02T09:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。