論文の概要: Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
- arxiv url: http://arxiv.org/abs/2601.05851v1
- Date: Fri, 09 Jan 2026 15:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.003655
- Title: Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
- Title(参考訳): Router-Suggest:ビジュアルグラウンドダイアログにおけるマルチモーダルオートコンプリートのための動的ルーティング
- Authors: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta,
- Abstract要約: リアルタイムマルチモーダルオートコンプリートは、デジタルアシスタント、チャットボット、デザインツール、医療相談に不可欠である。
このタスクは、部分的に入力されたテキストと視覚的手がかりを用いて、ライブチャットにおける今後の文字を予測する。
我々は,視覚言語モデル(VLM)を強いテキストベースラインに対して評価し,精度と効率のトレードオフを強調した。
- 参考スコア(独自算出の注目度): 10.732857135860634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.
- Abstract(参考訳): リアルタイムマルチモーダルオートコンプリートは、デジタルアシスタント、チャットボット、デザインツール、医療相談において不可欠である。
このタスクは、部分的に入力されたテキストと視覚的手がかりを用いて、ライブチャットにおける今後の文字を予測する。
従来のテキストのみのオートコンプリート(TAC)とは異なり、MACはユーザの意図をよりよく捉えるために、マルチモーダルなコンテキストで予測を行う。
このタスクを有効にするため、ベンチマークデータセットを作成するためにMDDialogとImageChatを適用します。
我々は,視覚言語モデル(VLM)を強いテキストベースラインに対して評価し,精度と効率のトレードオフを強調した。
本稿では、対話コンテキストに基づいてテキストモデルとVLMを動的に選択するルータフレームワークであるReuter-Suggestと、リソース制約のある環境のための軽量なバリエーションを提案する。
Router-Suggestは、最高の性能のVLMよりも2.3倍から10倍のスピードアップを達成する。
ユーザスタディでは、VLMがユーザ満足度に関するテキストモデルよりも大幅に優れており、特にユーザタイピングの労力を節約し、マルチターン会話における完了の質を向上させることが示されている。
これらの知見は、自動補完におけるマルチモーダルコンテキストの必要性を浮き彫りにして、よりスマートでユーザ対応のアシスタントに繋がる。
関連論文リスト
- Context-Aware Multi-Turn Visual-Textual Reasoning in LVLMs via Dynamic Memory and Adaptive Visual Guidance [2.166625683790549]
Context-Aware Multi-Turn Visual Reasoning (CAMVR)は、LVLMに堅牢で一貫性のあるマルチターン視覚テキスト推論機能を持たせるように設計されている。
我々のマルチレベル推論統合戦略は、応答生成が現在の入力と蓄積された履歴コンテキストの両方と深く一致していることを保証する。
論文 参考訳(メタデータ) (2025-09-06T10:14:49Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。
MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文 参考訳(メタデータ) (2023-03-20T18:31:47Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Situated and Interactive Multimodal Conversations [21.391260370502224]
我々は,Situated Interactive MultiModal Conversations (SIMMC) をトレーニングエージェントの新たな方向性として紹介する。
マルチモーダルWizard-of-Oz(WoZ)セットアップを用いて,13K人の対話(169K発話)を総括した2つのSIMMCデータセットを提供する。
本稿では,構造化API予測や応答生成などの客観的評価プロトコルとして,SIMMC内のいくつかのタスクを提示する。
論文 参考訳(メタデータ) (2020-06-02T09:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。