Fugu-MT 論文翻訳(概要): Supplementing Missing Visions via Dialog for Scene Graph Generations

論文の概要: Supplementing Missing Visions via Dialog for Scene Graph Generations

arxiv url: http://arxiv.org/abs/2204.11143v2
Date: Mon, 1 Apr 2024 16:37:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 14:31:02.360843
Title: Supplementing Missing Visions via Dialog for Scene Graph Generations
Title（参考訳）: シーングラフ生成のためのダイアログによる視覚不足の補足
Authors: Zhenghao Zhao, Ye Zhu, Xiaoguang Zhu, Yuzhang Shang, Yan Yan,
Abstract要約: 不完全な視覚入力データを用いたコンピュータビジョンタスク設定について検討する。本稿では,課題目標を達成するために,自然言語対話による視覚の不足を補うことを提案する。本稿では,視覚的入力を欠いたタスク設定の実現可能性と,補助情報として提案したダイアログモジュールの有効性を示す。
参考スコア（独自算出の注目度）: 14.714122626081064
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Most current AI systems rely on the premise that the input visual data are sufficient to achieve competitive performance in various computer vision tasks. However, the classic task setup rarely considers the challenging, yet common practical situations where the complete visual data may be inaccessible due to various reasons (e.g., restricted view range and occlusions). To this end, we investigate a computer vision task setting with incomplete visual input data. Specifically, we exploit the Scene Graph Generation (SGG) task with various levels of visual data missingness as input. While insufficient visual input intuitively leads to performance drop, we propose to supplement the missing visions via the natural language dialog interactions to better accomplish the task objective. We design a model-agnostic Supplementary Interactive Dialog (SI-Dial) framework that can be jointly learned with most existing models, endowing the current AI systems with the ability of question-answer interactions in natural language. We demonstrate the feasibility of such a task setting with missing visual input and the effectiveness of our proposed dialog module as the supplementary information source through extensive experiments and analysis, by achieving promising performance improvement over multiple baselines.
Abstract（参考訳）: 現在のAIシステムの多くは、入力された視覚データが様々なコンピュータビジョンタスクにおける競合的なパフォーマンスを達成するのに十分である、という前提に依存している。しかし、古典的なタスク設定は、様々な理由(例えば、制限された視野範囲や閉塞)により、完全な視覚データがアクセスできないという、困難な、しかし一般的な現実的な状況を考えることは滅多にない。この目的のために、不完全な視覚入力データを用いたコンピュータビジョンタスク設定について検討する。具体的には、様々なレベルの視覚的データ不足を入力として、SGG(Scene Graph Generation)タスクを利用する。視覚的インプットの不足は直感的に性能低下につながるが,自然言語対話による視覚の不足を補うことで,タスクの目的を達成することを提案する。我々は、既存のほとんどのモデルと共同で学習できる、モデルに依存しない補助対話型対話型対話(SI-Dial)フレームワークを設計する。本稿では,視覚的入力を欠いたタスク設定の実現可能性と,複数のベースラインに対して有望な性能向上を達成し,広範囲な実験と分析を通じて補助情報として提案するダイアログモジュールの有効性を実証する。

関連論文リスト

Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [85.65102094981802]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文参考訳（メタデータ） (2025-08-07T09:21:20Z)
Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning [3.588567067449924]
マルチイメージ推論のための協調エージェントベースフレームワークを提案する。提案手法は,多様なデータセットやタスク形式にまたがるマルチモーダル推論のインターリーブ化という課題に対処する。我々は2025年のMIRAGE Challengeから18種類の多様なデータセットについて評価を行った。
論文参考訳（メタデータ） (2025-08-01T06:39:15Z)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data [14.328402787379538]
本稿では,自然言語インタラクションによる知識管理プラットフォームである AgentiGraph (タスクベースインタラクションとグラフィカル表現のための適応生成ENgine) を紹介する。 AgentiGraphはマルチエージェントアーキテクチャを使用して、ユーザの意図を動的に解釈し、タスクを管理し、新しい知識を統合する。 3,500のテストケースのデータセットの実験結果から、AgentiGraphは最先端のゼロショットベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2024-10-15T12:05:58Z)
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文参考訳（メタデータ） (2024-02-29T10:17:27Z)
Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文参考訳（メタデータ） (2023-10-19T06:45:11Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Spot the Difference: A Cooperative Object-Referring Game in Non-Perfectly Co-Observable Scene [47.7861036048079]
本稿では,不完全に共存可能な視覚シーンにおけるオブジェクト参照ゲームを提案する。目的は、自然言語で会話することで、類似した視覚シーンの違いを見つけることである。 87kのバーチャルリアリティ画像と97kのダイアログを自己再生で生成する,SpotDiffという大規模マルチモーダルデータセットを構築した。
論文参考訳（メタデータ） (2022-03-16T02:55:33Z)
Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-12-10T14:47:02Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。