論文の概要: Supplementing Missing Visions via Dialog for Scene Graph Generations
- arxiv url: http://arxiv.org/abs/2204.11143v2
- Date: Mon, 1 Apr 2024 16:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 14:31:02.360843
- Title: Supplementing Missing Visions via Dialog for Scene Graph Generations
- Title(参考訳): シーングラフ生成のためのダイアログによる視覚不足の補足
- Authors: Zhenghao Zhao, Ye Zhu, Xiaoguang Zhu, Yuzhang Shang, Yan Yan,
- Abstract要約: 不完全な視覚入力データを用いたコンピュータビジョンタスク設定について検討する。
本稿では,課題目標を達成するために,自然言語対話による視覚の不足を補うことを提案する。
本稿では,視覚的入力を欠いたタスク設定の実現可能性と,補助情報として提案したダイアログモジュールの有効性を示す。
- 参考スコア(独自算出の注目度): 14.714122626081064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most current AI systems rely on the premise that the input visual data are sufficient to achieve competitive performance in various computer vision tasks. However, the classic task setup rarely considers the challenging, yet common practical situations where the complete visual data may be inaccessible due to various reasons (e.g., restricted view range and occlusions). To this end, we investigate a computer vision task setting with incomplete visual input data. Specifically, we exploit the Scene Graph Generation (SGG) task with various levels of visual data missingness as input. While insufficient visual input intuitively leads to performance drop, we propose to supplement the missing visions via the natural language dialog interactions to better accomplish the task objective. We design a model-agnostic Supplementary Interactive Dialog (SI-Dial) framework that can be jointly learned with most existing models, endowing the current AI systems with the ability of question-answer interactions in natural language. We demonstrate the feasibility of such a task setting with missing visual input and the effectiveness of our proposed dialog module as the supplementary information source through extensive experiments and analysis, by achieving promising performance improvement over multiple baselines.
- Abstract(参考訳): 現在のAIシステムの多くは、入力された視覚データが様々なコンピュータビジョンタスクにおける競合的なパフォーマンスを達成するのに十分である、という前提に依存している。
しかし、古典的なタスク設定は、様々な理由(例えば、制限された視野範囲や閉塞)により、完全な視覚データがアクセスできないという、困難な、しかし一般的な現実的な状況を考えることは滅多にない。
この目的のために、不完全な視覚入力データを用いたコンピュータビジョンタスク設定について検討する。
具体的には、様々なレベルの視覚的データ不足を入力として、SGG(Scene Graph Generation)タスクを利用する。
視覚的インプットの不足は直感的に性能低下につながるが,自然言語対話による視覚の不足を補うことで,タスクの目的を達成することを提案する。
我々は、既存のほとんどのモデルと共同で学習できる、モデルに依存しない補助対話型対話型対話(SI-Dial)フレームワークを設計する。
本稿では,視覚的入力を欠いたタスク設定の実現可能性と,複数のベースラインに対して有望な性能向上を達成し,広範囲な実験と分析を通じて補助情報として提案するダイアログモジュールの有効性を実証する。
関連論文リスト
- Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。
我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。
実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:38:12Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data [14.328402787379538]
本稿では,自然言語インタラクションによる知識管理プラットフォームである AgentiGraph (タスクベースインタラクションとグラフィカル表現のための適応生成ENgine) を紹介する。
AgentiGraphはマルチエージェントアーキテクチャを使用して、ユーザの意図を動的に解釈し、タスクを管理し、新しい知識を統合する。
3,500のテストケースのデータセットの実験結果から、AgentiGraphは最先端のゼロショットベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-15T12:05:58Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。