論文の概要: Machine Intelligence that Understands Visual and Linguistic Information and Interacts with Humans and Environments
- arxiv url: http://arxiv.org/abs/2605.24020v1
- Date: Wed, 20 May 2026 06:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.539422
- Title: Machine Intelligence that Understands Visual and Linguistic Information and Interacts with Humans and Environments
- Title(参考訳): 視覚・言語情報と人間・環境との相互作用を理解するマシンインテリジェンス
- Authors: Van Quang Nguyen,
- Abstract要約: この論文は、3つの主要な視覚言語タスクにまたがるインテリジェントエージェントを改善する新しいアーキテクチャを提案する。
まず,画像キャプションの視覚的表現の限界に対処する。
第2に、画像に関するマルチターン会話を必要とする視覚対話に取り組む。
第3に,ALFREDデータセットを用いたAIの対話型インストラクションフォローについて検討する。
- 参考スコア(独自算出の注目度): 2.6880847615603236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements at the intersection of computer vision and natural language processing are crucial for applications like assistive tech, multimedia querying, and robotics. This dissertation proposes novel architectures to improve intelligent agents across three key vision-language tasks: image captioning, visual dialog, and interactive instruction following. First, we address limitations in visual representation for image captioning. Traditional models rely on region-based features from CNN detectors, which lack global context and suffer from high computational overhead. We propose GRIT (Grid and Region-based Image captioning Transformer), a transformer-only architecture. By integrating grid and region features using a DETR-based detector, GRIT enables end-to-end training and out-performs prior methods in both inference accuracy and speed. Second, we tackle visual dialog, which requires multi-turn conversation about an image. The challenge lies in efficiently modeling interactions between multiple inputs (image, question, history). We introduce LTMI (Light-weight Transformer for Many Inputs). Utilizing a specialized attention block, an LTMI layer matches the representational power of a standard Transformer extension while utilizing less than one-tenth of its parameters, as validated on the VisDial dataset. Finally, we study interactive instruction-following for embodied AI using the ALFRED dataset. We propose a framework featuring a two-stage instruction interpretation: it first decodes language directives independently of visual context to predict a tentative action-object sequence, which is then fused with visual features for final execution. Using multiple egocentric views and hierarchical attention, our method accurately localizes objects and achieves a state-of-the-art unseen success rate of 8.37%.
- Abstract(参考訳): コンピュータビジョンと自然言語処理の交差点における進歩は、補助技術、マルチメディアクエリ、ロボット工学といったアプリケーションにとって不可欠である。
この論文は、画像キャプション、ビジュアルダイアログ、対話的命令フォローという3つの主要な視覚言語タスクにまたがる知的エージェントを改善するための新しいアーキテクチャを提案する。
まず,画像キャプションの視覚的表現の限界に対処する。
従来のモデルはCNN検出器の領域ベースの機能に依存しており、グローバルなコンテキストに欠け、高い計算オーバーヘッドに悩まされている。
本稿では,変圧器のみのアーキテクチャであるGRIT(Grid and Region-based Image Casting Transformer)を提案する。
DETRベースの検出器を用いてグリッドと領域の機能を統合することにより、GRITはエンドツーエンドのトレーニングを可能にし、推論精度と速度の両方で事前の手法より優れる。
第2に、画像に関するマルチターン会話を必要とする視覚対話に取り組む。
課題は、複数の入力(画像、質問、履歴)間の相互作用を効率的にモデル化することにある。
LTMI (Light-weight Transformer for Many Inputs) を紹介する。
VisDialデータセットで検証されているように、特別な注意ブロックを利用すると、LTMI層は標準のTransformer拡張の表現力にマッチし、パラメータの10分の1以下を利用する。
最後に,ALFREDデータセットを用いたAIの対話型インストラクションフォローについて検討した。
まず、視覚的文脈から独立して言語指示をデコードし、暫定的なアクションオブジェクトシーケンスを予測し、最終的な実行のために視覚的特徴と融合する2段階の命令解釈を特徴とするフレームワークを提案する。
複数自我中心の視点と階層的注目を用いて,オブジェクトを正確に位置決めし,最先端の未確認成功率8.37%を達成する。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。
対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文 参考訳(メタデータ) (2025-07-30T03:14:27Z) - Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces [1.3107174618549584]
Instruction Visual Grounding (IVG) はグラフィカルユーザインタフェース (GUI) におけるオブジェクト識別のためのマルチモーダルアプローチである
本稿では、オブジェクト検出モデルであるLarge Language Model(LLM)とOCRモジュールを組み合わせたIVGocrと、エンド・ツー・エンドのグラウンド化にマルチモーダルアーキテクチャを用いたIVGdirectを提案する。
私たちの最終テストデータセットは、将来の研究をサポートするために公開されています。
論文 参考訳(メタデータ) (2024-05-05T19:10:19Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
まず、VLLMに対して、視覚的文脈に関連して、被験者の明らかな感情を自然言語で記述するように促す。
第二に、記述は視覚入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。