Fugu-MT 論文翻訳(概要): The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

論文の概要: The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

arxiv url: http://arxiv.org/abs/2402.19474v3
Date: Wed, 17 Apr 2024 05:55:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 18:41:31.843584
Title: The All-Seeing Project V2: Towards General Relation Comprehension of the Open World
Title（参考訳）: オールシーティングプロジェクトV2:オープンワールドの総合的理解を目指して
Authors: Weiyun Wang, Yiming Ren, Haowen Luo, Tiantong Li, Chenxiang Yan, Zhe Chen, Wenhai Wang, Qingyun Li, Lewei Lu, Xizhou Zhu, Yu Qiao, Jifeng Dai,
Abstract要約: 本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
参考スコア（独自算出の注目度）: 58.40101895719467
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the All-Seeing Project V2: a new model and dataset designed for understanding object relations in images. Specifically, we propose the All-Seeing Model V2 (ASMv2) that integrates the formulation of text generation, object localization, and relation comprehension into a relation conversation (ReC) task. Leveraging this unified task, our model excels not only in perceiving and recognizing all objects within the image but also in grasping the intricate relation graph between them, diminishing the relation hallucination often encountered by Multi-modal Large Language Models (MLLMs). To facilitate training and evaluation of MLLMs in relation understanding, we created the first high-quality ReC dataset ({AS-V2) which is aligned with the format of standard instruction tuning data. In addition, we design a new benchmark, termed Circular-based Relation Probing Evaluation (CRPE) for comprehensively evaluating the relation comprehension capabilities of MLLMs. Notably, our ASMv2 achieves an overall accuracy of 52.04 on this relation-aware benchmark, surpassing the 43.14 of LLaVA-1.5 by a large margin. We hope that our work can inspire more future research and contribute to the evolution towards artificial general intelligence. Our project is released at https://github.com/OpenGVLab/all-seeing.
Abstract（参考訳）: 本稿では、画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。具体的には、テキスト生成、オブジェクトローカライゼーション、関係理解の定式化をRelation conversation (ReC)タスクに統合するAll-Seeing Model V2 (ASMv2)を提案する。この統合タスクを活用することで、我々のモデルは画像内の全てのオブジェクトを認識・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れ、マルチモーダル大言語モデル(MLLM)でしばしば発生する関係幻覚を減少させる。関係理解におけるMLLMのトレーニングと評価を容易にするため,我々は,標準命令チューニングデータの形式に適合した最初の高品質ReCデータセット({AS-V2)を作成した。さらに,MLLMの関連理解能力を包括的に評価するために,Circular-based Relation Probing Evaluation (CRPE) と呼ばれる新しいベンチマークを設計した。特に、我々のASMv2は、LLaVA-1.5の43.14よりも大きなマージンで、この関係対応ベンチマークで52.04の全体的な精度を達成した。私たちの研究が、より将来の研究を刺激し、人工知能への進化に貢献できることを願っています。私たちのプロジェクトはhttps://github.com/OpenGVLab/all-seeing.comで公開されています。

関連論文リスト

Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文参考訳（メタデータ） (2025-05-29T03:40:21Z)
Can Multimodal Large Language Models Understand Spatial Relations? [16.76001474065412]
我々はCOCO 2017をベースとした人間アノテーション付き空間関係推論ベンチマークであるSpatialMQAを紹介する。その結果、現在の最先端MLLMの精度は48.14%に過ぎず、人間レベルの精度は98.40%をはるかに下回っている。
論文参考訳（メタデータ） (2025-05-25T07:37:34Z)
Post-Training Language Models for Continual Relation Extraction [0.0]
本研究では,事前学習言語モデル(PLM),特に大規模言語モデル(LLM)を知識グラフに適用することを検討した。我々は,TACREDおよびFewRelデータセット上で,デコーダのみのモデル(Mistral-7BとLlama2-7B)とエンコーダ-デコーダモデル(Flan-T5 Base)を評価する。
論文参考訳（メタデータ） (2025-04-07T16:01:22Z)
Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文参考訳（メタデータ） (2025-03-23T13:18:17Z)
Evaluating the Generation of Spatial Relations in Text and Image Generative Models [4.281091463408283]
空間関係は自然に空間的に理解される。我々は、LLM出力を画像に変換するアプローチを開発し、T2IモデルとLLMの両方を評価する。驚くべきことに、T2Iモデルは印象的な画像生成能力にもかかわらず、サブパー性能しか達成できないことがわかった。
論文参考訳（メタデータ） (2024-11-12T09:30:02Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding [4.266920365127677]
新しいLaGDパラダイムの下では、古いデータセットはもはや新しいタスクには適していない。我々は、RSI理解のための高品質で多様なマルチモーダル命令追従データセットを設計した。実験結果から, RS-GPT4Vによる微調整MLLMは, きめ細かい情報を記述できることがわかった。
論文参考訳（メタデータ） (2024-06-18T10:34:28Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文参考訳（メタデータ） (2024-03-19T15:01:19Z)
Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。 LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文参考訳（メタデータ） (2023-10-09T07:59:34Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating Visio-Linguistic Reasoning [25.520406167426135]
本稿では,4つの視覚言語的推論タスクからなる合成データセットであるTraVLRについて述べる。 TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。我々は、4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送では失敗することを示した。
論文参考訳（メタデータ） (2021-11-21T07:22:44Z)
e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2021-05-08T18:46:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。