論文の概要: LaSagnA: Language-based Segmentation Assistant for Complex Queries
- arxiv url: http://arxiv.org/abs/2404.08506v1
- Date: Fri, 12 Apr 2024 14:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 14:47:19.144663
- Title: LaSagnA: Language-based Segmentation Assistant for Complex Queries
- Title(参考訳): LaSagnA:複雑なクエリのための言語ベースのセグメンテーションアシスタント
- Authors: Cong Wei, Haoxian Tan, Yujie Zhong, Yujiu Yang, Lin Ma,
- Abstract要約: 視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
- 参考スコア(独自算出の注目度): 39.620806493454616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements have empowered Large Language Models for Vision (vLLMs) to generate detailed perceptual outcomes, including bounding boxes and masks. Nonetheless, there are two constraints that restrict the further application of these vLLMs: the incapability of handling multiple targets per query and the failure to identify the absence of query objects in the image. In this study, we acknowledge that the main cause of these problems is the insufficient complexity of training queries. Consequently, we define the general sequence format for complex queries. Then we incorporate a semantic segmentation task in the current pipeline to fulfill the requirements of training data. Furthermore, we present three novel strategies to effectively handle the challenges arising from the direct integration of the proposed format. The effectiveness of our model in processing complex queries is validated by the comparable results with conventional methods on both close-set and open-set semantic segmentation datasets. Additionally, we outperform a series of vLLMs in reasoning and referring segmentation, showcasing our model's remarkable capabilities. We release the code at https://github.com/congvvc/LaSagnA.
- Abstract(参考訳): 近年の進歩により、Large Language Models for Vision (vLLMs) が強化され、バウンディングボックスやマスクなど、知覚結果の詳細な生成が可能になった。
しかしながら、これらのvLLMのさらなる適用を制限する2つの制約がある。クエリ毎に複数のターゲットを処理できないことと、イメージ内のクエリオブジェクトの欠如を識別できないことだ。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
その結果、複雑なクエリに対する一般的なシーケンス形式を定義した。
次に、トレーニングデータの要求を満たすために、現在のパイプラインにセマンティックセグメンテーションタスクを組み込む。
さらに,提案方式の直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
複雑なクエリの処理における本モデルの有効性は、クローズセットとオープンセットのセマンティックセマンティックセグメンテーションデータセットにおける従来の手法と同等の結果によって検証される。
さらに、セグメンテーションの推論と参照において、モデルの顕著な機能を示す一連のvLLMよりも優れています。
コードをhttps://github.com/congvvc/LaSagnA.comでリリースします。
関連論文リスト
- Graph-DPEP: Decomposed Plug and Ensemble Play for Few-Shot Document Relation Extraction with Graph-of-Thoughts Reasoning [34.85741925091139]
Graph-DPEPフレームワークは、自然言語で提示された三重項の説明思想の背景にある。
我々は,サブグラフに埋め込まれた推論的思考を活用することで,型リスト全体の「アンサンブルプレイ」生成を開発する。
論文 参考訳(メタデータ) (2024-11-05T07:12:36Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - Jaeger: A Concatenation-Based Multi-Transformer VQA Model [0.13654846342364307]
文書に基づく視覚質問応答は,言語感覚の曖昧さと細粒度マルチモーダル検索の間に難しい課題を生じさせる。
本稿では,結合型マルチトランスVQAモデルであるJaegarを提案する。
我々のアプローチは、結合によってこれらのモデルの性能を増幅する可能性がある。
論文 参考訳(メタデータ) (2023-10-11T00:14:40Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - PPN: Parallel Pointer-based Network for Key Information Extraction with
Complex Layouts [29.73609439825548]
キー情報抽出は、ドキュメントから構造化された値セマンティックエンティティを抽出することを目的とした課題である。
既存の手法は2段階のパイプライン戦略に従っており、エラー伝搬問題につながる可能性がある。
ゼロショットおよび少数ショットシナリオに適用可能なエンドツーエンドモデルであるParallel Pointer-based Network (PPN)を紹介する。
論文 参考訳(メタデータ) (2023-07-20T03:29:09Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。