論文の概要: Improving One-stage Visual Grounding by Recursive Sub-query Construction
- arxiv url: http://arxiv.org/abs/2008.01059v1
- Date: Mon, 3 Aug 2020 17:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:39:57.961274
- Title: Improving One-stage Visual Grounding by Recursive Sub-query Construction
- Title(参考訳): 再帰的サブクエリ構築によるワンステージ視覚接地の改善
- Authors: Zhengyuan Yang, Tianlang Chen, Liwei Wang, Jiebo Luo
- Abstract要約: 長いクエリと複雑なクエリのグラウンド化における現在の制限に対処することで、ワンステージの視覚的グラウンド化を改善する。
我々は,新しい1段階法により,最先端の1段階ベースラインに対して5.0%,4.5%,7.5%,12.8%の絶対改善が得られたことを示す。
- 参考スコア(独自算出の注目度): 102.47477888060801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We improve one-stage visual grounding by addressing current limitations on
grounding long and complex queries. Existing one-stage methods encode the
entire language query as a single sentence embedding vector, e.g., taking the
embedding from BERT or the hidden state from LSTM. This single vector
representation is prone to overlooking the detailed descriptions in the query.
To address this query modeling deficiency, we propose a recursive sub-query
construction framework, which reasons between image and query for multiple
rounds and reduces the referring ambiguity step by step. We show our new
one-stage method obtains 5.0%, 4.5%, 7.5%, 12.8% absolute improvements over the
state-of-the-art one-stage baseline on ReferItGame, RefCOCO, RefCOCO+, and
RefCOCOg, respectively. In particular, superior performances on longer and more
complex queries validates the effectiveness of our query modeling.
- Abstract(参考訳): 長く複雑なクエリの接地に関する現在の制限に対処し,1段階の視覚接地を改善する。
既存の一段階のメソッドでは、言語クエリ全体を単一の文埋め込みベクトルとしてエンコードしている。
この単一のベクトル表現は、クエリの詳細な記述を見渡す傾向がある。
そこで本研究では,複数のラウンドに対して画像と問合せを理由とし,参照曖昧度を段階的に低減する再帰的サブクエリ構築フレームワークを提案する。
本稿では,ReferItGame,RefCOCO,RefCOCO+,RefCOCOgにおける最先端の1ステージベースラインに対して,それぞれ5.0%,4.5%,7.5%,12.8%の絶対的な改善が得られたことを示す。
特に、より長く複雑なクエリにおける優れたパフォーマンスは、クエリモデリングの有効性を検証する。
関連論文リスト
- MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping [1.1557852082644071]
少数の例だけで、クエリイメージ内のオブジェクトをセグメント化するという課題に、Semanticは対処している。
本稿では,トランスアーキテクチャに基づく新しいFew-shot Semanticフレームワークを提案する。
150万のパラメータしか持たないモデルでは,既存の手法の限界を克服しつつ,競争性能を実証している。
論文 参考訳(メタデータ) (2024-09-17T16:14:03Z) - Complete Approximations of Incomplete Queries [0.9626666671366836]
すべてのデータが利用可能であるかのように、クエリが完全に答えられるかどうかを調査する。
もしそうでなければ、クエリを最大完全近似(MCS)または最小完全一般化(MCG)に再構成することを検討する。
論文 参考訳(メタデータ) (2024-07-30T16:13:42Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - Scale-Localized Abstract Reasoning [79.00011351374869]
本稿では,インテリジェンステストとしてよく用いられる抽象的関係推論タスクについて考察する。
いくつかのパターンは空間的有理性を持っているが、他のパターンは意味論に過ぎないため、各クエリを複数の解像度で処理するマルチスケールアーキテクチャを提案する。
異なる解法によって実際に異なるルールが解かれることを示し、組み合わせたマルチスケールアプローチは、全てのベンチマークにおいて、このタスクにおける既存の技術の状態を5~54%上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-20T10:37:29Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。