論文の概要: Groupwise Query Specialization and Quality-Aware Multi-Assignment for Transformer-based Visual Relationship Detection
- arxiv url: http://arxiv.org/abs/2403.17709v1
- Date: Tue, 26 Mar 2024 13:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:17:51.056114
- Title: Groupwise Query Specialization and Quality-Aware Multi-Assignment for Transformer-based Visual Relationship Detection
- Title(参考訳): 変圧器を用いた視覚的関係検出のためのグループワイドクエリの特殊化と品質を考慮したマルチアサイン
- Authors: Jongha Kim, Jihwan Park, Jinyoung Park, Jinyoung Kim, Sehyung Kim, Hyunwoo J. Kim,
- Abstract要約: 最近、Transformerベースのアーキテクチャで視覚的関係検出(VRD)が大幅に進歩している。
トランスフォーマーをベースとしたVRDモデルのトレーニングにおいて,従来のラベル割り当てにおける2つの重要な制限を識別する。
これらの問題に対処するため,グループワイドクエリと品質を考慮したマルチアサイン(SpeaQ)が提案されている。
- 参考スコア(独自算出の注目度): 21.352923995507595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Relationship Detection (VRD) has seen significant advancements with Transformer-based architectures recently. However, we identify two key limitations in a conventional label assignment for training Transformer-based VRD models, which is a process of mapping a ground-truth (GT) to a prediction. Under the conventional assignment, an unspecialized query is trained since a query is expected to detect every relation, which makes it difficult for a query to specialize in specific relations. Furthermore, a query is also insufficiently trained since a GT is assigned only to a single prediction, therefore near-correct or even correct predictions are suppressed by being assigned no relation as a GT. To address these issues, we propose Groupwise Query Specialization and Quality-Aware Multi-Assignment (SpeaQ). Groupwise Query Specialization trains a specialized query by dividing queries and relations into disjoint groups and directing a query in a specific query group solely toward relations in the corresponding relation group. Quality-Aware Multi-Assignment further facilitates the training by assigning a GT to multiple predictions that are significantly close to a GT in terms of a subject, an object, and the relation in between. Experimental results and analyses show that SpeaQ effectively trains specialized queries, which better utilize the capacity of a model, resulting in consistent performance gains with zero additional inference cost across multiple VRD models and benchmarks. Code is available at https://github.com/mlvlab/SpeaQ.
- Abstract(参考訳): 最近、Transformerベースのアーキテクチャで視覚的関係検出(VRD)が大幅に進歩している。
しかし,トランスフォーマーをベースとしたVRDモデルは,GT(グラウンド・トゥルース)を予測にマッピングするプロセスである。
従来の課題では、クエリがすべての関係を検出することが期待され、クエリが特定の関係を専門化することが難しくなるため、特定されていないクエリがトレーニングされる。
さらに、単一の予測のみにGTを割り当てるため、クエリのトレーニングも不十分であるため、GTとして関係を割り当てることなく、ほぼ正しい、あるいは正しい予測を抑えることができる。
これらの課題に対処するため,グループワイドクエリの専門化と品質対応型マルチアサインメント(SpeaQ)を提案する。
グループワイドクエリ特化(Groupwise Query Specialization)は、クエリとリレーションを分離したグループに分割し、特定のクエリグループ内のクエリを対応するリレーショングループのリレーションのみに指示することで、特別なクエリを訓練する。
品質に配慮したマルチアサインメントは、対象、対象、およびその間の関係の観点から、GTにかなり近い複数の予測にGTを割り当てることにより、トレーニングを促進する。
実験結果と分析結果から、SpeaQは、モデルのキャパシティをよりよく活用する特殊なクエリを効果的に訓練し、その結果、複数のVRDモデルとベンチマークで追加の推論コストをゼロに、一貫したパフォーマンス向上を実現していることがわかった。
コードはhttps://github.com/mlvlab/SpeaQ.comで入手できる。
関連論文リスト
- A General Model for Aggregating Annotations Across Simple, Complex, and
Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。
特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。
本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文 参考訳(メタデータ) (2023-12-20T21:28:35Z) - Query2Triple: Unified Query Encoding for Answering Diverse Complex
Queries over Knowledge Graphs [29.863085746761556]
単純で複雑なクエリのトレーニングを分離する新しいアプローチであるQuery to Triple (Q2T)を提案する。
提案するQ2Tは, トレーニングだけでなく, モジュール性にも優れ, 様々なニューラルネットワーク予測器に容易に適応できる。
論文 参考訳(メタデータ) (2023-10-17T13:13:30Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - Team DETR: Guide Queries as a Professional Team in Detection
Transformers [31.521916994653235]
我々は、クエリの協調と位置制約を活用して、興味のあるオブジェクトをより正確に受け入れるチームDETRを提案する。
また、クエリーメンバーの予測設定を動的に調整し、クエリーのスケールと空間の優先順位をより良くします。
さらに、提案されたTeam DETRは、パラメータや計算量を増やすことなく既存のDETRに適応できるほど柔軟である。
論文 参考訳(メタデータ) (2023-02-14T15:21:53Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Relation-Guided Pre-Training for Open-Domain Question Answering [67.86958978322188]
複雑なオープンドメイン問題を解決するためのRGPT-QA(Relation-Guided Pre-Training)フレームワークを提案する。
RGPT-QAは, 自然質問, TriviaQA, WebQuestionsにおいて, Exact Matchの精度が2.2%, 2.4%, 6.3%向上したことを示す。
論文 参考訳(メタデータ) (2021-09-21T17:59:31Z) - Effective FAQ Retrieval and Question Matching With Unsupervised
Knowledge Injection [10.82418428209551]
質問に対して適切な回答を得るための文脈言語モデルを提案する。
また、ドメイン固有の単語間のトポロジ関連関係を教師なしの方法で活用することについても検討する。
提案手法のバリエーションを,公開可能な中国語FAQデータセット上で評価し,さらに大規模質問マッチングタスクに適用し,コンテキスト化する。
論文 参考訳(メタデータ) (2020-10-27T05:03:34Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。