論文の概要: Learn 3D VQA Better with Active Selection and Reannotation
- arxiv url: http://arxiv.org/abs/2507.04630v1
- Date: Mon, 07 Jul 2025 03:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.263331
- Title: Learn 3D VQA Better with Active Selection and Reannotation
- Title(参考訳): アクティブセレクションと再アノテーションによる3D VQAの学習
- Authors: Shengli Zhou, Yang Liu, Feng Zheng,
- Abstract要約: 3D VQAでは、回答の自由な形式の性質は、データセット全体をトレーニングする際にモデルを混乱させたり誤解させたりする不適切なアノテーションにつながることが多い。
本稿では,モデルのセマンティックな不確実性に基づいてデータを選択する多ターン対話型能動学習戦略を提案する。
実験ではモデルの性能が向上し、トレーニングコストが大幅に削減され、比較的高い精度を達成するためのトレーニングコストが半減する。
- 参考スコア(独自算出の注目度): 46.687613392366174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Visual Question Answering (3D VQA) is crucial for enabling models to perceive the physical world and perform spatial reasoning. In 3D VQA, the free-form nature of answers often leads to improper annotations that can confuse or mislead models when training on the entire dataset. While other text generation tasks can mitigate this issue by learning on large-scale datasets, the scarcity of 3D scene data enlarges the negative effect of misleading annotations. Although active learning strategies can select valuable instances for training, they fail to identify and resolve misleading labels, which the oracle inevitably provides in practice. To address this issue, we propose a multi-turn interactive active learning strategy. This strategy selects data based on models' semantic uncertainty to form a solid knowledge foundation more effectively and actively requests reannotation from an oracle to resolve potentially misleading labels. For uncertainty assessment, we utilize a variance-based metric that takes semantic relationships between terms into consideration, thus avoiding the uniform inter-class similarity assumption of previous assessment metrics. Extensive experiments exhibit better model performance and a substantial reduction in training costs, with a halving of training costs for achieving relatively high accuracy. The code is available at https://github.com/fz-zsl/AQuA.
- Abstract(参考訳): 3次元視覚質問応答(3D VQA)は、モデルが物理的世界を知覚し、空間的推論を行うことを可能にするために重要である。
3D VQAでは、回答の自由な形式の性質は、データセット全体をトレーニングする際にモデルを混乱させたり誤解させたりする不適切なアノテーションにつながることが多い。
他のテキスト生成タスクは大規模なデータセットで学習することでこの問題を軽減することができるが、3Dシーンデータの不足は誤解を招くアノテーションのネガティブな効果を増大させる。
アクティブな学習戦略はトレーニングに有用なインスタンスを選択することができるが、実際には必然的に神託が提供する誤解を招くラベルを特定し、解決することができない。
この問題に対処するために,多ターン対話型能動学習戦略を提案する。
この戦略は、モデルのセマンティックな不確実性に基づくデータを選択し、より効果的にソリッドな知識基盤を形成し、潜在的に誤解を招くラベルを解決するために、オラクルから積極的に再注釈を要求する。
不確実性評価には,用語間の意味的関係を考慮に入れた分散に基づく尺度を用い,従来の評価指標のクラス間類似性仮定の均一性を回避する。
大規模な実験は、より優れたモデル性能とトレーニングコストの大幅な削減を示し、比較的高い精度を達成するためのトレーニングコストの半減を図っている。
コードはhttps://github.com/fz-zsl/AQuA.comで入手できる。
関連論文リスト
- iMatching: Imperative Correspondence Learning [5.568520539073218]
特徴対応学習のための自己指導型命令型学習(IL)を導入する。
カメラのポーズやディープラベルを使わずに、任意の未中断ビデオの対応学習を可能にする。
特徴マッチングやポーズ推定などのタスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-04T18:58:20Z) - Data Augmentation-free Unsupervised Learning for 3D Point Cloud
Understanding [61.30276576646909]
ソフトクラスタリング(SoftClu)と呼ばれる,移動可能な点レベルの特徴を学習するための,ポイントクラウドに対する拡張不要な教師なしアプローチを提案する。
我々は,クラスタに対するポイントのアフィリエイトをプロキシとして利用し,擬似ラベル予測タスクを通じて自己学習を可能にする。
論文 参考訳(メタデータ) (2022-10-06T10:18:16Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Semi-supervised 3D Object Detection via Adaptive Pseudo-Labeling [18.209409027211404]
3次元物体検出はコンピュータビジョンにおいて重要な課題である。
既存のほとんどのメソッドでは、多くの高品質な3Dアノテーションが必要です。
本研究では,屋外3次元物体検出タスクのための擬似ラベルに基づく新しい半教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T02:58:43Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。