論文の概要: CoA: Chain-of-Action for Generative Semantic Labels
- arxiv url: http://arxiv.org/abs/2411.17406v1
- Date: Tue, 26 Nov 2024 13:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:53.131155
- Title: CoA: Chain-of-Action for Generative Semantic Labels
- Title(参考訳): CoA:ジェネレーティブセマンティックラベルの連鎖
- Authors: Meng Wei, Zhongnian Li, Peng Ying, Xinzheng Xu,
- Abstract要約: CoA(Chain-of-Action)メソッドは、画像の文脈的に関連する特徴に沿ったラベルを生成する。
CoAは、豊かで価値のある文脈情報が推論時の生成性能を改善するという観察に基づいて設計されている。
- 参考スコア(独自算出の注目度): 5.016605351534376
- License:
- Abstract: Recent advances in vision-language models (VLM) have demonstrated remarkable capability in image classification. These VLMs leverage a predefined set of categories to construct text prompts for zero-shot reasoning. However, in more open-ended domains like autonomous driving, using a predefined set of labels becomes impractical, as the semantic label space is unknown and constantly evolving. Additionally, fixed embedding text prompts often tend to predict a single label (while in reality, multiple labels commonly exist per image). In this paper, we introduce CoA, an innovative Chain-of-Action (CoA) method that generates labels aligned with all contextually relevant features of an image. CoA is designed based on the observation that enriched and valuable contextual information improves generative performance during inference. Traditional vision-language models tend to output singular and redundant responses. Therefore, we employ a tailored CoA to alleviate this problem. We first break down the generative labeling task into detailed actions and construct an CoA leading to the final generative objective. Each action extracts and merges key information from the previous action and passes the enriched information as context to the next action, ultimately improving the VLM in generating comprehensive and accurate semantic labels. We assess the effectiveness of CoA through comprehensive evaluations on widely-used benchmark datasets and the results demonstrate significant improvements across key performance metrics.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、画像分類において顕著な能力を示している。
これらのVLMは、ゼロショット推論のためのテキストプロンプトを構築するために、予め定義されたカテゴリセットを利用する。
しかし、自律運転のようなよりオープンな領域では、セマンティックなラベル空間が未知であり、常に進化しているため、事前に定義されたラベルセットを使用することは現実的ではない。
さらに、固定埋め込みテキストプロンプトは単一のラベルを予測する傾向がある(実際には、イメージごとに複数のラベルが存在する)。
本稿では,画像のすべての文脈的特徴に整合したラベルを生成するCoA(Chain-of-Action)手法を提案する。
CoAは、豊かで価値のある文脈情報が推論時の生成性能を改善するという観察に基づいて設計されている。
伝統的な視覚言語モデルは特異応答と冗長応答を出力する傾向がある。
そのため、この問題を緩和するために調整されたCoAを使用します。
まず、生成的ラベリングタスクを詳細なアクションに分解し、最終的な生成目的に導くためのCoAを構築する。
各アクションは、前のアクションからキー情報を抽出し、マージし、拡張された情報をコンテキストとして次のアクションに渡す。
我々は、広く使用されているベンチマークデータセットの包括的な評価を通じて、CoAの有効性を評価し、その結果、主要なパフォーマンス指標間で大きな改善が示された。
関連論文リスト
- Graph-based Retrieval Augmented Generation for Dynamic Few-shot Text Classification [15.0627807767152]
本稿では,動的少ショットテキスト分類のためのグラフベースのオンライン検索拡張生成フレームワークであるGORAGを提案する。
GORAGは、すべてのターゲットテキストの側情報を抽出して重み付きグラフを構築し、維持する。
実証的な評価は、GORAGがより包括的で正確な文脈情報を提供することで、既存のアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2025-01-06T08:43:31Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - A Unified Label-Aware Contrastive Learning Framework for Few-Shot Named Entity Recognition [6.468625143772815]
ラベル認識型トークンレベルのコントラスト学習フレームワークを提案する。
提案手法は,ラベルのセマンティクスを接尾辞のプロンプトとして活用することでコンテキストを豊かにする。
コンテキストネイティブとコンテキストラベルの対比学習目標を同時に最適化する。
論文 参考訳(メタデータ) (2024-04-26T06:19:21Z) - Gen-Z: Generative Zero-Shot Text Classification with Contextualized
Label Descriptions [50.92702206798324]
ゼロショットテキスト分類のための生成的プロンプトフレームワークを提案する。
GEN-Zはラベルの自然言語記述に基づく入力テキストのLM可能性を測定する。
データソースの文脈化によるゼロショット分類は、ゼロショットベースラインと少数ショットベースラインの両方を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:12:57Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - Fine-Grained Named Entity Typing over Distantly Supervised Data Based on
Refined Representations [16.30478830298353]
Fine-Grained Named Entity Typing (FG-NET) は自然言語処理(NLP)の鍵となるコンポーネントである
本稿では,コーパスレベルの文脈的手がかりをエンド分類に先立ち,ノイズの多い参照表現を洗練させるエッジ重み付き注意グラフ畳み込みネットワークを提案する。
実験により,提案モデルではマクロf1とマイクロf1の相対スコアが10.2%,マクロf1が8.3%であった。
論文 参考訳(メタデータ) (2020-04-07T17:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。