論文の概要: Seeing the Undefined: Chain-of-Action for Generative Semantic Labels
- arxiv url: http://arxiv.org/abs/2411.17406v2
- Date: Sun, 14 Sep 2025 08:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:15.884116
- Title: Seeing the Undefined: Chain-of-Action for Generative Semantic Labels
- Title(参考訳): 非定義:生成セマンティックラベルの連鎖
- Authors: Meng Wei, Zhongnian Li, Peng Ying, Xinzheng Xu,
- Abstract要約: 本稿では,画像のセマンティックラベルの集合を包括的に予測することを目的とした新しいタスクであるジェネリックセマンティックラベル(GSL)を紹介する。
GSLはオブジェクト、シーン、属性、関係を含む複数の意味レベルラベルを生成する。
本稿では,GSL タスクに対処する革新的な手法である Chain-of-Action (CoA) を提案する。
- 参考スコア(独自算出の注目度): 6.553242735096595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) have demonstrated remarkable capabilities in image classification by leveraging predefined sets of labels to construct text prompts for zero-shot reasoning. However, these approaches face significant limitations in undefined domains, where the label space is vocabulary-unknown and composite. We thus introduce Generative Semantic Labels (GSLs), a novel task that aims to predict a comprehensive set of semantic labels for an image without being constrained by a predefined labels set. Unlike traditional zero-shot classification, GSLs generates multiple semantic-level labels, encompassing objects, scenes, attributes, and relationships, thereby providing a richer and more accurate representation of image content. In this paper, we propose Chain-of-Action (CoA), an innovative method designed to tackle the GSLs task. CoA is motivated by the observation that enriched contextual information significantly improves generative performance during inference. Specifically, CoA decomposes the GSLs task into a sequence of detailed actions. Each action extracts and merges key information from the previous step, passing enriched context to the next, ultimately guiding the VLM to generate comprehensive and accurate semantic labels. We evaluate the effectiveness of CoA through extensive experiments on widely-used benchmark datasets. The results demonstrate significant improvements across key performance metrics, validating the capability of CoA to generate accurate and contextually rich semantic labels. Our work not only advances the state-of-the-art in generative semantic labels but also opens new avenues for applying VLMs in open-ended and dynamic real-world scenarios.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は、予め定義されたラベルの集合を利用してゼロショット推論のためのテキストプロンプトを構築することにより、画像分類において顕著な能力を示している。
しかし、これらのアプローチは、ラベル空間が語彙不明で合成である未定義領域において重大な制限に直面している。
そこで我々は,事前に定義されたラベルセットに制約されることなく,画像のセマンティックラベルの包括的集合を予測することを目的とした,新しいタスクであるジェネリックセマンティックラベル(GSL)を導入する。
従来のゼロショット分類とは異なり、GSLはオブジェクト、シーン、属性、関係を含む複数の意味レベルラベルを生成し、よりリッチで正確な画像コンテンツ表現を提供する。
本稿では,GSL タスクに対処する革新的な手法である Chain-of-Action (CoA) を提案する。
CoAは、文脈情報を豊かにすることで推論時の生成性能を大幅に向上させるという観察に動機付けられている。
具体的には、CoAはGSLタスクを詳細なアクションのシーケンスに分解する。
各アクションは前のステップからキー情報を抽出し、マージし、リッチなコンテキストを次のステップに渡す。
広範に使用されているベンチマークデータセットの広範な実験により,CoAの有効性を評価する。
その結果、主要なパフォーマンス指標間で大幅に改善され、CoAが正確で文脈的にリッチなセマンティックラベルを生成する能力が検証された。
我々の研究は、生成的セマンティックラベルにおける最先端の進歩だけでなく、VLMをオープンエンドおよび動的現実世界のシナリオに適用するための新たな道を開いた。
関連論文リスト
- Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。
近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。
本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文 参考訳(メタデータ) (2025-08-07T16:27:37Z) - Label-semantics Aware Generative Approach for Domain-Agnostic Multilabel Classification [25.4439290862464]
マルチラベルテキスト分類のための堅牢で効率的なドメインに依存しない生成モデルフレームワークを提案する。
提案手法は,事前に定義されたラベル記述を利用し,入力テキストに基づいてこれらの記述を生成するように訓練する。
提案モデルの有効性を,評価されたすべてのデータセットにまたがって,新たな最先端性能を実現することによって実証する。
論文 参考訳(メタデータ) (2025-06-07T14:07:07Z) - Semantically Encoding Activity Labels for Context-Aware Human Activity Recognition [2.8132886759540146]
LMを利用してCA-HAR活動ラベルを符号化し,意味的関係を捉えるSEALを提案する。
我々の研究は、より高度なLMをCA-HARタスクに統合する新たな可能性を開く。
論文 参考訳(メタデータ) (2025-04-10T17:30:07Z) - Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。
まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。
次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文 参考訳(メタデータ) (2025-04-08T15:22:08Z) - LabelCoRank: Revolutionizing Long Tail Multi-Label Classification with Co-Occurrence Reranking [10.418399727644859]
長い尾の課題は、より頻度の低いラベルを正確に分類することの難しさを持続的に引き起こしている。
本稿では、ランキング原理に触発された新しいアプローチであるLabelCoRankを紹介する。
LabelCoRankは、マルチラベルテキスト分類における長い尾の問題を効果的に緩和する。
論文 参考訳(メタデータ) (2025-03-11T01:52:39Z) - Graph-based Retrieval Augmented Generation for Dynamic Few-shot Text Classification [15.0627807767152]
本稿では,動的少ショットテキスト分類のためのグラフベースのオンライン検索拡張生成フレームワークであるGORAGを提案する。
GORAGは、すべてのターゲットテキストの側情報を抽出して重み付きグラフを構築し、維持する。
実証的な評価は、GORAGがより包括的で正確な文脈情報を提供することで、既存のアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2025-01-06T08:43:31Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - A Unified Label-Aware Contrastive Learning Framework for Few-Shot Named Entity Recognition [6.468625143772815]
ラベル認識型トークンレベルのコントラスト学習フレームワークを提案する。
提案手法は,ラベルのセマンティクスを接尾辞のプロンプトとして活用することでコンテキストを豊かにする。
コンテキストネイティブとコンテキストラベルの対比学習目標を同時に最適化する。
論文 参考訳(メタデータ) (2024-04-26T06:19:21Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Gen-Z: Generative Zero-Shot Text Classification with Contextualized
Label Descriptions [50.92702206798324]
ゼロショットテキスト分類のための生成的プロンプトフレームワークを提案する。
GEN-Zはラベルの自然言語記述に基づく入力テキストのLM可能性を測定する。
データソースの文脈化によるゼロショット分類は、ゼロショットベースラインと少数ショットベースラインの両方を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:12:57Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - Fine-Grained Named Entity Typing over Distantly Supervised Data Based on
Refined Representations [16.30478830298353]
Fine-Grained Named Entity Typing (FG-NET) は自然言語処理(NLP)の鍵となるコンポーネントである
本稿では,コーパスレベルの文脈的手がかりをエンド分類に先立ち,ノイズの多い参照表現を洗練させるエッジ重み付き注意グラフ畳み込みネットワークを提案する。
実験により,提案モデルではマクロf1とマイクロf1の相対スコアが10.2%,マクロf1が8.3%であった。
論文 参考訳(メタデータ) (2020-04-07T17:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。