論文の概要: Multimodal Label Relevance Ranking via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.13221v1
- Date: Thu, 18 Jul 2024 07:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:32:17.780572
- Title: Multimodal Label Relevance Ranking via Reinforcement Learning
- Title(参考訳): 強化学習によるマルチモーダルラベル関連ランク付け
- Authors: Taian Guo, Taolin Zhang, Haoqian Wu, Hanjun Li, Ruizhi Qiao, Xing Sun,
- Abstract要約: LRtextsuperscript2PPO (Rabel Relevance Ranking with Proximal Policy Optimization) という,マルチモーダルラベル関連ランキングの新しい手法を提案する。
LRtextsuperscript2PPOはまずターゲットドメインの部分順序ペアを使用して報酬モデルをトレーニングする。
LRtextsuperscript2PPOにより、ラベル関連ランキングモデルの性能を向上させることができるように、ランキングタスクに適した状態表現とポリシー損失を慎重に設計する。
- 参考スコア(独自算出の注目度): 30.03543589748649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional multi-label recognition methods often focus on label confidence, frequently overlooking the pivotal role of partial order relations consistent with human preference. To resolve these issues, we introduce a novel method for multimodal label relevance ranking, named Label Relevance Ranking with Proximal Policy Optimization (LR\textsuperscript{2}PPO), which effectively discerns partial order relations among labels. LR\textsuperscript{2}PPO first utilizes partial order pairs in the target domain to train a reward model, which aims to capture human preference intrinsic to the specific scenario. Furthermore, we meticulously design state representation and a policy loss tailored for ranking tasks, enabling LR\textsuperscript{2}PPO to boost the performance of label relevance ranking model and largely reduce the requirement of partial order annotation for transferring to new scenes. To assist in the evaluation of our approach and similar methods, we further propose a novel benchmark dataset, LRMovieNet, featuring multimodal labels and their corresponding partial order data. Extensive experiments demonstrate that our LR\textsuperscript{2}PPO algorithm achieves state-of-the-art performance, proving its effectiveness in addressing the multimodal label relevance ranking problem. Codes and the proposed LRMovieNet dataset are publicly available at \url{https://github.com/ChazzyGordon/LR2PPO}.
- Abstract(参考訳): 従来のマルチラベル認識手法は、しばしばラベルの信頼性に焦点を合わせ、しばしば人間の嗜好と整合した部分順序関係の重要な役割を見落としている。
これらの問題を解決するために,ラベル間の部分順序関係を効果的に識別する,Rabel Relevance Ranking with Proximal Policy Optimization (LR\textsuperscript{2}PPO) と呼ばれる,マルチモーダルラベル関連ランキングの新しい手法を提案する。
LR\textsuperscript{2}PPOは、まずターゲットドメインの部分順序ペアを使用して報酬モデルをトレーニングする。
さらに、ランキングタスクに適した状態表現とポリシー損失を慎重に設計し、LR\textsuperscript{2}PPOによりラベル関連ランキングモデルの性能を高め、新しいシーンに転送するための部分順序アノテーションの要求を大幅に低減する。
さらに,本手法と類似手法の評価を支援するために,マルチモーダルラベルと対応する部分順序データを備えた新しいベンチマークデータセットLRMovieNetを提案する。
LR\textsuperscript{2}PPOアルゴリズムは,マルチモーダルラベル関連ランキング問題に対処する上で,その有効性を示す。
コードとLRMovieNetデータセットは \url{https://github.com/ChazzyGordon/LR2PPO} で公開されている。
関連論文リスト
- Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Hypergraph Enhanced Knowledge Tree Prompt Learning for Next-Basket
Recommendation [50.55786122323965]
次バスケットレコメンデーション(NBR)は、対応するバスケットシーケンスが与えられた次のバスケット内のアイテムを推論することを目的としている。
HEKP4NBRは知識グラフ(KG)をKTP(Knowledge Tree Prompt)と呼ばれるプロンプトに変換し、PLMがOOV(Out-Of-Vocabulary)アイテムIDをエンコードするのを助ける。
ハイパーグラフ畳み込みモジュールは、複数の側面からMoEモデルによって測定されたアイテム類似性に基づいてハイパーグラフを構築するように設計されている。
論文 参考訳(メタデータ) (2023-12-26T02:12:21Z) - RankMatch: A Novel Approach to Semi-Supervised Label Distribution
Learning Leveraging Inter-label Correlations [52.549807652527306]
本稿では,SSLDL (Semi-Supervised Label Distribution Learning) の革新的なアプローチである RankMatch を紹介する。
RankMatchは、ラベルのない大量のデータとともに、少数のラベル付き例を効果的に活用する。
我々はRandMatchに縛られる理論的な一般化を確立し、広範な実験を通じて既存のSSLDL法に対する性能上の優位性を実証した。
論文 参考訳(メタデータ) (2023-12-11T12:47:29Z) - GaussianMLR: Learning Implicit Class Significance via Calibrated
Multi-Label Ranking [0.0]
本稿では,ガウスMLRという新しい多ラベルランキング手法を提案する。
これは、正のラベルのランクを決定する暗黙のクラス重要性の値を学ぶことを目的としている。
提案手法は, 組み込まれた正のランク順の表現を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-03-07T14:09:08Z) - RLSEP: Learning Label Ranks for Multi-label Classification [0.0]
マルチラベルランキングは、複数の可能なクラスの予測ラベルのランキングにインスタンスをマップする。
不正なランク付けペアに対するペナルティを組み込んだモデル最適化のための,新たな専用損失関数を提案する。
提案手法は,合成および実世界のランク付けされたデータセットについて,最も優れた評価結果を得る。
論文 参考訳(メタデータ) (2022-12-08T00:59:09Z) - A Unified Positive-Unlabeled Learning Framework for Document-Level
Relation Extraction with Different Levels of Labeling [5.367772036988716]
文書レベルの関係抽出(RE)は、複数の文にわたるエンティティ間の関係を特定することを目的としている。
我々は、シフトと二乗ランキング損失という、肯定的でない統一的な学習フレームワークを提案する。
提案手法は, 既往のベースラインに対して, 不完全ラベル付きで約14F1点の改善を実現する。
論文 参考訳(メタデータ) (2022-10-17T02:54:49Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z) - Document-Level Relation Extraction with Adaptive Thresholding and
Localized Context Pooling [34.93480801598084]
1つの文書は一般に複数のエンティティペアを含み、1つのエンティティペアは複数の可能な関係に関連付けられた文書に複数回発生する。
適応しきい値と局所化コンテキストプーリングという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T20:41:23Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。