Fugu-MT 論文翻訳(概要): Intent Alignment between Interaction and Language Spaces for Recommendation

論文の概要: Intent Alignment between Interaction and Language Spaces for Recommendation

arxiv url: http://arxiv.org/abs/2502.03307v3
Date: Wed, 12 Feb 2025 08:16:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 15:57:39.902158
Title: Intent Alignment between Interaction and Language Spaces for Recommendation
Title（参考訳）: 推薦のための対話と言語空間のインテントアライメント
Authors: Yu Wang, Lei Sang, Yi Zhang, Yiwen Zhang,
Abstract要約: モデルに依存しないフレームワークIRLLRec(Intent Representation Learning with Large Language Model)を提案する。具体的には、IRLLRecはマルチモーダルなインテント表現を学ぶためにデュアルトウワーアーキテクチャを採用している。テキストと対話に基づく意図をよりよく一致させるため、融合した意図表現を教師が学習するためにモーメント蒸留を用いる。
参考スコア（独自算出の注目度）: 11.118517297006894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intent-based recommender systems have garnered significant attention for uncovering latent fine-grained preferences. Intents, as underlying factors of interactions, are crucial for improving recommendation interpretability. Most methods define intents as learnable parameters updated alongside interactions. However, existing frameworks often overlook textual information (e.g., user reviews, item descriptions), which is crucial for alleviating the sparsity of interaction intents. Exploring these multimodal intents, especially the inherent differences in representation spaces, poses two key challenges: i) How to align multimodal intents and effectively mitigate noise issues; ii) How to extract and match latent key intents across modalities. To tackle these challenges, we propose a model-agnostic framework, Intent Representation Learning with Large Language Model (IRLLRec), which leverages large language models (LLMs) to construct multimodal intents and enhance recommendations. Specifically, IRLLRec employs a dual-tower architecture to learn multimodal intent representations. Next, we propose pairwise and translation alignment to eliminate inter-modal differences and enhance robustness against noisy input features. Finally, to better match textual and interaction-based intents, we employ momentum distillation to perform teacher-student learning on fused intent representations. Empirical evaluations on three datasets show that our IRLLRec framework outperforms baselines.
Abstract（参考訳）: インテントベースのレコメンダシステムは、潜伏した微粒な嗜好を明らかにするために大きな注目を集めている。インテントは、相互作用の根底にある要因として、レコメンデーションの解釈可能性を改善するために不可欠である。ほとんどのメソッドはインテントを、対話と共に更新される学習可能なパラメータとして定義する。しかし、既存のフレームワークはしばしばテキスト情報(例えば、ユーザレビュー、項目記述)を見落としている。これらのマルチモーダルな意図、特に表現空間に固有の違いを探索することは、以下の2つの主要な課題を提起する。一マルチモーダルな意図を整合させ、騒音問題を効果的に緩和する方法二モダリティにまたがる潜伏鍵の意図を抽出し、整合させる方法これらの課題に対処するために,大規模言語モデル(LLM)を活用してマルチモーダルな意図の構築とレコメンデーションの強化を行う,モデルに依存しないIntent Representation Learning with Large Language Model (IRLLRec)を提案する。具体的には、IRLLRecはマルチモーダルなインテント表現を学ぶためにデュアルトウワーアーキテクチャを採用している。次に、モーダル間差を排除し、ノイズの多い入力特徴に対するロバスト性を高めるために、ペアワイズおよび変換アライメントを提案する。最後に,テキストと対話に基づく意図をよりよく一致させるために,モーメント蒸留を用いて,融合意図表現の教師学習を行う。 3つのデータセットに対する実証的な評価は、IRLLRecフレームワークがベースラインを上回っていることを示している。

関連論文リスト

Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models [48.2311603411121]
本稿では,創造者の意図を明示的にモデル化することで,現実のマルチモーダルニュース作成をシミュレートする自動化フレームワークを提案する。 DeceptionDecodedは、信頼できる参照記事と一致した12,000のイメージキャプチャペアからなるベンチマークである。我々は3つの意図中心のタスクに対して、14の最先端ビジョン言語モデル(VLM)の包括的な評価を行う。
論文参考訳（メタデータ） (2025-05-21T13:14:32Z)
Intent-Aware Dialogue Generation and Multi-Task Contrastive Learning for Multi-Turn Intent Classification [6.459396785817196]
Chain-of-Intentは、セルフプレイを通じて意図駆動の会話を生成する。 MINT-CLはマルチタスクコントラスト学習を用いたマルチターンインテント分類のためのフレームワークである。 MINT-Eは多言語対応のマルチターンeコマース対話コーパスである。
論文参考訳（メタデータ） (2024-11-21T15:59:29Z)
IntentGPT: Few-shot Intent Discovery with Large Language Models [9.245106106117317]
我々は、新たな意図が現れると識別できるモデルを開発する。 IntentGPTは、Large Language Models (LLM) を効果的に促し、最小限のラベル付きデータで新しいインテントを発見する、トレーニング不要の手法である。実験の結果,IntentGPTはドメイン固有データと微調整を必要とする従来の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-16T02:16:59Z)
Unified Dual-Intent Translation for Joint Modeling of Search and Recommendation [44.59113848489519]
We propose a novel model named Unified Dual-Intents Translation for joint modeling of Search and Recommendation (UDITSR)。ユーザの推奨する要求意図を正確にシミュレートするために,検索データからの実際のクエリを監視情報として利用し,その生成をガイドする。大規模な実験では、UDITSRは検索とレコメンデーションの両方においてSOTAベースラインを上回っている。
論文参考訳（メタデータ） (2024-07-01T02:36:03Z)
Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning [50.1035273069458]
音声言語理解(SLU)はタスク指向対話システムにおける中核的なタスクである。本稿では,発話レベル,スロットレベル,単語レベルを含む3段階のコントラスト学習を実現するためのマルチレベルMMCLフレームワークを提案する。本フレームワークは,2つの公開マルチインテリジェントSLUデータセットに対して,最先端の新たな結果を実現する。
論文参考訳（メタデータ） (2024-05-31T14:34:23Z)
A Two-Stage Prediction-Aware Contrastive Learning Framework for Multi-Intent NLU [41.45522079026888]
NLU(Multi-intent Natural Language Understanding)は、単一発話における複数の意図から生じるモデルの混乱によって、非常に難しい課題を提示する。以前の作業では、異なる多目的ラベル間のマージンを増やすために、モデルを対照的に訓練した。マルチインテリジェントNLUのための2段階予測対応コントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-05T13:09:55Z)
Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文参考訳（メタデータ） (2023-11-11T12:01:18Z)
A Unified Framework for Multi-intent Spoken Language Understanding with prompting [14.17726194025463]
Prompt-based Spoken Language Understanding (PromptSLU) フレームワークについて述べる。詳細は、音声をタスク固有のプロンプトテンプレートに入力として簡潔に充填し、キー-値ペアシーケンスの出力形式を共有することにより、IDとSFが完成する。実験の結果,我々のフレームワークは2つの公開データセット上で,最先端のベースラインよりも優れていた。
論文参考訳（メタデータ） (2022-10-07T05:58:05Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
MIntRec: A New Dataset for Multimodal Intent Recognition [18.45381778273715]
マルチモーダルな意図認識は,実世界のマルチモーダルシーンにおいて,人間の言語を理解する上で重要な課題である。本稿では,この問題を解決するために,マルチモーダルな意図認識(MIntRec)のための新しいデータセットを提案する。テレビシリーズ『スーパーストア』から収集されたデータに基づいて、粗くきめ細かな意図を定式化する。
論文参考訳（メタデータ） (2022-09-09T15:37:39Z)
Intent Contrastive Learning for Sequential Recommendation [86.54439927038968]
ユーザの意図を表現するために潜伏変数を導入し,クラスタリングにより潜伏変数の分布関数を学習する。我々は,学習意図を対照的なSSLによってSRモデルに活用し,シーケンスのビューとそれに対応するインテントとの一致を最大化することを提案する。 4つの実世界のデータセットで実施された実験は、提案した学習パラダイムの優位性を示している。
論文参考訳（メタデータ） (2022-02-05T09:24:13Z)
AGIF: An Adaptive Graph-Interactive Framework for Joint Multiple Intent Detection and Slot Filling [69.59096090788125]
本稿では,多目的検出とスロットフィリングを併用する適応グラフ対話フレームワーク(AGIF)を提案する。スロットとインテントの強い相関関係をモデル化するために,インテント-スロットグラフ相互作用層を導入する。このような相互作用層が各トークンに適応的に適用され、関連する意図情報を自動抽出する利点がある。
論文参考訳（メタデータ） (2020-04-21T15:07:34Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。