論文の概要: FuDoBa: Fusing Document and Knowledge Graph-based Representations with Bayesian Optimisation
- arxiv url: http://arxiv.org/abs/2507.06622v1
- Date: Wed, 09 Jul 2025 07:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.509757
- Title: FuDoBa: Fusing Document and Knowledge Graph-based Representations with Bayesian Optimisation
- Title(参考訳): FuDoBa: ベイズ最適化による文書と知識グラフに基づく表現
- Authors: Boshko Koloski, Senja Pollak, Roberto Navigli, Blaž Škrlj,
- Abstract要約: 本稿では,LLMに基づく埋め込みとドメイン固有の構造化知識を統合したベイズ最適化に基づくFuDoBaを紹介する。
この融合は、訓練の複雑さを減らし、解釈可能な早期融合重みを生み出すとともに、低次元のタスク関連表現を生成する。
2つの領域における6つのデータセットに対するアプローチの有効性を実証し、提案した表現学習アプローチが、プロプライエタリなLCMベースの埋め込みベースラインでのみ生成されるものと同程度に、あるいは超えていることを示す。
- 参考スコア(独自算出の注目度): 43.56253799373878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building on the success of Large Language Models (LLMs), LLM-based representations have dominated the document representation landscape, achieving great performance on the document embedding benchmarks. However, the high-dimensional, computationally expensive embeddings from LLMs tend to be either too generic or inefficient for domain-specific applications. To address these limitations, we introduce FuDoBa a Bayesian optimisation-based method that integrates LLM-based embeddings with domain-specific structured knowledge, sourced both locally and from external repositories like WikiData. This fusion produces low-dimensional, task-relevant representations while reducing training complexity and yielding interpretable early-fusion weights for enhanced classification performance. We demonstrate the effectiveness of our approach on six datasets in two domains, showing that when paired with robust AutoML-based classifiers, our proposed representation learning approach performs on par with, or surpasses, those produced solely by the proprietary LLM-based embedding baselines.
- Abstract(参考訳): LLM(Large Language Models)の成功に基づいて、LLMベースの表現がドキュメント表現のランドスケープを支配し、ドキュメント埋め込みベンチマークで優れたパフォーマンスを実現している。
しかし、LLMの高次元で計算コストのかかる埋め込みは、ドメイン固有のアプリケーションには汎用的すぎるか非効率的である傾向にある。
これらの制約に対処するため、我々は、LLMベースの埋め込みとドメイン固有の構造化知識を統合したベイズ最適化に基づくFuDoBaを紹介し、WikiDataのような外部リポジトリからソースする。
この融合は、訓練の複雑さを減らし、分類性能を高めるために解釈可能な早期融合重みを与えるとともに、低次元のタスク関連表現を生成する。
2つの領域における6つのデータセットに対するアプローチの有効性を実証し、ロバストなAutoMLベースの分類器と組み合わせると、提案した表現学習アプローチは、プロプライエタリなLCMベースの埋め込みベースラインでのみ生成されるものと同程度、あるいはそれ以上に機能することを示した。
関連論文リスト
- FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models [43.62847972139202]
大規模言語モデル(LLM)は様々な領域で最先端の成果を上げてきたが、その開発は大量の公開データに依存している。
この研究は、現実世界のアプリケーションのためのプライバシ保護、ドメイン特化LDMの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-06-03T14:54:12Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。
提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。
MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文 参考訳(メタデータ) (2024-09-24T03:30:19Z) - LLM with Relation Classifier for Document-Level Relation Extraction [25.587850398830252]
大規模言語モデル(LLM)は、自然言語処理のための新しいパラダイムを生み出した。
本稿では,この性能ギャップの原因を解明し,関係のないエンティティペアによるLCMによる注意の分散を重要要因とする。
論文 参考訳(メタデータ) (2024-08-25T16:43:19Z) - AutoML-guided Fusion of Entity and LLM-based Representations for Document Classification [43.56253799373878]
本研究は, 知識ベースから埋め込み情報を注入することで, テキスト分類作業において, 現代言語モデル(LLM)に基づく表現の性能を向上できることを実証する。
融合表現空間を持つ自動機械学習(AutoML)を考慮し、原表現空間の低次元投影を用いても分類精度を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-08-19T08:41:40Z) - DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.36683223327633]
大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。
実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。
従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文 参考訳(メタデータ) (2024-08-13T10:15:55Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。