論文の概要: Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings
- arxiv url: http://arxiv.org/abs/2510.08774v1
- Date: Thu, 09 Oct 2025 19:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.688381
- Title: Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings
- Title(参考訳): Struc-EMB:言語埋め込みにおける構造認識エンコーディングの可能性
- Authors: Shikun Liu, Haoyu Wang, Mufei Li, Pan Li,
- Abstract要約: 本稿では,構造認識テキストの埋め込み生成のための新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
- 参考スコア(独自算出の注目度): 16.728984584960738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text embeddings from Large Language Models (LLMs) have become foundational for numerous applications. However, these models typically operate on raw text, overlooking the rich structural information, such as hyperlinks or citations, that provides crucial context in many real-world datasets. This paper introduces and systematically evaluates a new paradigm for generating structure-aware text embeddings by integrating these structural relations directly into the LLM's internal encoding process, rather than relying on traditional post-hoc aggregation. We investigate two primary in-process methods: sequential concatenation and parallel caching. Through extensive zero-shot experiments across retrieval, clustering, classification, and recommendation tasks, we demonstrate that our structure-aware approaches consistently outperform both text-only and post-hoc baselines. Our analysis reveals critical trade-offs: sequential concatenation excels with noisy, moderate-length contexts, while parallel caching scales more effectively to long, high-signal contexts but is more susceptible to distractors. To address the challenge of noisy structural data, we also introduce and validate two effective techniques: Context Distillation and Semantic Balancing. This work provides the first comprehensive analysis of in-process structure-aware encoding, offering a blueprint for building more powerful and contextually aware embedding models.
- Abstract(参考訳): LLM(Large Language Models)からのテキスト埋め込みは多くのアプリケーションの基礎となっている。
しかしながら、これらのモデルは一般的に、多くの現実世界のデータセットにおいて重要なコンテキストを提供するハイパーリンクや引用のようなリッチな構造情報を見渡すために、生のテキストで動作します。
本稿では,従来のポストホックアグリゲーションに頼るのではなく,これらの構造関係を直接LLMの内部符号化プロセスに統合することにより,構造認識テキストの埋め込みを生成する新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
検索,クラスタリング,分類,レコメンデーションタスクにわたる広範囲なゼロショット実験を通じて,構造認識アプローチがテキストのみのベースラインとポストホックのベースラインを一貫して上回ることを示す。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
ノイズの多い構造データの課題に対処するために、コンテキスト蒸留とセマンティックバランシングという2つの効果的な手法を導入し、検証する。
この研究は、プロセス内構造認識エンコーディングの包括的な分析を初めて提供し、より強力で文脈的に認識された埋め込みモデルを構築するための青写真を提供する。
関連論文リスト
- CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Enhancing Abstractive Summarization of Scientific Papers Using Structure Information [6.414732533433283]
本稿では,学術論文における構造的機能の自動認識を活用する2段階の抽象的要約フレームワークを提案する。
第1段階では,多くの学術論文から章題を標準化し,構造関数認識のための大規模データセットを構築した。
第2段階では、Longformerを用いて、セクション間のリッチなコンテキスト関係をキャプチャし、コンテキスト対応の要約を生成する。
論文 参考訳(メタデータ) (2025-05-20T10:34:45Z) - HyperG: Hypergraph-Enhanced LLMs for Structured Knowledge [25.279158571663036]
HyperGはハイパーグラフベースの生成フレームワークで、構造化知識を処理する大規模言語モデルの能力を高めることを目的としている。
具体的には、HyperGはまず、スパースデータを文脈情報で拡張し、データ内の拡張情報と複雑な構造的関係の両方をエンコードするために、プロンプト付きハイパーグラフ学習ネットワークを組み込む。
HyperGの有効性と一般化を検証するために、構造化知識を必要とする2つの下流タスクにまたがる広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-25T11:47:32Z) - Text Clustering with Large Language Model Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。