論文の概要: On the Representational Limits of Quantum-Inspired 1024-D Document Embeddings: An Experimental Evaluation Framework
- arxiv url: http://arxiv.org/abs/2604.09430v1
- Date: Fri, 10 Apr 2026 15:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.941725
- Title: On the Representational Limits of Quantum-Inspired 1024-D Document Embeddings: An Experimental Evaluation Framework
- Title(参考訳): 量子インスパイアされた1024次元文書埋め込みの表現限界について:実験的評価フレームワーク
- Authors: Dario Maio,
- Abstract要約: 本稿では,量子インスパイアされた1024次元文書の埋め込みを構築するための実験フレームワークを提案する。
このパイプラインは意味的射影(例えば、EigAngle)、ヒルベルトにインスパイアされた特徴写像、教師による蒸留を組み合わせたものである。
BM25は依然として強力なベースラインであり、教師の埋め込みは安定したセマンティック構造を提供し、スタンドアローンの量子インスパイアされた埋め込みは弱く不安定なランキング信号を示す。
- 参考スコア(独自算出の注目度): 0.40611352512781856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text embeddings are central to modern information retrieval and Retrieval-Augmented Generation (RAG). While dense models derived from Large Language Models (LLMs) dominate current practice, recent work has explored quantum-inspired alternatives motivated by the geometric properties of Hilbert-like spaces and their potential to encode richer semantic structure. This paper presents an experimental framework for constructing quantum-inspired 1024-dimensional document embeddings based on overlapping windows and multi-scale aggregation. The pipeline combines semantic projections (e.g., EigAngle), circuit-inspired feature mappings, and optional teacher-student distillation, together with a fingerprinting mechanism for reproducibility and controlled evaluation. We introduce a set of diagnostic tools for hybrid retrieval, including static and dynamic interpolation between BM25 and embedding-based scores, candidate union strategies, and a conceptual alpha-oracle that provides an upper bound for score-level fusion. Experiments on controlled corpora of Italian and English documents across technical, narrative, and legal domains, using synthetic queries, show that BM25 remains a strong baseline, teacher embeddings provide stable semantic structure, and standalone quantum-inspired embeddings exhibit weak and unstable ranking signals. Distillation yields mixed effects, improving alignment in some cases but not consistently enhancing retrieval performance, while hybrid retrieval can recover competitive results when lexical and embedding-based signals are combined. Overall, the results highlight structural limitations in the geometry of quantum-inspired embeddings, including distance compression and ranking instability, and clarify their role as auxiliary components rather than standalone retrieval representations.
- Abstract(参考訳): テキストの埋め込みは、現代の情報検索と検索-拡張生成(RAG)の中心である。
近年,Large Language Models (LLMs) から派生した高密度モデルは,Hilbert型空間の幾何学的性質と,よりリッチな意味構造をエンコードする可能性から,量子に着想を得た代替品を探索している。
本稿では,重なり合うウィンドウとマルチスケールアグリゲーションに基づく量子インスパイアされた1024次元文書埋め込みを構築するための実験フレームワークを提案する。
このパイプラインは、セマンティックプロジェクション(例えば、EigAngle)、回路にインスパイアされた特徴マッピング、オプションの教師と学生の蒸留、再現性と制御された評価のための指紋認証機構を組み合わせる。
本稿では,BM25と埋め込み型スコアの静的および動的補間,候補結合戦略,スコアレベル融合の上限を提供する概念的アルファオーラクルなど,ハイブリッド検索のための診断ツールセットを紹介する。
技術的、物語的、法的な領域にわたるイタリア語と英語の文書の制御コーパスの実験では、BM25は強力なベースラインであり、教師の埋め込みは安定した意味構造を提供し、スタンドアローンの量子インスパイアされた埋め込みは弱く不安定なランキング信号を示す。
蒸留によって混合効果が得られ、場合によってはアライメントが向上するが、検索性能は一貫して向上しない。
全体としては、距離圧縮やランクの不安定性を含む量子に着想を得た埋め込みの幾何学における構造的制限を強調し、スタンドアローンの検索表現よりも補助的なコンポーネントとしての役割を明らかにする。
関連論文リスト
- Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Mixture-of-Models: Unifying Heterogeneous Agents via N-Way Self-Evaluating Deliberation [0.0]
本稿では,N-Way Self-Evaluating Deliberation (NSED) プロトコル,Mixture-of-Models (MoM) アーキテクチャを提案する。
静的ゲーティングネットワークに依存する従来のMixture-of-Experts (MoE)とは異なり、NSEDはモデル選択をKnapsack問題のバリエーションとして扱うDynamic Expertise Brokerを使用している。
論文 参考訳(メタデータ) (2026-01-23T16:11:54Z) - Enhancing Retrieval-Augmented Generation with Topic-Enriched Embeddings: A Hybrid Approach Integrating Traditional NLP Techniques [0.0]
本研究は,用語ベースの信号と話題構造を文脈文の埋め込みと統合したトピック強化埋め込みを提案する。
項レベルのセマンティクスとトピックレベルのセマンティクスを併用することにより、トピックに富んだ埋め込みはセマンティクスクラスタリングを改善し、検索精度を高め、計算負担を軽減する。
論文 参考訳(メタデータ) (2025-12-31T13:43:57Z) - Multi-label Classification with Panoptic Context Aggregation Networks [61.82285737410154]
本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。
PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。
NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-12-29T14:16:21Z) - Hybrid Retrieval-Augmented Generation for Robust Multilingual Document Question Answering [0.3376269351435395]
大規模なデジタル化のイニシアチブは、多くの歴史新聞を解き放った。
雑音の多い歴史文書に対する質問応答に特化して設計された多言語検索型拡張生成パイプラインを開発し,評価する。
論文 参考訳(メタデータ) (2025-12-14T13:57:05Z) - HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation [72.69742127579508]
最近の統一モデルでは、理解の専門家(LLMなど)と生成の専門家(拡散モデルなど)を統合している。
本研究では,非対称なH字型アーキテクチャであるHBridgeを提案する。
複数のベンチマークにわたる大規模な実験は、HBridgeの有効性と優れた性能を示している。
論文 参考訳(メタデータ) (2025-11-25T17:23:38Z) - SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion [34.41683042851225]
そこで本研究では,リソース最適化検索拡張手法であるSaraCoderを提案する。
限られたコンテキストウィンドウにおいて、情報の多様性と代表性を最大化する。
我々の研究は、複数の次元にわたる検索結果を体系的に洗練することは、より正確でリソース最適化されたリポジトリレベルのコード補完システムを構築するための新しいパラダイムを提供することを証明している。
論文 参考訳(メタデータ) (2025-08-13T11:56:05Z) - Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - Context-Guided Dynamic Retrieval for Improving Generation Quality in RAG Models [2.9687381456164004]
意味理解と知識スケジューリングの効率化を図るための状態認識型動的知識検索機構を提案する。
提案した構造は, GPT-4, GPT-4o, DeepSeek など,様々な大規模モデルで徹底的に評価されている。
このアプローチはまた、意味的あいまいさとマルチドキュメント融合を含むタスクにおいて、強い堅牢性と生成一貫性を示す。
論文 参考訳(メタデータ) (2025-04-28T02:50:45Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。