論文の概要: Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment
- arxiv url: http://arxiv.org/abs/2410.23437v1
- Date: Wed, 30 Oct 2024 20:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:31.888139
- Title: Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment
- Title(参考訳): Mind the Gap: クロスモーダルな埋め込みアライメントに対する一般的なアプローチ
- Authors: Arihan Yadav, Alan McMillan,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する。
本稿では,これらのギャップを効率的に埋める汎用投影法を提案する。
私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Retrieval-Augmented Generation (RAG) systems enhance text generation by incorporating external knowledge but often struggle when retrieving context across different text modalities due to semantic gaps. We introduce a generalized projection-based method, inspired by adapter modules in transfer learning, that efficiently bridges these gaps between various text types, such as programming code and pseudocode, or English and French sentences. Our approach emphasizes speed, accuracy, and data efficiency, requiring minimal resources for training and inference. By aligning embeddings from heterogeneous text modalities into a unified space through a lightweight projection network, our model significantly outperforms traditional retrieval methods like the Okapi BM25 algorithm and models like Dense Passage Retrieval (DPR), while approaching the accuracy of Sentence Transformers. Extensive evaluations demonstrate the effectiveness and generalizability of our method across different tasks, highlighting its potential for real-time, resource-constrained applications.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部知識を取り入れてテキスト生成を促進するが、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する際には、しばしば苦労する。
本稿では,プログラミングコードや擬似コード,英語とフランス語の文など,様々なテキストタイプ間のギャップを効率的に埋める汎用プロジェクションベースの手法を提案する。
私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
ヘテロジニアステキストモダリティからの埋め込みを軽量なプロジェクションネットワークを通じて統一空間に整列させることにより,本モデルは,Kokapi BM25アルゴリズムやDense Passage Retrieval (DPR) などの従来の検索手法よりも優れ,センテンス変換器の精度に迫られる。
大規模評価では,様々なタスクにまたがる手法の有効性と一般化性を示し,リアルタイム・リソース制約型アプリケーションの可能性を強調した。
関連論文リスト
- Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Decoding Layer Saliency in Language Transformers [0.0]
よりよく研究されている視覚ネットワークでは、サリエンシはネットワークの畳み込み層を通して自然に局所化される。
そこで我々は,これらのネットワークに対して勾配法を適応させ,各レイヤのセマンティックコヒーレンス度を評価する手法を提案し,複数のベンチマーク分類データセットに対して一貫した改善を示す。
論文 参考訳(メタデータ) (2023-08-09T20:53:22Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。
我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。
我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2020-10-24T04:30:02Z) - Collaborative Training of GANs in Continuous and Discrete Spaces for
Text Generation [21.435286755934534]
本稿では,連続空間と離散空間の協調学習を促進する新しいテキストGANアーキテクチャを提案する。
我々のモデルは、品質、多様性、グローバルな一貫性に関して、最先端のGANよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-10-16T07:51:16Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。