論文の概要: Retrieval-based Disentangled Representation Learning with Natural
Language Supervision
- arxiv url: http://arxiv.org/abs/2212.07699v2
- Date: Sat, 10 Feb 2024 10:12:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 01:29:51.228682
- Title: Retrieval-based Disentangled Representation Learning with Natural
Language Supervision
- Title(参考訳): 自然言語指導による検索に基づく異方性表現学習
- Authors: Jiawei Zhou, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Lei Chen
- Abstract要約: 本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
- 参考スコア(独自算出の注目度): 61.75109410513864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disentangled representation learning remains challenging as the underlying
factors of variation in the data do not naturally exist. The inherent
complexity of real-world data makes it unfeasible to exhaustively enumerate and
encapsulate all its variations within a finite set of factors. However, it is
worth noting that most real-world data have linguistic equivalents, typically
in the form of textual descriptions. These linguistic counterparts can
represent the data and effortlessly decomposed into distinct tokens. In light
of this, we present Vocabulary Disentangled Retrieval (VDR), a retrieval-based
framework that harnesses natural language as proxies of the underlying data
variation to drive disentangled representation learning. Our approach employ a
bi-encoder model to represent both data and natural language in a vocabulary
space, enabling the model to distinguish dimensions that capture intrinsic
characteristics within data through its natural language counterpart, thus
facilitating disentanglement. We extensively assess the performance of VDR
across 15 retrieval benchmark datasets, covering text-to-text and cross-modal
retrieval scenarios, as well as human evaluation. Our experimental results
compellingly demonstrate the superiority of VDR over previous bi-encoder
retrievers with comparable model size and training costs, achieving an
impressive 8.7% improvement in NDCG@10 on the BEIR benchmark, a 5.3% increase
on MS COCO, and a 6.0% increase on Flickr30k in terms of mean recall in the
zero-shot setting. Moreover, The results from human evaluation indicate that
interpretability of our method is on par with SOTA captioning models.
- Abstract(参考訳): データのばらつきの根本的な要因が自然に存在しないため、乱れのある表現学習は依然として困難である。
実世界のデータの本質的な複雑さは、すべての変動を有限個の要素に包含することができない。
しかし、ほとんどの現実世界のデータは、典型的にはテキスト記述の形で、言語的等価性を持っていることに注意する必要がある。
これらの言語対応語はデータを表現することができ、無益に異なるトークンに分解される。
そこで本研究では,自然言語を基盤となるデータ変動のプロキシとして活用し,異種表現学習を駆動する検索フレームワークであるvdr(words disentangled retrieval)を提案する。
本手法では,語彙空間におけるデータと自然言語の両方を表現するために,バイエンコーダモデルを用いる。
我々は,15の検索ベンチマークデータセットにおけるvdrの性能を広範囲に評価し,テキスト対テキストおよびクロスモーダル検索シナリオを網羅し,人間による評価を行った。
実験の結果,従来のモデルサイズとトレーニングコストに匹敵するVDRよりも優れており,BEIRベンチマークではNDCG@10が8.7%,MS COCOが5.3%,Flickr30kが6.0%向上した。
また,人間による評価の結果,SOTAキャプションモデルと同等の解釈可能性を示した。
関連論文リスト
- Towards Robustness of Text-to-Visualization Translation against Lexical and Phrasal Variability [27.16741353384065]
テキスト・トゥ・バイ・モデルはしばしば、質問における単語間の語彙マッチングとデータスキーマにおけるトークンに依存している。
本研究では,これまで検討されていない領域である現行のテキスト・ツー・ヴィジュア・モデルのロバスト性について検討する。
本稿では,2つの変種における入力摂動に対処するために特別に設計されたGRED(Retrieval-Augmented Generation, RAG)技術に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T16:12:50Z) - Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - Dissecting vocabulary biases datasets through statistical testing and
automated data augmentation for artifact mitigation in Natural Language
Inference [3.154631846975021]
我々は、データセットのアーティファクトを調査し、これらの問題に対処するための戦略を開発することに重点を置いている。
文字レベルから単語レベルにまたがる複数の自動データ拡張戦略を提案する。
実験により,提案手法はモデル精度を効果的に向上し,バイアスを最大0.66%,バイアスを1.14%低減することを示した。
論文 参考訳(メタデータ) (2023-12-14T08:46:26Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - On-the-fly Text Retrieval for End-to-End ASR Adaptation [9.304386210911822]
本稿では,部分的ASR仮説に対して,外部テキストコーパスから可算完了を抽出する検索言語モデルを用いてトランスデューサベースのASRモデルを強化することを提案する。
実験の結果,提案モデルにより,一対の質問応答データセット上でのトランスデューサベースラインの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-03-20T08:54:40Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。