論文の概要: GEAR: A Simple GENERATE, EMBED, AVERAGE AND RANK Approach for Unsupervised Reverse Dictionary
- arxiv url: http://arxiv.org/abs/2412.06654v1
- Date: Mon, 09 Dec 2024 16:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:43.466544
- Title: GEAR: A Simple GENERATE, EMBED, AVERAGE AND RANK Approach for Unsupervised Reverse Dictionary
- Title(参考訳): GEAR: 教師なし逆辞書のための簡易生成, 埋め込み, 平均およびランクアプローチ
- Authors: Fatemah Almeman, Luis Espinosa-Anke,
- Abstract要約: リバース辞書(Reverse Dictionary、RD)は、テキスト記述や辞書定義が与えられた単語の集合や最も関連性の高い単語を取得するタスクである。
本稿では,埋め込みモデルと組み合わせてLLMを利用するRDへの簡単なアプローチを提案する。
LLMのみのベースラインよりは、平均して、修正されていない埋め込みだけで運が良いと結論づける。
- 参考スコア(独自算出の注目度): 10.756673240445709
- License:
- Abstract: Reverse Dictionary (RD) is the task of obtaining the most relevant word or set of words given a textual description or dictionary definition. Effective RD methods have applications in accessibility, translation or writing support systems. Moreover, in NLP research we find RD to be used to benchmark text encoders at various granularities, as it often requires word, definition and sentence embeddings. In this paper, we propose a simple approach to RD that leverages LLMs in combination with embedding models. Despite its simplicity, this approach outperforms supervised baselines in well studied RD datasets, while also showing less over-fitting. We also conduct a number of experiments on different dictionaries and analyze how different styles, registers and target audiences impact the quality of RD systems. We conclude that, on average, untuned embeddings alone fare way below an LLM-only baseline (although they are competitive in highly technical dictionaries), but are crucial for boosting performance in combined methods.
- Abstract(参考訳): リバース辞書(Reverse Dictionary、RD)は、テキスト記述や辞書定義が与えられた単語の集合や最も関連性の高い単語を取得するタスクである。
有効なRDメソッドはアクセシビリティ、翻訳、書き込み支援システムに応用できる。
さらに,NLP研究では,単語,定義,文の埋め込みを必要とすることが多いため,テキストエンコーダを様々な粒度でベンチマークするためにRDを用いる。
本稿では,埋め込みモデルと組み合わせてLLMを利用するRDへの簡単なアプローチを提案する。
その単純さにもかかわらず、このアプローチは、よく研究されたRDデータセットにおいて、教師付きベースラインよりも優れています。
また、異なる辞書で多くの実験を行い、異なるスタイル、レジスタ、ターゲットオーディエンスがどのようにRDシステムの品質に影響を与えるかを分析します。
結論として,LLMのみのベースラインよりはるかに低い(高度技術辞書では競争力があるが)が,組み合わせ手法の性能向上には欠かせない。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - End-to-End Open Vocabulary Keyword Search With Multilingual Neural
Representations [7.780766187171571]
競合性能を実現するニューラルネットワークによるASRフリーキーワード検索モデルを提案する。
本研究は,多言語事前学習と詳細なモデル解析により拡張する。
実験の結果,提案した多言語学習はモデルの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-15T20:33:25Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Automatic Creation of Named Entity Recognition Datasets by Querying
Phrase Representations [20.00016240535205]
ほとんどの弱教師付きエンティティ認識モデルは、専門家によって提供されるドメイン固有の辞書に依存している。
高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。
5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。
論文 参考訳(メタデータ) (2022-10-14T07:36:44Z) - Multi-Label Contrastive Learning for Abstract Visual Reasoning [0.0]
Ravenのプログレッシブマトリクスを解く最先端のシステムは、大量のパターンベースのトレーニングとデータセットのバイアスを利用する。
人間は、解決すべきRPM(または一般的には視覚的推論タスク)の根底にあるルールや概念の識別に集中する。
本稿では,新しいトレーニングアルゴリズムに加えて,最先端性能に寄与する重要な要因であるRPMのスパースルール符号化方式を提案する。
論文 参考訳(メタデータ) (2020-12-03T14:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。