論文の概要: Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling
- arxiv url: http://arxiv.org/abs/2205.12986v1
- Date: Wed, 25 May 2022 18:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 14:12:11.626480
- Title: Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling
- Title(参考訳): Transcormer:スライディング言語モデリングを用いた文スコーリング用トランスフォーマ
- Authors: Kaitao Song, Yichong Leng, Xu Tan, Yicheng Zou, Tao Qin, Dongsheng Li
- Abstract要約: 文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
- 参考スコア(独自算出の注目度): 95.9542389945259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence scoring aims at measuring the likelihood score of a sentence and is
widely used in many natural language processing scenarios, like reranking,
which is to select the best sentence from multiple candidates. Previous works
on sentence scoring mainly adopted either causal language modeling (CLM) like
GPT or masked language modeling (MLM) like BERT, which have some limitations:
1) CLM only utilizes unidirectional information for the probability estimation
of a sentence without considering bidirectional context, which affects the
scoring quality; 2) MLM can only estimate the probability of partial tokens at
a time and thus requires multiple forward passes to estimate the probability of
the whole sentence, which incurs large computation and time cost. In this
paper, we propose \textit{Transcormer} -- a Transformer model with a novel
\textit{sliding language modeling} (SLM) for sentence scoring. Specifically,
our SLM adopts a triple-stream self-attention mechanism to estimate the
probability of all tokens in a sentence with bidirectional context and only
requires a single forward pass. SLM can avoid the limitations of CLM (only
unidirectional context) and MLM (multiple forward passes) and inherit their
advantages, and thus achieve high effectiveness and efficiency in scoring.
Experimental results on multiple tasks demonstrate that our method achieves
better performance than other language modelings.
- Abstract(参考訳): 文スコアは、文の確率スコアを測定することを目的としており、複数の候補から最高の文を選択するために、再ランク付けのような多くの自然言語処理シナリオで広く使われている。
GPTのような因果言語モデリング (CLM) やBERTのようなマスキング言語モデリング (MLM) など、いくつかの制限がある。
1)CLMは、評価品質に影響を与える双方向コンテキストを考慮せずに、文の確率推定に一方向情報のみを利用する。
2) MLM は部分トークンの確率を一度に見積もることができるため,文全体の確率を推定するために複数の前方通過が必要となる。
本稿では,文スコアリングのための新しい \textit{sliding language modeling} (slm) を持つトランスフォーマーモデルである \textit{transcormer} を提案する。
具体的には,文中の全てのトークンの確率を双方向の文脈で推定する3重ストリーム自己アテンション機構を採用し,単一のフォワードパスしか必要としない。
SLMは、CLM(一方向コンテキストのみ)とMLM(複数前方パス)の制限を回避し、それらの利点を継承し、スコアリングにおける高い効率と効率を達成する。
複数のタスクにおける実験結果から,本手法は他の言語モデルよりも優れた性能が得られた。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。
4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。
句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文 参考訳(メタデータ) (2024-12-10T22:57:57Z) - Language Models and Cycle Consistency for Self-Reflective Machine Translation [1.79487674052027]
我々は、ソース言語Aからターゲット言語Bへの複数の翻訳候補を生成し、その後、これらの候補を元の言語Aに翻訳する。
トークンレベルの精度や精度などの指標を用いて、原文と裏文の周期一貫性を評価することにより、言語Bの翻訳品質を暗黙的に推定する。
各原文に対して、翻訳候補を、原文と最適なサイクル整合性で同定し、最終回答とする。
論文 参考訳(メタデータ) (2024-11-05T04:01:41Z) - Exploring Continual Fine-Tuning for Enhancing Language Ability in Large Language Model [14.92282077647913]
CFT(Continuous Fine-tuning)は、LLMを逐次微調整することで、モデルが下流のタスクに適応できるようにするプロセスである。
多言語データセット上で英語のみの細調整LDMを逐次微調整する2相CFTプロセスについて検討する。
第2相タスクと第1相タスクの類似性'''がLCMの適応性を決定することを観察する。
論文 参考訳(メタデータ) (2024-10-21T13:39:03Z) - Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in
Low-Resource Languages [0.0]
プロンプティング(prompting)とは、ユーザがタスクの説明と完了したタスクのいくつかの例を PLM にコンテキストとして提供し、PLM に新しい例でタスクを実行するように促す方法である。
提案手法は, 数発プロンプト(prompt), 言語適応微調整(LAFT), ニューラルマシン翻訳(Translate)の3種類である。
翻訳とプロンプトの設定は、選択した低リソース言語に対して、数ショットプロンプトの計算効率とコスト効率のよい方法であることがわかった。
論文 参考訳(メタデータ) (2024-03-09T21:36:13Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。