論文の概要: Who Are All The Stochastic Parrots Imitating? They Should Tell Us!
- arxiv url: http://arxiv.org/abs/2310.10583v2
- Date: Tue, 29 Oct 2024 17:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 02:59:42.766681
- Title: Who Are All The Stochastic Parrots Imitating? They Should Tell Us!
- Title(参考訳): 確率的なオウムは、誰だ?
- Authors: Sagi Shaier, Lawrence E. Hunter, Katharina von der Wense,
- Abstract要約: 彼らの状態にあるLMは、クリティカルな設定で完全に信頼できないだろう、と私たちは主張する。
この問題に対処するための新たな戦略として,ソースを引用可能なLMを構築することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Both standalone language models (LMs) as well as LMs within downstream-task systems have been shown to generate statements which are factually untrue. This problem is especially severe for low-resource languages, where training data is scarce and of worse quality than for high-resource languages. In this opinion piece, we argue that LMs in their current state will never be fully trustworthy in critical settings and suggest a possible novel strategy to handle this issue: by building LMs such that can cite their sources - i.e., point a user to the parts of their training data that back up their outputs. We first discuss which current NLP tasks would or would not benefit from such models. We then highlight the expected benefits such models would bring, e.g., quick verifiability of statements. We end by outlining the individual tasks that would need to be solved on the way to developing LMs with the ability to cite. We hope to start a discussion about the field's current approach to building LMs, especially for low-resource languages, and the role of the training data in explaining model generations.
- Abstract(参考訳): スタンドアローン言語モデル(LM)と下流タスクシステム内のLMの両方が、事実的に非真実であるステートメントを生成することが示されている。
この問題は、トレーニングデータが乏しく、高リソース言語よりも品質が悪い低リソース言語では特に深刻である。
この意見書では、現在のLMは批判的な設定で完全に信頼できないと論じ、この問題に対処する可能性のある新しい戦略を提案する: LMを構築することで、ソースを引用できる、すなわち、アウトプットをバックアップするトレーニングデータの一部にユーザーを向ける。
我々はまず、現在のNLPタスクがそのようなモデルの恩恵を受けるかどうかを議論する。
次に、そのようなモデルがもたらす期待される利点、例えば、文の迅速な検証可能性を強調します。
最終的には、引用する能力を備えたLMを開発する途中で解決すべき個々のタスクの概要を述べます。
我々は、特に低リソース言語におけるLMの構築に対するこの分野の現在のアプローチと、モデル世代の説明におけるトレーニングデータの役割について、議論を始めたいと思っています。
関連論文リスト
- What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - In-Context Retrieval-Augmented Language Models [28.23702459322163]
In-Context RALMは市販の汎用検索機を利用して、モデルサイズや多様なコーパスに対して驚くほど大きなLMゲインを提供する。
In-Context RALM は LM の接地頻度を増大させる可能性があると結論付けている。
論文 参考訳(メタデータ) (2023-01-31T20:26:16Z) - Discovering Language Model Behaviors with Model-Written Evaluations [18.24267922379281]
言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。
ここでは、LMによる評価を自動的に生成する。
我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。
論文 参考訳(メタデータ) (2022-12-19T05:13:52Z) - Language Models as Agent Models [42.37422271002712]
LMは、特定の狭義の意図的なコミュニケーションのモデルである、と私は主張する。
今日の非破壊的かつエラーを起こしやすいモデルでさえ、LMはきめ細かいコミュニケーション意図の表現を推論し、使用します。
論文 参考訳(メタデータ) (2022-12-03T20:18:16Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。