Fugu-MT 論文翻訳(概要): Validating Large Language Models with ReLM

論文の概要: Validating Large Language Models with ReLM

arxiv url: http://arxiv.org/abs/2211.15458v1
Date: Mon, 21 Nov 2022 21:40:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-04 13:50:26.763419
Title: Validating Large Language Models with ReLM
Title（参考訳）: ReLMによる大規模言語モデルの検証
Authors: Michael Kuchnik, Virginia Smith, George Amvrosiadis
Abstract要約: 大規模言語モデル(LLM)は、自然に聞こえるテキストを生成する能力があるとして、高く評価されている。データ記憶、バイアス、不適切な言語など、LLMのネガティブな影響に関する懸念が高まっている。本稿では,標準正規表現を用いたLLMの検証・クエリシステムであるReLMを紹介する。
参考スコア（独自算出の注目度）: 11.552979853457117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although large language models (LLMs) have been touted for their ability to generate natural-sounding text, there are growing concerns around possible negative effects of LLMs such as data memorization, bias, and inappropriate language. Unfortunately, the complexity and generation capacities of LLMs make validating (and correcting) such concerns difficult. In this work, we introduce ReLM, a system for validating and querying LLMs using standard regular expressions. ReLM formalizes and enables a broad range of language model evaluations, reducing complex evaluation rules to simple regular expression queries. Our results exploring queries surrounding memorization, gender bias, toxicity, and language understanding show that ReLM achieves up to 15x higher system efficiency, 2.5x data efficiency, and increased statistical and prompt-tuning coverage compared to state-of-the-art ad-hoc queries. ReLM offers a competitive and general baseline for the increasingly important problem of LLM validation.
Abstract（参考訳）: 大規模言語モデル(llm)は自然に発音されるテキストを生成する能力が評価されているが、データの記憶やバイアス、不適切な言語といったllmの悪影響に関する懸念が高まっている。残念ながら、LSMの複雑さと生成能力は、そのような懸念を検証(修正)することを困難にしている。本研究では,標準正規表現を用いたLLMの検証・クエリシステムであるReLMを紹介する。 ReLMは言語モデルの評価を多岐にわたって形式化し、複雑な評価ルールを単純な正規表現クエリに短縮する。以上の結果から,ReLMのシステム効率は最大15倍に向上し,データ効率は2.5倍に向上し,最先端のアドホッククエリと比較して統計的,即時的なカバレッジが向上した。 ReLMはLLM検証の重要な問題に対して、競争力と一般的なベースラインを提供する。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
Replicating ReLM Results: Validating Large Language Models with ReLM [0.0]
このプロジェクトは、オリジナルのReLM論文の重要な成果を再現し、機械学習のシステム分野に重点を置いて、アプローチと応用について解説する。
論文参考訳（メタデータ） (2025-04-16T02:58:48Z)
Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。重要な課題は、時に事実的に誤った答えを生じさせることである。本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:59:48Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文参考訳（メタデータ） (2024-10-21T06:11:38Z)
Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models [59.970391602080205]
本研究では,ジェネレーション空間の制約が推論やドメイン知識の理解など,LLMの能力に影響を及ぼすかどうかを検討する。各種共通タスクにおける自由形式の応答を生成するよりも,構造化形式に順応することが制限された場合のLLMの性能を評価する。より厳密なフォーマット制約は、一般的に推論タスクのパフォーマンス低下につながる。
論文参考訳（メタデータ） (2024-08-05T13:08:24Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。 LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文参考訳（メタデータ） (2024-04-03T17:51:18Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2023-11-14T01:38:02Z)
Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。 LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文参考訳（メタデータ） (2023-03-15T12:20:13Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。