Fugu-MT 論文翻訳(概要): An LLM Maturity Model for Reliable and Transparent Text-to-Query

論文の概要: An LLM Maturity Model for Reliable and Transparent Text-to-Query

arxiv url: http://arxiv.org/abs/2402.14855v1
Date: Tue, 20 Feb 2024 06:20:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-03 19:28:45.493141
Title: An LLM Maturity Model for Reliable and Transparent Text-to-Query
Title（参考訳）: LLM成熟度モデルによる信頼性・透明テキスト検索
Authors: Lei Yu (Expression) and Abir Ray (Expression)
Abstract要約: 本研究は,テキスト・ツー・クエリ・アプリケーションに適したLLM成熟度モデルを提案する。この成熟度モデルは、単に正確さや精度以上の次元を組み込むことで、そのような応用におけるLCMの評価における既存の空白を埋めようとしている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recognizing the imperative to address the reliability and transparency issues of Large Language Models (LLM), this work proposes an LLM maturity model tailored for text-to-query applications. This maturity model seeks to fill the existing void in evaluating LLMs in such applications by incorporating dimensions beyond mere correctness or accuracy. Moreover, this work introduces a real-world use case from the law enforcement domain and showcases QueryIQ, an LLM-powered, domain-specific text-to-query assistant to expedite user workflows and reveal hidden relationship in data.
Abstract（参考訳）: 本研究は,Large Language Models (LLM) の信頼性と透明性の問題に対処するための必須事項を認識し,テキスト・ツー・クエリ・アプリケーションに適した LLM 成熟度モデルを提案する。この成熟度モデルは、単に正確さや精度以上の次元を組み込むことで、そのような応用におけるLCMの評価における既存の空白を埋めようとしている。さらに、この研究は法執行機関の現実世界のユースケースを導入し、LLMを使ったドメイン固有のテキスト・ツー・クエリ・アシスタントであるQueryIQを紹介し、ユーザのワークフローを迅速化し、データの隠れた関係を明らかにする。

関連論文リスト

IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Claim Verification in the Age of Large Language Models: A Survey [37.32036088774565]
本稿では,Large Language Models (LLMs) を用いた最近のクレーム検証フレームワークについて概説する。これらのフレームワークで使用されるクレーム検証パイプラインのさまざまなコンポーネントを詳述する。
論文参考訳（メタデータ） (2024-08-26T14:45:03Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)
AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe Approach [8.646131951484696]
AuditLLMは様々な大規模言語モデル(LLM)のパフォーマンスを方法論的に監査するために設計された新しいツールである。堅牢で信頼性があり、一貫性のあるLCMは、同じ質問の可変なフレーズ付きバージョンに対する意味論的に類似した応答を生成することが期待されている。あるレベルの矛盾が潜在的なバイアス、幻覚、その他の問題の指標であることが示されている。
論文参考訳（メタデータ） (2024-02-14T17:31:04Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。