Fugu-MT 論文翻訳(概要): Minerva: A Programmable Memory Test Benchmark for Language Models

論文の概要: Minerva: A Programmable Memory Test Benchmark for Language Models

arxiv url: http://arxiv.org/abs/2502.03358v1
Date: Wed, 05 Feb 2025 16:53:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:51.17995
Title: Minerva: A Programmable Memory Test Benchmark for Language Models
Title（参考訳）: Minerva: 言語モデルのためのプログラム可能なメモリテストベンチマーク
Authors: Menglin Xia, Victor Ruehle, Saravan Rajmohan, Reza Shokri,
Abstract要約: 本稿では、モデルがメモリを効果的に活用できる能力を評価するために、包括的なテストを自動的に生成するフレームワークを提案する。我々は、検索、リコール、編集、マッチング、文脈記憶における情報の比較といったアトミックなタスクのモデルを評価する。我々のベンチマークでは,LLMのメモリ能力の解釈可能かつ詳細な評価が可能である。
参考スコア（独自算出の注目度）: 18.474144165594225
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: How effectively can LLM-based AI assistants utilize their memory (context) to perform various tasks? Traditional data benchmarks, which are often manually crafted, suffer from several limitations: they are static, susceptible to overfitting, difficult to interpret, and lack actionable insights--failing to pinpoint the specific capabilities a model lacks when it does not pass a test. In this paper, we present a framework for automatically generating a comprehensive set of tests to evaluate models' abilities to use their memory effectively. Our framework extends the range of capability tests beyond the commonly explored (passkey, key-value, needle in the haystack) search, a dominant focus in the literature. Specifically, we evaluate models on atomic tasks such as searching, recalling, editing, matching, comparing information in context memory, and performing basic operations when inputs are structured into distinct blocks, simulating real-world data. Additionally, we design composite tests to investigate the models' ability to maintain state while operating on memory. Our benchmark enables an interpretable, detailed assessment of memory capabilities of LLMs.
Abstract（参考訳）: LLMベースのAIアシスタントは、メモリ(コンテキスト)を使用して、さまざまなタスクを効果的に実行できますか? 静的で、過度に適合し、解釈が困難で、動作可能な洞察が欠如している。本稿では,モデルがメモリを効果的に活用できる能力を評価するために,総合的なテストセットを自動的に生成するフレームワークを提案する。我々のフレームワークは、一般的に研究されている(パスキー、キー値、ヘイスタック内の針)検索以上の能力テストの範囲を拡張しています。具体的には、検索、リコール、編集、マッチング、コンテキストメモリの情報の比較、入力が異なるブロックに構造化された場合の基本操作の実行、実世界のデータのシミュレートなど、アトミックなタスクに関するモデルを評価する。さらに,モデルがメモリ上で動作しながら状態を維持する能力を調べるための複合的なテストも設計する。我々のベンチマークでは,LLMのメモリ能力の解釈可能かつ詳細な評価が可能である。

関連論文リスト

FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文参考訳（メタデータ） (2025-06-18T17:06:28Z)
LLM Performance for Code Generation on Noisy Tasks [0.41942958779358674]
大規模言語モデル(LLM)は、テキストが人間の読み手には理解できないレベルまで難解なタスクを解くことができることを示す。汚染されたデータセットと目に見えないデータセットの異なる性能劣化パターンの実証的証拠を報告する。そこで本研究では, 難燃化下での性能低下を, データセット汚染検出の可能な戦略として提案する。
論文参考訳（メタデータ） (2025-05-29T16:11:18Z)
Enhancing LLM's Ability to Generate More Repository-Aware Unit Tests Through Precise Contextual Information Injection [4.367526927436771]
プロンプトエンジニアリングによって導かれる大規模言語モデル(LLM)は、幅広いタスクを扱う能力に注目を集めている。 LLMは、プロジェクトのグローバルな文脈に対する認識の欠如により、焦点メソッドや関数の単体テストを生成する際に幻覚を示す可能性がある。我々は,レポジトリ対応の単体テストを生成するLLMの能力を向上するRATesterを提案する。
論文参考訳（メタデータ） (2025-01-13T15:43:36Z)
Detecting Memorization in Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理において驚くべき結果を得たが、トレーニングデータの一部を記憶する傾向にある。従来の暗記検出方法は出力確率や損失関数に依存している。 LLM内のニューロンの活性化を調べることによって,記憶を正確に検出する解析手法を提案する。
論文参考訳（メタデータ） (2024-12-02T00:17:43Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文参考訳（メタデータ） (2024-07-29T08:11:20Z)
Needle in the Haystack for Memory Based Large Language Models [31.885539843977472]
現在の大規模言語モデル(LLM)は、単純な事実検索タスクではよく機能しない。動的に適応可能な外部メモリをLCMに結合することでこの問題を軽減することができるか検討する。テキストサンプルのエピソードを高速に書き書きできるLarimarの外部メモリは、テスト時に、トレーニング中に見られるものよりもはるかに長いコンテキストを扱うために使用できることを示した。
論文参考訳（メタデータ） (2024-07-01T16:32:16Z)
Elephants Never Forget: Testing Language Models for Memorization of Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文参考訳（メタデータ） (2024-03-11T12:07:13Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文参考訳（メタデータ） (2023-05-30T06:40:08Z)
RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文参考訳（メタデータ） (2023-05-23T17:53:38Z)
ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文参考訳（メタデータ） (2022-07-27T07:46:23Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Improving Meta-learning for Low-resource Text Classification and Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。本手法の有効性を証明するために理論的解析を行った。
論文参考訳（メタデータ） (2022-03-22T12:41:55Z)
KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。 KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文参考訳（メタデータ） (2020-09-04T15:32:19Z)
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文参考訳（メタデータ） (2020-05-22T21:34:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。