論文の概要: Readme_AI: Dynamic Context Construction for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.19322v1
- Date: Fri, 12 Sep 2025 20:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.415895
- Title: Readme_AI: Dynamic Context Construction for Large Language Models
- Title(参考訳): Readme_AI: 大規模言語モデルのための動的コンテキスト構築
- Authors: Millie Vyas, Timothy Blattner, Alden Dima,
- Abstract要約: データソースのコンテキストを動的に構築できる仕様を提案する。
データソースオーナは、データセット関連のクエリを推論する際に使用するLCMのメタデータを含むファイルを生成する。
データソースからメタデータを取得して,コンテキスト構築に使用するReadme_AI Model Context Protocolサーバのプロトタイプを作成します。
- 参考スコア(独自算出の注目度): 0.4726094039607201
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Despite being trained on significant amounts of data, Large Language Models (LLMs) can provide inaccurate or unreliable information in the context of a user's specific query. Given query-specific context significantly improves the usefulness of its responses. In this paper, we present a specification that can be used to dynamically build context for data sources. The data source owner creates the file containing metadata for LLMs to use when reasoning about dataset-related queries. To demonstrate our proposed specification, we created a prototype Readme_AI Model Context Protocol (MCP) server that retrieves the metadata from the data source and uses it to dynamically build context. Some features that make this specification dynamic are the extensible types that represent crawling web-pages, fetching data from data repositories, downloading and parsing publications, and general text. The context is formatted and grouped using user-specified tags that provide clear contextual information for the LLM to reason about the content. We demonstrate the capabilities of this early prototype by asking the LLM about the NIST-developed Hedgehog library, for which common LLMs often provides inaccurate and irrelevant responses containing hallucinations. With Readme_AI, the LLM receives enough context that it is now able to reason about the library and its use, and even generate code interpolated from examples that were included in the Readme_AI file provided by Hedgehog's developer. Our primary contribution is a extensible protocol for dynamically grounding LLMs in specialized, owner-provided data, enhancing responses from LLMs and reducing hallucinations. The source code for the Readme_AI tool is posted here: https://github.com/usnistgov/readme_ai .
- Abstract(参考訳): 大きな言語モデル(LLM)は、大量のデータに基づいてトレーニングされているにもかかわらず、ユーザの特定のクエリのコンテキストにおいて、不正確な情報や信頼性の低い情報を提供することができる。
クエリ固有のコンテキストが与えられた場合、応答の有用性が大幅に向上する。
本稿では,データソースのコンテキストを動的に構築するための仕様を提案する。
データソースオーナは、データセット関連のクエリを推論する際に使用するLCMのメタデータを含むファイルを生成する。
提案した仕様を実証するために,データソースからメタデータを取得して動的にコンテキストを構築するための,Readme_AI Model Context Protocol (MCP) サーバのプロトタイプを作成しました。
この仕様を動的にする機能としては、クローリングWebページを表す拡張可能な型、データリポジトリからのデータのフェッチ、出版物のダウンロードと解析、一般的なテキストなどがある。
コンテキストは、LLMがコンテンツを推論するための明確なコンテキスト情報を提供するユーザ指定タグを使用してフォーマットされ、グループ化される。
我々は,NIST が開発した Hedgehog ライブラリについて LLM に質問することで,この初期プロトタイプの能力を実証する。
Readme_AIでは、LLMはライブラリとその使用について十分なコンテキストを受け取り、Hedgehogの開発者が提供するReadme_AIファイルに含まれるサンプルから解釈されたコードを生成することができる。
我々の主な貢献は、特殊な所有者が提供するデータにLSMを動的に接地し、LSMからの応答を高め、幻覚を減らすための拡張可能なプロトコルである。
Readme_AIツールのソースコードは以下の通りである。
関連論文リスト
- SelfRACG: Enabling LLMs to Self-Express and Retrieve for Code Generation [63.4105693174085]
textbfSelfRACG は,大規模な言語モデル (LLM) がtextbfRACG を強化するために必要な情報を表現できる新しいパラダイムである。
SelfRACGには、情報要求表現モジュールと、2段階の情報要求誘導トレーニング戦略が含まれており、LLMが情報要求を表現することを奨励している。
大規模な実験により、SelfRACGはLLM自身の情報要求によく適合する外部知識を回収できることが示され、バニラRACGよりも優れた世代性能が得られる。
論文 参考訳(メタデータ) (2025-07-25T07:42:01Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。