論文の概要: A Reproducible, Scalable Pipeline for Synthesizing Autoregressive Model Literature
- arxiv url: http://arxiv.org/abs/2508.04612v1
- Date: Wed, 06 Aug 2025 16:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.825916
- Title: A Reproducible, Scalable Pipeline for Synthesizing Autoregressive Model Literature
- Title(参考訳): 自己回帰モデル文学を合成する再生可能でスケーラブルなパイプライン
- Authors: Faruk Alpay, Bugra Kilictas, Hamdi Alakkad,
- Abstract要約: 自己回帰生成モデルは何千もの論文を生み出しており、手動による文献調査や再生研究はますます非現実的になっている。
パブリックリポジトリから候補文書を自動的に検索する,完全オープンソースで再現可能なパイプラインを提案する。
最大1000の論文のコーパスの実験では、8人のCPUワーカーによるほぼ直線的なスケーラビリティが実証されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The accelerating pace of research on autoregressive generative models has produced thousands of papers, making manual literature surveys and reproduction studies increasingly impractical. We present a fully open-source, reproducible pipeline that automatically retrieves candidate documents from public repositories, filters them for relevance, extracts metadata, hyper-parameters and reported results, clusters topics, produces retrieval-augmented summaries and generates containerised scripts for re-running selected experiments. Quantitative evaluation on 50 manually-annotated papers shows F1 scores above 0.85 for relevance classification, hyper-parameter extraction and citation identification. Experiments on corpora of up to 1000 papers demonstrate near-linear scalability with eight CPU workers. Three case studies -- AWD-LSTM on WikiText-2, Transformer-XL on WikiText-103 and an autoregressive music model on the Lakh MIDI dataset -- confirm that the extracted settings support faithful reproduction, achieving test perplexities within 1--3% of the original reports.
- Abstract(参考訳): 自己回帰生成モデルの研究の加速ペースは何千もの論文を生み出しており、手動による文献調査や再生研究はますます現実的ではないものになっている。
提案する完全オープンソースで再現可能なパイプラインは,公開リポジトリから候補文書を自動的に検索し,関連性のためにフィルタし,メタデータ,ハイパーパラメータ,レポート結果,クラスタトピック,検索拡張要約の生成,選択した実験の再実行のためのコンテナ化されたスクリプトを生成する。
手動による50紙の定量的評価では、F1スコアが0.85以上であり、関連分類、ハイパーパラメータ抽出、引用同定が可能である。
最大1000の論文のコーパスの実験では、8人のCPUワーカーによるほぼ直線的なスケーラビリティが実証されている。
WikiText-2のAWD-LSTM、WikiText-103のTransformer-XL、Lakh MIDIデータセットの自己回帰音楽モデルという3つのケーススタディは、抽出された設定が忠実な再現をサポートし、元のレポートの1~3%以内にテストの難易度を達成することを確認している。
関連論文リスト
- Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [53.17363502535395]
信頼できる言語モデルは、正しい答えと検証可能な答えの両方を提供するべきです。
現在のシステムは、外部レトリバーを推論時にクエリすることで、引用を挿入する。
本稿では,合成QAペアを継続的に事前訓練するActive Indexingを提案する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Enhanced Multi-Tuple Extraction for Alloys: Integrating Pointer Networks and Augmented Attention [6.938202451113495]
本稿では,MatSciBERTに基づく抽出モデルとポインタとアロケーションモデルを組み合わせた新しいフレームワークを提案する。
抽出実験では,データセット間のF1スコアが0.947,0.93,0.753であった。
これらの結果は、正確で構造化された情報を提供するためのモデルの能力を強調します。
論文 参考訳(メタデータ) (2025-03-10T02:39:06Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models [14.023953508288628]
検索拡張生成(RAG)パイプラインは、質問応答(QA)などのタスクで一般的に使用される。
本稿では,利用可能な文書から合成データを生成する新しい手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2024-10-16T08:43:39Z) - Text2Topic: Multi-Label Text Classification System for Efficient Topic
Detection in User Generated Content with Zero-Shot Capabilities [2.7311827519141363]
マルチラベル分類性能の高いText to Topic(Text2Topic)を提案する。
Text2Topicはゼロショット予測をサポートし、ドメイン固有のテキスト埋め込みを生成し、プロダクションスケールのバッチ推論を可能にする。
このモデルは現実世界のストリーム処理プラットフォームにデプロイされ、92.9%のマイクロmAPで他のモデルより優れている。
論文 参考訳(メタデータ) (2023-10-23T11:33:24Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - The GINCO Training Dataset for Web Genre Identification of Documents Out
in the Wild [0.0]
データセットは、機械翻訳コンテンツ、エンコーディングエラー、ひとつのドキュメントに表示される複数のコンテンツなど、Webベースのデータに関連するさまざまな課題で構成されている。
最初の機械学習実験では、(1)トランスフォーマー前のモデルでは0.22程度のマクロF1メトリクスで現象をモデル化することができず、(2)トランスフォーマーベースのモデルは0.58のスコアを獲得し、(2)マルチリンガルトランスフォーマーモデルは、標準NLPタスクのマルチリンガルモデルよりも優れていることが証明されたモノリンガルモデルと同様にタスク上でも動作することを示した。
論文 参考訳(メタデータ) (2022-01-11T09:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。