論文の概要: Adam's Law: Textual Frequency Law on Large Language Models
- arxiv url: http://arxiv.org/abs/2604.02176v1
- Date: Thu, 02 Apr 2026 15:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.890982
- Title: Adam's Law: Textual Frequency Law on Large Language Models
- Title(参考訳): Adamの法則:大規模言語モデルにおけるテキスト周波数法則
- Authors: Hongyuan Adam Lu, Z. L., Victor Wei, Zefan Zhang, Zhao Hong, Qiqi Xiang, Bowen Cao, Wai Lam,
- Abstract要約: 本稿では,テキストデータ頻度の観点から新たな研究方向を提案する。
私たちのフレームワークは3つのユニットで構成されています。
本データセットでは, 数学推論, 機械翻訳, 常識推論, エージェントツール呼び出しに関する実験を行った。
- 参考スコア(独自算出の注目度): 33.268838163862576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While textual frequency has been validated as relevant to human cognition in reading speed, its relatedness to Large Language Models (LLMs) is seldom studied. We propose a novel research direction in terms of textual data frequency, which is an understudied topic, to the best of our knowledge. Our framework is composed of three units. First, this paper proposes Textual Frequency Law (TFL), which indicates that frequent textual data should be preferred for LLMs for both prompting and fine-tuning. Since many LLMs are closed-source in their training data, we propose using online resources to estimate the sentence-level frequency. We then utilize an input paraphraser to paraphrase the input into a more frequent textual expression. Next, we propose Textual Frequency Distillation (TFD) by querying LLMs to conduct story completion by further extending the sentences in the datasets, and the resulting corpora are used to adjust the initial estimation. Finally, we propose Curriculum Textual Frequency Training (CTFT) that fine-tunes LLMs in an increasing order of sentence-level frequency. Experiments are conducted on our curated dataset Textual Frequency Paired Dataset (TFPD) on math reasoning, machine translation, commonsense reasoning and agentic tool calling. Results show the effectiveness of our framework.
- Abstract(参考訳): 読解速度における人間の認知に関連するものとしてテキストの頻度が検証されているが,Large Language Models (LLMs) との関連はめったに研究されていない。
本稿では,本研究の成果を最大限に活用するために,本研究の課題であるテキストデータ周波数の新たな研究方向を提案する。
私たちのフレームワークは3つのユニットで構成されています。
まず, テキスト周波数法(TFL)を提案し, 高速・微調整の両面において, LLMに対して頻繁なテキストデータを優先すべきであることを示す。
多くのLCMはトレーニングデータにおいてクローズドソースであるため、オンラインリソースを用いて文レベルの頻度を推定する。
次に、入力パラフレーズを使用して、より頻繁なテキスト表現に入力をパラフレーズ化する。
次に,LLMを問合せしてテキスト周波数蒸留(TFD)を提案し,さらにデータセット中の文を拡張してストーリー補完を行い,その結果のコーパスを用いて初期推定を調整した。
最後に,LLMを文レベルの順に微調整するCTFT(Curriculum Textual Frequency Training)を提案する。
計算したデータセットのテキスト周波数ペア化データセット(TFPD)を用いて,数理推論,機械翻訳,常識推論,エージェントツール呼び出しについて実験を行った。
その結果,本フレームワークの有効性が示された。
関連論文リスト
- Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。
提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。
我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文 参考訳(メタデータ) (2025-10-19T22:12:45Z) - TComQA: Extracting Temporal Commonsense from Text [0.9339914898177187]
大規模言語モデル(LLM)は、テキストにしばしば明示的な記述があるため、時間的コモンセンスによる推論を必要とするテキストを生成するのに苦労する。
本稿では,LLMを利用して時間的コモンセンスを自動的にマイニングし,TComQAを構築するための時間的コモンセンス抽出パイプラインを提案する。
TComQAはクラウドソーシングによって検証され、時間的コモンセンスの抽出において80%以上の精度が達成されている。
論文 参考訳(メタデータ) (2025-08-21T06:07:40Z) - Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context [12.781022584125925]
我々は、LLMが文脈を効果的に利用して慣用的意味を曖昧にすることができるかどうかをテストするために設計された、新しい対照データセットを構築した。
以上の結果から, LLMは周囲の状況に適応する必要がある場合, 慣用性の解決に失敗することが多いことが判明した。
コードとデータセットを公開しています。
論文 参考訳(メタデータ) (2024-10-21T14:47:37Z) - On the Role of Context in Reading Time Prediction [50.87306355705826]
我々は,リアルタイム言語理解において,読者がコンテキストをどのように統合するかについて,新たな視点を提示する。
提案手法は,言語単位の処理作業が文脈内情報の内容のアフィン関数であることを示す素因的理論に基づいている。
論文 参考訳(メタデータ) (2024-09-12T15:52:22Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Sources of Hallucination by Large Language Models on Inference Tasks [16.644096408742325]
大規模言語モデル (LLM) は自然言語推論 (NLI) が可能なと主張している。
本研究は, 制御実験を用いて行動調査を行う複数のLLMファミリーに関する一連の行動学的研究について述べる。
論文 参考訳(メタデータ) (2023-05-23T22:24:44Z) - Unsupervised Sentence Representation Learning with Frequency-induced
Adversarial Tuning and Incomplete Sentence Filtering [14.085826003974187]
SLT-FAI(SLT-FAI)を用いた文表現学習を提案する。
PLMは、事前学習したコーパスからの単語の周波数情報に敏感であり、異方性埋め込み空間となる。
いくつかの低頻度単語をランダムにマスキングすることで、原文と不完全文の埋め込みを識別するために、情報識別器を組み込んだ。
論文 参考訳(メタデータ) (2023-05-15T13:59:23Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。