論文の概要: Addressing the Ecological Fallacy in Larger LMs with Human Context
- arxiv url: http://arxiv.org/abs/2603.05928v1
- Date: Fri, 06 Mar 2026 05:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.112646
- Title: Addressing the Ecological Fallacy in Larger LMs with Human Context
- Title(参考訳): 人間の環境を考慮した大規模LMにおける生態的誤りへの対処
- Authors: Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian,
- Abstract要約: 言語モデルトレーニングと推論は、基本的な言語的事実を無視します。
著者の言語コンテキストを特定のLMタスクでモデル化することで、生態的誤りに対処することが、より大規模なモデルに同様の利点をもたらすかどうかを問う。
- 参考スコア(独自算出の注目度): 16.322076532097135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model training and inference ignore a fundamental linguistic fact -- there is a dependence between multiple sequences of text written by the same person. Prior work has shown that addressing this form of \textit{ecological fallacy} can greatly improve the performance of multiple smaller (~124M) GPT-based models. In this work, we ask if addressing the ecological fallacy by modeling the author's language context with a specific LM task (called HuLM) can provide similar benefits for a larger-scale model, an 8B Llama model. To this end, we explore variants that process an author's language in the context of their other temporally ordered texts. We study the effect of pre-training with this author context using the HuLM objective, as well as using it during fine-tuning with author context (\textit{HuFT:Human-aware Fine-Tuning}). Empirical comparisons show that addressing the ecological fallacy during fine-tuning alone using QLoRA improves the performance of the larger 8B model over standard fine-tuning. Additionally, QLoRA-based continued HuLM pre-training results in a human-aware model generalizable for improved performance over eight downstream tasks with linear task classifier training alone. These results indicate the utility and importance of modeling language in the context of its original generators, the authors.
- Abstract(参考訳): 言語モデルトレーニングと推論は、基本的な言語的事実を無視します。
以前の研究は、この形式の「textit{ecological fallacy}」に対処することで、より小さな(約124M)GPTベースのモデルの性能を大幅に向上させることができることを示した。
本研究では,著者の言語コンテキストを特定のLMタスク(HuLM)でモデル化することで,より大規模なモデルである8B Llamaモデルに類似したメリットをもたらすことができるかどうかを問う。
この目的のために、著者の言語を時間的に順序付けられた他のテキストの文脈で処理する変種を探索する。
本稿では,HuLM の目的と,著者コンテキストを用いた微調整(\textit{HuFT:Human-aware Fine-Tuning})における事前学習の効果について検討する。
実証的な比較では、QLoRAを用いた微調整単独での生態的誤りに対処することで、より大規模な8Bモデルの性能が標準微調整よりも向上することが示されている。
さらに、QLoRAをベースとしたHuLM事前学習の結果、線形タスク分類器のトレーニングだけで、8つの下流タスクのパフォーマンスを向上させるために、ヒューマン・アウェア・モデルが一般化される。
これらの結果は、オリジナルのジェネレータのコンテキストにおけるモデリング言語の有用性と重要性を示している。
関連論文リスト
- When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。
多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。
LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文 参考訳(メタデータ) (2025-11-18T10:40:32Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。
我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。
本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T02:03:28Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Uncovering More Shallow Heuristics: Probing the Natural Language
Inference Capacities of Transformer-Based Pre-Trained Language Models Using
Syllogistic Patterns [9.031827448667086]
我々は、自然言語推論(NLI)のために微調整されたトランスフォーマーベース事前学習言語モデル(PLM)が使用する浅瀬を探索する。
モデルが特定の浅瀬に強く依存していることの証拠を見つけ、前提と仮説の間の対称性と対称性を拾い上げる。
論文 参考訳(メタデータ) (2022-01-19T14:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。