論文の概要: Do Generalisation Results Generalise?
- arxiv url: http://arxiv.org/abs/2512.07832v1
- Date: Mon, 08 Dec 2025 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.028719
- Title: Do Generalisation Results Generalise?
- Title(参考訳): 一般化結果は一般化されるか?
- Authors: Matteo Boglioni, Andrea Sgobbi, Gabriel Tavernini, Francesco Rita, Marius Mosbach, Tiago Pimentel,
- Abstract要約: 複数のOODテストセットにまたがるモデルの性能を細かな実行を通して評価する。
次に、これらのテストセット間のパフォーマンスの部分的相関を評価し、ドメイン内のパフォーマンスを抑える。
OLMo2 と OPT を解析したところ、一般化結果の全体的傾向は見られなかった。
- 参考スコア(独自算出の注目度): 19.855708462203097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A large language model's (LLM's) out-of-distribution (OOD) generalisation ability is crucial to its deployment. Previous work assessing LLMs' generalisation performance, however, typically focuses on a single out-of-distribution dataset. This approach may fail to precisely evaluate the capabilities of the model, as the data shifts encountered once a model is deployed are much more diverse. In this work, we investigate whether OOD generalisation results generalise. More specifically, we evaluate a model's performance across multiple OOD testsets throughout a finetuning run; we then evaluate the partial correlation of performances across these testsets, regressing out in-domain performance. This allows us to assess how correlated are generalisation performances once in-domain performance is controlled for. Analysing OLMo2 and OPT, we observe no overarching trend in generalisation results: the existence of a positive or negative correlation between any two OOD testsets depends strongly on the specific choice of model analysed.
- Abstract(参考訳): 大規模言語モデル(LLM)のアウト・オブ・ディストリビューション(OOD)の一般化能力は、その展開に不可欠である。
しかしながら、LLMの一般化性能を評価する以前の作業は、通常、1つのアウト・オブ・ディストリビューションデータセットに焦点を当てていた。
このアプローチでは、モデルがデプロイされたときに発生するデータシフトがはるかに多様であるため、モデルの機能を正確に評価できない場合がある。
本研究では,OODの一般化が一般化するかどうかを検討する。
具体的には,複数のOODテストセットにまたがるモデルの性能を微調整して評価する。
これにより、ドメイン内のパフォーマンスが制御されたときの一般化性能の相関性を評価することができる。
OLMo2 と OPT を解析した結果,OOD テストセット間の正あるいは負の相関の存在は,モデル解析の特定の選択に強く依存する。
関連論文リスト
- Can Interpretation Predict Behavior on Unseen Data? [11.280404893713213]
解釈可能性の研究は、モデルが特定のメカニズムに対するターゲットの介入にどのように反応するかを予測することを目的としている。
本稿では,分布外モデル行動を予測するツールとして,解釈可能性の約束と課題について考察する。
論文 参考訳(メタデータ) (2025-07-08T23:07:33Z) - Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis [36.689210473887904]
本稿では,ディープラーニング(DL)モデルと機械学習(ML)モデルにおけるデータセット間予測の一般化を評価するためのベンチマークフレームワークを提案する。
絶対的なパフォーマンス(データセット間での予測精度など)と相対的なパフォーマンス(例えば、データセット内の結果と比較してパフォーマンス低下)の両方を定量化します。
本結果は,厳密な一般化評価の重要性を浮き彫りにして,未知のデータセット上でモデルをテストする場合の大幅な性能低下を明らかにした。
論文 参考訳(メタデータ) (2025-03-18T15:40:18Z) - Negative as Positive: Enhancing Out-of-distribution Generalization for Graph Contrastive Learning [60.61079931266331]
グラフコントラスト学習(GCL)において、最も意味論的に類似したドメイン間負対を正として扱う新たな戦略であるNegative as Positiveを提案する。
実験結果から,GCLのOOD一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2024-05-25T13:29:31Z) - Principles from Clinical Research for NLP Model Generalization [10.985226652193543]
一般化可能性の基礎を探求し、それに影響を与える要因について検討する。
関係抽出タスクにおけるエンティティ間の距離などの学習がモデルの内部妥当性にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-11-07T02:17:25Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Cross-functional Analysis of Generalisation in Behavioural Learning [4.0810783261728565]
本稿では,異なるレベルの次元をまたいだ一般化を考慮した行動学習の分析手法であるBluGAを紹介する。
集計スコアは、目に見えない機能(または過剰適合)への一般化を測定する
論文 参考訳(メタデータ) (2023-05-22T11:54:19Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。