論文の概要: Assessing Generalization for Subpopulation Representative Modeling via
In-Context Learning
- arxiv url: http://arxiv.org/abs/2402.07368v1
- Date: Mon, 12 Feb 2024 01:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:55:38.937154
- Title: Assessing Generalization for Subpopulation Representative Modeling via
In-Context Learning
- Title(参考訳): インコンテキスト学習によるサブポピュレーション代表モデルの一般化評価
- Authors: Gabriel Simmons and Vladislav Savinov
- Abstract要約: 本研究では,Large Language Model (LLM) に基づくサブポピュレーション代表モデル (SRM) が経験的データから一般化する能力を評価する。
応答変数と人口統計群をまたいだ一般化について検討する。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study evaluates the ability of Large Language Model (LLM)-based
Subpopulation Representative Models (SRMs) to generalize from empirical data,
utilizing in-context learning with data from the 2016 and 2020 American
National Election Studies. We explore generalization across response variables
and demographic subgroups. While conditioning with empirical data improves
performance on the whole, the benefit of in-context learning varies
considerably across demographics, sometimes hurting performance for one
demographic while helping performance for others. The inequitable benefits of
in-context learning for SRM present a challenge for practitioners implementing
SRMs, and for decision-makers who might come to rely on them. Our work
highlights a need for fine-grained benchmarks captured from diverse
subpopulations that test not only fidelity but generalization.
- Abstract(参考訳): 本研究は,2016年と2020年のアメリカ国民選挙研究から得られたデータを用いて,経験的データから一般化する大規模言語モデル(llm)に基づくサブポピュレーション代表モデル(srms)の能力を評価する。
応答変数と人口統計群をまたいだ一般化について検討する。
経験的データによる条件付けによって全体のパフォーマンスが向上する一方で、コンテキスト内学習の利点は人口層によって大きく異なり、時には別の人口層のパフォーマンスを損なうこともあります。
SRMの文脈内学習の無意味な利点は、SRMを実装する実践者や、それに依存するかもしれない意思決定者にとって課題となる。
我々の研究は、忠実さだけでなく一般化もテストする多様なサブポピュレーションから得られたきめ細かいベンチマークの必要性を強調している。
関連論文リスト
- A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - BIRB: A Generalization Benchmark for Information Retrieval in
Bioacoustics [7.68184437595058]
本稿では,受動的に記録されたデータセットから鳥の発声を検索する複雑なベンチマークであるBIRBを提案する。
本稿では,表現学習と最寄りのセントロイド探索を用いたタスクコレクションのベースラインシステムを提案する。
論文 参考訳(メタデータ) (2023-12-12T17:06:39Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - All Should Be Equal in the Eyes of Language Models: Counterfactually
Aware Fair Text Generation [16.016546693767403]
本研究では,多様な階層のモデル理解を動的に比較し,より公平な文を生成する枠組みを提案する。
CAFIEはより公平なテキストを生成し、公平性と言語モデリング能力の最良のバランスを打ちます。
論文 参考訳(メタデータ) (2023-11-09T15:39:40Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Multi-dimensional domain generalization with low-rank structures [18.565189720128856]
統計的および機械学習の手法では、テストデータがトレーニングデータと同一に分散されていると仮定されるのが一般的である。
この仮定は必ずしも成り立たないが、特にトレーニングデータに対象の個体群がよく表現されていないアプリケーションでは顕著である。
線形回帰モデルにおいて,この問題に対処するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-18T08:07:58Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。