論文の概要: Ideology as a Problem: Lightweight Logit Steering for Annotator-Specific Alignment in Social Media Analysis
- arxiv url: http://arxiv.org/abs/2601.04207v1
- Date: Mon, 08 Dec 2025 14:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.60884
- Title: Ideology as a Problem: Lightweight Logit Steering for Annotator-Specific Alignment in Social Media Analysis
- Title(参考訳): Ideology as a problem: Lightweight Logit Steering for Annotator-Specific Alignment in Social Media Analysis
- Authors: Wei Xia, Haowen Tang, Luozheng Li,
- Abstract要約: LLMは政治的イデオロギーを、部分的にはあるが人間のイデオロギー空間と完全に一致しない低次元構造に沿って内部的に組織する。
本稿では,誤りを定量化し,出力層を最小に補正する軽量線形プローブを提案する。
- 参考スコア(独自算出の注目度): 8.177664031501838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs internally organize political ideology along low-dimensional structures that are partially, but not fully aligned with human ideological space. This misalignment is systematic, model specific, and measurable. We introduce a lightweight linear probe that both quantifies the misalignment and minimally corrects the output layer. This paper introduces a simple and efficient method for aligning models with specific user opinions. Instead of retraining the model, we calculated a bias score from its internal features and directly adjusted the final output probabilities. This solution is practical and low-cost and preserves the original reasoning power of the model.
- Abstract(参考訳): LLMは政治的イデオロギーを、部分的にはあるが人間のイデオロギー空間と完全に一致しない低次元構造に沿って内部的に組織する。
このミスアライメントは、体系的で、モデル固有であり、測定可能である。
本稿では,誤りを定量化し,出力層を最小に補正する軽量線形プローブを提案する。
本稿では,モデルと特定のユーザの意見の整合をシンプルかつ効率的に行う手法を提案する。
モデルを再トレーニングする代わりに、内部特徴からバイアススコアを算出し、最終的な出力確率を直接調整した。
このソリューションは実用的で低コストであり、モデルの本来の推論力を保っている。
関連論文リスト
- Explainable RL Policies by Distilling to Locally-Specialized Linear Policies with Voronoi State Partitioning [5.417332705560665]
そこで我々は,状態空間を,単純化された人間の理解可能なモデルが動作可能な領域に分割する,新しいモデルに依存しない手法を提案する。
本稿では,Voronoiパーティショニングを用いて,線形モデルが元のコントロラーと同じような性能が得られる領域を探索する。
論文 参考訳(メタデータ) (2025-11-17T12:58:38Z) - PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。
PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。
我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文 参考訳(メタデータ) (2025-07-26T21:46:32Z) - Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding [26.416630784362525]
大規模言語モデル(LLM)は、攻撃的、偽り、あるいは無意味なコンテンツを生成するのを避けるために、人間の好みと整合する必要がある。
本稿では,ベースモデルのアライメント能力を高めるための新しいフレームワークであるWak-to-Strong Decoding (WSD)を提案する。
我々はまた、ドラフトモデルとして小さなPilot-3Bを微調整するための新しいデータセットGenAlignerも収集しています。
論文 参考訳(メタデータ) (2025-06-09T05:21:22Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Model order reduction of deep structured state-space models: A system-theoretic approach [0.0]
深い構造化状態空間モデルは高い予測性能を提供する。
学習された表現は、しばしば非常に大きなモデル順序に悩まされるため、制御設計の目的には適さない。
モデルの整合性を改善するためにトレーニング損失に組み込むことのできる2つの正規化項を導入する。
提示された正則化器は、同相表現と、縮小順序モデルによるより高速な推論という観点で利点をもたらす。
論文 参考訳(メタデータ) (2024-03-21T21:05:59Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Autocalibration and Tweedie-dominance for Insurance Pricing with Machine
Learning [0.0]
逸脱の最小化には, 下位部分モーメントの重み付き差分の積分と, 特定のスケールで測定されたバイアスとのトレードオフが伴うことが示された。
バイアスを補正する新しい手法は、分析にさらに局所的なGLMステップを追加する。
凸順序は、競合するモデルを比較する自然なツールであるように見える。
論文 参考訳(メタデータ) (2021-03-05T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。