論文の概要: HAL: Inducing Human-likeness in LLMs with Alignment
- arxiv url: http://arxiv.org/abs/2601.02813v1
- Date: Tue, 06 Jan 2026 08:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.858154
- Title: HAL: Inducing Human-likeness in LLMs with Alignment
- Title(参考訳): HAL:alignment を用いた LLM におけるヒューマンライクネスの誘導
- Authors: Masum Hasan, Junjie Zhao, Ehsan Hoque,
- Abstract要約: 本稿では,言語モデルと対話型人間類似度を協調するフレームワークであるHuman Aligning LLMs(HAL)を紹介する。
HALは、対照的な対話データから明確な会話特性を導出し、それらをコンパクトなスカラースコアに組み合わせ、このスコアを透明な報酬信号として利用する。
HALは明示的で解釈可能な特性に対して作用するため、アライメント挙動の検査と意図しない効果の診断が可能である。
- 参考スコア(独自算出の注目度): 4.524126448706958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational human-likeness plays a central role in human-AI interaction, yet it has remained difficult to define, measure, and optimize. As a result, improvements in human-like behavior are largely driven by scale or broad supervised training, rather than targeted alignment. We introduce Human Aligning LLMs (HAL), a framework for aligning language models to conversational human-likeness using an interpretable, data-driven reward. HAL derives explicit conversational traits from contrastive dialogue data, combines them into a compact scalar score, and uses this score as a transparent reward signal for alignment with standard preference optimization methods. Using this approach, we align models of varying sizes without affecting their overall performance. In large-scale human evaluations, models aligned with HAL are more frequently perceived as human-like in conversation. Because HAL operates over explicit, interpretable traits, it enables inspection of alignment behavior and diagnosis of unintended effects. More broadly, HAL demonstrates how soft, qualitative properties of language--previously outside the scope for alignment--can be made measurable and aligned in an interpretable and explainable way.
- Abstract(参考訳): 人間とAIの相互作用において、会話的な人間の類似性は中心的な役割を果たすが、定義、測定、最適化はいまだに困難である。
結果として、人間のような行動の改善は、主にターゲットアライメントではなく、規模や広範囲の教師付きトレーニングによって引き起こされる。
我々は,解釈可能なデータ駆動型報酬を用いて,言語モデルと会話型人間類似性を協調するフレームワークであるHuman Aligning LLMs (HAL)を紹介した。
HALは、対照的な対話データから明確な会話特性を導出し、それらをコンパクトなスカラースコアに組み合わせ、このスコアを標準的な優先最適化手法と整合する透過的な報酬信号として利用する。
このアプローチを用いることで、全体的なパフォーマンスに影響を与えることなく、さまざまなサイズのモデルを調整します。
大規模な人間評価では、HALと整列したモデルは会話において人間に似たものとして認識されることが多い。
HALは明示的で解釈可能な特性に対して作用するため、アライメント挙動の検査や意図しない効果の診断が可能である。
より広範に、HALは言語の柔らかで質的な特性(アライメントの範囲外)が、解釈可能で説明可能な方法で測定可能で整列可能であることを実証している。
関連論文リスト
- LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - Computational Turing Test Reveals Systematic Differences Between Human and AI Language [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするために社会科学でますます使われている。
既存の検証努力は人的判断に基づく評価に大きく依存している。
本稿では,LLMが人間の言語にどの程度近いかを評価するために,計算チューリングテストを提案する。
論文 参考訳(メタデータ) (2025-11-06T08:56:37Z) - Shaping Shared Languages: Human and Large Language Models' Inductive Biases in Emergent Communication [0.09999629695552195]
ヒトと大言語モデル(LLM)の帰納バイアスに最適化された人工言語がどのように進化するかを検討する。
我々は、人間が協力しても、あらゆる状況において信頼できるコミュニケーションを可能にする、参照接頭辞が出現することを示します。
論文 参考訳(メタデータ) (2025-03-06T12:47:54Z) - A Flexible Method for Behaviorally Measuring Alignment Between Human and Artificial Intelligence Using Representational Similarity Analysis [0.1957338076370071]
我々は、AIと人間間のアライメントを定量化するために、ペアワイズな類似度評価法であるRepresentational similarity Analysis (RSA)を適用した。
我々は,テキストと画像のモダリティ間のセマンティックアライメント(セマンティックアライメント)を検証し,Large Language and Vision Language Model(LLM, VLM)の類似性判断が,グループレベルでも個人レベルでも人間の反応とどのように一致しているかを測定した。
論文 参考訳(メタデータ) (2024-11-30T20:24:52Z) - Verbalized Representation Learning for Interpretable Few-Shot Generalization [162.2636511438425]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - CLHA: A Simple yet Effective Contrastive Learning Framework for Human Alignment [42.71324708567498]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる重要な手法である。
我々は,LLMと人間の嗜好を直接整合させる,単純かつ効果的な人間適応のためのコントラスト学習フレームワーク(CLHA)を提案する。
論文 参考訳(メタデータ) (2024-03-25T11:37:15Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。