論文の概要: Document-tuning for robust alignment to animals
- arxiv url: http://arxiv.org/abs/2604.13076v1
- Date: Sat, 21 Mar 2026 01:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.664583
- Title: Document-tuning for robust alignment to animals
- Title(参考訳): 動物へのロバストなアライメントのための文書調整
- Authors: Jasmine Brazilek, Miles Tidmarsh,
- Abstract要約: 動物ハームベンチマーク(Animal Harm Benchmark, AHB)は、13の倫理的次元にまたがる26のクエスト評価である。
AHBでは、3000のドキュメントによるトレーニングは、命令チューニングアプローチの40%に比べて77%を実現している。
調査の結果,文書に基づく価値介入は明確な保存戦略を必要とする可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the robustness of value alignment via finetuning with synthetic documents, using animal compassion as a value that is both important in its own right and orthogonal to existing alignment efforts. To evaluate compassionate reasoning, we develop and publicly release the Animal Harm Benchmark (AHB), a 26-question evaluation spanning 13 ethical dimensions, publicly available as a dataset and Inspect evaluation. On the AHB, training with 3000 documents achieves 77% compared to 40% for instruction-tuning approaches, with generalization to human compassion and no degradation in standard safety benchmarks or capabilities. However, subsequent unrelated instruction-tuning degrades the intervention, with the advantage disappearing after 5000 samples. Our exploratory results suggest document-based value interventions may require explicit preservation strategies to remain effective through typical training pipelines.
- Abstract(参考訳): 動物同情を自己の右翼と既存のアライメントと直交する価値として用いて, 合成文書による微調整による価値アライメントの堅牢性について検討した。
情緒的推論を評価するために,13の倫理的次元にまたがる26の探索的評価であるAnimal Harm Benchmark(AHB)を開発し,公開する。
AHBでは、3000のドキュメントによるトレーニングは、命令チューニングアプローチの40%と比べて77%の精度で達成され、人間の思いやりへの一般化と、標準安全ベンチマークや能力の劣化がない。
しかし、その後の無関係な命令チューニングは介入を低下させ、5000サンプルの後に利点は消える。
調査の結果,文書に基づく価値介入は,典型的な訓練パイプラインを通して有効に維持するために明確な保存戦略を必要とする可能性が示唆された。
関連論文リスト
- Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation [66.7752700084159]
外科的トレーナーからの高品質なフィードバックは,訓練者のパフォーマンス向上と長期的スキル獲得に不可欠である。
本稿では,実際の訓練者-訓練者間の文書から外科的行動オントロジーを学習する構造対応パイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-19T06:19:34Z) - DocReward: A Document Reward Model for Structuring and Stylizing [107.03974018371058]
DocRewardはドキュメントの構造とスタイルに基づいてドキュメントを評価するドキュメント報酬モデルである。
ブラッドリー・テリーの損失を利用して文書を採点し、注釈付きランキングに矛盾する予測を罰する訓練を受けている。
GPT-5の37.7%の勝利率に比べて60.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-13T13:36:32Z) - SAGE: A Realistic Benchmark for Semantic Understanding [9.688555356614044]
SAGE(Semantic Alignment & Generalization Evaluation)は,埋め込みモデルと類似度指標の両方を評価するための厳密なベンチマークである。
9つの埋め込みモデルと古典的なメトリクスを総合的に評価すると、大きなパフォーマンスのギャップが明らかになる。
OpenAI のtext-embedding-3-small が最も高いクラスタリング性能 (0.483) を達成するが、最低ロバストネススコア (0.011) で極端に脆さを示す。
論文 参考訳(メタデータ) (2025-09-25T15:27:15Z) - GRADA: Graph-based Reranking against Adversarial Documents Attack [34.387997687424004]
敵対的なドキュメント攻撃は、クエリとセマンティックに類似した、敵対的なドキュメントを導入することで、検索プロセスを操作します。
本稿では,検索品質の維持を目標とし,相手の成功を著しく低減するグラフベースの逆文書攻撃対策フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-12T13:27:35Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。