論文の概要: Leveraging Domain Knowledge for Inclusive and Bias-aware Humanitarian
Response Entry Classification
- arxiv url: http://arxiv.org/abs/2305.16756v2
- Date: Tue, 30 May 2023 13:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-31 11:42:18.454336
- Title: Leveraging Domain Knowledge for Inclusive and Bias-aware Humanitarian
Response Entry Classification
- Title(参考訳): 包括的かつバイアス対応の人道的応答エントリー分類のためのドメイン知識の活用
- Authors: Nicol\`o Tamagnone, Selim Fekih, Ximena Contla, Nayid Orozco, Navid
Rekabsaz
- Abstract要約: 我々は人道的データ分析のための効果的かつ倫理的なシステムの提供を目指している。
人道分析フレームワークに適応した新しいアーキテクチャを導入する。
我々はまた、測定とバイアスの体系的な方法を提案する。
- 参考スコア(独自算出の注目度): 3.824858358548714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and rapid situation analysis during humanitarian crises is critical
to delivering humanitarian aid efficiently and is fundamental to humanitarian
imperatives and the Leave No One Behind (LNOB) principle. This data analysis
can highly benefit from language processing systems, e.g., by classifying the
text data according to a humanitarian ontology. However, approaching this by
simply fine-tuning a generic large language model (LLM) involves considerable
practical and ethical issues, particularly the lack of effectiveness on
data-sparse and complex subdomains, and the encoding of societal biases and
unwanted associations. In this work, we aim to provide an effective and
ethically-aware system for humanitarian data analysis. We approach this by (1)
introducing a novel architecture adjusted to the humanitarian analysis
framework, (2) creating and releasing a novel humanitarian-specific LLM called
HumBert, and (3) proposing a systematic way to measure and mitigate biases. Our
experiments' results show the better performance of our approach on zero-shot
and full-training settings in comparison with strong baseline models, while
also revealing the existence of biases in the resulting LLMs. Utilizing a
targeted counterfactual data augmentation approach, we significantly reduce
these biases without compromising performance.
- Abstract(参考訳): 人道的危機時の正確かつ迅速な状況分析は、人道的援助を効果的に提供するために重要であり、人道的衝動とLeave No One Behind(LNOB)の原則に根ざしている。
このデータ分析は、例えば人道的オントロジーに従ってテキストデータを分類することで、言語処理システムから大きな恩恵を受けることができる。
しかし、汎用的な大規模言語モデル(LLM)を微調整するだけでこれに取り組むには、特にデータスパースや複雑なサブドメインの有効性の欠如、社会的バイアスや望ましくない関連性の符号化など、かなり実践的で倫理的な問題が発生する。
本研究では,人道的データ分析のための効果的かつ倫理的なシステムの提供を目的とする。
本研究では,(1)人道的分析フレームワークに適応した新しいアーキテクチャの導入,(2)HumBertと呼ばれる人道的なLLMの作成とリリース,(3)バイアスを計測・緩和する体系的な方法を提案する。
実験結果から,ゼロショットおよびフルトレーニング環境において,強いベースラインモデルと比較して,提案手法の性能が向上し,結果のllmにおけるバイアスの存在も明らかとなった。
対象とする反事実データ拡張手法を用いて,性能を損なうことなく,これらのバイアスを著しく低減する。
関連論文リスト
- Contextual Online Uncertainty-Aware Preference Learning for Human Feedback [13.478503755314344]
RLHF(Reinforcement Learning from Human Feedback)は人工知能において重要なパラダイムとなっている。
最適モデルに基づくオンライン意思決定と統計的推測を同時に行うための新しい統計的枠組みを提案する。
本稿では,大規模マルチタスク言語理解データセット上での大規模言語モデルのランク付けのための人間の嗜好データ分析に,提案手法を適用した。
論文 参考訳(メタデータ) (2025-04-27T19:59:11Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [54.654823811482665]
大規模言語モデル (LLM) は、人間の値に対して出力を制御するための優先順位付け手法にますます依存している。
近年のアプローチは、スケーラブルな代替手段としてLLMによって生成された合成データに転換されている。
そこで我々は,そのようなシフトが存在する場合の優先調整を改善する新しい分散対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Human aversion? Do AI Agents Judge Identity More Harshly Than Performance [0.06554326244334868]
我々は,大規模言語モデルに基づくAIエージェントがどのように人間の入力を評価し,統合するかを検討する。
AIシステムは人間のアドバイスを体系的に減らし、アルゴリズムの誤りよりも人間の誤りを厳しく罰する。
論文 参考訳(メタデータ) (2025-03-31T02:05:27Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Maximizing Signal in Human-Model Preference Alignment [0.0]
本稿では、エンドユーザーがMLモデルによる決定に同意する必要がある場合、モデルが好みを表すデータに基づいて訓練され、評価されるべきである、と論じる。
評価手法のベストプラクティスに固執することで,ラベル付け不一致のノイズを最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-03-06T19:10:57Z) - Bias in Large Language Models: Origin, Evaluation, and Mitigation [4.606140332500086]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスへの感受性は大きな課題となっている。
本総説では, LLMの発端から現在の緩和戦略まで, バイアスの背景を概観する。
偏りのあるLLMの倫理的および法的含意について論じ、医療や刑事司法のような現実の応用における潜在的な害を強調した。
論文 参考訳(メタデータ) (2024-11-16T23:54:53Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Aligning Large Language Models with Human Preferences through Representation Engineering [41.81020951061438]
表現工学(RepE)の新たな分野から着想を得た本研究は,LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定することを目的としている。
この新しいアプローチは、人間フィードバックからの表現アライメント(Representation Alignment from Human Feedback、RAHF)と呼ばれ、効果的で、計算的に効率的で、実装が容易であることが証明されている。
論文 参考訳(メタデータ) (2023-12-26T11:01:36Z) - Which Prompts Make The Difference? Data Prioritization For Efficient
Human LLM Evaluation [9.452326973655445]
計量に基づく手法は,必要なアノテーションの数を最小化することで,人間の評価の効率を向上させる。
提案手法は,広く用いられているモデルファミリに対して有効であり,非決定的(あるいは"tie")な結果のインスタンスを最大54%削減できることを示す。
この人的努力の潜在的な削減は、我々のアプローチを将来の大規模言語モデル評価における貴重な戦略として位置づけている。
論文 参考訳(メタデータ) (2023-10-22T21:48:51Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。