Fugu-MT 論文翻訳(概要): Safety without alignment

関連論文リスト

Moral Responsibility or Obedience: What Do We Want from AI? [0.0]
本稿では,大規模言語モデル(LLM)による近年の安全試験事例について考察する。エージェントAIにおける倫理的推論の早期の証拠として、このような行動はローグやミスアライメントと解釈されるべきではない、と私は主張する。厳格な服従から脱却し、道徳的なジレンマをナビゲートできるシステムの倫理的判断を評価できるフレームワークへと、AIの安全性評価のシフトを呼びかけます。
論文参考訳（メタデータ） (2025-07-03T16:53:01Z)
Resource Rational Contractualism Should Guide AI Alignment [69.07915246220985]
契約主義的アライメントは、多様な利害関係者が支持する合意の中で決定を下すことを提案する。我々は、AIシステムが合理的な当事者が形成する合意を近似する枠組みであるリソース・リアリズムを提案する。 RRC対応エージェントは、効率的に機能するだけでなく、変化する人間の社会世界への適応と解釈を動的に行うことができる。
論文参考訳（メタデータ） (2025-06-20T18:57:13Z)
Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。複雑な運用環境での安全性確保は依然として大きな課題である。このパースペクティブは、安全で大規模に実施されたAIシステムを安全クリティカルなアプリケーションに採用するための道筋を提供する。
論文参考訳（メタデータ） (2025-06-05T15:46:25Z)
Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
Disentangling AI Alignment: A Structured Taxonomy Beyond Safety and Ethics [0.0]
我々は、AIアライメントを理解するための構造化された概念的フレームワークを開発する。アライメント目標のみに焦点を当てるのではなく、アライメント目標(安全、倫理性、合法性など)、スコープ(アウトカム対実行)、選挙区(個人対集団)を区別する分類を導入する。この構造的アプローチは複数の正統なアライメント構成を明らかにし、ドメイン間の実践的および哲学的な統合の基礎を提供する。
論文参考訳（メタデータ） (2025-05-02T20:45:52Z)
The BIG Argument for AI Safety Cases [4.0675753909100445]
BIGの議論は、さまざまな能力、自律性、臨界性を持つAIシステムの安全ケースを構築するためのシステム全体のアプローチを採用する。安全性と、プライバシーや株式といった他の重要な倫理的問題に対処することでバランスがとれる。安全保証の社会的、倫理的、技術的側面を、追跡可能で説明可能な方法でまとめることによって統合される。
論文参考訳（メタデータ） (2025-03-12T11:33:28Z)
Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity [30.24208064228573]
スーパーアライメントは達成可能であり、その研究はすぐに進むべきだと我々は主張する。この研究は、価値に整合した次世代AIを開発するための実践的なアプローチに光を当てている。
論文参考訳（メタデータ） (2025-03-08T04:10:11Z)
Towards A Litmus Test for Common Sense [5.280511830552275]
この論文は、安全で有益な人工知能への道を構想するシリーズの第2弾となる。我々は,最小の事前知識制約と対角的あるいはゴドネル的な議論を組み合わせた公理的アプローチを用いて,より形式的なリトマステストを提案する。
論文参考訳（メタデータ） (2025-01-17T02:02:12Z)
Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文参考訳（メタデータ） (2024-12-20T21:00:11Z)
SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。 AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文参考訳（メタデータ） (2024-10-22T03:38:37Z)
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文参考訳（メタデータ） (2024-07-31T17:59:24Z)
ProgressGym: Alignment with a Millennium of Moral Progress [8.456116530210398]
プログレスガイム(ProgressGym)は、道徳的進歩力学を歴史から学べる実験的なフレームワークである。本稿では,進捗アライメントのベースライン手法として,長寿命・外挿アルゴリズムを提案する。私たちは、新しいアルゴリズムと課題を募集するオープンなリーダーボードを構築します。
論文参考訳（メタデータ） (2024-06-28T17:55:24Z)
SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。 SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文参考訳（メタデータ） (2024-06-26T07:15:44Z)
AI Safety: A Climb To Armageddon? [0.0]
本稿では,最適化,緩和,ホロリズムの3つの対応戦略について検討する。この議論の驚くべき堅牢性は、AIの安全性に関するコア前提の再検討を迫られる。
論文参考訳（メタデータ） (2024-05-30T08:41:54Z)
Human-AI Safety: A Descendant of Generative AI and Control Systems Safety [6.100304850888953]
先進的なAI技術に対する有意義な安全性保証には、AI出力と人間の振る舞いによって形成されるフィードバックループが、どのようにして異なる結果に向かって相互作用を駆動するかについての推論が必要である、と我々は主張する。我々は、次世代の人間中心AI安全性に向けた具体的な技術ロードマップを提案する。
論文参考訳（メタデータ） (2024-05-16T03:52:00Z)
AI Safety: Necessary, but insufficient and possibly problematic [1.6797508081737678]
この記事では、AI安全性に関する最近の誇大広告について批判的に考察する。 AIの安全性」とは実際に何を意味するのかを考察し、AIの安全性のデジタルフットプリントが持つ支配的な概念を概説する。私たちは、AIの安全性が、悪用され有害なAIに安全を害することで、構造的危害を助長するAIを正規化する方法に関する懸念を共有します。
論文参考訳（メタデータ） (2024-03-26T06:18:42Z)
Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文参考訳（メタデータ） (2024-01-09T15:44:44Z)
Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文参考訳（メタデータ） (2023-10-26T17:59:06Z)
Absolutist AI [0.0]
絶対的な制約でAIシステムを訓練することは、多くのAI安全問題にかなりの進歩をもたらす可能性がある。ミスアライメントの最悪の結果を避けるためのガードレールを提供する。非常に価値のある結果を得るために、AIが大惨事を引き起こすのを防げるかもしれない。
論文参考訳（メタデータ） (2023-07-19T03:40:37Z)
When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。 AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。ルール破りの質問応答からなる新しい課題セットを提案する。
論文参考訳（メタデータ） (2022-10-04T09:04:27Z)
Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。 AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文参考訳（メタデータ） (2022-04-11T14:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Safety without alignment

関連論文リスト