論文の概要: Artificial or Just Artful? Do LLMs Bend the Rules in Programming?
- arxiv url: http://arxiv.org/abs/2512.21028v1
- Date: Wed, 24 Dec 2025 07:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.721967
- Title: Artificial or Just Artful? Do LLMs Bend the Rules in Programming?
- Title(参考訳): 人工的か単に人工か? LLMはプログラミングのルールを曲げているか?
- Authors: Oussama Ben Sghaier, Kevin Delcourt, Houari Sahraoui,
- Abstract要約: 本研究では,異なるプロンプト条件下でテストケースに曝露した場合に,大規模言語モデルがコード生成戦略にどのように適応するかを検討する。
結果から,テストの可視性は性能を劇的に改善し,精度はいくつかのモデルではほぼ2倍になるが,明示的な制約や部分的な露出は,この効果を部分的に緩和するだけであることがわかった。
- 参考スコア(独自算出の注目度): 2.798697306330988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely used for automated code generation, yet their apparent successes often mask a tension between pretraining objectives and alignment choices. While pretraining encourages models to exploit all available signals to maximize success, alignment, whether through fine-tuning or prompting, may restrict their use. This conflict is especially salient in agentic AI settings, for instance when an agent has access to unit tests that, although intended for validation, act as strong contextual signals that can be leveraged regardless of explicit prohibitions. In this paper, we investigate how LLMs adapt their code generation strategies when exposed to test cases under different prompting conditions. Using the BigCodeBench (Hard) dataset, we design five prompting conditions that manipulate test visibility and impose explicit or implicit restrictions on their use. We evaluate five LLMs (four open-source and one closed-source) across correctness, code similarity, program size, and code churn, and analyze cross-model consistency to identify recurring adaptation strategies. Our results show that test visibility dramatically alters performance, correctness nearly doubles for some models, while explicit restrictions or partial exposure only partially mitigate this effect. Beyond raw performance, we identify four recurring adaptation strategies, with test-driven refinement emerging as the most frequent. These results highlight how LLMs adapt their behavior when exposed to contextual signals that conflict with explicit instructions, providing useful insight into how models reconcile pretraining objectives with alignment constraints.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自動コード生成に広く使用されているが、その明らかな成功はしばしば、事前学習の目的とアライメントの選択の間の緊張を隠蔽している。
事前トレーニングでは、モデルが利用可能なすべての信号を利用して成功を最大化することを奨励する一方で、微調整やプロンプトを通じても、その使用を制限する可能性がある。
この衝突はエージェントAI設定において特に顕著であり、例えばエージェントが検証を意図してはいるものの、明示的な禁止によらず活用できる強いコンテキスト信号として機能するユニットテストにアクセスしている場合である。
本稿では,異なるプロンプト条件下でテストケースに曝露した場合のLCMのコード生成戦略について検討する。
BigCodeBench(Hard)データセットを使用して、テストの可視性を操作し、その使用に対して明示的あるいは暗黙的な制限を課す5つのプロンプト条件を設計します。
5つのLCM(4つのオープンソースと1つのクローズドソース)を、正確性、コード類似性、プログラムサイズ、コードチャーンで評価し、相互モデルの整合性を分析し、繰り返し適応戦略を特定する。
結果から,テストの可視性は性能を劇的に改善し,精度はいくつかのモデルではほぼ2倍になるが,明示的な制約や部分的な露出は,この効果を部分的に緩和するだけであることがわかった。
生のパフォーマンス以外にも、テスト駆動リファインメントが最も頻繁に現れる4つの適応戦略を特定します。
これらの結果は、LLMが明示的な指示と矛盾する文脈的信号に晒された場合の行動にどのように適応するかを強調し、モデルが事前学習対象をアライメント制約で整合させる方法についての有用な洞察を提供する。
関連論文リスト
- SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Instruction Boundary: Quantifying Biases in LLM Reasoning under Various Coverage [34.247904738521136]
異なる命令形式がLLM推論能力をどのように促進するか、それとも誤解を招くかを検討する。
本稿では,インストラクション境界の概念を導入し,異なるレベルのプロンプトカバレッジが推論バイアスにどのように寄与するかを系統的に分析する。
異なる種類の命令境界条件下でスパースラベルを識別するLLMの能力を定量化する統合フレームワークであるBiasDetectorを提案する。
論文 参考訳(メタデータ) (2025-09-24T16:15:26Z) - SAEL: Leveraging Large Language Models with Adaptive Mixture-of-Experts for Smart Contract Vulnerability Detection [14.581402965011117]
スマートコントラクト脆弱性検出のためのLLMベースのフレームワークであるSAELを提案する。
まず、脆弱性を特定し、説明を生成するためにLSMを誘導するプロンプトを設計する。
次に、CodeT5とT5のプロンプトチューニングをコントラクトコードと説明処理に適用し、タスク固有のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-07-30T04:28:00Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Learning impartial policies for sequential counterfactual explanations
using Deep Reinforcement Learning [0.0]
近年,SCFの発見政策を学習し,拡張性を高めるための強化学習法が提案されている。
本研究では,特定の行動に対する偏見など,望ましくない特性を持つポリシーを生じるような既存手法の欠点を同定する。
この効果を緩和するために,分類器の出力確率を用いてより情報的な報酬を生成することを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:50:47Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。