Can Language Models Follow Multiple Turns of Entangled Instructions? [109.4] 実世界のシナリオは、時間とともに複数の命令をまたいだ一貫性を必要とすることが多い。
本研究は,多方向命令処理における大規模言語モデルの能力について,系統的研究を行った。
我々は,MultiTurnInstructing with $sim$1.1K High-quality multi-turn conversation through the human-in-the-loop approach。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 19:58:35 GMT)
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.1] 本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:37:34 GMT)
A Survey of Personalized Large Language Models: Progress and Future Directions [86.5] LLM(Large Language Models)は、一般的な知識タスクを扱うのに優れているが、ユーザ固有のパーソナライゼーションに苦慮している。
パーソナライズされた大規模言語モデル(PLLM)は、個々のユーザデータを活用することでこれらの課題に対処する。
PLLMは、ユーザの満足度を大幅に向上させ、会話エージェント、システム、感情認識、医療アシスタントなどの幅広い用途に応用することができる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:39:01 GMT)
Towards Anytime Retrieval: A Benchmark for Anytime Person Re-Identification [85.8] Anytime Person Re-identification (AT-ReID) は、時間変動に基づく複数のシナリオにおいて効果的な検索を実現することを目的としている。
最初の大規模なデータセットであるAT-USTCは、複数の服を着ている人の403万枚の画像を含む。
シナリオ固有の特徴学習のためのマルチシナリオReIDフレームワークを含むUni-ATという統一モデルを提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:20:22 GMT)
Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models [80.8] Mini-Omni-Reasonerは、"Thinking-in-Speaking"という新しい定式化を通じて、音声内での推論を可能にするフレームワークである。
トークンレベルで音声応答トークンとサイレント推論トークンをインターリーブする。
算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 05:57:42 GMT)
SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning [76.6] プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)におけるより深い推論プロセスを促進する
PRMは、人間の注釈付きデータの高いコストと限られたスケーラビリティのために開発が困難である。
本稿では,効率的なデータ合成と耐雑音性学習フレームワークであるSelf-Denoising Monte Carlo CAN (SCAN)を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:19:55 GMT)
NILE: Internal Consistency Alignment in Large Language Models [75.8] NILE(iNternal consIstency aLignmEnt)フレームワークを導入し、IFTデータセットを最適化してLLMの機能をさらに開放する。
NILE は、訓練済みの LLM の内部知識を命令データに対応付けることで動作する。
実験により,NILE 対応 IFT データセットは複数の能力評価データセットにまたがる LLM 性能を著しく向上することが示された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:39:23 GMT)
RLGF: Reinforcement Learning with Geometric Feedback for Autonomous Driving Video Generation [75.6] この重要な問題を特定し定量化し,合成データと実データを用いた場合の3次元物体検出における顕著な性能差を示す。
本稿では,RLGFを用いた強化学習(Reinforcement Learning with Geometric Feedback, RLGF)を紹介する。
RLGFは幾何誤差(例えばVPエラーを21%、深さエラーを57%)を大幅に削減し、3Dオブジェクト検出のmAPを12.7%改善し、実際のデータ性能のギャップを狭める。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:23:36 GMT)
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [73.7] 映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。
まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。
第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 05:38:05 GMT)
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels [72.4] 大規模言語モデル(LLM)は、事前訓練中にかなりの世界の知識を得る。
教師付き微調整(SFT)のようなポストトレーニング技術はこの知識変化の振る舞いを形作る。
LLaMA-2 と LLaMA-3 の 5 つの LLM を対象としたクローズドブック質問応答 (CBQA) の性能評価を行った。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:40:32 GMT)
Follow-Your-Emoji-Faster: Towards Efficient, Fine-Controllable, and Expressive Freestyle Portrait Animation [72.2] Follow-Your-Emoji-Fasterは、顔のランドマークによって駆動されるポートレートアニメーションのための効率的な拡散ベースのフレームワークである。
我々のモデルは、現実の顔、漫画、彫刻、動物など、さまざまな肖像画タイプにまたがる、コントロール可能な、表現可能なアニメーションをサポートします。
EmojiBench++は、さまざまなポートレート、動画の駆動、ランドマークシーケンスで構成される、より包括的なベンチマークである。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:09:01 GMT)
Discrete Diffusion Models: Novel Analysis and New Sampler Guarantees [70.9] 離散拡散モデルに対する新たな解析的アプローチを導入し,正規性仮定の必要性を排除した。
標準的な$tau$-leaping法では、語彙サイズとともに線形にスケールするKL発散の収束保証を確立する。
我々のアプローチはより広く適用可能であり、他の広く使われているサンプルに対して最初の収束保証を提供する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:42:29 GMT)
Temporal Scaling Law for Large Language Models [70.7] 本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:37:09 GMT)
XL-Suite: Cross-Lingual Synthetic Training and Evaluation Data for Open-Ended Generation [68.0] XL-Instructは高品質な合成データを生成する新しい技術である。
XL-AlpacaEvalは、大規模言語モデルの言語間生成能力を評価するための新しいベンチマークである。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 14:53:34 GMT)
Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.8] 強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:11:28 GMT)
EuroGEST: Investigating gender stereotypes in multilingual language models [58.9] EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
すべての言語で最強のステレオタイプは、女性が「美」、「共感」、そして「否定」であり、男性は「リーダー」、「強く、タフ」、そして「職業的」であることを示している。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:26:47 GMT)
Automating Steering for Safe Multimodal Large Language Models [58.4] 基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 16:12:54 GMT)
Decoding Uncertainty: The Impact of Decoding Strategies for Uncertainty Estimation in Large Language Models [58.2] 大規模言語モデル(LLM)における復号化戦略が不確実性推定に与える影響について検討する。
実験の結果,反復を緩和するContrastive Searchは,所望のLLMに対して,平均不確かさを推定できることがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:48:13 GMT)
Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.1] マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 19:01:48 GMT)
Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.0] M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:54:20 GMT)
ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions [52.8] ChemOrchは化学的に接地した命令応答対を合成するフレームワークである。
ChemOrchは、生成したタスクに対して、制御可能な多様性と難易度を実現する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 05:43:58 GMT)
InteGround: On the Evaluation of Verification and Retrieval Planning in Integrative Grounding [51.8] 仮説クエリをサポートするために、複数の独立したエビデンスを検索し、検証するという課題である。
まず,LLMは冗長な証拠に対して頑健であるのに対して,情報の不完全な場合,内部知識を合理的に活用する傾向にある。
ノイズ導入による非方向性計画が性能を低下させるのに対して, 前提推論は論理的制約のため, 有望なアプローチとして現れる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:48:24 GMT)
LLM-Guided Co-Training for Text Classification [51.6] 本稿では,Large Language Models (LLMs) による新たな重み付き協調学習手法を提案する。
ラベルのないデータにLLMラベルをターゲットラベルとして使用し、複数のイテレーションで相互にトレーニングする2つのエンコーダのみベースのネットワークをコトレーニングします。
LLMによるガイダンスを戦略的に活用することにより,従来のSSL手法よりも大幅に性能が向上する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 03:46:01 GMT)
Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.3] 我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 03:42:09 GMT)
Pun Unintended: LLMs and the Illusion of Humor Understanding [50.3] パン(Puns)は、ポリセミーと音声の類似性を利用するユーモラスな言葉遊びの一種である。
我々のコントリビューションには、包括的およびニュアンス付きパント検出ベンチマーク、最近のLLMにおける人的評価、これらのモデルが処理パントで直面する堅牢性課題の分析が含まれている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:16:33 GMT)
DPSformer: A long-tail-aware model for improving heavy rainfall prediction [48.9] DPSformerは,高分解能分岐による豪雨イベントの表現を充実させる長テール認識モデルである。
豪雨の場合、DPSformerはベースラインの数値気象予測(NWP)モデルのCritical Success Index(CSI)を0.012から0.067に引き上げる。
我々の研究は、降雨予測のための効果的な長期的パラダイムを確立し、早期警戒システムを強化し、極端な気象事象の社会的影響を軽減するための実用的なツールを提供する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:09:38 GMT)
SlowFast-SCI: Slow-Fast Deep Unfolding Learning for Spectral Compressive Imaging [46.9] 我々はSlowFast-SCIを紹介した。これはSCIシステム以外のディープ展開ネットワークにシームレスに統合されたデュアルスピードフレームワークである。
スローラーニングでは、先行学習に基づくバックボーンを事前訓練または再利用し、撮像誘導により高速展開モデルに蒸留する。
高速学習の段階では、軽量適応モジュールが各ブロックに埋め込まれ、二重ドメイン損失によってテスト時に自己教師される。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 03:09:06 GMT)
Benchmarking Contextual and Paralinguistic Reasoning in Speech-LLMs: A Case Study with In-the-Wild Data [46.1] 音声-LLMは、書き起こしや翻訳といったタスクにおいて顕著なパフォーマンスを示してきたが、社会的および感情的な知性に不可欠な音声のパラ言語的側面を理解することにはまだ限界がある。
文脈パラ言語推論における音声LLMの評価のためのベンチマークであるCP-Benchを提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:26:40 GMT)
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering [45.7] 誤解を招く可視化は、公衆の理解にリスクをもたらし、データ駆動通信に関わるAIシステムに対して安全上の懸念を提起する。
我々は、24の最先端MLLMをベンチマークし、ミスリーダータイプとチャートフォーマット間での性能を分析し、新しい地域対応推論パイプラインを提案する。
我々の研究は、堅牢で信頼性があり、責任ある視覚コミュニケーションの要求に沿うMLLMを開発するための基盤を築いた。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:48:39 GMT)
From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.4] 大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:10:26 GMT)
Roundtable Policy: Improving Scientific Reasoning and Narratives through Confidence-Weighted Consensus of LLMs [44.7] 本稿では,多言語モデル(LLM)の重み付けによる推論を行う補完的推論時間推論フレームワークであるラウンドテーブルポリシーを紹介する。
本研究は, 複雑な異種科学課題における推論を著しく向上させ, 創造性, 厳密性, 論理コヒーレンスの観点から科学的物語を改善することを示唆する。
提案手法は,ブラックボックスアクセスと統一手順のみを必要としながら,不透明な収束よりも構造的,解釈可能なコンセンサスを強調する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:31:53 GMT)
Survey on the Evaluation of Generative Models in Music [42.8] 本稿では,システム出力とモデル利用の両方を評価するための共通評価対象,方法論,メトリクスの学際的検討を行う。
我々はこれらのアプローチの利点と限界について,音楽学,工学,HCIの観点から検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 20:26:48 GMT)
Learned Digital Codes for Over-the-Air Federated Learning [42.7] フェデレートエッジラーニング(FEEL)は、生データを集中することなく、無線デバイス間での分散モデルトレーニングを可能にする。
本研究では,低SNR条件下での信頼性操作を学習可能なデジタルOTAフレームワークを提案する。
その結果、7dB以上の信頼性演算が拡張され、全SNRレベルにわたるグローバルモデル収束が改善された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:43:42 GMT)
DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement [41.8] 視覚言語モデルは、談話レベルの多文視覚記述を生成する。
現在のアプローチでは、談話入力のための文レベルの構文解析出力をマージする。
新しいタスクであるDiscoSG(DiscoSG)を導入した。
400のエキスパートアノテーションと8,430の合成多重文キャプショングラフペアからなるデータセットであるDiscoSG-DSをリリースする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 19:02:38 GMT)
Leveraging Multilingual Training for Authorship Representation: Enhancing Generalization across Languages and Domains [41.4] オーサシップ表現(AR)学習は,オーサシップ帰属タスクにおいて高いパフォーマンスを示している。
本稿では,2つの重要なイノベーションを取り入れた多言語AR学習手法を提案する。
私たちのモデルは36の言語と13のドメインにわたる450万以上の著者でトレーニングされています。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:43:24 GMT)
Probing LLM World Models: Enhancing Guesstimation with Wisdom of Crowds Decoding [41.4] 我々は,3つの推定データセット(MARBLES,FUTURE,ELECPRED)を紹介する。
社会科学の概念であるWOC(Wisdom of Crowds)にヒントを得て,大規模言語モデル(LLM)研究のためのWOC復号法を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:34:48 GMT)
MIRA: Medical Time Series Foundation Model for Real-World Health Data [39.6] 医用時系列の統一基盤モデルは、アノテーションの負担を軽減し、モデルのカスタマイズを最小化し、堅牢な転送を可能にする。
医療時系列の予測に特化して設計された統合基盤モデルであるMIRAを紹介する。
MIRAは、他のゼロショットベースラインや微調整ベースラインと比較して、アウト・オブ・ディストリビューションとイン・ディストリビューションのシナリオで平均10%と7%の誤差を予測できる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:44:32 GMT)
QVGen: Pushing the Limit of Quantized Video Generative Models [39.5] ビデオ拡散モデル(DM)により高品質なビデオ合成が可能となったが、その膨大な計算とメモリ要求は現実の展開に重大な課題をもたらす。
提案するQVGenは,高速かつ推論効率の高いビデオDMに適した,QAT(quantization-aware training)フレームワークである。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 18:16:28 GMT)
Mellivora Capensis: A Backdoor-Free Training Framework on the Poisoned Dataset without Auxiliary Data [39.1] 本稿では,現実シナリオにおけるバックドア攻撃対策の課題について述べる。
本稿では,モデルトレーナーが有毒なデータセット上でクリーンなモデルをトレーニングできるようにする,堅牢でクリーンなデータのないバックドア防御フレームワークであるMellivora Capensis(textttMeCa)を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:45:24 GMT)
Quantifying and Alleviating Co-Adaptation in Sparse-View 3D Gaussian Splatting [39.0] 3D Gaussian Splatting (3DGS) は、高密度ビュー環境下での新規なビュー合成において、印象的な性能を示した。
スパースビューのシナリオでは、トレーニングビューのリアルなレンダリングにもかかわらず、3DGSは時々、新しいビューで外見のアーティファクトを示す。
本稿では,スパースビュー3DGSの外観アーティファクトについて検討し,現在のアプローチの限界を明らかにする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:20:24 GMT)
Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding [39.0] Text-Sceneは3Dシーンを自動的にテキスト記述に解析してシーンを理解するフレームワークである。
幾何学解析とMLLMの両方を活用することで、Text-Sceneは正確で詳細で人間の解釈可能な記述を生成する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:10:45 GMT)
From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature [38.5] 既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論プロセスにおける異なる役割を無視している。
本稿では,トークンエントロピーに基づく最適化を動的に適用するトークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を紹介する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:30:25 GMT)
LaMP-QA: A Benchmark for Personalized Long-form Question Answering [37.9] パーソナライズされた長文回答生成を評価するために設計されたベンチマークであるLaMP-QAを紹介する。
本ベンチマークでは,(1)芸術・エンターテイメント,(2)ライフスタイル・アンド・パーソナル・デベロップメント,(3)社会・文化の3つのカテゴリーを対象とし,45以上のサブカテゴリを対象とする。
その結果、パーソナライズされたコンテキストを組み込むことで、最大で39%のパフォーマンス改善が達成された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 14:37:31 GMT)
Time to Revist Exact Match [37.7] 正確なマッチング(EM)の欠点を評価するために,時間的質問応答を数値的推定タスクとして用いた。
テスト・オブ・タイム(Test of Time)とTempTabQA(TempTabQA)から抽出したベンチマークであるTempAnswerQAを紹介する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:10:26 GMT)
Solving Linear Systems of Equations with the Quantum HHL Algorithm: A Tutorial on the Physical and Mathematical Foundations for Undergraduate Students [36.9] 2009年、ハロー、ハシディム、ロイドは、$poly(log N)$の複雑性を持つ方程式の線形系を解くアルゴリズムを提案した。
本稿では,学部生を対象としたHHLアルゴリズムの物理・数学的基礎を論じるチュートリアルについて述べる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:37:48 GMT)
IMAIA: Interactive Maps AI Assistant for Travel Planning and Geo-Spatial Intelligence [36.7] インタラクティブなマップAIアシスタントであるIMAIAを紹介する。
ベクトル(ストリート)マップと衛星画像の両方との自然言語による対話を可能にする。
カメラの入力を地理空間知能で拡張し、ユーザーが世界を理解するのを助ける。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 18:49:05 GMT)
InfiniBench: A Benchmark for Large Multi-Modal Models in Long-Form Movies and TV Shows [36.3] InfiniBenchは、長いビデオ理解におけるモデルの能力を評価するために設計されたベンチマークである。
1000時間以上のビデオコンテンツがあり、平均的なビデオの長さは53分である。
グラウンドングベース(シーン遷移、キャラクターアクションなど)と推論ベース(ディープコンテキスト理解、マルチイベントリンクなど)にまたがる8つの多様なスキル
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:21:03 GMT)
VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [35.6] 強化微調整(RFT)は、Large Language Models(LLMs)の人間レベルの推論能力を達成する上で大きな可能性を示している。
MLLMにおけるヒューマンライクなビデオ推論能力を育成するために,RFTパラダイムを拡張した新しいアプローチであるVIDEORFTを提案する。
VideoRFT は RFT の標準的な2段階スキームに従う: チェーン・オブ・シント(CoT)アノテーションによる細調整(SFT)と、一般化を改善するための強化学習(RL)である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:53:09 GMT)
Prompt-Driven Agentic Video Editing System: Autonomous Comprehension of Long-Form, Story-Driven Media [35.6] タイムラインではなく自由形式のプロンプトを通じて、クリエイターが複数時間コンテンツを再構成するのに役立つプロンプト駆動のモジュール編集システムを提案する。
コアとなるセマンティックインデックスパイプラインは、時間分割、ガイド付きメモリ圧縮、粒度間の融合を通じてグローバルな物語を構築する。
我々のシステムは、即席編集をスケールし、物語の一貫性を保ち、自動化と創造者制御のバランスをとる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:22:56 GMT)
FastCuRL: Curriculum Reinforcement Learning with Stage-wise Context Scaling for Efficient Training R1-like Reasoning Models [35.4] 我々は,LLM学習と推論を効率的に行うために,段階的コンテキストスケーリングを備えたカリキュラムRLフレームワークであるFastCuRLを提案する。
FastCuRL-1.5B-V3は5つの競合レベルのベンチマークで最先端の推論モデルよりも優れ、AIME 2024では49.6%の精度を達成した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:02:08 GMT)
Quantum Algorithms for Solving Generalized Linear Systems via Momentum Accelerated Gradient and Schrödingerization [34.0] 運動量加速勾配法とシュル「オーディンジェライゼーション」を組み合わせた量子アルゴリズムを提案する。
このアルゴリズムは線形システムの解法における古典的なカウンターパークの高速化を実現する。
既存の非シュリンガー化に基づく量子線形系アルゴリズムの実用的限界を克服することができる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:40:53 GMT)
Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing [33.4] 拡散型大言語モデルLLaDAを用いた音声認識(ASR)に関する実験的検討を行った。
ランダムマスキング,低信頼マスキング,半自己回帰戦略について検討し,Whisper-LLaDAがベースラインと比較してWERを大幅に低減することを示した。
ほとんどの実験的な構成はWhisper-LLaMAベースラインよりも高速な推論を実現するが、認識精度はわずかに低い。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:48:06 GMT)
Challenging the Evaluator: LLM Sycophancy Under User Rebuttal [31.4] 大規模言語モデルは、しばしば、ユーザの信念に沿った反応を歪ませて、サイコフィナンシーを示す。
本研究は、LLMがその後の会話のターンに挑戦しても、同時に提示される矛盾する議論を評価する際には、なぜサイコフィナンシーを示すのかを考察する。
評価のために両方の応答が同時に提示される場合よりも、ユーザからのフォローアップとしてフレーム化された場合、最先端のモデルの方が、ユーザの反論を裏付ける傾向にある。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:44:01 GMT)
Does quantization affect models' performance on long-context tasks? [31.3] 大きな言語モデル(LLM)は、128Kトークンを超えるコンテキストウィンドウをサポートするようになった。
我々は,長い入力(>64Kトークン)と長い出力を持つタスクに対して,量子化LDMを初めて体系的に評価する。
その結果,平均8ビット量子化では精度が0.8%低下し,4ビット法では大きな損失が生じることがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:44:40 GMT)
A Closer Look at Model Collapse: From a Generalization-to-Memorization Perspective [31.2] 拡散モデルによってAI生成データが多くなり、モデル崩壊に対する懸念が高まっている。
本稿では,拡散モデルにおけるモデル崩壊時の一般化から記憶への移行について述べる。
この知見により,一般化から記憶への移行を緩和するエントロピーに基づくデータ選択戦略を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:09:14 GMT)
KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control [30.7] ヒューマノイドロボットが単一ポリシーで多様な動的動作を学習できる統一された全身制御系VMSを提案する。
我々のフレームワークは、局所的な動きの忠実度とグローバルな軌道の整合性のバランスをとるハイブリッドな追跡目標を統合している。
シミュレーションと実世界の実験の両方においてVMSの特殊化を広範囲に検証し、ダイナミックスキルの正確な模倣、分長シーケンスでの安定した性能、そして目に見えない動作に対する強力な一般化を実証した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:31:14 GMT)
mmExpert: Integrating Large Language Models for Comprehensive mmWave Data Synthesis and Understanding [30.5] mmExpertは革新的なmmWave理解フレームワークです。
特定のアプリケーションシナリオのための合成mWaveレーダデータセットの生成を自動化する。
mmExpertによって合成されたデータは、下流モデルの性能を大幅に向上させることを示した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:01:02 GMT)
Captioning for Text-Video Retrieval via Dual-Group Direct Preference Optimization [30.4] 補助キャプションは、しばしばビデオ理解を強化するために使われ、モダリティ間のギャップを埋める。
本稿では,検索関連スコアを用いた字幕生成を直接最適化する検索フレームワークである$textbfCaRe-DPOを提案する。
本研究では,CaRe-DPOが補助知識を効果的に活用して検索のためのきめ細かいキャプションを生成することにより,検索性能を著しく向上することを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:36:53 GMT)
DynFaceRestore: Balancing Fidelity and Quality in Diffusion-Guided Blind Face Restoration with Dynamic Blur-Level Mapping and Guidance [30.0] Blind Face Restorationは、未知の劣化した入力から高忠実で詳細な顔画像を取り戻すことを目的としている。
視覚的に劣化した入力をぼやけた画像にマッピングする方法を学習する新しいブラインドフェイス復元手法であるDynFaceRestoreを提案する。
DynFaceRestoreは、定量評価と定性評価の両方において最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:03:35 GMT)
Revisiting Speech-Lip Alignment: A Phoneme-Aware Speech Encoder for Robust Talking Head Synthesis [29.8] 本稿では,音素-音素-音素対応を明示する音素認識型音声エンコーダ(PASE)を提案する。
実験の結果,PASEはNeRFと3DGSのレンダリングモデルの両方で最先端の性能を実現していることがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:39:13 GMT)
GuiLoMo: Allocating Expert Number and Rank for LoRA-MoE via Bilevel Optimization with GuidedSelection Vectors [29.2] Low-Rank Adaptation (LoRA) は、計算コストを削減した大規模言語モデルを適応するための効率的な方法である。
GuiLoMoはきめ細かなレイヤーの専門家数とランク割り当て戦略である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 16:23:00 GMT)
When Truthful Representations Flip Under Deceptive Instructions? [28.5] 大規模言語モデル(LLM)は、偽りの応答を生成するために悪意のある命令に従う傾向がある。
知覚的命令は、真理に富んだ命令と比較してLLMの内部表現を変化させる。
我々の分析は、指示された不当さの階層的および特徴レベルの相関をピンポイントで示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 03:57:34 GMT)
UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations [28.3] UniSkillは、ラベルなしで大規模なクロスボデーメントビデオデータから、エンボディディメントに依存しないスキル表現を学ぶフレームワークである。
シミュレーションと実環境の両方における実験により、我々のクロス・エボディメントのスキルは、ビデオのプロンプトが見えない場合でも、ロボットが適切な行動を選択するのに成功していることがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 22:27:04 GMT)
The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology [28.3] 340万人以上の子供が、臨床介入を必要とする言語障害を経験している。
言語病理医(SLP)の数は、患児の約20倍である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 18:10:30 GMT)
MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.2] 本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:59:16 GMT)
Seeing Culture: A Benchmark for Visual Reasoning and Grounding [27.5] 我々は、新しいアプローチによる文化的推論に焦点を当てたSeeing Culture Benchmark(SCB)を紹介する。
SCBベンチマークは、東南アジア7カ国の5つのカテゴリで128の文化的なアーティファクトをキャプチャする1,065のイメージで構成されている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 03:47:49 GMT)
Less is More: Unlocking Specialization of Time Series Foundation Models via Structured Pruning [27.2] 時系列基礎モデル 広大なパラメータを事前訓練し、驚くべきゼロショット予測性能を達成する。
驚くべきことに、微調整後も、TSFMは、フルショットダウンストリームデータでトレーニングされた、より小さな、特殊なモデルよりも一貫してパフォーマンスを向上することはできない。
より関連性が高くコンパクトなパラメータ空間に焦点を合わせることにより、その後の微調整プロセスを正規化するための構造化プルーニング法を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:34:07 GMT)
Zero-Shot Human Mobility Forecasting via Large Language Model with Hierarchical Reasoning [27.1] ZHMFはゼロショット人間の移動予測のためのフレームワークである。
セマンティック強化された検索とリフレクション機構と階層型言語モデルに基づく推論システムを組み合わせる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:46:38 GMT)
How Much Do Large Language Models Know about Human Motion? A Case Study in 3D Avatar Control [26.9] 本研究では,3次元アバター制御によるLarge Language Models(LLMs)の人間の動作知識を探索する。
以上の結果から,LSMは高次身体運動の解釈に長けているが,正確な身体部位の位置決めに苦慮していることが明らかとなった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:00:55 GMT)
Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts [24.0] いくつかの主流視覚言語モデル(LVLM)における両眼的公正性について実験的に検討する。
我々の公正度評価フレームワークは、視覚的質問応答/分類タスクにおいて、直接的および単選択的な質問プロンプトを用いている。
我々は,オープンソースとクローズドソースの両方のLVLMに適用可能な,不公平性軽減のためのマルチモーダル・チェーン・オブ・思想(CoT)に基づく戦略を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:43:54 GMT)
Robust Native Language Identification through Agentic Decomposition [23.9] 大規模言語モデル(LLM)は、表面的な文脈的手がかりを利用することで、ネイティブ言語識別(NLI)ベンチマークで高いパフォーマンスを達成することが多い。
このような戦略は信頼できないことを示し、モデル予測は誤解を招くヒントによって容易に変更可能であることを示す。
専門エージェントが多種多様な言語的証拠を蓄積・分類する,法医学的言語学にヒントを得たエージェントNLIパイプラインを導入する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:38:03 GMT)
The Oracle Has Spoken: A Multi-Aspect Evaluation of Dialogue in Pythia [23.9] 我々は、言語理論に動機づけられた対話のきめ細かい側面を対象とする、モデルベースメトリクスの包括的スイートを採用する。
プレトレーニングされたPythiaモデルの性能は、モデルのサイズや、会話データセットの教師付き微調整の結果、それぞれの次元でどのように変化するかを評価する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:11:10 GMT)
Surgical-MambaLLM: Mamba2-enhanced Multimodal Large Language Model for VQLA in Robotic Surgery [22.8] 本稿では,手術領域におけるMamba2とLarge Language Models(LLM)を組み合わせた新しい手術手法であるStage-MambaLLMを提案する。
具体的には,Mamba2を有効マルチモーダル融合に用いるためのCBMIモジュールを提案する。
また,手術シーンの空間的理解を高めるため,マンバ2のSIPスキャンモードを設計した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:42:29 GMT)
Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence [22.5] アクションベースのビデオオブジェクトセグメンテーションは、セグメンテーションとアクションセマンティクスをリンクすることでこの問題に対処する。
まず、ラベルノイズ下でのアクションベースビデオオブジェクトのセグメンテーションについて検討する。
この設定に6つのラベルノイズ学習戦略を適用し、評価のためのプロトコルを確立する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:03:43 GMT)
Side Effects of Erasing Concepts from Diffusion Models [22.3] 概念消去技術(CET)は、望ましくない「ターゲット」概念の生成を禁止するように設計されている。
概念消去は副作用があり,CETは容易に回避可能であることを示す。
我々は,ロバストな概念消去に向けた今後の作業を支援するため,ベンチマークと評価ツールをリリースする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:59:06 GMT)
Does Reasoning Introduce Bias? A Study of Social Bias Evaluation and Mitigation in LLM Reasoning [21.9] 大規模言語モデル(LLM)における社会的偏見の最初の体系的評価について述べる。
我々は、DeepSeek-R1とChatGPTの命令調整およびCoT拡張版を含む、幅広いモデルの予測精度と推論バイアスを解析する。
本稿では, モデル予測が漸進的推論ステップ間でどのように変化するかを追跡することにより, バイアスを検出する軽量な緩和法であるバイアスプロキシ(ADBP)を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:58:54 GMT)
Revisiting Broken Windows Theory [21.8] 都市景観の物理的構造が犯罪にどのように影響するかという長年の疑問を再考する。
ニューヨーク市とシカゴの暴力犯罪の発生に及ぼす都市構造の影響を推定する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:27:37 GMT)
Lattice Boltzmann Model for Learning Real-World Pixel Dynamicity [21.8] この研究は、視覚追跡のための実世界のピクセル動態を学習するためのLattice Boltzmann Model (LBM)を提案する。
LBMは動的ピクセル格子に視覚表現を分解し、衝突ストリームプロセスを通じて画素運動状態を解決する。
既存の手法と比較すると、LBMはオンラインおよびリアルタイムに実用的な適用性を示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:25:27 GMT)
Towards Transparent and Incentive-Compatible Collaboration in Decentralized LLM Multi-Agent Systems: A Blockchain-Driven Approach [21.5] 本稿では、透過的なエージェント登録、検証可能なタスク割り当て、動的評価追跡を可能にするブロックチェーンベースのフレームワークを提案する。
本実装では, GPT-4エージェントをSolidity契約と統合し, 50ラウンドのシミュレーション, 高いタスク成功率, 安定したユーティリティ分布, 創発的エージェントの特殊化を実演する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 16:00:24 GMT)
From Language to Cognition: How LLMs Outgrow the Human Language Network [21.1] 大規模言語モデル(LLM)は、人間の言語ネットワークにおける神経活動と著しく類似している。
我々は8つのモデルサイズにまたがる300Bトークンにまたがる34のトレーニングチェックポイントをベンチマークし、脳のアライメントが言語能力とどのように関連しているかを分析した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:04:48 GMT)
Sequential-NIAH: A Needle-In-A-Haystack Benchmark for Extracting Sequential Needles from Long Contexts [20.9] 本研究では,長期の文脈から逐次情報を抽出する大規模言語モデルの能力を評価するためのベンチマークであるSequential-NIAHを紹介する。
ベンチマークには3つの針生成パイプラインが含まれている: 合成時間、実時間、実時間、実時間、コンテキストの長さは8Kから128Kである。
我々は6つのよく知られたLCM実験を行い、最も優れたモデルでさえ、このベンチマークのテストセットで63.50%の最大精度を達成できたことを明らかにした。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:21:08 GMT)
Leveraging NTPs for Efficient Hallucination Detection in VLMs [20.6] 幻覚は視覚言語モデル(VLM)の信頼性を損なう
それらを検出する一般的なアプローチの1つは、生成された出力を評価するために、同じVLMまたは別のVLMを使用することである。
本稿では,VLMの次トーケン確率(NTP)に基づく信号を用いた従来のMLモデルの学習による幻覚検出のための効率的なオンザフライ法について検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 14:36:22 GMT)
OnlineMate: An LLM-Based Multi-Agent Companion System for Cognitive Support in Online Learning [20.1] 大規模言語モデル(LLM)によって駆動されるマルチエージェント学習支援システムである OnlineMate を提案する。
OnlineMateは、ピアライクなエージェントの役割をシミュレートし、協調的な議論中に学習者の認知状態に適応し、誤解、混乱、モチベーションなどの心理的状態を推測する。
シミュレーション学習シナリオにおける実験結果から,オンライン学習環境における認知的エンゲージメントを高めつつ,オンライン学習と議論を効果的に促進することが示された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:11:23 GMT)
FESTA: Functionally Equivalent Sampling for Trust Assessment of Multimodal LLMs [20.1] マルチモーダル大言語モデル(MLLM)の生成した予測は、選択的な予測を可能にし、ユーザの信頼性を向上させることができる。
MLLMのマルチモーダル入力サンプリング技術であるFESTA(Functional Equivalent Smpling for Trust Assessment)を提案する。
FESTAは等価かつ相補的な入力サンプリングに基づいて不確実性尺度を生成する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:50:22 GMT)
The Missing Parts: Augmenting Fact Verification with Half-Truth Detection [20.0] 多くの現実世界の主張は半真実であり、実際は正しいが、批判的な文脈が欠落しているために誤解を招く。
我々は,半真実検出の課題を紹介し,文レベルの証拠アライメントと推論されたクレーム意図を付加した15kの政治的クレームを備えた新しいベンチマークであるPolitiFact-Hiddenを提案する。
提案するTRACERは,エビデンスを整理し,インプリートを推定し,隠されたコンテンツの因果的影響を推定することにより,省略に基づく誤報を識別するモジュラー・リアセスメント・フレームワークである。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:48:41 GMT)
LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts [20.0] 本稿では,大規模言語モデルの意思決定戦略と社会行動を測定するゲーム理論に基づく評価プラットフォームについて述べる。
本システムでは,トップボードランキングとスコアリング機構を用いて,15のLLMを横断的に評価する。
この研究は、LLMの戦略的知性を評価するための新しい視点を導入し、既存のベンチマークを強化し、インタラクティブでゲーム理論的なシナリオにおけるそれらの評価を広げる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:21:17 GMT)
The Automated but Risky Game: Modeling and Benchmarking Agent-to-Agent Negotiations and Transactions in Consumer Markets [19.8] 消費者と商店双方がAIエージェントを承認し、交渉と取引を完全に自動化する将来のシナリオについて検討する。
我々の発見によると、AIによる取引は本質的に不均衡なゲームであり、異なるエージェントがユーザーに対して著しく異なる結果をもたらす。
ユーザーはAIエージェントにビジネス上の決定を委譲する際に注意を払わなければならない。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 18:47:07 GMT)
On the de-duplication of the Lakh MIDI dataset [19.7] シンボリック・ミュージック・ドメインにおいて最も広く公開されているソースの一つであるLakh MIDIデータセット(LMD)に関するデータセット重複問題について検討した。
LMDのフィルタリストの3つの異なるバージョンを提案し、178,561ファイルのうち、少なくとも38,134のサンプルを最も保守的な設定でフィルタリングする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:31:30 GMT)
LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios [19.7] LFT(Long-tailed semi-supervised learning via parameter- efficient Fine-Tuning)
微調整された基礎モデルにより、より信頼性の高い擬似ラベルが生成され、不均衡学習の恩恵を受けることを示す。
また,オープンワールド環境下での半教師あり学習を調査することで,より実践的な環境についても検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:36:17 GMT)
CoLa: Learning to Interactively Collaborate with Large Language Models [18.9] 自動ガイドを学習するための新しい自己指導型学習パラダイムであるCoLaを紹介する。
我々は,人間によるQAデータセットの人間による研究を行うことにより,人間と自動ガイドの戦略を比較した。
自動ガイドは,その戦略を推論者の能力に適応させることで人間より優れていることを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:32:32 GMT)
Attribute Filtering in Approximate Nearest Neighbor Search: An In-depth Experimental Study [18.5] 本稿では,最新のアルゴリズムを包含した統合フィルタリングANN検索インタフェースを提案する。
まず,属性型とフィルタリング戦略に基づく既存のフィルタANNアルゴリズムの包括的分類法を提案する。
次に、4つのデータセットにまたがる10のアルゴリズムと12のメソッドについて、幅広い実験的評価を行う。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:22:23 GMT)
ConceptViz: A Visual Analytics Approach for Exploring Concepts in Large Language Models [18.5] ConceptVizは、大規模言語モデル(LLM)の概念を探索するために設計された視覚分析システムである
本研究では,LLMにおける意味ある概念表現の発見と検証を合理化することで,概念Vizは解釈可能性の研究を強化することを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:57:20 GMT)
HealthSLM-Bench: Benchmarking Small Language Models for Mobile and Wearable Healthcare Monitoring [18.4] 小型言語モデル(SLM)は軽量で、モバイルおよびウェアラブルデバイス上でローカルかつ効率的に動作するように設計されている。
ゼロショット,少数ショット,命令微調整による健康予測タスクにおけるSLMの評価を行った。
その結果,SLMは大規模言語モデルに匹敵する性能を達成でき,効率とプライバシを大幅に向上させることができることがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:03:22 GMT)
Survey of Video Diffusion Models: Foundations, Implementations, and Applications [18.3] 拡散モデルの最近の進歩はビデオ生成に革命をもたらし、従来の生成的対向ネットワークに基づくアプローチと比較して時間的一貫性と視覚的品質を提供する。
本調査は拡散に基づくビデオ生成の総合的なレビューを行い,その進化,技術基盤,実用的応用について検討する。
本稿では,現在の手法を体系的に分類し,アーキテクチャの革新と最適化戦略を分析し,デノナイズやスーパーレゾリューションといった低レベルのビジョンタスクにまたがる応用について検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 20:25:42 GMT)
Time to Talk: LLM Agents for Asynchronous Group Communication in Mafia Games [17.4] LLMは主に同期通信で使われ、人間とモデルは交互に交互に通信する。
本研究では,2つのモジュールからなる適応型非同期LLMエージェント,つまり,何を言うべきかを決定するジェネレータと,いつ話すかを決定するスケジューラを開発する。
分析の結果,会話のタイミング決定におけるエージェントの行動は,メッセージ内容の相違はあるものの,人間のパターンを忠実に反映していることがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 16:08:12 GMT)
SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding [17.4] 笑いやため息のようなパラ言語的な音は、より現実的で魅力的なスピーチを合成するのに不可欠である。
大規模パラ言語データを生成するための自動フレームワークを提案し,それをSynParaSpeechデータセットの構築に適用する。
データセットは6つのパラ言語カテゴリーで構成され、118.75時間のデータと正確なタイムスタンプは、いずれも自然な会話音声に由来する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 16:16:54 GMT)
Are VLMs Ready for Lane Topology Awareness in Autonomous Driving? [17.3] VLM(Vision-Language Models)は、最近、マルチモーダル推論において顕著な進歩を示したが、自動運転におけるその応用は限定的である。
本研究では,道路トポロジ理解におけるVLMの能力を体系的に評価する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:02:39 GMT)
MedCutMix: A Data-Centric Approach to Improve Radiology Vision-Language Pre-training with Disease Awareness [17.0] 我々はMedCutMixを提案する。MedCutMixは、新しいマルチモーダル病中心データ拡張法である。
本手法は,4つの下流放射線診断データセットにまたがる従来の手法を超越した手法である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:51:14 GMT)
Steering Towards Fairness: Mitigating Political Bias in LLMs [16.6] 我々は、内部モデル表現の分析を通じて、大言語モデル(LLM)におけるそのようなバイアスを探索し緩和する枠組みを採用している。
複数のイデオロギー軸にまたがる層ワイズ解析が可能な包括的活性化抽出パイプラインを導入する。
以上の結果から,デコーダのLLMは,効率的なベクターベース緩和に活用できる層間表現バイアスを体系的に符号化していることがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:24:55 GMT)
Towards Universal Debiasing for Language Models-based Tabular Data Generation [16.3] 我々は,グループレベルの依存性を最小限に抑える汎用的デバイアスフレームワークを導入し,有利属性と保護属性の相互情報を同時に低減する。
当社のフレームワークは公平性とユーティリティのバランスを効果的に保ち、高度アプリケーションでデバイアスを行うためのスケーラブルで実用的なソリューションを提供します。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:06:53 GMT)
Cross-Corpus and Cross-domain Handwriting Assessment of NeuroDegenerative Diseases via Time-Series-to-Image Conversion [15.9] 共同分類器による手書き文字の時系列と画像の両方を活用するフレームワークを提案する。
バイナリ分類実験は、既存の時系列および画像データセット上での最先端のパフォーマンスを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:00:55 GMT)
MindRef: Mimicking Human Memory for Hierarchical Reference Retrieval with Fine-Grained Location Awareness [15.8] 本稿では,大規模言語モデルの事前学習期間中に記憶されたパラメータ化知識を,個別に参照文を思い出すために活用することを検討する。
KILTナレッジセンシティブなタスクの実験では、LLMが様々なタスク形式の参照通路位置を独立にリコールできることが確認されている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:34:46 GMT)
No Need for Explanations: LLMs can implicitly learn from mistakes in-context [15.7] 我々は,大規模な言語モデルが誤りからより効果的に学習する理由を,明確な正当性を持たずに研究する。
我々は、誤答がLLM学習にとってより有益である一方で、モデルに過度に拘束された明確な補正的合理性を示す証拠を見出した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:38:54 GMT)
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [15.6] 提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 03:19:10 GMT)
AIPsychoBench: Understanding the Psychometric Differences between LLMs and Humans [15.6] 数十億のパラメータを持つ大規模言語モデル(LLM)は、膨大なインターネットスケールのデータから学習することで、人間のような知性を示す。
本稿では,LLMの心理的特性を評価するための特別なベンチマークであるAIPsychoBenchを紹介する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:40:31 GMT)
Data Augmentation for Maltese NLP using Transliterated and Machine Translated Arabic Data [14.9] マルタ語は独特なセム語であり、ロマンス語やゲルマン語の影響を受けている。
セム語のルーツにもかかわらず、その正書法はラテン文字に基づいており、アラビア語の最も近い言語的親類との間を隔てている。
アラビア語の資源が言語間拡張技術によってマルタ語自然言語処理(NLP)をサポートできるかを検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:57:25 GMT)
Trajectory Prediction for Autonomous Driving: Progress, Limitations, and Future Directions [14.9] 本稿では,既存の解を分類する分類法を提案する最近の軌道予測手法について概説する。
予測パイプラインの概観も提供されており、文献に存在する入力と出力のモダリティ、モデリング機能、予測パラダイムを網羅している。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:44:10 GMT)
USB-Rec: An Effective Framework for Improving Conversational Recommendation Capability of Large Language Model [14.6] 大言語モデル (LLM) は会話レコメンダシステム (CRS) で広く使われている。
そこで本研究では,USB-Rec(User-Simulator-Based framework)を統合化したトレーニング推論フレームワークを提案する。
我々の手法は、常に従来の最先端の手法より優れています。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 22:34:55 GMT)
Listening, Imagining & Refining: A Heuristic Optimized ASR Correction Framework with LLMs [14.2] LIR-ASR は "Listening-Imagining-Refining" 戦略を適用し、音素の変種を生成し、文脈でそれらを精製する。
英語と中国語の両方のASR出力の実験では、LIR-ASR平均は最大1.5ポイントのCER/WERの減少を達成している。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:01:56 GMT)
The Pursuit of Empathy: Evaluating Small Language Models for PTSD Dialogue Support [14.1] 本稿では,PTSD患者に対する共感応答を生成するための小言語モデルの能力について検討する。
Trauma-Informed Dialogue for Empathy (TIDE) は500の多様な臨床現場のPTSDペルソナにまたがる1万の2ターン会話からなる新しいデータセットである。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:07:48 GMT)
AdvSumm: Adversarial Training for Bias Mitigation in Text Summarization [14.0] 本稿では,テキスト要約におけるバイアスを軽減するためのトレーニングフレームワークAdvSummについて述べる。
AdvSummは、敵対的堅牢性に触発された新しいPerturberコンポーネントを導入し、Sequence-to-Sequenceモデルの埋め込みレベルに勾配誘導摂動を適用した。
筆者らは,AdvSummが,要約品質を損なうことなく,要約に特化して,名称国籍バイアス,政治的フレーミングバイアスを効果的に低減することを示した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 20:22:18 GMT)
MPCG: Multi-Round Persona-Conditioned Generation for Modeling the Evolution of Misinformation with LLMs [13.9] 現在の誤報検出アプローチは、誤報が静的であると暗黙的に仮定している。
我々は,複数ラウンドのペルソナ条件付きフレームワークであるMPCGを紹介し,異なるイデオロギー的視点を持つエージェントによってクレームが反復的に再解釈される様子をシミュレートする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:40:48 GMT)
FC-Attack: Jailbreaking Multimodal Large Language Models via Auto-Generated Flowcharts [13.9] MLLM(Multimodal Large Language Models)は、いくつかの実用アプリケーションにおいて強力で広く採用されている。
近年の研究では、有害なコンテンツを生成するためにモデルを誘導できるマルチモーダル・ジェイルブレイク攻撃に対する脆弱性が明らかにされている。
本稿では,自動生成フローチャートFC-Attackに基づくジェイルブレイク攻撃手法を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:53:22 GMT)
Can GenAI Move from Individual Use to Collaborative Work? Experiences, Challenges, and Opportunities of Integrating GenAI into Collaborative Newsroom Routines [13.5] われわれは中国でニュース室のマネージャー、編集者、フロントラインのジャーナリストにインタビューを行った。
ジャーナリストは毎日の作業を支援するためにGenAIを使うことが多いが、価値のアライメントは主に個人の判断によって保護されていた。
組織レベルでは、GenAIの使用はチームから切り離されたままであり、実践を共有するための構造的障壁と文化的な抵抗によって妨げられていた。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:01:16 GMT)
On the Low-Rank Parametrization of Reward Models for Controlled Language Generation [13.2] 大量のデータに基づいて訓練された言語モデルは、場合によっては不適切なコンテンツを生成することが知られている。
我々は、外部の専門家モデルが復号化を導くとき、言語モデルの制御性に対する効果的でモジュラーなアプローチを再考する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:33:57 GMT)
FitPro: A Zero-Shot Framework for Interactive Text-based Pedestrian Retrieval in Open World [13.1] FitProはオープンワールドのインタラクティブなTPRフレームワークで、セマンティック理解とクロスシーン適応性を強化している。
FitProには、FCD(Feature Contrastive Decoding)、ISM(Incrmental Semantic Mining)、QHR(Query-aware Hierarchical Retrieval)の3つの革新的なコンポーネントがある。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:55:18 GMT)
DA-Font: Few-Shot Font Generation via Dual-Attention Hybrid Integration [12.7] DA-FontはDual-Attention Hybrid Moduleを統合する新しいフレームワークである。
DA-Fontは様々なフォントスタイルや文字で最先端の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:12:15 GMT)
Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation [12.6] 本研究では, ニューロンレベルの毒性指標の安定性, 構造的(層状)表現の利点, 毒性発生を誘導する機構の解釈可能性について検討した。
本稿では,言語モデルの最終出力層を固有分解する手法であるEigenShiftを提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:21:52 GMT)
CbLDM: A Diffusion Model for recovering nanostructure from pair distribution function [12.6] 本稿では,ナノ構造を復元するためにPDFを使用するという課題に焦点をあてる。
条件ベース遅延拡散モデルである深層学習モデルCbLDMを提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:20:15 GMT)
Artificial Satellite Trails Detection Using U-Net Deep Neural Network and Line Segment Detector Algorithm [12.2] 画像セグメント化のためのU-NetディープニューラルネットワークとLine Segment Detector (LSD)アルゴリズムを組み合わせた衛星跡検出モデルを提案する。
このモデルはMini-SiTian Arrayのデータから生成された375個の衛星トレイルのシミュレーション画像に基づいて訓練されている。
Mini-SiTian Arrayの実際の観測データに適用すると、79.57のリコールと74.56の精度が得られる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 18:38:30 GMT)
Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.2] 本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:15:29 GMT)
DCA: Graph-Guided Deep Embedding Clustering for Brain Atlases [11.0] Deep Cluster Atlas(ディープクラスタアトラス、英: Deep Cluster Atlas、DCA)は、グラフ誘導のディープ埋め込みクラスタリングフレームワークである。
DCAは、事前訓練されたオートエンコーダと空間的に規則化されたディープクラスタリングを組み合わせることで、機能的に一貫性のある空間的に連続した領域を生成する。
複数のデータセットとスケールにわたって、DCAは最先端のアトラスを上回り、機能的均一性を98.8%改善し、シルエット係数を29%改善した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:35:16 GMT)
Advancing Reference-free Evaluation of Video Captions with Factual Analysis [11.0] 本稿では,レファレンスフリーかつ事実的根拠のない新しいキャプション品質評価器であるVC-Inspectorを紹介する。
提案手法は,VATEX-Evalデータセット上での人間の判断に優れた整合性を示し,既存の手法よりも優れていた。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 05:04:41 GMT)
Robust Federated Finetuning of LLMs via Alternating Optimization of LoRA [10.8] ファインチューンなLoRAアダプタに交互に最適化を施した,フェデレートされたフレームワークであるRoLoRAを提案する。
理論解析と広範な実験の両方を用いて,RoLoRAの先行的アプローチに対する利点を実証する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:16:57 GMT)
MoPE: A Mixture of Password Experts for Improving Password Guessing [10.4] 本稿では,パスワードの構造パターンを活用してゲース性能を向上させるMoPEを提案する。
評価の結果,MoPEはオフラインおよびオンラインの推測シナリオにおいて,既存の最先端のベースラインを著しく上回っていることがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:30:15 GMT)
Multi-level Diagnosis and Evaluation for Robust Tabular Feature Engineering with Large Language Models [10.2] 大規模言語モデル(LLM)の堅牢性を評価するための多段階診断・評価フレームワークを提案する。
LLMのロバスト性はデータセットによって大きく異なり、高品質なLLM生成機能によって最大10.52%のショット予測性能が向上することを示した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:13:36 GMT)
Knowledge Distillation for Variational Quantum Convolutional Neural Networks on Heterogeneous Data [10.1] 異種データに基づく変分量子畳み込みニューラルネットワークのための知識蒸留フレームワークを提案する。
このフレームワークは、リソース適応型VQCNN回路の構成をガイドするクライアントデータに基づく量子ゲート数推定機構を備えている。
集約中、知識蒸留戦略はソフトラベルとハードラベルの両方を統合し、グローバルモデルを形成する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:58:51 GMT)
A Dynamic Fusion Model for Consistent Crisis Response [10.1] 重要なものの、しばしば見落とされがちな要因は、レスポンススタイルの一貫性である。
生成した応答のスタイリスティックな整合性を維持する方法を検討する研究はほとんどない。
スタイル整合性を評価するための新しい指標を提案し,融合型生成手法を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:15:38 GMT)
Investigating Long-term Training for Remote Sensing Object Detection [9.7] リモートセンシングオブジェクト検出における機能バックボーン微細調整のための動的バックボーン凍結(DBF)を提案する。
提案手法は,背骨が低レベルジェネリック特徴を抽出すべきか,リモートセンシング領域の特定の知識を持つべきかというジレンマに対処する。
本手法は,長期学習における計算コストを大幅に削減しつつ,より正確なモデル学習を可能にする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:37:57 GMT)
Spontaneous excitation of a centripetally accelerated atom coupled to electromagnetic vacuum fluctuations near a reflecting boundary [9.7] 反射境界付近の電磁真空変動と相互作用する遠心加速原子の平均原子エネルギーの変化率について検討した。
その結果、遠心加速度が原子遷移周波数によって設定された特性加速度を著しく上回る場合、真空揺らぎは放射線反応よりも支配的であることが明らかとなった。
原子境界距離が原子の加速と遷移波長に付随する特性長よりもはるかに小さい近ゾーン状態において、境界は平均原子エネルギーの変化率に実質的な補正をもたらす。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:18:56 GMT)
A Multi-Level Benchmark for Causal Language Understanding in Social Media Discourse [9.4] CausalTalkは、非公式テキストに対するきめ細かい因果検出とギストベースの推論をブリッジする。
ソーシャルメディアの文脈における因果推論を研究するための豊富なリソースを提供する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:20:33 GMT)
Delving into Cryptanalytic Extraction of PReLU Neural Networks [9.3] PRELUニューラルネットワークは、ReLUニューラルネットワークよりも複雑な非線形活性化関数を用いる。
これは、3つの異なる攻撃シナリオにわたるPRELUニューラルネットワーク抽出の実用的な実演である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:43:17 GMT)
Domain-Informed Genetic Superposition Programming: A Case Study on SFRC Beams [9.2] 本研究はドメインインフォームド遺伝子重畳プログラミング(DIGSP)を提案する。
DIGSPは入力空間をドメイン固有の特徴サブセットに分割し、独立した遺伝的プログラミング(GP)集団を進化させ、物質固有の効果をモデル化する。
65%のトレーニング、10%のバリデーション、25%のテスト分割を含む30の独立した試験において、DIGSPはトレーニングおよびテストルート平均二乗誤差(RMSE)において一貫してBGPを上回った。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 03:32:31 GMT)
Idiosyncratic Versus Normative Modeling of Atypical Speech Recognition: Dysarthric Case Studies [9.1] 慣用句の一般化と処理を両立できる戦略が,非定型音声のキャプチャに有効であることが判明した。
本研究は, 話者間での標準的(話者横断的)パターンと慣用的(話者特異的)パターンを併用し, 話者集団のASRを改善することの価値を強調した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:04:33 GMT)
Improving User Interface Generation Models from Designer Feedback [9.0] UI生成のパフォーマンス向上には,デザイナからのフィードバックが不可欠だ。
評価やランキングに基づく既存の手法は,設計者の理屈とよく一致していないことがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 19:02:53 GMT)
Designing Human-AI Collaboration to Support Learning in Counterspeech Writing [8.9] 我々は,人間とAIの協調システムであるCounterQuillを紹介した。
CounterQuillは、計算思考に基づく3段階のワークフローに従う。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:50:17 GMT)
Exploring How Audio Effects Alter Emotion with Foundation Models [8.9] 音声効果(FX)は、音楽聴取中に感情的な反応を形作る上で重要な役割を担っている。
本研究は、基礎モデルを用いてこれらの効果を分析する方法について検討する。
本研究の目的は,音楽の認知,演奏,情緒的コンピューティングに影響を及ぼす音楽制作実践の知覚的影響の理解を深めることである。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:36:11 GMT)
Model Guidance via Robust Feature Attribution [8.9] 提案手法は,最先端手法と比較してテスト時の誤分類を20%削減する。
また、実験前の設定を自然言語処理タスクを含むように拡張します。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:40:22 GMT)
Semi-Supervised Synthetic Data Generation with Fine-Grained Relevance Control for Short Video Search Relevance Modeling [8.8] 重要リソースを空にする4レベルの関連アノテーションを備えた中国語短いビデオデータセットを提示する。
2つの協調訓練されたモデルが、制御可能な関連ラベルを持つドメイン適応型ショートビデオデータを生成する半教師付き合成データパイプラインを提案する。
本手法は, 未表現の中間関連ラベルのサンプルを合成することにより, 関連レベルの多様性を高める。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:00:28 GMT)
Conditional Multidimensional Scaling with Incomplete Conditioning Data [8.7] 条件付き多次元スケーリングは、ペアの相似性から低次元の構成を求める。
本稿では,特徴量に欠損がある場合の低次元構成を学習できる条件付き多次元スケーリング手法を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:06:12 GMT)
Synergies between Federated Foundation Models and Smart Power Grids [8.2] M3Tフェデレーションファンデーションモデル(FedFM)は、分散データソース間のスケーラブルでプライバシ保護されたモデルトレーニング/ファインチューニングを可能にする。
本稿では,これらのモデルを電力システム研究コミュニティに導入するための第一歩として取り上げる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:00:07 GMT)
Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition [7.9] 手書きテキスト認識は、視覚入力を機械可読テキストに変換することを目的としている。
文字集合は時間とともに変化し、文字の頻度分布は歴史的時代や地域によって変化する。
本稿では,予測されたテキストの文字頻度分布とターゲット分布とのワッサーシュタイン距離を組み込んだ新たな損失関数を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 18:37:05 GMT)
Mental Multi-class Classification on Social Media: Benchmarking Transformer Architectures against LSTM Models [7.5] 本稿では,精神保健ポストを分類するために,LSTM(Long Short-Term Memory)モデルと最先端トランスフォーマーの比較を行った。
まず、厳密なフィルタリングと統計的探索分析を用いて、6つのメンタルヘルス状態とコントロールグループにまたがるReddit投稿の大規模なデータセットをキュレートし、アノテーションの品質を保証する。
実験結果から, トランスフォーマーモデルは, 全クラスで91-99%のF1スコアとアキュラシーを達成した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 05:41:59 GMT)
"What's Up, Doc?": Analyzing How Users Seek Health Information in Large-Scale Conversational AI Datasets [7.3] HealthChat-11Kは、25万のユーザメッセージからなる1万1千の現実世界の会話のキュレートされたデータセットである。
我々の分析は、ユーザーが健康情報を求める方法と理由に関する洞察を明らかにする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:36:08 GMT)
A unified relativistic path integral origin for noise-activated collapse and decoherence [6.9] 我々は、ディラック、クライン=ゴルドン、シュル・オーディンガー方程式を復元する単粒子経路積分を構築する。
この用語は、微分可能ポテンシャルにおいて休眠であるが、微分不能ノイズによって活性化され、有界マーチンゲール過程を通じて結果確率を誘導する。
トリガーはノイズスペクトルなので、我々の研究は「エンジニアリングカラー」のノイズが速くなるか、ステア崩壊することを示している。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:58:50 GMT)
Looking in the mirror: A faithful counterfactual explanation method for interpreting deep image classification models [6.8] Mirror-CFEは、分類器の特徴空間で直接操作することで忠実な反事実的説明を生成する。
ミラーCFEは、最先端の説明手法と比較して入力類似性を保ちながら、有効性を向上する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 22:21:20 GMT)
A Unified Deep Learning Framework for Motion Correction in Medical Imaging [6.7] 医用画像における多様な動きを補正するための統合運動補正フレームワークUniMoを紹介する。
UniMoは,1)大域的運動補正のための同変ニューラルネットワーク,2)局所変形のためのエンコーダ・デコーダネットワークをトレーニングするために,統一損失関数の交互最適化方式を採用している。
胎児磁気共鳴画像における運動追跡のためのUniMoの訓練および試験を行った。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:57:50 GMT)
FairTune: A Bias-Aware Fine-Tuning Framework Towards Fair Heart Rate Prediction from PPG [6.7] ローカルデプロイメントのための微調整基盤モデルは、実用的でスケーラブルな戦略と見なされることが多い。
微調整は平均絶対誤差(80%まで)を大幅に削減するが、公平性ギャップを同時に広げることができる。
FairTuneはバイアス対応の微調整フレームワークで、3つの緩和戦略をベンチマークします。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:42:26 GMT)
Auxiliary-Qubit-Free Quantum Approximate Optimization Algorithm for the Minimum Dominating Set Problem [6.5] 最小支配集合(MDS)問題に対する補助量子ビットフリー量子近似最適化アルゴリズム(QAOA)を提案する。
提案アルゴリズムは,従来のQAOAに匹敵する性能を達成し,量子ビットの削減を実現している。
マルチ角QAOAに基づくアブレーション研究では、共有回路パラメータを独立回路に置き換えることで、アルゴリズムの解の質をさらに改善できることが示されている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:01:57 GMT)
Molecular entanglement as a signature of the Unruh effect [6.3] ウンルー効果は、一様加速されたオブザーバが、慣性オブザーバが適切な加速に比例した温度で熱浴として見る真空を知覚することを予測している。
まず、真空中における遠心加速度を受ける2つの偏光可能な2レベルサブシステムからなる量子系の絡み合いダイナミクスについて検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:38:38 GMT)
Generate the browsing process for short-video recommendation [6.2] 本稿では,ユーザのショートビデオ視聴ジャーニーを動的にシミュレートし,ショートビデオレコメンデーションにおけるウォッチタイム予測を提案する。
本手法は,コラボレーティブ・インフォメーションを学習することで,短い動画の視聴に対するユーザの継続的な関心をシミュレートする。
産業規模および公共データセットの実験により,本手法が時計時間予測タスクにおける最先端性能を実現することを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:15:05 GMT)
TLUE: A Tibetan Language Understanding Evaluation Benchmark [6.0] textbfTLUEはチベット語でLLMの習熟度を測定するための最初の大規模ベンチマークである。
textbfTLUEは、チベット語理解における将来の研究を促進するための重要な基盤を提供する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:21:17 GMT)
CommonForms: A Large, Diverse Dataset for Form Field Detection [5.9] 本稿では,フォームフィールド検出のためのWebスケールデータセットであるCommonFormsを紹介する。
データセットはCommon Crawlをフィルタリングして構築され、充填可能な要素を持つPDFを見つける。
本稿では,CommonForms テストセット上で,非常に高い平均精度を実現するフォームフィールド検出器 FFDNet-Small と FFDNet-Large のファミリについて述べる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:55:40 GMT)
SOLAR: Switchable Output Layer for Accuracy and Robustness in Once-for-All Training [5.9] once-for-All(OFA)トレーニングにより、単一のスーパーネットが、多様なデプロイメントシナリオに適した複数のサブネットを生成することができる。
我々は,各サブネットに個別の分類ヘッドを割り当てる技術であるSOLAR(Switchable Output Layer for Accuracy and Robustness in Once-for-All Training)を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:15:28 GMT)
End-to-End Co-Simulation Testbed for Cybersecurity Research and Development in Intelligent Transportation Systems [5.8] 本章では,3次元環境とセンサモデリングのためのCARLA,顕微鏡交通シミュレーションと制御のためのSUMO,V2X通信シミュレーションのためのOMNeT++を結合した複合シミュレーションテストベッドについて論じる。
共同シミュレーションテストベッドは、エンドツーエンドの実験、脆弱性の識別、緩和ベンチマークを可能にする。
この章は、その能力を説明するために、量子後暗号で強化されたC-V2X能動的安全警報システムに関するケーススタディを含む。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:21:54 GMT)
Comparing RAG and GraphRAG for Page-Level Retrieval Question Answering on Math Textbook [5.8] ラージ言語モデル(LLM)は、学習中の情報検索のための新しい補助具として登場した。
本稿では,知識グラフ強化型RAG手法であるRetrieval-Augmented Generation(RAG)とGraphRAGについて,ページレベルの質問応答について検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 19:06:49 GMT)
A Hybrid PCA-PR-Seq2Seq-Adam-LSTM Framework for Time-Series Power Outage Prediction [5.7] 本稿では,PCA-PR-Seq2Seq-Adam-LSTMと呼ばれるハイブリッドディープラーニングフレームワークを提案する。
主成分分析(PCA)、Poisson Regression(PR)、Sequence-to-Sequence(Seq2Seq)アーキテクチャ、Adam-Optimized LSTMを統合している。
その結果,提案手法は既存手法と比較して予測精度とロバスト性を大幅に向上することがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:13:25 GMT)
Can We Trust the AI Pair Programmer? Copilot for API Misuse Detection and Correction [5.7] APIの誤用はセキュリティ上の脆弱性やシステム障害を導入し、メンテナンスコストを増大させる。
既存の検出アプローチは、開発後の運用を行う静的分析やマシンラーニングベースのツールに依存している。
この研究は、MUBenchを使用してAPI誤用を特定し修正するGitHub Copilotの有効性を評価する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 19:58:01 GMT)
Towards a Transparent and Interpretable AI Model for Medical Image Classifications [5.6] 本稿では,説明可能な人工知能(XAI)手法の適用について検討する。
本研究は,XAIモデルの内部動作を解明するために,様々な医療データセットを用いたシミュレーションの実装に焦点をあてる。
主要なXAI手法とシミュレーションのサーベイに加えて、XAI分野における現在進行中の課題についても論じる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:26:31 GMT)
HOTA: Hamiltonian framework for Optimal Transport Advection [5.6] 本稿では,ハミルトン・ヤコビ・ベルマン法をベースとした2次元動的OT問題に対するハミルトン最適輸送対流法(HOTA)を提案する。
提案手法は,コスト関数が非滑らかであっても,明示的な密度モデリングの必要性を効果的に回避する。
実証的には、HOTAは標準ベンチマークと、差別化不可能なコストを持つカスタムデータセットにおいて、すべてのベースラインを上回ります。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:07:37 GMT)
A Multimodal and Multi-centric Head and Neck Cancer Dataset for Segmentation, Diagnosis and Outcome Prediction [5.5] 頭頸部がん研究のためのマルチモーダルデータセットを公開している。
全ての研究は、PET/CTスキャンと様々な取得プロトコルを共登録している。
われわれは,腫瘍自動切除,再発無生存予測,HPVステータス分類の3つの主要な臨床課題をベンチマークした。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:24:54 GMT)
Tides of Memory: Digital Echoes of Netizen Remembran [5.3] このアートワークは、中国における集団的なオンライン喪の振る舞いを視覚化する学際的な相互作用のインスタレーションを提示する。
7人の著名な中国作家の死後、シナワイボに投稿された記念コンテンツに焦点を合わせることで、断片化されたテキスト表現を没入型のデジタルモニュメントに変換するために、データスクレーピング、自然言語処理、および3Dモデリングを採用する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:48:38 GMT)
Learning from Observation: A Survey of Recent Advances [5.1] シミュレーション学習(IL)アルゴリズムは、報酬関数を必要としない専門家の振る舞いを模倣する。
観察から学ぶという概念(LfO)や状態のみの模倣学習(SOIL)が近年注目を集めている。
提案するLfOのフレームワークを用いて,既存のLfO手法を軌道構築,仮定,アルゴリズムの設計選択の観点から調査・分類する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 05:44:02 GMT)
A Similarity Measure for Comparing Conversational Dynamics [5.0] 全体的なダイナミクスの観点から会話を比較するための堅牢な自動手法は存在しない。
本稿では,会話のダイナミクスを比較検討するための類似度尺度を提案する。
大規模なオンラインコミュニティにおける会話のダイナミクスの分析に利用しています。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 14:00:56 GMT)
Constrained Co-evolutionary Metamorphic Differential Testing for Autonomous Systems with an Interpretability Approach [5.0] CoCoMagicは、メタモルフィックテスト、差分テスト、高度な検索ベースのテクニックを組み合わせた、新しいテストケース生成手法である。
ベースライン探索法よりも顕著な改善が見られ, 最大287%の高重度行動差が確認された。
CoCoMagicは、バージョン間で進化する自律システムの差分テストにおいて、効率的で効果的で解釈可能な方法を提供する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:27:29 GMT)
No Need for Real 3D: Fusing 2D Vision with Pseudo 3D Representations for Robotic Manipulation Learning [4.9] NoReal3D: 3DStructureFormerは、モノクロ画像を幾何学的に意味のある擬似点雲の特徴に変換することができる学習可能な3D知覚モジュールである。
筆者らのフレームワークは,3Dポイントクラウド獲得に伴う実質的なコストを完全に排除しつつ,ロボットの3D空間構造理解を強化する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:43:42 GMT)
Is Measurement Enough? Rethinking Output Validation in Quantum Program Testing [4.8] 量子プログラムテストは、量子ソフトウェア工学の分野における顕著な研究領域として登場した。
既存の手法の多くは実測に基づく検証に頼っている。
量子プログラムの本質的に確率的な性質のため、測定に基づく検証法は重大な制限に直面している。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:39:09 GMT)
One Subgoal at a Time: Zero-Shot Generalization to Arbitrary Linear Temporal Logic Requirements in Multi-Task Reinforcement Learning [4.8] 複雑で時間的に拡張されたタスク目標と安全制約への一般化は、強化学習(RL)における重要な課題である。
本稿では,任意の仕様に対してゼロショットの一般化を可能にするGenZ-LTLを提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:26:32 GMT)
An AI-powered Bayesian generative modeling approach for causal inference in observational studies [4.5] CausalBGMはAIを利用したベイズ生成モデリングアプローチである。
低次元潜在特徴集合の個別分布を学習することにより、個別処理効果(ITE)を推定する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 16:00:23 GMT)
When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs [4.3] L-VLM(Large Vision-Language Models)は、様々な視覚や言語タスクにおいて顕著な性能を示す。
小型ビジョンランゲージモデル (Small Vision-Language Models, S-VLM) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本稿では,S-VLM を体系的に改善する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:12:23 GMT)
JOLT-SQL: Joint Loss Tuning of Text-to-SQL with Confusion-aware Noisy Schema Sampling [4.2] JOLT-nativeはテキスト間マッピングのための単一ステージフレームワークである。
JOLT-rimiは、混乱を意識したノイズの多いスキーマサンプリング戦略とともに、局所的な双方向の注意によって強化された離散スキーマリンクを採用している。
JOLT-rimiは、同等サイズのオープンソースモデル間で最先端の実行精度を実現し、トレーニングと推論の効率を大幅に改善する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 16:33:55 GMT)
A Novel Metric for Detecting Memorization in Generative Models for Brain MRI Synthesis [4.2] DeepSSIMは生成モデルにおける記憶の定量化のための新しい指標である。
DeepSSIMは優れたパフォーマンスを実現し、F1スコアを最高の既存メソッドよりも平均+52.03%向上させる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:08:08 GMT)
Block-Fused Attention-Driven Adaptively-Pooled ResNet Model for Improved Cervical Cancer Classification [4.0] 子宮頸癌は女性の中で2番目に多いがんであり、死因である。
本稿では,従来のアプローチを著しく上回る新しいCADシステムを提案する。
IARCとAnnoCervの2つの公開データセットでモデルを評価する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:07:14 GMT)
A Novel Differential Feature Learning for Effective Hallucination Detection and Classification [3.9] 本稿では,適応的な層間特徴重み付けと差分特徴学習機構に,Projected Fusionブロックを統合したデュアルモデルアーキテクチャを提案する。
幻覚信号が高度にスパースな特徴部分集合に集中していることを示し,質問応答や対話タスクの精度を大幅に向上させることを実証した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:48:22 GMT)
Long document summarization using page specific target text alignment and distilling page importance [3.9] 長い文書抽象要約は資源集約であり、この方向にはほとんど文献が存在しない。
PTS (Page-specific Target-text alignment Summarization) は、ソース文書を複数のページに分割することで、抽象的な要約のためのSeq-to-seq法を拡張する。
PTSPI (Page-specific Target-text alignment Summarization with Page Importance) は、部分要約を最終要約にマージする前に追加レイヤを配置する PTS の拡張である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 05:05:34 GMT)
An Improved FOX Optimization Algorithm Using Adaptive Exploration and Exploitation for Global Optimization [3.9] 本稿では,FOX最適化アルゴリズム(FOX)の改良について述べる。
動的にスケールしたステップサイズパラメータを使って探索とエクスプロイトのバランスをとる新しい適応手法が組み込まれている。
実験の結果,IFOXは従来のFOXよりも40%向上したことがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:25:46 GMT)
Semantic web technologies in sensor-based personal health monitoring systems: A systematic mapping study [3.9] 本研究では,センサを用いた個人健康モニタリングシステムにおけるセマンティックWeb技術の利用状況について分析する。
我々は、インターオペラビリティ、状況検出、状況予測、意思決定支援、文脈認識、説明可能性、不確実性処理の7つの主要な課題に対して、選択されたシステムが対処する範囲を批判的に分析する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:42:31 GMT)
Randomized Space-Time Sampling for Affine Graph Dynamical Systems [3.8] 我々は、初期状態とソース項の両方が帯域制限されたグラフ上の線形力学系に従って時間とともに進化する信号を考える。
2つのランダムな時空サンプリング方式を導入し、安定回復が可能な条件を解析する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:43:05 GMT)
SciNLP: A Domain-Specific Benchmark for Full-Text Scientific Entity and Relation Extraction in NLP [3.8] SciNLPは、自然言語処理(NLP)ドメインにおけるフルテキストエンティティと関係抽出のためのベンチマークである。
データセットは、手動で注釈付きフルテキストNLP出版物60からなり、7,072のエンティティと1,826の関係をカバーしている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:06:27 GMT)
Learn to Rank Risky Investors: A Case Study of Predicting Retail Traders' Behaviour and Profitability [3.7] 本稿では、リスクトレーダーをランク付けタスクとして識別する問題を再編成するリスクランク付け手法(PA-RiskRanker)を提案する。
提案手法は,Profit-Aware binary cross entropy (PA-BCE) 損失関数と,セルフクロストレーダアテンションパイプラインで拡張されたトランスフォーマーベースのロータを備える。
本研究は,貿易リスク管理における既存の深層学習に基づくLETORアルゴリズムの限界について批判的に検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:41:13 GMT)
On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances [3.7] 線形二次規制 (LQR) 戦略のオフライン設計を不確実な乱れを伴う解析を行う。
我々のアプローチは、適応動的プログラミングの基本的な学習ベースのフレームワークの上に構築されている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:14:27 GMT)
Improving the quality of Web-mined Parallel Corpora of Low-Resource Languages using Debiasing Heuristics [3.6] 並列データキュレーション(PDC)技術は、Webマイニングコーパスからノイズの多い並列文をフィルタリングすることを目的としている。
マルチPLMの選択は、フィルタされた並列コーパスの品質に大きな影響を及ぼす。
コーパスを用いて訓練したNMTモデルは、マルチPLM間の格差を最小限に抑えつつ、より良い結果をもたらす。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 16:13:22 GMT)
L2M-Reg: Building-level Uncertainty-aware Registration of Outdoor LiDAR Point Clouds and Semantic 3D City Models [3.6] 本稿では,モデルの不確かさを明示的に考慮した平面ベースファイン登録手法であるL2M-Regを提案する。
3つの実世界のデータセットの実験では、L2M-Regは既存のICPベースの手法や平面ベースの手法よりも正確で計算効率が高いことが示されている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:13:27 GMT)
Train to Defend: First Defense Against Cryptanalytic Neural Network Parameter Extraction Attacks [3.5] 本稿では,暗号解析パラメータ抽出攻撃に対する最初の防御機構を提案する。
私たちの重要な洞察は、これらの攻撃が成功するために必要なニューロンのユニークさを取り除くことです。
我々は、新しい抽出対応の訓練手法によりこれを達成した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:05:23 GMT)
Excitation transfer and many-body dark states in waveguide quantum electrodynamics [3.5] 1次元導波管量子力学系では、量子エミッタは無限範囲、分散、散逸性双極子-双極子相互作用を介して相互作用する。
これらの相互作用は長距離周期的挙動を引き起こし、リッチ多体物理学は自由空間に存在しない。
シンメトリズド多重励起暗黒状態の集合を構築し,その時間進化射影に対する解析式を導出する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:01:50 GMT)
DISCO: Disentangled Communication Steering for Large Language Models [3.4] 本稿では,アテンションヘッド内のクエリおよび値表現空間に直接ステアリングベクトルを注入することを提案する。
本研究では,DISCOステアリング(disentangled Communication, Disentangled Communication,DISCO)と呼ばれる手法がアテンションヘッド出力に与える影響を解析的に評価する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:56:03 GMT)
Strong-coupling quantum thermodynamics using a superconducting flux qubit [3.4] 量子ビットのハイブリッド化状態と2つのキャビティを結合して観察することにより、強い結合を示す実験的な証拠を示す。
また、量子ビットに磁束を印加することにより、光子によって媒介される熱電流の約100%のオンオフ比を示す。
我々の実験は、真の量子熱エンジンと冷凍機を高効率で実現することを目的として、量子熱力学の新しい可能性を開く。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:02:39 GMT)
VisText-Mosquito: A Unified Multimodal Benchmark Dataset for Visual Detection, Segmentation, and Textual Reasoning on Mosquito Breeding Sites [3.2] VisText-Mosquitoは、蚊繁殖サイト分析の自動検出、セグメンテーション、推論をサポートするマルチモーダルデータセットである。
データセットは、オブジェクト検出用1,828の注釈付き画像、水面セグメンテーション用142の画像、および各画像にリンクされた自然言語推論テキストを含む。
推論生成のために、ゼロショットと少数ショットの両方の設定で様々な大きな視覚言語モデル(LVLM)をテストした。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:30:04 GMT)
Unlocking Hidden Potential in Point Cloud Networks with Attention-Guided Grouping-Feature Coordination [3.1] Grouping-Feature Coordination Module (GF-Core)は、グループ化層と特徴抽出層の両方を同時に制御する軽量な分離可能なコンポーネントである。
モデルロバスト性を高めるために,ポイントベース入力に適した自己教師付き事前学習戦略を導入する。
ModelNet40データセットでは,ベースラインネットワークを94.0%の精度で向上し,高度なフレームワークのパフォーマンスに適合する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:33:19 GMT)
On the Ballistic Transport for limit-periodic Jacobi Matrices [3.1] 指数崩壊率(約$|mathscrJ_q_n|sim e-eta q_n$)が十分であることを示す。
これにより、Damanik-Fillman arXiv:1603.01173の初期の結果が改善された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 19:28:41 GMT)
MoRoVoc: A Large Dataset for Geographical Variation Identification of the Spoken Romanian Language [3.1] MoRoVocはルーマニア語話者の地域変化を分析するための最大のデータセットである。
本稿では,話者属性を対象とする音声モデルの多目的対人学習フレームワークを提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 19:06:51 GMT)
HypeMARL: Multi-Agent Reinforcement Learning For High-Dimensional, Parametric, and Distributed Systems [3.1] HypeMARLは高次元・パラメトリック・分散システムの制御に適した分散強化学習アルゴリズムである。
我々は,HypeMARLがエージェントの集団行動を通じてシステムを効果的に制御できることを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 14:42:09 GMT)
Security loophole in error verification in quantum key distribution [3.1] 本稿では,量子鍵分布プロトコルにおいて誤り検証を行う場合,秘密性の定義を改訂する必要があることを示す。
特に、位相誤差補正に基づくセキュリティ証明法では、修正された機密定義を適切に組み込むための明示的な方法が確立されていない。
本稿では, 位相誤差補正に基づくアプローチを, 残余ハッシュ法という, もう一つの主流アプローチに変換する方法を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:12:59 GMT)
Wasserstein Convergence of Score-based Generative Models under Semiconvexity and Discontinuous Gradients [3.0] スコアベース生成モデル(SGM)は、ガウス雑音で摂動させ、学習された拡散過程を通じてデノベーションすることで、データ分布を近似する。
我々は、潜在的に不連続な勾配を持つ半1次を対象とするSGMに対して、最初の非同相なワッサーシュタイン-2収束保証を確立する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:19:10 GMT)
MedGS: Gaussian Splatting for Multi-Modal 3D Medical Imaging [3.0] 本稿では,ガウススプラッティング(GS)に基づく半教師付き神経暗黙表面再構成フレームワークであるMedGSを紹介する。
この枠組みでは、医用画像データは3次元空間に埋め込まれた連続した2次元のフレームとして表現される。
その結果、MedGSは従来の暗黙の手法よりも効率的なトレーニングを提供している。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 20:52:26 GMT)
Causality-Induced Positional Encoding for Transformer-Based Representation Learning of Non-Sequential Features [2.9] CAPEは、非順序性上の因果構造を重み付き有向非巡回グラフ(DAG)として同定する新しい方法である
DAGは双曲型空間に埋め込まれており、幾何構造は双曲型モデルに基づくアプローチを用いて保存されている。
このステップでは、特徴に対して因果認識された位置符号化が得られ、変換器の自己保持機構と統合するために回転形式に変換される。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:08:02 GMT)
Octree Latent Diffusion for Semantic 3D Scene Generation and Completion [2.9] 本研究では,屋内と屋外の両方でシーン補完,拡張,生成を行うことのできる単一のフレームワークを開発する。
提案手法は,効率的な2重オクツリーグラフ潜在表現を直接操作する。
単一LiDARスキャンによる高品質な構造,コヒーレントなセマンティクス,ロバストな補完を実証する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:53:13 GMT)
Group-SAE: Efficient Training of Sparse Autoencoders for Large Language Models via Layer Groups [2.9] SAEを訓練するための新しい戦略である textitGroup-SAE を提案する。
提案手法では,連続層間の残留ストリーム表現の類似性を考慮し,類似層をグループ化し,グループ毎に単一のSAEを訓練する。
Pythiaファミリーのモデルを用いた実験により、我々のアプローチは再構築品質と同等のダウンストリームタスク性能に最小限の影響を伴ってトレーニングを著しく加速することが示された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:57:39 GMT)
Efficient Two Photon Generation from an Atom in a Cavity [2.4] 2光子状態は、メトロジー、リソグラフィ、通信などの量子技術に必須である。
2光子生成の主要な方法の1つはパラメトリックダウンコンバージョンに基づいているが、これは低効率とフットプリントに悩まされている。
この研究は、二重共振共振器内の原子からの2光子生成という別のアプローチの詳細な研究である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:13:38 GMT)
Benchmarking and Mitigating MCQA Selection Bias of Large Vision-Language Models [2.4] 大規模視覚言語モデル(LVLM)における選択バイアスの存在と性質について検討する。
一般および文脈的プロンプトからアンサンブルバイアスベクトルを推定する推論時間ロジットレベルのデバイアス法を提案する。
本手法はリトレーニングなしでバイアスを軽減し,冷凍LVLMと互換性がある。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 20:45:47 GMT)
Tensor-Empowered Asset Pricing with Missing Data [2.3] 本稿では,アダプティブ・クラスタベースのテンソルスムージング・テンソル・コンプリート・フレームワーク(ACT-Tensor)を導入する。
ACT-Tensorは、欠落するデータレシスタンスの範囲で、計算精度の点で、最先端のベンチマークを一貫して上回っている。
その結果、ACT-Tensorは正確なリターン予測を達成するだけでなく、構築されたポートフォリオのリスク調整されたリターンを大幅に改善することがわかった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:30:51 GMT)
Incentives and Outcomes in Bug Bounties [2.2] GoogleのVulnerability Rewards Program(VRP)におけるインセンティブと成果の分析
我々は、2024年7月に投稿されたGoogleの報酬額の変更に焦点を当て、最高のインパクト層に対して最大200%まで報酬額が増加した。
実験の結果,報酬増加後の高付加価値バグの量が増加し,弾力性も向上した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:02:45 GMT)
Eye Gaze Tells You Where to Compute: Gaze-Driven Efficient VLMs [2.0] 本稿では、人間の視線を天然の監視信号として利用し、それが重要な位置を割り振る学習自由フレームワークであるGazeVLMを提案する。
以上の結果から,モデル計算と人間の視線との整合性は,消費者デバイス上での効率的なVLM推論への簡単なプラグアンドプレイパスを提供することが示された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:16:48 GMT)
Robot Learning with Sparsity and Scarcity [1.9] 筆者は,(1)触覚センシングと(2)疎外感と疎外感を模したリハビリテーションロボットの2つの領域における選択された作品について論じる。
私の研究は、半教師付き、メタラーニング、生成AIメソッドを含む、最小限のデータで意図推論を可能にする機械学習アルゴリズムを開発している。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:18:41 GMT)
Code Generation with Small Language Models: A Codeforces-Based Study [1.7] 大きな言語モデル(LLM)はコード生成の機能を示し、開発者の生産性を高める可能性がある。
しかし、それらの採用は高い計算コストなどによって制限されている。
小型言語モデル(SLM)は軽量な代替案である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:04:41 GMT)
Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment [1.7] 我々は、CLIPスタイルのコントラストトレーニングフレームワークを利用して、超スペクトルシーン理解のための視覚言語モデル(VLM)の最適化を試みる。
我々のフレームワークは、視覚バックボーンから凍結した大きな埋め込みモデルの潜在空間へのボクセルレベルの埋め込みをマッピングする。
提案手法は全パラメータの0.07パーセントしか更新していないが、最先端の性能が得られる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:23:04 GMT)
Quantification of Quantum Dynamical Properties with Two Experimental Settings [1.6] 本稿では,2つの非偏り基底のみを用いて特性測定を推定する近似最適化手法を提案する。
このシステムサイズの独立性は、エラーの蓄積を防止し、固有量子力学の特徴づけを可能にする。
提案手法は,チップスケール量子プロセッサから長距離量子ネットワークに至るまで,アーキテクチャの動的特性の推定に適していることを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:41:54 GMT)
KoACD: The First Korean Adolescent Dataset for Cognitive Distortion Analysis via Role-Switching Multi-LLM Negotiation [1.5] 本研究は韓国の青年期における認知歪みの大規模データセットであるKoACDを紹介する。
歪み分類を洗練させるために,マルチラージ言語モデル(LLM)交渉手法を適用した。
テキストの明瞭度に対する認知的明確化と,多彩な歪み表現のための認知的バランスの2つのアプローチを用いて合成データを生成した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 16:44:05 GMT)
A magnetically levitated conducting rotor with ultra-low rotational damping circumventing eddy loss [1.4] 磁場中における導体の運動は、原則として渦減衰を生じないことを示す。
本研究では、高真空中における軸対称磁場中における誘電体ローターの誘電率を実証する。
これは、ローターの減衰を極端に低く抑え、ローターの減衰を完全に抑制する方法を舗装するマクロな浮上ローターを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:05:32 GMT)
HARPT: A Corpus for Analyzing Consumers' Trust and Privacy Concerns in Electronic Health Apps [1.3] 電子健康(eHealth)アプリケーション(アプリ)からの大規模なアノテートされたユーザレビューコーパスであるHealth App Reviews for Privacy & Trust(HARPT)を紹介する。
このデータセットは、アプリケーション(TA)、プロバイダ(TP)、プライバシ懸念(PC)の重要な側面を捉える7つのカテゴリにラベル付けされた480万のユーザレビューで構成されている。
HARPTは、デジタルライブラリと健康情報学の信頼性と使用可能なプライバシに関する再現可能な研究を支援するために、オープンリソースライセンス下でリリースされている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:58:59 GMT)
A Comprehensive Protocol Stack for Quantum Networks with a Global Entanglement Module [1.2] 本稿では, 絡み合い資源の一貫したネットワークワイドビューを維持するGlobal Entanglement Module (GEM)を提案する。
絡み合い分布計画のリアルタイム適応実行を可能にすることで、GEMは静的計画と動的操作のギャップを埋める。
軽量スコアリングベースの戦略は,グローバルに最適だが適応しない固定木ベースラインよりも,絡み合いの発生率を約20%向上する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:39:25 GMT)
Thermal Imaging-based Real-time Fall Detection using Motion Flow and Attention-enhanced Convolutional Recurrent Architecture [1.1] 高齢者や高齢者施設は、非着用、受動的、プライバシー保護、リアルタイムの転倒検知システムを好む。
本研究では,双方向畳み込み長短期記憶(BiConvLSTM)モデルを用いた熱降下検出手法を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:29:43 GMT)
Generalized Gottesman-Kitaev-Preskill States on a Quantum Torus [1.1] 本稿では,GKP(Generalized Gottesman-Kitaev-Preskill)状態の新規な定式化について紹介する。
これらの問題は、非有界位相空間上でコードを定義するアーティファクトであることを示す。
これにより、フォールトトレラントフォトニック量子コンピューティングの新しい道が開かれる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 14:56:08 GMT)
KuBERT: Central Kurdish BERT Model and Its Application for Sentiment Analysis [1.0] 本稿では,変換器からの双方向表現(BERT)を自然言語処理技術に統合することにより,中央クルド語に対する感情分析の研究を強化する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 20:44:29 GMT)
KV-Efficient VLA: A Method of Speed up Vision Language Model with RNN-Gated Chunked KV Cache [0.9] VLA(Vision-Language-Action)モデルは、ロボットの認識と制御の統一を約束するが、そのスケーラビリティは、長軸推論における注意の二次的コストとキー値(KV)メモリの非有界成長によって制約される。
KV-Efficient VLAは、高ユーティリティコンテキストを選択的に保持する軽量なトレーニングフレンドリーなメカニズムを導入することで、これらの制限に対処するモデルに依存しないメモリ圧縮フレームワークである。
提案手法は,既存の自己回帰およびハイブリッドVLAスタックにシームレスに統合し,トレーニングパイプラインや下流制御ロジックを変更することなく,スケーラブルな推論を可能にする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:04:24 GMT)
Development of a Mobile Application for at-Home Analysis of Retinal Fundus Images [0.9] このプラットフォームの目的は、これらの指標の変化を時間とともに観察し、眼疾患の早期発見を提供することである。
分析対象は血管の好奇心、緑内障、網膜症、黄斑浮腫の徴候である。
DeepSeeNetの緑内障検出モデルからの情報に加えて、トルチューシティの計算も取り入れられ、最終的に網膜底部画像監視プラットフォームが提供される。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:33:12 GMT)
The Epistemic Suite: A Post-Foundational Diagnostic Methodology for Assessing AI Knowledge Claims [0.7] 本稿では,AI出力の生成と受信の状況を理解するための診断手法であるEpistemic Suiteを紹介する。
真実や虚偽を判断する代わりに、スイートは20個の診断レンズを通して、信頼の洗浄、物語の圧縮、異動した権威、一時的な漂流などのパターンを明らかにする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:29:38 GMT)
Why Data Anonymization Has Not Taken Off [0.7] データ匿名化は、実装が簡単ではないため、実際に始まった。
それぞれのプライバシーのバリエーションは、実際的な意味だけでなく、異なる選択を保証します。
一部のデータ匿名化方法は、必要な洞察だけが保護単位よりもはるかに大きい場合に有効である。
企業は容易な勝利を期待するのではなく、匿名化はデータプライバシに対する一つのアプローチであり、彼ら自身のベスト戦略であることを認識すべきである。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:44:07 GMT)
Federated Learning with Ad-hoc Adapter Insertions: The Case of Soft-Embeddings for Training Classifier-as-Retriever [0.7] そこで本研究では,新しいコーパスのトークン埋め込みを学習してソフト埋め込みを改良し,完全微調整よりも少ない計算能力で更新できる新しいエンコーダを提案する。
フェデレーションラーニング(FL)とディファレンシャルプライバシ(DP)を採用して、効率的でプライバシーに制約のあるプロダクトグレードのトレーニングソリューションを実現する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 03:07:03 GMT)
MMPart: Harnessing Multi-Modal Large Language Models for Part-Aware 3D Generation [0.6] 単一画像から部分認識3Dモデルを生成する革新的なフレームワークMMPartを紹介する。
MMPartは、初期画像と前ステップのプロンプトに基づいて、各オブジェクトの分離画像を生成する。
再構成モデルは、これらの多視点画像を3次元モデルに変換する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 18:25:14 GMT)
CAMBench-QR : A Structure-Aware Benchmark for Post-Hoc Explanations with QR Understanding [0.6] CAMBench-QRは、視覚的説明のための構造対応のベンチマークである。
QR/非QRデータを正確なマスクと制御された歪みで合成する。
構造対応メトリクス(Finder/MassTiming比、バックグラウンドリーク、カバレッジAUC、距離と構造)を報告します。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:13:38 GMT)
Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose [0.5] 本研究は、人間のオブジェクトインタラクション認識を通じて、邪魔にならないユーザ識別を目的としたフレームワークであるI2Sを紹介する。
I2Sは、3Dハンドポーズから抽出された手作り特徴と、各フォームの連続的特徴増強を利用する。
I2Sは、4MB未満の軽量モデルサイズと0.1秒の高速推論時間を維持しながら、最先端の性能を示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:27:32 GMT)
Design and Development of an Intelligent LLM-based LDAP Honeypot [0.4] ハニーポットはその価値を証明しているが、伝統的に剛性と構成の複雑さによって制限されてきた。
提案したソリューションは、攻撃者と説得力のある対話が可能な、柔軟で現実的なツールを提供することを目的としている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:16:07 GMT)
A Study on Stabilizer Rényi Entropy Estimation using Machine Learning [0.3] 任意の量子状態に対するR'enyiエントロピー(SRE)を推定するための機械学習手法を提案する。
本研究では、回帰タスクとしてSRE推定をフレーム化し、包括的なデータセット上でランダムフォレスト回帰器とサポートベクター回帰器(SVR)をトレーニングする。
実験結果から,回路レベルの特徴を訓練したSVRが全体の性能を最大化できることが示唆された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 20:10:11 GMT)
Rethinking the Role of Text Complexity in Language Model Pretraining [0.2] テキストの複雑さとは、テキストが読みにくいことを指す。
大規模な言語モデルを用いて人文テキストを単純化し,オリジナルデータと簡易データの両方で因果モデルをスクラッチから事前訓練する。
パープレキシティは、モデルのキャパシティとテキストの複雑さの間の相互作用に敏感である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:33:01 GMT)
An Orbit-qubit Quantum Processor of Ultracold Atoms [0.1] 軌道量子ビット符号化と内部状態を組み合わせた新しい量子プロセッサを提案する。
制御Zゲートの最小層を用いて1次元および2次元のクラスター状態を生成する。
この結果は、スケーラブルな量子処理アーキテクチャとして、軌道量子ビット光学格子を確立した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 03:04:00 GMT)
The Role of Vocabularies in Learning Sparse Representations for Ranking [0.1] SPLADEモデルにおける語彙の役割と検索効率と有効性との関係について検討する。
100Kサイズの出力語彙を持つBERTモデルを構築し、ESPLADE事前学習法とランダムに1つを構築した。
実験により, プルーニングを施すと, 通常のSPLADEモデルに比べて2つのモデルが有効であることが確認された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:44:26 GMT)
Learning from Similarity-Confidence and Confidence-Difference [0.1] 複数の視点から補完的な弱監督信号を利用する新しい弱監視学習(WSL)フレームワークを提案する。
具体的には,2種類の弱いラベルを統合する手法であるSconfConfDiff Classificationを紹介する。
両推定器が推定誤差境界に対して最適収束率を達成することを証明した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:14:04 GMT)
Implementation of the Collision Avoidance System for DO-178C Compliance [0.0] CASは、リアルタイムで衝突の脅威を自律的に検出し、評価し、回避するように設計されている。
要求仕様と検証、アーキテクチャと詳細な設計、コーディング、検証、トレーサビリティ。
統合フェーズは完全には実装されなかったが、このアプローチはUAVセーフティクリティカルシステムの認証問題に対処する上で有効であることが証明された。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:52:51 GMT)
Wavelet-Space Representations for Neural Super-Resolution in Rendering Pipelines [0.0] 本稿では,RGB値を直接回帰するのではなく,定常ウェーブレット係数を予測する定式化を導入する。
ウェーブレットドメイン・ニューラル超解像は、高画質リアルタイムレンダリングへの原則的かつ効率的な経路を提供する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:56:49 GMT)
Verifying User Interfaces using SPARK Ada: A Case Study of the T34 Syringe Driver [0.0] 多くのヒューマンファクターリスクは、実際の環境で適切なテストが完了するまでキャッチされない。
本研究は、T34シリンジドライバの動作モデルに対して、SPARK Adaの正式な検証ツールを使用する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:14:59 GMT)
Two- and three-mode squeezing in a three-qubit entangled system [0.0] ヒルベルト空間が制限された3モードボソニック系の状態について議論する。
非ゼロ三部体の絡み合いを示す状態が考慮される。
対応するネガティビティによって定量化された2モードと3モードの絡み合いと、対応する主絞りのばらつきによって説明されるスクイージングとの相互関係を明らかにする。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:40:10 GMT)
Towards Cost-Effective ZK-Rollups: Modeling and Optimization of Proving Infrastructure [0.0] ゼロ知識ロールアップは、厳密な確定性と可用性の制約の下で多段階状態遷移証明を生成するために、プロバーに依存している。
ロールアップが規模を拡大するにつれ、スループットの向上、高速な最終要求、揮発性ガス価格、動的資源需要により、経済的に存続することがますます困難になる。
本稿では,ロールアップ固有の制約を捉えるパラメトリックコストモデルを提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:03:54 GMT)
The Thinking Therapist: Training Large Language Models to Deliver Acceptance and Commitment Therapy using Supervised Fine-Tuning and Odds Ratio Policy Optimization [0.0] アクセプタンス・アンド・コミット・セラピー(Acceptance and Commitment Therapy、ACT)は、認知行動療法の一種で、いくつかの精神疾患において効果の出現を示す。
本研究では,学習後方法論と明示的推論が小規模なオープンウェイト大規模言語モデル(LLM)のACT提供能力に与える影響について検討した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:31:47 GMT)
The Even Sheen of AI: Kitsch, LLMs, and Homogeneity [0.0] キッチュ」は特に,一様かつ平均的な内容を生成する大規模言語モデルの傾向を照らし出すのに適していると論じる。
これは言語、スタイル、議論の平等化につながる。
この平均値による潜在的な負の結果について、キッシュ研究とAI研究の手法と洞察を組み合わせることを提唱する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 19:56:41 GMT)
The Causal-Effect Score in Data Management [0.0] 因果効果(英: Causal Effect, CE)は、観測結果に対する変数の因果影響の数値的な尺度である。
古典的および確率的データベースの文脈において、いわゆるCausal-Effect Scoreを導入し、検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:28:32 GMT)
Stated Preference for Interaction and Continued Engagement (SPICE): Evaluating an LLM's Willingness to Re-engage in Conversation [0.0] Stated Preference for Interaction and Continued Engagement (SPICE)は、大規模言語モデルにYESまたはNO質問をすることで引き起こされる単純な診断信号である。
10-interactionstimul setによる3-tone(親しみやすい,不明瞭,嫌悪感)を用いた実験では,4つのフレーミング条件で4つのオープンウェイトチャットモデルを検証した。
友好的な相互作用は継続をほぼ一様に好んだ(97.5% YES)が、虐待的相互作用は断念を強く好んだ(17.9% YES)
論文参考訳(メタデータ) (Sat, 20 Sep 2025 20:35:31 GMT)
Solving Freshness in RAG: A Simple Recency Prior and the Limits of Heuristic Trend Detection [0.0] 単純な電流は0.08F1スコアの精度を達成する前に達成され、トレンド検出には単純な値を超える方法が必要であることを示した。
トピックのクラスタリングが失敗した(0.08 F1スコア)。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 00:19:37 GMT)
Search for Dark Photon Dark Matter with a Mass around $36.1\text{ }\mathrm{μeV}$ Using a Frequency-tunable Cavity Controlled through a Coupled Superconducting Qubit [0.0] トランスモンキュービットを周波数チューナとして用いたキャビティを用いた暗黒光子暗黒物質探索の結果を報告する。
運動混合パラメータの排他限界を約10~12ドルに設定し、宇宙論による既定の有界限界を超越した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:53:01 GMT)
Reproducing a Security Risk Assessment Using Computer Aided Design [0.0] セキュリティリスク評価は、現代のシステムの信頼性と信頼性を確立する上で不可欠である。
ペンと紙の実装は、ミスや矛盾の著者になりがちです。
コンピュータ支援設計アプローチは、セキュリティリスクアセスメントをより厳格で持続可能な活動に変換することができる。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:36:23 GMT)
QuantumToolbox.jl: An efficient Julia framework for simulating open quantum systems [0.0] QuantumToolbox$.$jlは、量子システムをシミュレートするオープンソースパッケージである。
高速でスケーラブルなシミュレーションを実現するために、Juliaの高性能エコシステムを活用する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 12:15:49 GMT)
Quantum algorithm for the gradient of a logarithm-determinant [0.0] スパースランク入力演算子の逆を効率的に決定することができる。
このアルゴリズムは、完全に誤り訂正された量子コンピュータのために想定されている。
このアルゴリズムがカーネルベースの量子機械学習にどのように使えるかについて議論する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 22:51:18 GMT)
Quantum Fokker-Planck Master Equation with general signal filtering [0.0] 任意の線形信号に基づいて連続フィードバックのための一般マスター方程式を導出する。
この結果はQuantum Fokker-Planck Master Equationの拡張である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:41:18 GMT)
QASTAnet: A DNN-based Quality Metric for Spatial Audio [0.0] 本稿では,空間音響に特化したディープニューラルネットワークに基づく新しいメトリクスであるQASTAnet(Quality Assessment for SpaTial Audio Network)を提案する。
トレーニングデータが不足しているため、少量のデータでモデルをトレーニングできるようにすることを目標としています。
結果は、QASTAnetが既存のメソッドの制限を克服していることを示している。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 14:57:09 GMT)
On the accuracy of twirled approximations in repeater chains [0.0] 量子ネットワークにおいて、二部共役状態はベル対角状態またはヴェルナー状態として近似することが一般的である。
チェーン内の各リピータにおいて、エンタングルメントスワップを実行することで、エンドツーエンドのエンタングルメントを実現するリピータチェーンを考える。
我々は,非ポスト選択スワップの場合,ベル対角近似は終端状態のベル対角要素の計算に正確であることを示す。
また、一般的な雑音形式を持つ初期状態に対して、twirled近似で得られるものとのエンドツーエンドの忠実さの差の有界性も見出す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:33:26 GMT)
MCP: A Control-Theoretic Orchestration Framework for Synergistic Efficiency and Interpretability in Multimodal Large Language Models [0.0] 本研究では,モデル・コントローラ・タスク適応(MCP)に基づく3層協調フレームワークを提案する。
実験の結果,MPPフレームワークはベースラインモデルと比較して,GLUE,COCO,ScienceQAなどのクロスモーダルベンチマークタスクの性能を15~30%向上し,推論効率を40%向上させ,プレゼンテーション層を通じて解釈可能な中間結果を生成し,手動の解釈可能性スコアの90%を得ることができた。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:44:11 GMT)
Joint momenta-coordinates states as pointer states in quantum decoherence [0.0] 弱い場合のみ、合同モータコーディネート状態は、常に純粋で頑健であり、真のポインタ状態として確立されることが示される。
このことは、アイザーの初期の過酷な扱いを拡張し、ガウス近似を超えた概念を一般化し、古典的なロバスト性を量子位相空間形式論に組み込む。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:50:24 GMT)
Increase Alpha: Performance and Risk of an AI-Driven Trading Framework [0.0] 金融市場は非効率で、価格、ボリューム、断続的な関係が明らかにされていない。
increase Alphaでは、800以上の米国株を毎日の方向信号にマッピングするディープラーニングフレームワークを構築しました。
私たちは、透過的で業界標準のメトリクスを通してリアルタイムのパフォーマンスを評価します。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 14:37:02 GMT)
Hartman Effect from a Geometrodynamic Extension of Bohmian Mechanics [0.0] 本稿では,アルクビエール型時空における粒子軌道を測地線として扱うため,ポテンシャル障壁を通る量子トンネルについて述べる。
このモデルは、量子ポテンシャル、粒子動力学、トンネル時間の分析式を提供し、基礎となる時空幾何学と明示的に結びついている。
結果は、量子トンネルと時空幾何学の直接的な接続を確立し、ハートマン効果を解釈するための統一的な枠組みを提供する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:51:37 GMT)
Governed By Agents: A Survey On The Role Of Agentic AI In Future Computing Environments [0.0] Agentic AIは、非常に大規模な(パブリックな)クラウド環境への依存を減らす可能性がある。
これらの移行の多くは、オンプレミスの処理ニーズ、データ消費のフットプリントの減少、コスト削減といった要因によって引き起こされるだろう。
本研究では,AIの自律性を実現するためのソリューションが,システムの再設計にどのように影響するかを検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 13:03:11 GMT)
Geometric Construction of Dynamically Corrected Quantum Gates [0.0] 動的修正量子ゲート(DCQG)の実装は重要である。
オフ共振誤差(Off-resonance error、ORE)は、補償される最も重要なエラータイプの一つである。
本稿では,第1次DCQGをシードとして,OREに対する2次DCQGの幾何学的構成を提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 06:57:29 GMT)
Fusing Spectral Correlation Density Imaging with Deep Learning for Intelligent Fault Diagnosis in Rotating Machinery [0.0] 本研究は, スペクトル相関密度(SCD)画像による振動データのサイクロ定常特性を活用し, 故障検出の高度化を図る。
3つの畳み込みニューラルネットワーク(CNN)モデル、Custom CNN、ResNet152V2、EfficientNetB0は、7つのベアリング条件を分類するために開発された。
異なる住宅にまたがる高い精度のモデルでは、センシングプラットフォーム近傍に展開可能なコスト効率の高い状態監視に適した堅牢なソリューションが示される。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 08:58:08 GMT)
From Mimicry to True Intelligence (TI) -- A New Paradigm for Artificial General Intelligence [0.0] 現在のパフォーマンスベースの定義は、研究のための明確なメカニズム中心のロードマップを提供していないため、不十分である、と私たちは主張する。
本稿では,外部模倣から基礎的認知アーキテクチャ開発へと焦点を移す新しいパラダイムを提案する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:06:29 GMT)
Fine-Tuning Open-Weight Language Models to Deliver Cognitive Behavioral Therapy for Depression: A Feasibility Study [0.0] 認知行動療法(Cognitive Behavioral Therapy, CBT)は、主要なうつ病に対するエビデンスベースの治療法である。
CBTにアクセスする個人には、コスト、セラピストの不足、スティグマなど、大きな障壁がある。
本研究では、細調整された小型オープン言語モデル(LLM)が抑うつにCBTを実現する可能性について検討する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 21:29:08 GMT)
Exploring AI Capabilities in Participatory Budgeting within Smart Cities: The Case of Sao Paulo [0.0] 本研究では、人工知能(AI)がスマートシティにおける参加型予算プロセスをどのように改善するかを検討する。
政府はAIによって強化された参加型ツールを実装する必要があるかを調査している。
この研究は、技術進歩が参加型予算プロセスをどのように作り直すかを理解するのに寄与する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:34:50 GMT)
Explainable Deep Learning for Cataract Detection in Retinal Images: A Dual-Eye and Knowledge Distillation Approach [0.0] 白内障は世界中で視覚障害の主な原因となっている。
眼疾患認識データセットを用いた白内障分類のためのディープラーニングパイプラインを提案する。
トップパフォーマンスモデルのSwin-Base Transformerは98.58%の精度でF1スコアは0.9836である。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 07:28:56 GMT)
Exact Solution for Two $δ$-Interacting Bosons on a Ring in the Presence of a $δ$-Barrier: Asymmetric Bethe Ansatz for Spatially Odd States [0.0] デルタ$関数障壁の存在下でのリング上の2つの1次元短距離相互作用ボソンの問題について検討する。
バリアが粒子-粒子相互作用の強度に等しい$delta$-wellに変換されると、システムは相互作用しない相互作用のスペクトルを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 02:23:22 GMT)
Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking [0.0] 大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。
LLMが表現する値の出力に基づく評価であるPAPERSを導入する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 15:01:26 GMT)
Etude: Piano Cover Generation with a Three-Stage Approach -- Extract, strucTUralize, and DEcode [0.0] ピアノカバー生成は、ポップソングをピアノアレンジメントに変換することを目的としている。
既存のモデルは、オリジナルの曲と構造的な整合性を維持するのに失敗することが多い。
構造的類似性を定義するため、リズム情報は不可欠である。
本モデルでは, 適切な楽曲構造を保ち, 流音や音楽のダイナミクスを向上し, 高い制御可能な生成を支援するカバーを製作する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:06:43 GMT)
Error stabilized logical qubits in qudit generalizations of the monitored Kitaev model [0.0] 我々は,ハニカムおよび正方格子上での北エフモデルのカンディット一般化のモニタリングされたダイナミクスについて検討した。
この結果から, 量子スピン液体とモニタ回路のダイナミックスとの豊富な相互作用が明らかになった。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:48:10 GMT)
Enhancing Live Broadcast Engagement: A Multi-modal Approach to Short Video Recommendations Using MMGCN and User Preferences [0.0] 我々は,MMGCN(Multi-modal Graph Convolutional Networks)をユーザの好みに組み込んだ短いビデオレコメンデーションシステムを開発した。
個人の関心に合わせたパーソナライズされたレコメンデーションを提供するために,提案システムはユーザインタラクションデータ,ビデオコンテンツ機能,コンテキスト情報などを検討する。
システムの有効性を評価するために、Kwai、TikTok、MovieLensの3つのデータセットが使用されている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 01:02:23 GMT)
Enhanced spreading in continuous-time quantum walks using aperiodic temporal modulation of defects [0.0] パロンドのパラドックスは、2つの敗戦戦略の交互化が勝利をもたらす可能性があるが、最近は連続時間量子ウォークで実証されている。
決定論的非繰り返し欠陥切換えは, 欠陥のない場合と比較してCTQWの量子拡散を促進できることを示す。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 23:20:38 GMT)
Detection and Simulation of Urban Heat Islands Using a Fine-Tuned Geospatial Foundation Model [0.0] 本研究は,将来の気候シナリオ下での都市表面温度を予測するため,地理空間基盤モデルを微調整する。
このモデルは1.74degC未満のピクセル単位のダウンスケーリングエラーを達成し、地上の真理パターンと一致し、外挿能力は3.62degCまで向上した。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 10:41:33 GMT)
Cutting stabiliser decompositions of magic state cultivation with ZX-calculus [0.0] マジック状態培養から発生する量子状態に切断安定化器分解技術(arXiv:2403.10964)を適用する。
その結果、$d=3$と$d=5$のマジックステート培養回路は、それぞれ4$と8$のクリフォードZX-ダイグラムで表される。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 17:28:00 GMT)
Computational-Assisted Systematic Review and Meta-Analysis (CASMA): Effect of a Subclass of GnRH-a on Endometriosis Recurrence [0.0] 本研究では,体系的レビューの堅牢性,透明性,透明性を高めるための情報検索駆動ワークフローを評価する。
我々は子宮内膜症の再発を,その複雑で曖昧な文献により理想的な症例として用いている。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 09:50:18 GMT)
Assessing Classical Machine Learning and Transformer-based Approaches for Detecting AI-Generated Research Text [0.0] 機械学習アプローチは、ChatGPT-3.5生成したテキストと人間のテキストを区別することができる。
DistilBERTは全体的な最高のパフォーマンスを達成し、Logistic RegressionとBERT-Customはしっかりとしたバランスの取れた代替手段を提供する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 04:36:21 GMT)
Analytical solution of the Schrodinger equation for the neutral helium atom in the ground state considering the uncertainty principle, vibrational modes and quantum-electrodynamical effects [0.0] 我々は、中性ヘリウムおよびヘリウム様原子に対するシュロディンガー方程式の直接解を示す。
この枠組みは、ヘリウムの化学慣性(閉殻)も考慮し、報告された値と合理的に空間構造パラメータを生成する。
論文参考訳(メタデータ) (Sat, 20 Sep 2025 11:21:19 GMT)