MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.5] MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。
MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。
この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:37:50 GMT)
MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3] マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:52 GMT)
Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models [140.0] Sketchpadは、マルチモーダルLMにビジュアルスケッチパッドとスケッチパッドに描画するツールを提供するフレームワークである。
LMは、人間のスケッチに近い線、ボックス、マークなどを使って絵を描くことができ、推論をより容易にすることができる。
Sketchpadは、スケッチなしで強力なベースモデルよりも、すべてのタスクのパフォーマンスを大幅に改善する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:31 GMT)
OpenVLA: An Open-Source Vision-Language-Action Model [131.7] 我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:46:55 GMT)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.6] 我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:21:12 GMT)
Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.2] 嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:17:21 GMT)
Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.7] 近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:03:25 GMT)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.3] 最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:41:00 GMT)
Rethinking Score Distillation as a Bridge Between Image Distributions [97.3] 提案手法は, 劣化した画像(ソース)を自然画像分布(ターゲット)に転送することを目的としている。
本手法は,複数の領域にまたがって容易に適用可能であり,特殊な手法の性能のマッチングや評価を行うことができる。
テキストから2D、テキストベースのNeRF最適化、絵画を実画像に変換すること、光学錯視生成、および3Dスケッチから実画像に変換することにおいて、その実用性を実証する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:58 GMT)
ECBD: Evidence-Centered Benchmark Design for NLP [95.5] ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:59:55 GMT)
OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation [95.3] トケナイザーは複雑な視覚データをコンパクトな潜在空間にマッピングする翻訳機として機能する。
本稿では,共同画像とビデオトークン化のためのトランスフォーマーベースのトークンライザであるOmniTokenizerについて述べる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:26 GMT)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.2] 検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:20 GMT)
Distilling Diffusion Models into Conditional GANs [90.8] 複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:28:54 GMT)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.7] ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:05:54 GMT)
Wired Perspectives: Multi-View Wire Art Embraces Generative AI [90.0] 私たちは、誰もが簡単にMVWAを作れるAIシステムDreamWireを紹介します。
ユーザーはテキストのプロンプトやスクリブルを通じてビジョンを表現し、複雑な3Dワイヤー組織から解放する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:11:24 GMT)
Understanding Hallucinations in Diffusion Models through Mode Interpolation [89.1] 拡散モデルにおける特定の障害モードについて検討し、これをモードモードと呼ぶ。
トレーニングセット内のデータモード間の拡散モデルを円滑に"補間"し,元のトレーニング分布の支持から完全に外れたサンプルを生成する。
幻覚が、かつて存在しなかった形の組み合わせをいかに生み出すかを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:43:41 GMT)
Center-Sensitive Kernel Optimization for Efficient On-Device Incremental Learning [88.8] 現在のオンデバイストレーニング手法は、破滅的な忘れを考慮せずに、効率的なトレーニングにのみ焦点をあてている。
本稿では,単純だが効果的なエッジフレンドリーなインクリメンタル学習フレームワークを提案する。
本手法は,メモリの削減と近似計算により,平均精度38.08%の高速化を実現する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:49:29 GMT)
Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior [87.6] スコア蒸留サンプリング(SDS)とその変種は、テキスト・ツー・3D世代の発展を大幅に加速させたが、幾何崩壊やテクスチャの低下に弱い。
テキストから3D生成に先立ってODE決定論的サンプリングを探索する新しい「一貫性3D」手法を提案する。
実験により,高忠実で多様な3Dオブジェクトと大規模シーンの生成にConsistent3Dの有効性が示された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:35:30 GMT)
Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.1] アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:15:52 GMT)
CMC-Bench: Towards a New Paradigm of Visual Signal Compression [85.2] 本稿では,画像圧縮のための画像間テキスト(I2T)モデルとテキスト間画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。
超低速では、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も先進的な視覚信号プロトコルを超えたことが証明されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:41:37 GMT)
Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training [85.0] 共起関係の過度な強調は、モデルの過度な問題を引き起こす可能性がある。
本稿では,対象対象物とその共起対象物による相関特性を媒介者とみなすことができることを示す因果推論フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:38:36 GMT)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.5] 多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:57:27 GMT)
Interpreting the Weight Space of Customized Diffusion Models [79.1] 本研究では,多種多様な拡散モデルによる重みの空間について検討する。
私たちは6万以上のモデルのデータセットを作成して、このスペースをポップアップさせ、それぞれが異なる人の視覚的アイデンティティを挿入するために微調整されたベースモデルです。
我々は、この空間の3つの即時応用、サンプリング、編集、反転を実演する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:56 GMT)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.1] 大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:49:26 GMT)
Robust Information Retrieval [77.9] 情報検索システムの堅牢性は ますます注目を集めています
本チュートリアルは、IRにおけるロバスト性問題に対するより広範な注意を喚起し、関連文献の理解を促進し、研究者や実践者の参入障壁を低くすることを目的としている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:44:21 GMT)
Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control [77.1] Follow-Your-Pose v2は、インターネットで簡単に利用できるノイズの多いオープンソースビデオでトレーニングすることができる。
われわれの手法は、2つのデータセットと7つのメトリクスで35%以上のマージンで最先端の手法より優れています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 01:17:18 GMT)
Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.2] 大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:31:28 GMT)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.1] 本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:16:52 GMT)
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [74.5] 環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
そこで本研究では,Wild トレーニングビデオの環境背景音からアクション音を遠ざけるための,新しいオーディオコンディショニング機構を考案した。
我々の研究は、自然の背景音を持つ未処理クリップからトレーニングを受けたにもかかわらず、観察された映像コンテンツに忠実に焦点を合わせる最初のものである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:10:19 GMT)
Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [73.1] 本研究は、ニューロンを特定の入力に対して異なる言語にまたがる応答に応じて4つの異なるグループに分類することで、言語間でニューロンの活性化がどのように共有されるかを検討する。
分析の結果, (i) 言語的共有パターンはタスクの種類によって強く影響されるが, 同じタスクであっても異なる入力に対してニューロンの挙動が変化すること, (ii) 完全共有ニューロンが正しい応答を生成する上で重要な役割を担っていること, (iii) 完全共有ニューロンの増加による多言語的アライメントの促進により, 多言語的タスクの精度が向上すること,などが明らかになった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:04:11 GMT)
Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [73.0] スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:56:04 GMT)
MMRel: A Relation Understanding Dataset and Benchmark in the MLLM Era [73.0] MMRel(Multi-Modal Relation Understanding)は、Multi-Modal Large Language Models (MLLM)とのオブジェクト間関係を研究するための包括的データセットである。
MMRelには3つの特徴がある: (i) 大規模かつ高い多様性を保証する3つの異なるドメインから得られる15K以上の質問応答ペア; (ii) MLLMが幻覚によってしばしば失敗する非常に珍しい関係を持つサブセットを含む; (iii) オブジェクト間関係のために手作業で検証された高品質なラベルを提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:51:59 GMT)
Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.2] テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
本稿では,高能率画像の同定を効果的に行う新しい手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:44 GMT)
Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.6] アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:58:00 GMT)
Is Value Learning Really the Main Bottleneck in Offline RL? [70.5] ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:07:49 GMT)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.2] 時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:56:21 GMT)
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers [70.0] フローベース大拡散変圧器(Flag-DiT)のLumina-T2X系について紹介する。
Flag-DiTは、画像、ビデオ、マルチビュー3Dオブジェクト、テキスト命令で条件付けられたオーディオクリップにノイズを変換するための統一されたフレームワークである。
これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:13:39 GMT)
DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.9] 提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:54:10 GMT)
To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO [68.7] LFMを改善するために,小型だが一般化可能な温度予測ネットワーク(TempNet)を学習するための基本的枠組みを提案する。
LLMとCLIPモデルに関する我々の実験は、TempNetが既存のソリューションやモデルの性能を大幅に改善することを示した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:00:06 GMT)
The Knowledge Alignment Problem: Bridging Human and External Knowledge for Large Language Models [65.8] MixAlignは、ユーザと知識ベースの両方と対話して、ユーザの質問が格納された情報とどのように関連しているかを把握し、統合するフレームワークである。
実験結果から、モデル性能の向上と幻覚の緩和における知識アライメントの重要性が強調され、それぞれ22.2%と27.1%の改善が指摘された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:44:03 GMT)
Towards Vision-Language Geo-Foundation Model: A Survey [65.7] Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:57:30 GMT)
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels [65.6] バニラ変換器は個々のピクセルをトークンとして扱い、高性能な結果を得られる。
主にコンピュータビジョンにおける3つのよく研究されたタスクにおける画素・アズ・トークンの有効性を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:58 GMT)
Few-Shot Anomaly Detection via Category-Agnostic Registration Learning [65.6] 既存のほとんどの異常検出方法は、各カテゴリに専用のモデルを必要とする。
本稿では,新しい数発の異常検出フレームワークを提案する。
これは新しいカテゴリーのモデル微調整を必要としない最初のFSAD法である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:01:13 GMT)
How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.5] 大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:39:31 GMT)
QuRating: Selecting High-Quality Data for Training Language Models [64.8] データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:55:23 GMT)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.8] 本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:42:02 GMT)
Learning Images Across Scales Using Adversarial Training [64.6] 本研究では,通常の画像の非構造的コレクションからマグニチュード・オブ・マグニチュード・スケールを捉える表現を学習するための新しいパラダイムを考案する。
筆者らのジェネレータは,マルチスケール生成モデルとして利用でき,非構造化パッチからのスケール空間の再構成にも利用できることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:44:12 GMT)
Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.5] スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:55:11 GMT)
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [64.2] MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:02:39 GMT)
Counteracting Duration Bias in Video Recommendation via Counterfactual Watch Time [63.8] 視聴時間の予測は時間のバイアスに悩まされ、ユーザーの興味を正確に反映する能力を妨げる。
対実時計モデル (CWM) が提案され、CWTはユーザーがビデオレコメンデーションシステムから最大限の利益を得る時間に等しいことを示した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:08:32 GMT)
Hierarchical Compression of Text-Rich Graphs via Large Language Models [63.8] テキストリッチグラフは、eコマースや学術グラフのようなデータマイニングの文脈で広く使われている。
本稿では,LLMの能力とテキストリッチグラフの構造を整合させる新しい手法であるHiComを紹介する。
HiComは、Eコマースと引用グラフのノード分類において、GNNとLLMのバックボーンよりも優れている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:24:46 GMT)
StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.5] 本稿では,大規模言語モデル(LLM)エージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
StreamBenchは、LLMが継続的なフィードバックストリームを受信し、そのパフォーマンスを反復的に向上するオンライン学習環境をシミュレートする。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:08:28 GMT)
Towards Evaluating the Robustness of Visual State Space Models [63.1] 視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:44 GMT)
Reflecting on the State of Rehearsal-free Continual Learning with Pretrained Models [63.1] 単純かつ軽量なPEFTベースラインによるP-RFCL手法の整合性を示す。
P-RFCL の手法が,単純で軽量な PEFT ベースラインでマッチング可能であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:57:10 GMT)
Differentiable Reasoning about Knowledge Graphs with Region-based Graph Neural Networks [62.9] 知識グラフ(KG)の完成法は、意味的正則性を捕捉し、これらの正則性を用いて、明示的に記述されていない妥当な知識を推測する必要がある。
ほとんどの埋め込みベースの手法はキャプチャ可能な正規性には不透明であるが、領域ベースのKG埋め込みモデルはより透明な代替手段として現れている。
命令制約に基づくシンプルなモデルであるRESHUFFLEを提案し、既存のアプローチよりもはるかに大きなルールベースを忠実に捉えることができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:37:24 GMT)
Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [62.6] この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:33:20 GMT)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.3] ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:34:12 GMT)
Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition [62.0] 視覚と言語モデル(VLM)は、驚くべきゼロショット認識能力を示した。
しかし、それらは視覚言語的構成性、特に言語的理解ときめ細かい画像テキストアライメントの課題に直面している。
本稿では,構成性と認識の複雑な関係について考察する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:58:39 GMT)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.5] 本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:41:49 GMT)
Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding [59.6] 3Dビジュアルグラウンドティング(3D visual grounding)は、3D物理世界と自然言語を結びつける研究分野である。
本稿では,DASANet,Dual Attribute-Spatial Relationed Networkを提案する。
提案手法は,Nr3Dデータセットにおいて,最強の競合相手よりも1.3%高い65.1%の接地精度を実現する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:06:57 GMT)
Whole Page Unbiased Learning to Rank [59.5] アンバイアスド・ラーニング・トゥ・ランク(ULTR)アルゴリズムは、バイアスド・クリックデータを用いたアンバイアスド・ランキングモデルを学ぶために提案される。
本稿では,BALというアルゴリズムをランク付けするバイアス非依存学習を提案する。
実世界のデータセットによる実験結果から,BALの有効性が検証された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:55:33 GMT)
State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era [59.3] このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
新たなイメージは、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを考える余地があることを示唆している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:51:22 GMT)
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality [58.9] 本稿では,T2Vモデルのための包括的で標準化されたプロトコルであるText-to-Video Human Evaluation (T2VHE)プロトコルを紹介する。
このプロトコルには、明確に定義されたメトリクス、完全なアノテータトレーニング、効果的な動的評価モジュールが含まれている。
我々は、完全なプロトコルワークフロー、動的評価コンポーネントの詳細、アノテーションインターフェースコードを含む、T2VHEプロトコルのセットアップ全体をオープンソースにします。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:09:22 GMT)
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.1] 我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:40:39 GMT)
Scene Graph Generation in Large-Size VHR Satellite Imagery: A Large-Scale Dataset and A Context-Aware Approach [58.0] 衛星画像(SAI)におけるシーングラフ生成(SGG)は、認識から認知へのシナリオのインテリジェントな理解を促進する。
画像サイズは512 x 768から27,860 x 31,096ピクセルで、RSGと命名され、210,000以上のオブジェクトと40,000以上のトリプルを含む大規模VHR SAIのSGG用データセットを構築した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:51 GMT)
On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models [58.0] Open Whisperスタイルの音声モデル(OWSM)シリーズが導入された。
OWSMモデルは25の公開音声データセットに基づいて訓練される。
OWSM v3.2を導入し、このデータの不均一性の影響を調査し、対処することで、先行モデルを改善する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:22:37 GMT)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.8] ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:27:13 GMT)
Optimization Efficient Open-World Visual Region Recognition [55.8] RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:28:14 GMT)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.7] 本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:55:04 GMT)
SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.5] 階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:35:55 GMT)
Federated Contrastive Learning for Personalized Semantic Communication [55.5] 我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:45:35 GMT)
Carbon Market Simulation with Adaptive Mechanism Design [55.3] 炭素市場(英: carbon market)は、個人の利益をグローバルユーティリティーと整合させる経済エージェントをインセンティブとする、市場ベースのツールである。
階層型モデルフリーマルチエージェント強化学習(MARL)を用いて市場をシミュレートする適応機構設計フレームワークを提案する。
MARLは、政府エージェントが生産性、平等、二酸化炭素排出のバランスをとることができることを示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:29:16 GMT)
A Modular Approach for Multimodal Summarization of TV Shows [55.2] 我々は、複雑な推論、複数のモダリティ、長い物語など、AI研究の重要な領域に触れるテレビ番組を要約するタスクに対処する。
本稿では,各コンポーネントが個別のサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:58:03 GMT)
Common and Rare Fundus Diseases Identification Using Vision-Language Foundation Model with Knowledge of Over 400 Diseases [55.1] 網膜視覚言語基礎モデル(RetiZero)を提示し,400以上の眼底疾患について検討した。
RetiZeroは、ゼロショット網膜疾患の認識など、さまざまな下流タスクで優れたパフォーマンスを達成した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:53:57 GMT)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.0] 本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:30 GMT)
OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.7] 295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。
OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。
これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:46:17 GMT)
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers [53.2] 本稿では,視覚言語変換のための一般的なアクセラレーションフレームワークであるクロスガイド・アンサンブル・オブ・トークン(CrossGET)を紹介する。
CrossGETは推論中にリアルタイムでトークンを適応的に結合し、計算コストを大幅に削減する。
画像テキスト検索、視覚的推論、画像キャプション、視覚的質問応答など、様々な視覚言語タスクの実験が行われている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:15:53 GMT)
VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.1] 大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:47:48 GMT)
How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.9] 知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:56:47 GMT)
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.8] ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:13:32 GMT)
Beyond Labeling Oracles: What does it mean to steal ML models? [52.6] モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:22:57 GMT)
Strategic Facility Location with Clients that Minimize Total Waiting Time [52.4] 本研究では,非協調型施設位置ゲームにおいて,施設やクライアントが戦略的に行動する場所ゲームについて検討する。
サブゲーム完全平衡は、このゲームの全ての事例に存在せず、その存在はNPハードで決定できることを証明している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:42:12 GMT)
Gaussian Splatting with Localized Points Management [52.0] 局所的点管理(LPM)は、点加算と幾何校正の双方の最も高い需要において、これらの誤り貢献ゾーンを特定することができる。
LPMは特定ゾーンに点密度を適用し、これらの領域の前に位置する点の不透明度をリセットし、不条件点を補正する新たな機会を創出する。
特に、LPMはバニラ3DGSとSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:28:31 GMT)
GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [52.0] マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:18:15 GMT)
INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance [51.4] InS-MMBenchは、保険ドメイン用に調整された最初の総合的なLVLMベンチマークである。
INS-MMBenchは12のメタタスクと22の基本的なタスクをカバーし、合計2.2Kの完全設計された複数選択質問を含んでいる。
この評価は、保険領域における様々なマルチモーダルタスクにおける、現在のLVLMの詳細なパフォーマンス解析を提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:31:49 GMT)
ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.4] ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:19:12 GMT)
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.3] 本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:28:13 GMT)
Bridging Evolutionary Algorithms and Reinforcement Learning: A Comprehensive Survey on Hybrid Algorithms [50.9] 進化的強化学習(ERL)は進化的アルゴリズム(EA)と強化学習(RL)を統合して最適化する。
本調査では,ERLの多様な研究分野について概観する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:48:08 GMT)
On Softmax Direct Preference Optimization for Recommendation [50.9] 我々は,LMをベースとした推薦者が好む項目と好ましくない項目を区別するのを支援するために,ランキング情報をLMに挿入するソフトマックスDPOを提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:16:11 GMT)
ToSA: Token Selective Attention for Efficient Vision Transformers [50.1] ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:17:21 GMT)
Two-Stage Facility Location Games with Strategic Clients and Facilities [50.1] 我々は,施設と顧客の両方が戦略的かつ大きな影響を与える非協力的な施設位置ゲームについて検討する。
当社のモデルでは,各施設の場所は,顧客を引き寄せる集合体を持ち,各クライアントは,その消費能力に応じた一組のショッピングロケーションと重みを有する。
サブゲーム完全平衡が存在することを示し、アナーキーの価格と安定の価格にほぼ一定の境界を与える。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:15:15 GMT)
SimGen: Simulator-conditioned Driving Scene Generation [50.0] SimGenは、シミュレータと現実世界のデータを混ぜることで、多様な運転シーンを生成することができる。
SimGenは、テキストプロンプトとシミュレータから取り出されたレイアウトに基づいて、制御性を維持しながら、優れた生成品質と多様性を達成する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:58:32 GMT)
Advancing Graph Generation through Beta Diffusion [49.5] グラフベータ拡散(英: Graph Beta Diffusion、GBD)は、様々なグラフ構造を捉えるのに有効な拡散ベースの生成モデルである。
我々は,臨界グラフ構造の生成を安定化させることにより,生成したグラフの現実性を高める変調手法を開発した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:42:57 GMT)
A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.5] 人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:45:36 GMT)
GGHead: Fast and Generalizable 3D Gaussian Heads [49.0] 3D GANは、比較的遅い列車とレンダリング速度のために、高解像度でサンプルを生成するのに苦労しています。
本稿では、3次元GANフレームワーク内での最近の3次元ガウススプラッティング表現を取り入れた生成ガウスヘッド(GGHead)を提案する。
高品質な3Dコンセントヘッドのリアルタイム生成とレンダリングを初めて10242ドルで実証した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:54:38 GMT)
Strategic Resource Selection with Homophilic Agents [48.8] 類似エージェントとの共同資源利用を目指す異種エージェントを用いたリソース選択ゲームを提案する。
モデルでは,異なるタイプのエージェントを考慮し,その決定的特徴はユーザ間の同一型エージェントの割合である。
このような有界な有理性はゲーム理論上有利な性質を持つことを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:48:09 GMT)
Equivariance via Minimal Frame Averaging for More Symmetries and Efficiency [48.8] 最小フレーム平均化(Minimum Frame Averaging、MFA)は、証明可能な最小限のフレームを構築するための数学的フレームワークである。
その結果, 多様なタスクにまたがって, MFAによる対称性の符号化の有効性と効果が示された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:07:11 GMT)
Scalable and Flexible Causal Discovery with an Efficient Test for Adjacency [48.8] 因果グラフに2つの変数が隣接しているかどうかを評価するために,スケーラブルで柔軟な手法を構築した。
微分可能隣接テストは指数関数的な数のテストを、証明可能な等価な緩和問題に置き換える。
DAT, DAT-Graphに基づくグラフ学習手法も構築し, 介入したデータから学習する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:39:40 GMT)
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B [48.5] 本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を革新的に統合した MCT Self-Refine (MCTSr) アルゴリズムを提案する。
このアルゴリズムは、セレクション、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通じてモンテカルロ探索木を構築する。
大規模な実験は、オリンピアードレベルの数学問題の解法におけるMCTSrの有効性を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:19:06 GMT)
Preserving Identity with Variational Score for General-purpose 3D Editing [48.3] Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:32:40 GMT)
Disparate Impact on Group Accuracy of Linearization for Private Inference [48.3] 多数派と比較して,ReLUアクティベーション数の減少は少数派に対する精度を著しく低下させることを示す。
また,線形化モデルの微調整手順を変更する簡単な手順が,効果的な緩和戦略として有効であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:36:13 GMT)
EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts [48.2] EMMAは、最先端のテキスト・トゥ・イメージ(T2I)拡散モデル ELLA 上に構築されたマルチモーダルプロンプトを受け入れる新しい画像生成モデルである。
元のT2I拡散モデルにおける全てのパラメータを凍結し、いくつかの追加層のみを調整することにより、事前学習されたT2I拡散モデルが秘かにマルチモーダルプロンプトを受け入れることができるという興味深い発見が明らかになった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:26:43 GMT)
CIMRL: Combining IMitiation and Reinforcement Learning for Safe Autonomous Driving [47.9] 本研究では,模擬動作の事前条件と安全性制約を活用することで,シミュレーションにおける運転ポリシーのトレーニングを可能にするフレームワークを提案する。
RLと模倣を組み合わせることで,本手法は閉ループシミュレーション駆動ベンチマークにおいて最先端の結果が得られることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:31:29 GMT)
Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.8] 非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:10:17 GMT)
BEVSpread: Spread Voxel Pooling for Bird's-Eye-View Representation in Vision-based Roadside 3D Object Detection [47.7] 視覚に基づく道路沿いの3D物体検出は、自律運転領域で注目を集めている。
この知見に触発されて,BEVSpreadと呼ばれる新しいボクセルプール方式を提案する。
BeVSpreadは既存のフラストタルベースのBEV法の性能を大幅に向上させることができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:33:36 GMT)
MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs [47.4] マルチモーダル誤報検出法は、しばしばサンプルごとに単一のソースと種類の偽造を仮定する。
混合ソースの誤情報に対するベンチマークが欠如していることは、この分野の進歩を妨げている。
MMFakeBenchは、ミックスソースMDDの最初の包括的なベンチマークである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:04:28 GMT)
Can't Hide Behind the API: Stealing Black-Box Commercial Embedding Models [47.1] OpenAIやCohereといった企業は,ユーザが使用料を支払わなければならないAPIを通じてアクセスされる,競合する埋め込みモデルを開発した。
我々の知る限りでは、これらのモデルを商用APIから得られたテキスト埋め込みペア上でローカルモデルをトレーニングすることで、検索を"スティル"するための最初の取り組みを提示する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:40:56 GMT)
Potion: Towards Poison Unlearning [47.0] 悪意あるアクターによる機械学習システムに対する敵対的攻撃は重大なリスクをもたらす。
このような攻撃を解決する上での課題は、実際に有毒データのサブセットのみを特定できる場合である。
我々の研究は、有毒未学習の最先端を推し進めるための2つの重要な課題に対処する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:35:11 GMT)
CleanDiffuser: An Easy-to-use Modularized Library for Diffusion Models in Decision Making [47.0] CleanDiffuserは、DMベースの意思決定アルゴリズムのための、使いやすくモジュール化されたオープンソースライブラリである。
CleanDiffuserは意思決定コミュニティに長期的なサポートを提供し、より堅牢なソリューションの開発を強化し、促進する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:00:24 GMT)
Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.9] 時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:03:22 GMT)
Less Cybersickness, Please: Demystifying and Detecting Stereoscopic Visual Inconsistencies in VR Apps [46.6] 立体視的不整合(SVI)の問題は、ユーザの脳のレンダリングプロセスを損なう。
本稿では,立体視の不整合を識別するための非教師付きブラックボックステストフレームワークであるStereoIDを提案する。
実験のために、288の現実世界のVRアプリから171K以上の画像を持つ、大規模な未ラベルのVRステレオスクリーンショットデータセットを構築しました。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:48:48 GMT)
Blind Super-Resolution via Meta-learning and Markov Chain Monte Carlo Simulation [46.5] 本稿では,メタラーニングとマルコフ・チェイン・モンテカルロに基づくSISRアプローチを提案する。
軽量ネットワークがカーネルジェネレータとして採用され、ランダムガウス分布のMCMCシミュレーションから学習することで最適化される。
カーネルジェネレータと画像復元器を最適化するために,メタラーニングに基づく交互最適化手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:50:15 GMT)
Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding [46.3] 我々は、人間の知覚を維持しながら、音声認識に対して音声属性を変更することに重点を置いている。
話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。
LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:08:57 GMT)
MaLa-ASR: Multimedia-Assisted LLM-Based ASR [46.1] プレゼンテーションスライドから抽出したテキストキーワードを統合して,会議内容の認識を改善する,LLMベースのASRモデルであるMaLa-ASRを提案する。
MaLa-ASR の平均 WER は L95 と S95 のサブセットで 9.4% と 11.7% であり、ベースラインモデルでは 27.9% と 44.7% の減少を示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:50:40 GMT)
Data-Efficient Operator Learning via Unsupervised Pretraining and In-Context Learning [45.8] PDE演算子学習のための教師なし事前学習を設計する。
シミュレーションソリューションを使わずにラベルなしのPDEデータをマイニングし、物理に着想を得た再構成ベースのプロキシタスクでニューラルネットワークを事前訓練する。
提案手法は,データ効率が高く,より一般化可能であり,従来の視覚予測モデルよりも優れる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:28:49 GMT)
OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning [45.5] 我々は,全身型ヒューマノイド遠隔操作・自律学習システムOmniH2Oを提案する。
OmniH2Oは、キネマティックを普遍的な制御インターフェースとして使用することにより、人間の手によるフルサイズのヒューマノイドの制御を可能にする。
6つの日常的なタスクを含む最初のヒューマノイド全体制御データセットOmniH2O-6をリリースし、遠隔操作データセットからヒューマノイド全体スキル学習を実演する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:44:46 GMT)
Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models [45.5] 大規模言語モデル(LLM)は、様々な起源から派生した多種多様なデータセットに基づいて微調整されるのが一般的である。
MoSは、微調整プロセス中に自動的にデータ使用量を最適化することを学ぶ。
MoSpecは、特定の目的のために様々なデータセットのユーティリティを利用する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:01:28 GMT)
ContraSolver: Self-Alignment of Language Models by Resolving Internal Preference Contradictions [45.4] 本研究では,選択順序に矛盾を見出すために,自己注釈付き応答間の嗜好関係のグラフ構造を構築した。
提案するContrarは、優先グラフ上のすべてのエッジをトラバースして、矛盾を引き起こす可能性のあるものを識別するアルゴリズムである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:08:04 GMT)
Krylov complexity in quantum field theory, and beyond [45.0] 量子場理論の様々なモデルにおけるクリロフ複雑性について研究する。
クリロフ複雑性の指数的成長は、カオス上のマルダセナ-シェンカー-スタンフォード境界を一般化する対物的不等式を満たす。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:59:53 GMT)
Open-Vocabulary Calibration for Fine-tuned CLIP [44.8] 微調整視覚言語モデル(VLM)の信頼性校正問題は、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。
本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することにより,ギャップを埋める。
本稿では,予測されたテキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づく,DAC(Distance-Aware)と呼ばれるシンプルで効果的なアプローチを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:30:36 GMT)
Cross-Modality Program Representation Learning for Electronic Design Automation with High-Level Synthesis [44.6] ドメイン固有アクセラレータ(DSA)は、ディープラーニングや自律運転などのアプリケーションで人気を集めている。
本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互作用できるモデルであるProgSGを提案する。
ProgSGは、設計性能予測のRMSEを最大22%の価格で削減し、設計を平均1.10Times$で識別する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:34:58 GMT)
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.4] 我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:21:24 GMT)
Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [44.1] 大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学び、視覚的問題のようなタスクに有効である。
本稿では,OVSS(Plug-and-Play-Vocabulary Semantic)を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:08:47 GMT)
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning [44.1] 我々は,XLand-MiniGrid環境に基づくテキスト内強化学習のための大規模データセットである textbfXLand-100B を提案する。
これには3万ドル近い異なるタスクのための完全な学習履歴が含まれ、100ドルBの移行と2.5ドルBのエピソードをカバーしている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:04:17 GMT)
LGB: Language Model and Graph Neural Network-Driven Social Bot Detection [43.9] 悪意のあるソーシャルボットは、誤った情報を広め、社会的世論を喚起することで、悪意ある目的を達成する。
言語モデル (LM) とグラフニューラルネットワーク (GNN) の2つの主要コンポーネントから構成される新しいソーシャルボット検出フレームワーク LGB を提案する。
2つの実世界のデータセットの実験では、LGBは最先端のベースラインモデルよりも最大10.95%向上している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:47:38 GMT)
Modeling Comparative Logical Relation with Contrastive Learning for Text Generation [43.8] 比較論理関係生成(CLRG)と呼ばれる新しいD2Tタスクを導入する。
比較論理(CoLo)に基づくテキスト生成手法を提案する。
本手法は, 自動評価と人的評価の両方において, 優れた性能を実現する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:25:50 GMT)
Semantic-Aware Spectrum Sharing in Internet of Vehicles Based on Deep Reinforcement Learning [43.8] 深部強化学習(DRL)ソフトアクター・クリティック(SAC)アプローチに基づく意味認識スペクトル共有アルゴリズム(SSS)を提案する。
我々は、IoV環境におけるV2VおよびV2Iスペクトル共有における意味情報のメトリクスを再定義し、高速意味スペクトル効率(HSSE)と意味伝達率(HSR)を導入した。
この最適化は、V2VとV2Iの共有戦略の最適リンク、セマンティック情報を送信する車両の送信パワー、送信されるセマンティックシンボルの長さを含む。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:20:07 GMT)
ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing [43.6] ConsistDreamerは、3D認識と3D一貫性を備えた2D拡散モデルを持ち上げるフレームワークである。
本稿では,2次元拡散モデルの入力を3次元対応に増強する3つの相乗戦略を提案する。
また、シーンごとの編集手順の中で、自己教師付き一貫性強化トレーニングを導入する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:32 GMT)
Impermanent Identifiers: Enhanced Source Code Comprehension and Refactoring [43.6] この記事では、Imbermanent Identifierを中心としたコード拡張に対する革新的なアプローチを紹介します。
一番の目標は、変化するコンテキストに適応する動的な識別子を導入することで、ソフトウェア開発エクスペリエンスを強化することです。
本研究は,ソフトウェア開発現場における不整合識別子の採用と受容について,厳密に評価する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:54:02 GMT)
ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models [43.3] LLMサービスのためのメモリ効率の高いエキスパートスイッチングフレームワークであるME-Switchを紹介する。
Me-Switchは混合精度量子化を使用し、デルタ重みの非塩分入力チャネルを極端に低ビットに選択的に定量化する。
Me-Switchは、1つのNVIDIA A100 GPU上で、Mistral-7Bファミリーから16のモデルを効率的に提供することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:27:55 GMT)
Leveraging Large Language Models for Learning Complex Legal Concepts through Storytelling [43.2] 我々は,非専門家がストーリーテリングを通じて複雑な法的概念を学ぶのを支援するために,法律教育における大規模言語モデル(LLM)の新たな応用法を提案する。
そこで我々は,294の複雑な法的教義からなり,それぞれに物語と複数の選択肢の質問が伴う新たなデータセットであるLegalStoriesを紹介した。
LLMが生成した物語は、定義のみに比較して、法的概念の理解と、非ネイティブ話者間の法律への関心を高めることが判明した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:10:39 GMT)
Uncoupled Learning of Differential Stackelberg Equilibria with Commitments [43.1] ゼロ階勾配推定器に基づく非結合型学習ダイナミクスを提案する。
従来の結合手法と同じ条件で、微分スタックルバーグ平衡に収束することが証明される。
また、対称学習者がリーダー・フォロワーの役割を交渉できるオンラインメカニズムを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:49:44 GMT)
AdaPTwin: Low-Cost Adaptive Compression of Product Twins in Transformers [43.0] 本稿では,AdaPTwinと呼ばれる低ランク適応圧縮手法を提案する。
提案手法は,新しい話者と音響条件に対する一般化性を維持しつつ,特定の話者に対する圧縮モデルの性能を優先することができる。
本稿では,WhisperモデルとDistil-Whisperモデルを最大45%圧縮し,単語誤り率を2%以下に抑える手法の有効性を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:58:15 GMT)
INTERVENOR: Prompting the Coding Ability of Large Language Models with the Interactive Chain of Repair [42.5] InterVENORは、人間が観察するインタラクティブなコード修復プロセスをエミュレートするシステムである。
LLMはコード修復プロセスにおいて、コード学習者とコード教師の両方として機能し、異なる役割を担います。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 01:21:43 GMT)
Improving Adversarial Robustness via Feature Pattern Consistency Constraint [42.5] 畳み込みニューラルネットワーク(CNN)は、敵の攻撃に対する脆弱性で知られており、重大なセキュリティ上の懸念を呈している。
既存のほとんどの方法は、敵の摂動から学ぶことに集中し、敵の例に過度に適合させるか、推論中にそのような摂動を取り除くことを目指している。
本稿では,特徴パターンの正しい維持能力を高めるために,新規かつ効果的な特徴パターン一貫性制約(FPCC)手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:38:30 GMT)
ReMI: A Dataset for Reasoning with Multiple Images [42.0] ReMIは、大規模言語モデルが複数の画像で推論できる能力を評価するために設計されたデータセットである。
このデータセットは、数学、物理学、論理学、コード、表/チャート理解、空間的および時間的推論といった様々な推論領域にまたがる様々なタスクを含んでいる。
我々は,最先端のLDMのベンチマークを行い,その性能と人間レベルの習熟度の間に大きなギャップがあることを発見した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:37:04 GMT)
Q-S5: Towards Quantized State Space Models [41.9] 状態空間モデル(SSM)はトランスフォーマーの強力な代替品として登場した。
本稿では,S5モデルに対する量子化の効果について検討し,そのモデル性能への影響について考察する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:53:24 GMT)
Yo'LLaVA: Your Personalized Language and Vision Assistant [41.5] 大規模マルチモーダルモデル(LMM)をパーソナライズする新しいタスクについて紹介する。
提案するYo'LLaVAは,パーソナライズされた被写体を潜在トークンの集合に埋め込むことを学習する。
定性的かつ定量的な分析により,Yo'LLaVAはより少ないトークンでより効率的に概念を学習できることが判明した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:29 GMT)
Low-Overhead Channel Estimation via 3D Extrapolation for TDD mmWave Massive MIMO Systems Under High-Mobility Scenarios [41.2] 本稿では,パイロットオーバヘッドを体系的に低減する空間的,周波数的,時間的領域(3D)チャネル外挿フレームワークを提案する。
数値計算の結果,提案手法はパイロット訓練のオーバーヘッドを16倍以上に抑えることができた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:42:25 GMT)
TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models [41.2] TS-Align"フレームワークは、その出力から自動的に抽出されるペアのフィードバックデータを使用してポリシーモデルを微調整する。
最終調整方針は, 平均勝利率69.7%で基本方針モデルを上回っていることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:35:22 GMT)
Multi-Label Requirements Classification with Large Taxonomies [40.6] 大規模ラベルによる多ラベル要求分類は、要求のトレーサビリティを補助するが、教師付きトレーニングでは違法にコストがかかる。
私たちは129の要件を,250から1183のクラスから769のラベルに関連付けました。
文ベース分類は単語ベース分類と比較して有意に高いリコール率を示した。
階層的な分類戦略は要求分類の性能を必ずしも改善しなかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:55:22 GMT)
Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA [40.5] 広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
長文ビデオ質問応答(LVQA)を行う場合、正しい応答を生成するために必要な情報はすべて、フレームの小さなサブセットに含まれることが多い。
近年の文献では、LVQAベンチマークにおける大規模言語モデル(LLM)の使用について調べ、例外的な性能を実現している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:16 GMT)
Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling? [40.4] 本研究の目的は,学習データとして使用することの有効性を検証し,音質を評価することである。
具体的には,音声認識における合成音声の利用について検討する。
また、音声関連モデリングにおいて、合成音声がデータ拡張の資源となるかどうかについても検討する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:33:05 GMT)
AIM: Attributing, Interpreting, Mitigating Data Unfairness [40.4] 既存の公正機械学習(FairML)の研究は、モデル予測における差別バイアスの軽減に重点を置いている。
トレーニングデータからバイアスや偏見を反映したサンプルの発見という,新たな研究課題について検討する。
サンプルバイアスの測定と対策のための実用的なアルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:21:10 GMT)
Automated Molecular Concept Generation and Labeling with Large Language Models [40.2] 本稿では,自動分子概念(AutoMolCo)生成とラベリングのための新しいフレームワークを提案する。
AutoMolCoフレームワーク全体が、概念生成、ラベル付け、精巧化のいずれにおいても、人間の知識を入力せずに自動化されている。
我々は,AutoMolCoによる説明可能なCMが分子科学研究に有用であり,有望であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:44:08 GMT)
A Large-scale Universal Evaluation Benchmark For Face Forgery Detection [40.2] 我々は,顔偽造検出技術の有効性を定量的に評価するために,DeepFaceGenというベンチマークを構築した。
DeepFaceGenは776,990の実顔画像/ビデオサンプルと773,812の顔偽画像/ビデオサンプルで構成され、34の主流顔生成技術を用いて生成される。
DeepFaceGenは,13の顔偽造検出技術の性能を様々な観点から評価・解析するために用いられている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:42:59 GMT)
Cognitively Inspired Energy-Based World Models [40.1] エネルギーベース世界モデル(EBWM)を紹介する。
EBWMは、与えられたコンテキストと予測される将来の状態の互換性を予測するために、エネルギーベースモデル(EBM)を訓練する。
我々は、EBT(Energy-Based Transformer)と呼ばれる従来の自己回帰変換器の変種を開発する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:54:37 GMT)
MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models [40.0] 本稿では,MLLMの多次元安全性評価スイートであるMLLMGuardを紹介する。
バイリンガル画像テキスト評価データセット、推論ユーティリティ、軽量評価器が含まれている。
13種類の先進モデルに対する評価結果は,MLLMが安全かつ責任を負うことができるまでには,まだかなりの道のりを歩んでいることを示唆している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:22:15 GMT)
Real-Time Deepfake Detection in the Real-World [40.0] 本稿では,LaDeDa(Lacally Aware Deepfake Detection)アルゴリズムを提案する。
LaDeDaは1つの9x9イメージパッチを受け取り、ディープフェイクスコアを出力する。
いくつかの人気ソーシャルネットワークから収集された新しいディープフェイク検出データセットであるWildRFを紹介する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:23 GMT)
DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation [39.9] 大規模言語モデル(LLM)は、日常生活のアプリケーションにおけるAIの統合に革命をもたらしている。
彼らは幻覚を起こしやすく、確立した事実に矛盾する主張を生じさせ、同じプロンプトが複数回提示されたときに矛盾する反応を生じさせる。
本稿では,8つの領域にまたがる75,000以上のプロンプトからなる総合ベンチマークデータセットを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:18:13 GMT)
Evidentially Calibrated Source-Free Time-Series Domain Adaptation with Temporal Imputation [38.9] ソースフリードメイン適応(SFDA)は、ラベル付きソースドメインで事前訓練されたモデルを、ソースデータにアクセスせずにラベルなしのターゲットドメインに適応することを目的としている。
本稿では, 時系列SFDAの新規かつ効果的なアプローチであるMAsk And imPUte(MAPU)を提案する。
ソフトマックス予測に固有の過信問題に対処するために、明らかな不確実性推定を取り入れたE-MAPUも導入する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:08:23 GMT)
WonderWorld: Interactive 3D Scene Generation from a Single Image [38.8] We present WonderWorld, a novel framework for emphinteractive 3D scene generation。
WonderWorldは、単一のA6000 GPU上で10秒未満で接続された多様な3Dシーンを生成する。
We demonstrate the potential of WonderWorld for application in virtual reality, gaming and creative design。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:10 GMT)
Simple Data Augmentation Techniques for Chinese Disease Normalization [37.7] 病名正規化は医療分野において重要な課題である。
既存の疾患名正規化システムに対する最も大きな障害は、トレーニングデータの不足である。
本稿では,一連のデータ拡張手法といくつかのサポートモジュールを含む新しいデータ拡張手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:06:52 GMT)
Local quenches in fracton field theory: Lieb-Robinson bound, non-causal dynamics and fractal excitation patterns [37.7] フラクトン場理論における局所摂動によって誘起される平衡外ダイナミクスについて検討する。
有限体積の理論について、フラクトン波面が非自明なハウスドルフ次元を持つフラクタル形状を得ることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:12:55 GMT)
Dodo: Dynamic Contextual Compression for Decoder-only LMs [37.3] Dodoは、各レイヤに隠された状態の動的数でテキストを表す。
Dodoは、自動回帰型LMまたは下流タスクのコンテキストコンプレッサーとして機能する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:19:24 GMT)
Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.1] Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。
ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。
これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:07:02 GMT)
Fine-Grained Domain Generalization with Feature Structuralization [36.5] 細粒度領域一般化(FGDG)は、クラス間差が小さく、クラス内差が比較的大きいため、より困難な課題である。
本稿では,特徴的構造的領域一般化モデルを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:27:53 GMT)
Functional Bilevel Optimization for Machine Learning [36.1] 本稿では,関数空間上での内的目的を最小化する機械学習における二段階最適化問題に対する新たな機能的視点を提案する。
機能的二段階最適化問題に対して,スケーラブルで効率的なアルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:43:42 GMT)
SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [36.0] SciKnowEvalは5つの進歩的な科学的知識のレベルにわたって大規模言語モデル(LLM)を評価するフレームワークである。
ゼロショットと少数ショットのプロンプト戦略を用いて、20のオープンソースおよびプロプライエタリなLCMをベンチマークする。
その結果、最先端性能を達成しているにもかかわらず、プロプライエタリなLLMには改善の余地があることが判明した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:27:52 GMT)
LRM-Zero: Training Large Reconstruction Models with Synthesized Data [35.7] LRM-Zeroは完全に3Dビュー上に表示し、高品質でインタラクティブな3Dオブジェクトの可視化を実現する。
ゼロクオリティの高いフィールドで利用できる3D再構成とは異なり、LRM-Zero再構成はゼロクオリティの高さで利用できる。
我々は、実際の重要な設計選択と競争訓練に寄与するLRM-Zeroのいくつかの重要な設計選択を分析する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:51:00 GMT)
REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space [35.6] 大規模言語モデル(LLM)は、トレーニングデータに見られる機密または個人識別可能な情報(PII)を不注意に記憶し、希釈するリスクがある。
LLMから未学習のセンシティブな情報を抽出する新しいモデル編集手法であるREVSを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:02:32 GMT)
GSURE-Based Diffusion Model Training with Corrupted Data [35.6] 本稿では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。
顔画像と磁気共鳴画像(MRI)の撮影技術について紹介する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:11:45 GMT)
Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset [35.5] 我々は、マルチエージェント、マルチトラベサール、マルチモーダル自動運転車研究を可能にするシナリオを統一するMARSデータセットを提案する。
MARSは、特定の地理的領域内で運転する自動運転車の群れによって収集される。
位置認識と神経再建の実験を行う。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:56:56 GMT)
Fragile Model Watermark for integrity protection: leveraging boundary volatility and sensitive sample-pairing [34.9] Fragileモデルの透かしは、モデルが誤った判断を下す可能性のある予期せぬ改ざんを防止することを目的としている。
提案手法では,対のサンプル間のモデル境界を設定するとともに,ロジットの最大化を行う。
これにより、機密サンプルのモデルによる決定結果が可能な限り変化し、Top-1ラベルの移動方向に関わらず変更が容易になる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:29:37 GMT)
Assessing Model Generalization in Vicinity [34.9] 本稿では, 分布外テストセットにおける分類モデルの一般化能力について, 基礎的真理ラベルに依存することなく評価する。
そこで本研究では,各試料の正当性評価に,隣り合う試験試料からの応答を取り入れることを提案する。
結果のスコアは、すべてのテストサンプルで平均化され、モデル精度の全体像が示される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:58:37 GMT)
AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.8] 新興中国ビジョンランゲージモデル(VLM)の総合的アライメントベンチマークであるAlignMMBenchを紹介する。
このベンチマークは、現実世界のシナリオと中国のインターネットソースから慎重にキュレートされ、3つのカテゴリにまたがる13の特定のタスクを含み、シングルターンとマルチターンの対話シナリオを含んでいる。
評価パイプラインを容易にするために,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:30:14 GMT)
Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices [34.8] 資源制約のある計算環境がパーソナライズされたLLMの設計選択にどのように影響するかを検討する。
いくつかの重要な設計要因のトレードオフと、学習効率と正確性に対するそれらの相互干渉の影響を考察する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:00:47 GMT)
Studying K-FAC Heuristics by Viewing Adam through a Second-Order Lens [34.7] 我々は,K-FACの減衰と学習率選択技術を組み合わせたオプティマイザAdamQLRについて検討した。
我々はAdamQLRを様々なスケールで様々な回帰・分類タスクで評価する。
チューニングされていないAdamQLR設定を見つけることで、チューニングされたベンチマークに対して、実行時と同等のパフォーマンスを実現することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:04:35 GMT)
From Redundancy to Relevance: Enhancing Explainability in Multimodal Large Language Models [34.6] ブラックボックス設計は、視覚言語モデルの解釈可能性を妨げる。
本稿では,インタラクションメカニズムを可視化する情報フロー手法を提案する。
このアプローチは、複数のモデルにわたる実験を通じて検証されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:29:45 GMT)
MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.6] タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は, 分子を多モード外部モジュール, MolX で設計し, 実装することで, LLM の分子理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:54:49 GMT)
Understanding the Generalizability of Link Predictors Under Distribution Shifts on Graphs [34.6] 多くの人気のあるベンチマークデータセットは、データセットのサンプルが同じ分布から引き出されると仮定している。
構造特性を利用して制御分布シフトを誘導するLP固有データ分割を導入する。
我々は、異なるSOTA LP手法の評価により、シフトの効果を実証的に検証し、その後、これらの手法を一般化手法と組み合わせる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:47:12 GMT)
Reducing Task Discrepancy of Text Encoders for Zero-Shot Composed Image Retrieval [34.1] Composed Image Retrieval (CIR) は、参照画像と条件付きテキストに基づいてターゲット画像を取得することを目的としており、制御可能な検索を可能にする。
本稿では,テキストエンコーダ用プラグアンドプレイトレーニングスキームであるComposeed Image Retrieval (RTD) のためのテキストエンコーダのタスク離散化について紹介する。
また,提案手法を改善するための2つの手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:49:28 GMT)
APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation [33.9] クロスドメイン小ショットセマンティックセマンティックセグメンテーション(CD-FSS)のための新しい自動プロンプトネットワークであるAPSegを紹介する。
提案手法は,1ショット設定と5ショット設定の平均精度をそれぞれ5.24%,3.10%向上させる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:10:17 GMT)
Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8] 画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:32:24 GMT)
Time-Series Forecasting for Out-of-Distribution Generalization Using Invariant Learning [33.7] 時系列予測(TSF)は、現実世界のシナリオにおいて幅広い応用を見出す。
本稿では,TSFにおける固有のOOD問題を不変学習を用いて緩和することを目的とする。
Invariant Learning によるアウト・オブ・ディストリビューションの一般化のための時系列予測を可能にするモデルに依存しないフレームワーク FOIL を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:01:34 GMT)
Improved Stability and Generalization Guarantees of the Decentralized SGD Algorithm [33.6] 本稿では,アルゴリズムの安定性に基づく分散勾配 Descent (D-SGD) の新しい一般化解析法を提案する。
この新たな発見は、グラフの選択が、最悪の凸関数と非連結関数を実際に改善できることを明らかにしている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:09:18 GMT)
It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF [33.2] ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback)は、言語モデルと人間の好みを合わせるためのトレーニングポリシーモデル(PM)と報酬モデル(RM)を含む。
PMとRMを独立に焦点をあてるのではなく、微調整中の相互作用を調べることを提案する。
本研究は、RMとPMの連続的な改善がRLHFの進行に変換されない飽和現象を観察することから始まる。
分析の結果, RMはPM応答に適切なスコアを割り当てず, 人間の嗜好に35%のミスマッチ率を示し, PMとRMの相違が顕著であった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:13:50 GMT)
MC$^2$: Towards Transparent and Culturally-Aware NLP for Minority Languages in China [33.1] 中国におけるマイノリティ言語多言語コーパスであるMC$2を提示する。
MC$2$にはチベット語、ウイグル語、カザフ語、モンゴル語という4つの下位言語が含まれている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:36:11 GMT)
Dynamic Correlation Clustering in Sublinear Update Time [33.1] 動的ノードストリームにおける相関クラスタリングの古典的問題について検討する。
この設定では、ノードは時間とともに追加またはランダムに削除され、各ノードペアは正または負のエッジで接続される。
我々は,$O(1)$-approximationを$O$(polylog $n$)アモートした更新時間で維持するアルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:07:15 GMT)
Teaching Large Language Models an Unseen Language on the Fly [32.8] In-context Learning を用いて LLM を未知の言語に適用するためのフレームワークである DiPMT++ を紹介した。
辞書と5Kパラレル文のみを用いて、DiPMT++は中国語から中国語への翻訳において、0から16BLEUまでのGPT-4の性能を大幅に向上させる。
また、もう1つの目に見えない言語であるKalamang上で、我々のフレームワークの有効性を検証する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:58:21 GMT)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.7] 大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:26:46 GMT)
ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling [32.7] ESM-AA(ESM All-Atom)は原子スケールと残基スケールの統一分子モデリングを可能にする新しいアプローチである。
実験結果から,ESM-AAはタンパク質分子タスクの従来の手法を超越していることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:29:34 GMT)
Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models [32.5] 本研究では,物体ごとの表現,ニューラルアセットを用いてシーン内の個々の物体の3次元ポーズを制御することを提案する。
本モデルでは,合成3次元シーンデータセットと実世界の2つのビデオデータセットを用いて,最先端のマルチオブジェクト編集結果を実現する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:29:18 GMT)
SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.5] モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:16:38 GMT)
An Efficient Subgraph GNN with Provable Substructure Counting Power [32.4] 本稿では,グラフニューラルネットワーク(GNN)のサブストラクチャカウント能力による表現能力の向上について検討する。
近年の進歩では、入力グラフを多数のサブグラフに分割するサブグラフGNNが採用され、グラフ全体の表現を拡大するためにそれぞれにGNNが適用されるようになった。
様々なサブ構造を識別できるにもかかわらず、サブグラフGNNは計算とメモリの大幅なコストによって妨げられる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:48:19 GMT)
See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.4] 機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:17:04 GMT)
MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models [32.4] まず,米国医学会の医療倫理原則に基づいて,大規模言語モデル(LLM)における医療安全の概念を定義した。
MedSafetyBenchは、LSMの医療安全を測定するために特別に設計された、最初のベンチマークデータセットです。
以上の結果から,医療用LLMは医療安全基準を満たしていないこと,MedSafetyBenchを用いた微調整が医療安全を改善していることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:58:33 GMT)
Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.3] トランスフォーマー言語モデル(LM)が、初期レイヤから後期レイヤに機能を渡すことが分かりました。
LMがこれを実現するために使用する特定のメカニズムを分析することで、リストからアイテムをリコールするためにも使用されることが分かる。
分析の結果,言語モデルの事前学習から得られた驚くほど複雑な解釈可能な構造が明らかになった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:12:01 GMT)
Quantifying fault tolerant simulation of strongly correlated systems using the Fermi-Hubbard model [31.8] 強い相関のある物質の全体的理解を構築することが重要である。
フォールトトレラントな量子コンピュータは、これらの困難を克服するための道として提案されている。
我々は, 耐故障性量子コンピュータを用いて, 実験量を得るために必要な資源コストを見積もる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:37:11 GMT)
Retrieval and Distill: A Temporal Data Shift-Free Paradigm for Online Recommendation System [31.6] 現在のレコメンデーションシステムは、時間的データシフトの深刻な問題によって大きく影響を受ける。
既存のモデルのほとんどは、データのシフトから学ぶことのできる、転送可能な一時的なデータシフトのない情報を見渡すことで、更新データの利用に重点を置いている。
そこで本研究では,データシフトのない関連ネットワークを,シフトデータを用いてトレーニング可能な検索ベースレコメンデーションシステムフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:53:06 GMT)
Unlearning Traces the Influential Training Data of Language Models [31.3] アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:28:47 GMT)
Modeling Ambient Scene Dynamics for Free-view Synthesis [31.2] モノクルキャプチャから周囲のシーンを動的に自由視点で合成する手法を提案する。
本手法は, 複雑な静的シーンを忠実に再構築できる3次元ガウス散乱(3DGS)の最近の進歩に基づいている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:11 GMT)
Multi-Agent Software Development through Cross-Team Collaboration [30.9] ソフトウェア開発のためのスケーラブルなマルチチームフレームワークである、クロスチームコラボレーション(CTC)を紹介します。
CTCは、組織されたチームがさまざまな決定を共同で提案し、洞察とコミュニケーションすることを可能にする。
その結果,最先端のベースラインに比べて品質が顕著に向上した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:18:36 GMT)
Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion [30.3] 命令4D-to-4Dは、高品質な命令誘導動的シーン編集結果を生成する。
我々は、4Dシーンを擬似3Dシーンとして扱い、ビデオ編集における時間的一貫性を実現し、擬似3Dシーンに適用する2つのサブプロブレムに分解する。
様々な場面でのアプローチと編集指示を幅広く評価し,空間的・時間的に一貫した編集結果が得られることを示した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:30 GMT)
HyperFields: Towards Zero-Shot Generation of NeRFs from Text [30.2] テキスト条件付きニューラルラジアンスフィールド(NeRF)を1つのフォワードパスで生成するHyperFieldsを導入する。
i) テキストトークンの埋め込みからNeRF空間へのスムーズなマッピングを学習する動的ハイパーネットワーク; (ii) 個々のNeRFに符号化されたシーンを1つの動的ハイパーネットワークに蒸留するNeRF蒸留訓練。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:14 GMT)
FeatNavigator: Automatic Feature Augmentation on Tabular Data [29.9] FeatNavigatorは、機械学習(ML)モデルのためのリレーショナルテーブルで高品質な機能を探求し、統合するフレームワークである。
FeatNavigatorは、MLモデルのパフォーマンスが最大40.1%向上する5つのパブリックデータセットにおいて、最先端のソリューションよりも優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:44:48 GMT)
Towards an Improved Understanding and Utilization of Maximum Manifold Capacity Representations [29.7] MMCR (Maximum Manifold Capacity Representations) は、MVSSLの他の主要な手法に適合または超越した自己教師付き学習手法である。
MMCRは学習した埋め込みのアライメントと均一性を動機付けていることを示す。
二重降下に類似した前訓練損失の非単調な変化を実験的に確認した。
次に,画像データに適用されたMMCRが,マルチモーダル画像テキストデータ上で動作可能であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:49:56 GMT)
What is the long-run distribution of stochastic gradient descent? A large deviations analysis [29.6] 長期的には、問題の臨界領域は、どの非臨界領域よりも指数関数的に訪問されることが示される。
臨界点の他の連結成分は全て、そのエネルギーレベルに指数的に比例する周波数で訪問される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:44:23 GMT)
Beyond the Calibration Point: Mechanism Comparison in Differential Privacy [29.6] 差分プライベート(DP)機械学習では、DPメカニズムのプライバシー保証が報告され、単一の$(varepsilon, delta)$-pairに基づいて比較されることが多い。
このプラクティスは、DP保証が与えられた$(varepsilon, delta)$を共有するメカニズム間では、かなり不均一である可能性があることを見落としている。
我々は、あるメカニズムを選択する際の最悪の過剰なプライバシー脆弱性を定量化するメカニズム間の$Delta$-divergenceを導入する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:30:29 GMT)
Bridging Associative Memory and Probabilistic Modeling [29.6] 連想記憶と確率的モデリングは人工知能の2つの基本的なトピックである。
両方向のアイデアの有用なフローを実現するために,この2つの橋を架けています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:23:35 GMT)
Self-supervised Graph Neural Network for Mechanical CAD Retrieval [29.3] GC-CADは、機械的CAD検索のための、自己教師付きコントラストグラフニューラルネットワークに基づく手法である。
提案手法は, 精度を向上し, ベースライン法よりも100倍の効率向上を実現している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:56:49 GMT)
Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination [29.2] ChatGPTは、英語の10の方言(Standard American English、Standard British English、および世界中で広く話されている8つの非標準品種)をカバーしている。
GPT-3.5 Turbo と GPT-4 を各品種の母語話者のテキストで誘導し,言語的特徴アノテーションと母語話者評価を用いて応答を解析した。
GPT-3.5 Turbo と GPT-4 は,非標準型話者の被害を悪化させるような言語的差別を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:20:42 GMT)
3D-COCO: extension of MS-COCO dataset for image detection and 3D reconstruction modules [29.1] 3D-COCOは、3Dモデルと2D-3Dアライメントアノテーションを提供するMS-COCOデータセットの拡張である。
3D-COCOのオープンソース性は、新しい3D関連トピック研究の道を開くためのプレミアである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:28:06 GMT)
Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.8] Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:36:38 GMT)
Label Noise Robustness for Domain-Agnostic Fair Corrections via Nearest Neighbors Label Spreading [28.7] 最終層再学習におけるラベルノイズに対するドロップイン補正を提案する。
提案手法では,最寄りのグラフ上にラベルを拡散させ,計算オーバーヘッドを最小限に抑える。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:00:06 GMT)
Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.5] Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:51:37 GMT)
The Second DISPLACE Challenge : DIarization of SPeaker and LAnguage in Conversational Environments [28.5] データセットには158時間の音声が含まれており、教師なしと教師なしの両方の単一チャネルの遠距離記録で構成されている。
インドの5言語で実施されたASRトラックでは,12時間の近接場単チャンネル記録が提供された。
我々は,この第2版における課題の進展を強調するために,私たちのベースラインモデルとdisPLACE-2023の評価データに基づくチームのパフォーマンスを比較した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:32:32 GMT)
Non-Intrusive Speech Intelligibility Prediction for Hearing Aids using Whisper and Metadata [28.3] 本稿では,知能予測精度を向上させるための3つの新しい手法を提案する。
MBI-Net+は、第1回Clarity Prediction Challengeの最高パフォーマンスシステムであるMBI-Netの拡張版である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:50:49 GMT)
Towards Next Era of Multi-objective Optimization: Large Language Models as Architects of Evolutionary Operators [28.1] 多目的最適化問題(MOP)は、実世界の様々な応用で広く用いられている。
大規模言語モデル(LLM)は、プログラムの自律的開発と洗練を可能にすることで、ソフトウェア工学に革命をもたらした。
我々は,多岐にわたるMOPに対処するために,EA演算子を進化させる新しいLCMベースのフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:35:16 GMT)
Suitability of KANs for Computer Vision: A preliminary investigation [28.0] Kolmogorov-Arnold Networks (KAN) はニューラルネットワークのパラダイムを導入し、ネットワークの端に学習可能な関数を実装する。
本研究は,画像認識タスクに焦点をあて,視覚モデルにおけるkansの適用性と有効性を評価する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:13:17 GMT)
EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding [27.9] EgoExo-Fitnessは新しいフルボディアクション理解データセットである。
シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。
EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:28:45 GMT)
Separations in the Representational Capabilities of Transformers and Recurrent Architectures [27.8] 我々は,トランスフォーマーとRNNの表現能力の違いを,実践的妥当性のいくつかのタスクで分析する。
対数幅の一層変換器がインデックス検索を行うのに対し、RNNは線形サイズを隠蔽する必要があることを示す。
また、ログサイズの2層トランスは、最寄りのアルゴリズムをフォワードパスで実装できることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:31:30 GMT)
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.7] 拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:37:20 GMT)
OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding [27.0] 我々は,眼科手術ワークフロー理解のための大規模,専門家によるビデオベンチマークであるOphNetを紹介した。
66種類の白内障、緑内障、角膜手術にまたがる2,278本の手術ビデオの多彩なコレクションがあり、102回の手術フェーズと150回の手術の詳細な注記がある。
OphNetは、時間的ローカライズされたアノテーションを提供し、外科的シナリオ内の時間的ローカライゼーションと予測タスクを容易にする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:46:33 GMT)
How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective [26.9] 勧告システム(RS)は、しばしば人気バイアスに悩まされる。
本研究は,本現象の根本原因を明らかにするための包括的実験および理論的解析を行う。
本稿では、スペクトルノルム正規化器を利用して主特異値の大きさをペナルティ化する新しいデバイアスング戦略を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:31:09 GMT)
Sagiri: Low Dynamic Range Image Enhancement with Generative Diffusion Prior [26.9] 8ビットカメラを用いた高ダイナミックレンジの風景は、しばしばオーバー/アンダー露、低ビット深度圧縮による細部の詳細の喪失、歪んだ色分布、暗黒領域の強いノイズに悩まされる。
従来のLDR画像強調法は主に色マッピングに重点を置いており、画像の色域を拡大し、明るさを調整することで視覚的表現を強化する。
そこで本研究では,HDR画像における課題の全範囲を克服し,現行モデルの限界を超える2段階のアプローチを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:58:40 GMT)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.9] 本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:58 GMT)
AirPlanes: Accurate Plane Estimation via 3D-Consistent Embeddings [26.8] 本研究では,3次元画像から平面面を推定する問題に対処する。
本稿では,平面へのクラスタリングにおける幾何を補完する多視点一貫した平面埋め込みを予測する手法を提案する。
我々は、ScanNetV2データセットの広範な評価を通じて、我々の新しい手法が既存のアプローチより優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:49:31 GMT)
Identifying Self-Disclosures of Use, Misuse and Addiction in Community-based Social Media Posts [26.2] 我々は,オピオイド使用の6つの異なる位相をラベル付けした,様々なサブレディットからの2500オピオイド関連ポストのコーパスを提示する。
すべての投稿で、私たちは、アノテーションの品質とモデル開発の両方において、スパンレベルの説明を注釈付けし、彼らの役割を決定的に研究します。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:15:26 GMT)
ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology [25.8] ConceptPsyは、中国の複雑な推論と心理学における知識能力を評価するように設計されている。
本稿では、中国の複雑な推論と心理学における知識能力を評価するために設計されたConceptPsyについて述べる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:56:20 GMT)
Weakly-supervised anomaly detection for multimodal data distributions [25.6] Weakly-supervised Variational-mixture-based Anomaly Detector (WVAD)を提案する。
WVADはマルチモーダルデータセットで優れている。
3つの実世界のデータセットの実験結果は、WVADの優位性を示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:14:27 GMT)
Motif-driven Subgraph Structure Learning for Graph Classification [25.2] グラフ構造学習(GSL)は、グラフ構造を改善し、下流タスクのパフォーマンスを高めるための有望なアプローチとして登場した。
グラフ分類のための新しいモチーフ駆動サブグラフ構造学習法(MOSGSL)を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:50:44 GMT)
DrivAerNet++: A Large-Scale Multimodal Car Dataset with Computational Fluid Dynamics Simulations and Deep Learning Benchmarks [25.0] DrivAerNet++は、高忠実度計算流体力学(CFD)シミュレーションをモデルとした8000の多種多様な自動車設計で構成されている。
データセットには、ファストバック、ノッチバック、エステートバックといった多様な車種が含まれており、内燃機関と電気自動車の両方を表す車体と車輪のデザインが異なる。
このデータセットは、データ駆動設計最適化、生成モデリング、代理モデルトレーニング、CFDシミュレーションアクセラレーション、幾何学的分類を含む幅広い機械学習アプリケーションをサポートしている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 23:19:48 GMT)
Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors [25.0] AIテキスト検出は、人間と機械が生成したコンテンツを区別するために現れた。
近年の研究では、これらの検出システムは、しばしば頑丈さを欠き、摂動テキストを効果的に区別する難しさを欠いていることが示されている。
我々の研究は、非公式な文章と専門的な文章の両方で現実世界のシナリオをシミュレートし、現在の検出器のアウト・オブ・ボックスのパフォーマンスを探求する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:37:01 GMT)
Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark [24.7] 本稿では,約479Kの治験結果データセットであるCTOデータセットについて紹介する。
CTOのラベルは、監督されたTOPデータセットのテスト分割から、監督された臨床試験結果ラベルと91 F1で前例のない合意を示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:23:35 GMT)
From Biased to Unbiased Dynamics: An Infinitesimal Generator Approach [24.6] 時間反転不変過程における進化作用素の固有関数の学習について検討する。
ランゲヴィン方程式によって説明される多くの物理的または化学的過程は、高いポテンシャル障壁によって分離された準安定状態間の遷移を含む。
本稿では,プロセスの無限小生成と関連する分解剤演算子に根ざした偏りのあるシミュレーションから学習するフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:02:51 GMT)
On a Neural Implementation of Brenier's Polar Factorization [24.5] 1991年、ブレニエは正方行列の極分解を任意のベクトル場 $F:mathbbRdright mathbbRdarrow に PSD $times$ Unitary として分解する定理を証明した。
本稿では,偏波分解定理の実践的実装を提案し,機械学習における可能性を探る。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:06:45 GMT)
Optimizing Large Model Training through Overlapped Activation Recomputation [24.5] 既存の再計算アプローチでは、実世界のモデルをトレーニングする際に最大40%のオーバーヘッドが発生する可能性がある。
これは、クリティカルトレーニングパスで要求に応じて実行されるためです。
我々は、トレーニングパイプラインで発生する通信と再計算を重複させることでオーバーヘッドを削減するために、新しい再計算フレームワーク、Lynxを設計する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:31:36 GMT)
Task and Motion Planning for Execution in the Real [24.0] この作業は、作業を含むタスクと動作の計画を生成するが、計画時には完全には理解できない。
実行は、タスク目標に到達するまでオフラインで計画された動きとオンライン行動を組み合わせる。
提案したフレームワークを評価するために,40の実ロボット試験とモチベーション実証を行った。
その結果、実行時間が短縮され、アクションの数が少なくなり、さまざまなギャップが生じる問題の成功率が向上した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:05:27 GMT)
DSL-FIQA: Assessing Facial Image Quality via Dual-Set Degradation Learning and Landmark-Guided Transformer [23.7] Generic Face Image Quality Assessment (GFIQA) は、顔画像の知覚的品質を評価する。
本稿では,GFIQAのトランスフォーマーに基づく新しい手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 23:11:25 GMT)
Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret [23.4] 量子強化学習(RL)のための新しいUCRL型アルゴリズムを提案する。
我々は$mathcalO(mathrmpoly(S, A, H, log T))$ the worst-case regret for it, where $T$ is the number of episodes。
具体的には、$d$次元線形表現を持つ線形混合MDPに対する値目標回帰(VTR)に基づく量子アルゴリズムを開発する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:00:41 GMT)
LLM-based Knowledge Pruning for Time Series Data Analytics on Edge-computing Devices [23.2] 時系列学習のための新しいパラダイムであるKP(Knowledge Pruning)を提案する。
他の方法とは異なり、我々のKPは冗長な知識を掘り起こし、関連する知識をターゲットモデルにのみ蒸留することを目的としています。
提案したKPにより、軽量ネットワークは適切な知識を効果的に学習し、良好な性能を低コストで達成することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:51:18 GMT)
CircuitVAE: Efficient and Scalable Latent Circuit Optimization [22.9] CircuitVAEは連続空間に計算グラフを埋め込む検索アルゴリズムである。
我々のアルゴリズムはサンプリング効率が高いが、大きな問題インスタンスと高いサンプル予算に優雅にスケールする。
CircuitVAEは、実世界のチップで最先端の加算器を設計でき、我々の手法がリアルな環境で商用ツールより優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:47:52 GMT)
Real2Code: Reconstruct Articulated Objects via Code Generation [22.8] Real2Codeは、コード生成を通じて記述されたオブジェクトを再構築する新しいアプローチである。
まず,画像分割モデルと形状完備モデルを用いて部分形状を再構成する。
オブジェクト指向言語モデルに入力されたオブジェクト指向境界ボックスでオブジェクト部品を表現し、コードとして関節の調音を予測する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:38:12 GMT)
A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [22.8] 大規模言語モデル(LLM)は、人間の言語理解と複雑な問題解決のギャップを埋める。
LLMはセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすい。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:52:44 GMT)
Generative AI-based Prompt Evolution Engineering Design Optimization With Vision-Language Model [22.5] 本稿では,車両設計シナリオでコンテキスト化された,迅速な進化設計最適化(PEDO)フレームワークを提案する。
生成車の設計において,物理に基づく解法と視覚言語モデルを用いて,実用的あるいは機能的な指導を行う。
自動車設計最適化問題に関する調査は,探索の初期段階に発生する潜在的な自動車設計の広範な普及を示唆している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:11:19 GMT)
DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning [22.3] オフライン強化学習は、環境と対話することなく、事前にコンパイルされたオフラインデータセットから最適なポリシーを学ぶことができる。
最近の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。
拡散にインスパイアされたDiffusion Policies with Generative Adversarial Networks (DiffPoGAN) という新しいオフラインRL手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:15:40 GMT)
Robust Knowledge Transfer in Tiered Reinforcement Learning [22.3] そこでは,低層(ソース)タスクから高層(ターゲット)タスクに知識を移すことが目的である。
以前の作業とは異なり、低層タスクと高層タスクは同じダイナミクスや報酬関数を共有していないと仮定する。
本稿では,タスクの類似性に応じて部分的状態に一定の後悔が生じるような,新しいオンライン学習アルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:54:41 GMT)
SememeLM: A Sememe Knowledge Enhanced Method for Long-tail Relation Representation [22.0] 文脈を使わずに単語間の関係を識別することは困難である。
既存の言語モデル(LM)に基づくアプローチでは、LMの豊富な知識を利用して関係のセマンティックな特徴を強化する。
本稿では,長期関係の表現性を高めるために,セメム知識向上手法(SememeLM)を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:42:49 GMT)
Deep Sketched Output Kernel Regression for Structured Prediction [21.9] カーネルによる損失は、構造化された出力予測タスクを定義するための原則化された方法を提供する。
我々は、構造化出力予測タスクを解決するためにニューラルネットワークをトレーニングする方法の課題に取り組む。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:56:55 GMT)
JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models [21.9] Jailbreak攻撃は、禁止命令に対する有害な応答を生成するために、LLM(Large Language Models)を誘導することを目的としている。
ジェイルブレイクの試みが成功するかどうかを評価する方法には(当然のことながら)合意がない。
JailbreakEvalは、Jailbreakの試みの評価に焦点を当てた、ユーザフレンドリーなツールキットである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:59:43 GMT)
Explore the Limits of Omni-modal Pretraining at Scale [21.8] マルチモーダルコンテキスト(MiCo)という,スケーラブルな事前学習パラダイムを提案する。
MiCoは、事前トレーニングプロセスにおいて、モデルパラメータとともに、モダリティとデータの量をスケールアップすることができる。
我々のモデルは、最先端のパフォーマンスのために37の新たなレコードを作成します。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:53 GMT)
From Theory to Therapy: Reframing SBDD Model Evaluation via Practical Metrics [21.8] ビナドッキングスコアの信頼性は、過度に適合する可能性があるため、ますます疑問視されている。
本稿では、生成分子と既知の活性化合物との類似性の評価を含む総合的な評価フレームワークを提案する。
提案するメトリクスとデータセットはこのギャップを埋めることを目的としており、将来のSBDDモデルの実用性を高める。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:23:52 GMT)
TimeCMA: Towards LLM-Empowered Time Series Forecasting via Cross-Modality Alignment [21.7] TimeCMAは、モーダリティ間のアライメントを伴う時系列予測のフレームワークである。
実データに関する大規模な実験は、提案したフレームワークの精度と効率に関する洞察を提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:53:12 GMT)
Modelling the 5G Energy Consumption using Real-world Data: Energy Fingerprint is All You Need [21.5] 本稿では、ITU 5G基地エネルギー消費モデルチャレンジで使用される実世界のデータセットから学習し、新しい5G基地エネルギー消費モデルを提案する。
提案手法は既存のモデルよりも大幅に改善され,平均絶対パーセンテージエラー(MAPE)が12.75%から4.98%に削減され,60%以上の性能向上が達成された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:02:15 GMT)
MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music [21.4] 中国語で書かれた最初のオープンソース音楽記述ベンチマークであるMuChinを紹介する。
MuChinは、音楽の理解と記述において、マルチモーダルな大規模言語モデルの性能を評価するように設計されている。
ベンチマークに関連するすべてのデータは、スコアコードと詳細な付録とともに、オープンソース化されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:36:28 GMT)
Efficient Multimodal Learning from Data-centric Perspective [21.4] 効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:49:57 GMT)
ResearchArena: Benchmarking LLMs' Ability to Collect and Organize Information as Research Agents [21.2] 大規模言語モデル (LLM) は自然言語処理において様々なタスクで顕著な性能を示した。
我々はLLMエージェントが学術調査を行う能力を測定するベンチマーク「ResearchArena」を開発した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:26:30 GMT)
Learning in Feature Spaces via Coupled Covariances: Asymmetric Kernel SVD and Nyström method [21.2] 共分散固有確率(CCE)に基づく新しい非対称学習パラダイムを導入する。
有限サンプル近似を用いて非対称Nystr"om法を定式化し,トレーニングを高速化する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:12:18 GMT)
Detection-Rate-Emphasized Multi-objective Evolutionary Feature Selection for Network Intrusion Detection [21.1] ネットワーク侵入検出における特徴選択問題を3目的最適化問題としてモデル化するDR-MOFSを提案する。
ほとんどの場合、提案手法は従来の手法、すなわちより少ない特徴、より高い精度と検出率を達成できる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:42:17 GMT)
Steganalysis on Digital Watermarking: Is Your Defense Truly Impervious? [21.1] ステガナリシス攻撃は 最小限の知覚歪みで 透かしを抽出し除去できる
平均的な透かし画像の集合は、その下にある透かしパターンを明らかにすることができる。
本稿では,コンテンツ適応型透かし戦略とステガナリシスに対するセキュリティ評価を実施するためのセキュリティガイドラインを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:01:28 GMT)
NeRF Director: Revisiting View Selection in Neural Volume Rendering [21.0] 我々は、ビュー選択方法の統合フレームワークを導入し、その影響を評価するためのベンチマークを考案する。
より少ないビューを使用することで、高品質なレンダリングを高速に実現できることを示す。
提案手法の有効性を実証するために,合成データセットと現実データの両方について広範な実験を行った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:04:19 GMT)
ASTRA: Aligning Speech and Text Representations for Asr without Sampling [20.9] ASTRAはテキスト注入による音声認識(ASR)を改善する新しい手法である。
一般的な技法とは異なり、ASTRAは音声とテキストのモダリティ間のシーケンス長をサンプリングする必要がない。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:39:03 GMT)
ImageNet3D: Towards General-Purpose Object-Level 3D Understanding [20.8] 汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。
ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。
我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:44:26 GMT)
Few-shot Transfer Learning for Knowledge Base Question Answering: Fusing Supervised Models with In-Context Learning [20.8] 既存の知識ベース質問回答(KBQA)アーキテクチャは、注釈付きデータに飢えている。
KBQAでは,対象ドメインがラベル付きサンプルを少数提供している。
本稿では,複数のソース学習型検索器を用いてKB検索を行う新しいKBQAアーキテクチャFuSIC-KBQAを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:06:27 GMT)
Gaussian-Forest: Hierarchical-Hybrid 3D Gaussian Splatting for Compressed Scene Modeling [20.7] 本稿では,ハイブリッド3Dガウスの森として景観を階層的に表現するガウス・フォレスト・モデリング・フレームワークを紹介する。
実験により、ガウス・フォレストは同等の速度と品質を維持するだけでなく、圧縮速度が10倍を超えることが示されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:41:11 GMT)
DifAttack++: Query-Efficient Black-Box Adversarial Attack via Hierarchical Disentangled Feature Space in Cross Domain [20.2] 本研究は,高攻撃成功率(ASR)と良好な一般化性を備えた,効率的なスコアベースブラックボックス攻撃について検討する。
我々はtextitHierarchical textbfDisentangled textbfFeature space と textitcross domain に基づいて, textbfDifAttack++ という新しい攻撃手法を設計する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:14:34 GMT)
Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs [20.2] 合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
VideoNIAHは、関連のない画像/テキスト 'needles' をオリジナルビデオに挿入することで、クエリ応答からテストビデオコンテンツを分離する。
アノテーションはこれらの針からのみ生成され、ビデオソースの多様性と様々なクエリ応答が保証される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:50:05 GMT)
Auto-Vocabulary Segmentation for LiDAR Points [20.2] 自動オブジェクトクラス認識とオープンなセグメンテーションのためのフレームワークであるAutoVoc3Dを提案する。
また、テキストとポイントクラウドのセマンティック類似性を評価するための新しい指標であるテキストポイントセマンティック類似性についても紹介する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:59:47 GMT)
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.1] 大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。
種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。
本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:31:19 GMT)
Learning from Natural Language Explanations for Generalizable Entity Matching [20.0] バイナリ分類とは対照的に、条件生成タスクとしてエンティティマッチングを再キャストする。
これにより、LLM推論を自然言語による説明を通じて、より小さなエンティティマッチングモデルに分割することが可能になる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:08:58 GMT)
LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks [19.9] 費用対効果の高い自己監督型微調整(SSFT)手法「LASER:Learning by Aligning Self-supervised Representations」について述べる。
HuBERT と WavLM モデルを用いて実験を行い、SUPERB ベンチマークを用いて、自動音声認識(ASR)と音素認識(PR)の2つのコンテンツ関連タスクについて評価した。
HuBERTは3.7%と8.2%、WavLMは4.1%と11.7%、それぞれASRとPRのタスクは1つのGPUで3時間しか微調整されない。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:17:47 GMT)
A Non-Intrusive Neural Quality Assessment Model for Surface Electromyography Signals [19.9] 本研究では,SEMG信号のSNRを予測する新しい非侵入モデルQASE-netを提案する。
実験フレームワークは,2つのオープンアクセスデータベースから実世界のsEMGとECGデータを利用する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:12:10 GMT)
A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.9] 報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:39:42 GMT)
RobustSAM: Segment Anything Robustly on Degraded Images [19.8] Segment Anything Model (SAM) は画像セグメンテーションにおける変換的アプローチとして登場した。
低画質画像におけるSAMの性能を向上させるRobust Segment Anything Model (RobustSAM)を提案する。
提案手法は, SAMに基づくダウンストリームタスクにおいて, 単一画像のデハージングやデブロアリングなどの性能を効果的に向上することを目的としている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 23:33:59 GMT)
DIAS: A Dataset and Benchmark for Intracranial Artery Segmentation in DSA sequences [19.6] 血管形態の定量化にはDSA(Digital Subtraction Angiography)の頭蓋内動脈(IA)が重要である。
現在の研究は、主にプロプライエタリデータセットを使用した単一フレームDSAのセグメンテーションに焦点を当てている。
DSAシークエンスにおけるIAセグメンテーションのためのデータセットであるDIASを紹介する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:16:10 GMT)
Cross-Modal Learning for Anomaly Detection in Fused Magnesium Smelting Process: Methodology and Benchmark [19.4] 本稿では, マグネシウム溶融プロセスにおける異常検出を容易にするクロスモーダルトランス (dubed FmFormer) を提案する。
提案手法は,3次元ビデオモダリティと1次元カレントモダリティの実質的な次元差を橋渡しする,新しいトークン化パラダイムを導入する。
提案手法の有効性を検証するため, 溶融マグネシウム製錬プロセスの先駆的なクロスモーダルベンチマークも提案した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:40:06 GMT)
Introducing Diminutive Causal Structure into Graph Representation Learning [19.1] 本稿では,グラフニューラルネット(GNN)が専門的な最小の因果構造から洞察を得ることを可能にする新しい手法を提案する。
本手法は,これらの小型因果構造のモデル表現から因果知識を抽出する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:18:20 GMT)
LUNA: A Model-Based Universal Analysis Framework for Large Language Models [19.0] 自己保持機構, 極めて大規模なモデルスケール, 自己回帰生成スキーマは, 品質解析における新たな課題を提示する。
汎用かつ解釈可能なLLMの普遍的解析フレームワークを提案する。
特に、私たちはまず、望ましい信頼性の観点からのデータを活用して抽象モデルを構築します。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:40:02 GMT)
MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.9] 約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:50:23 GMT)
Estimating Difficulty Levels of Programming Problems with Pre-trained Model [18.9] プログラミング問題の難易度は、生徒の適応学習を導く上で不可欠な基準となっている。
テキスト記述とコードの解の例から,各プログラム問題の難易度自動推定の問題を定式化する。
この問題に対処するため,テキストモダリティとコードモダリティの2つの事前学習モデルを統一モデルに分割することを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:38:20 GMT)
Topological modes and spectral flows in inhomogeneous PT-symmetric continuous media [18.8] 界面の非ハーモニティ性にも拘わらず、位相モードとバルクトポロジーの関連性は依然として存在することを示す。
磁化プラズマ中のトポロジカルアルフベン音波と呼ばれる位相モードを同定する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:33:02 GMT)
A Flexible, Equivariant Framework for Subgraph GNNs via Graph Products and Graph Coarsening [18.7] グラフグラフニューラルネットワーク(サブグラフGNN)は,グラフをサブグラフの集合として表現することで,メッセージパスGNNの表現性を向上する。
以前のアプローチでは、ランダムにまたは学習可能なサンプリングによって選択されたサブグラフのサブセットのみを処理することを提案していた。
本稿では,これらの問題に対処する新しいSubgraph GNNフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:29:06 GMT)
Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.5] 重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:20:58 GMT)
QueryAgent: A Reliable and Efficient Reasoning Framework with Environmental Feedback-based Self-Correction [18.4] 環境フィードバックに基づく自己補正手法ERASERを提案する。
実験の結果、QueryAgentは以前の数ショットメソッドよりも特に優れていた。
このアプローチは、実行時、クエリオーバヘッド、API呼び出しコストなど、効率性の面で優れています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:18:43 GMT)
Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time [18.3] Speech ReaLLMは、リアルタイムストリーミングが可能なマルチモーダルLLMアーキテクチャを実現するために、RNN-Tと"デコーダのみ"のASRを結合した新しいASRアーキテクチャである。
これは、明示的なエンドポイントを使わずに継続的オーディオを扱うように設計された最初の"デコーダのみ"のASRアーキテクチャである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:20:29 GMT)
FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [18.3] FinTralは、Mistral-7bモデルに基づいて構築された、最先端のマルチモーダル言語モデル(LLM)のスイートである。
我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。
我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:24:50 GMT)
To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering [18.2] 本稿では,医学における質問応答のための第1世代読解フレームワークであるMedGENIEについて述べる。
MedQA-USMLE, MedMCQA, MMLUについて, 最大24GB VRAMを仮定して, 実用的視点を取り入れた広範囲な実験を行った。
以上の結果から, 得られたパスは検索したパスよりも効率が高く, 精度が高いことが判明した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:42:05 GMT)
CLLMs: Consistency Large Language Models [18.2] Jacobiデコーディングは、従来の自己回帰(AR)デコーディングと比較して、ほとんどスピードアップしない。
ヤコビ軌道上の任意の状態から固定点への高速収束を実現するための新しいアプローチを開発する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:41:28 GMT)
SIU: A Million-Scale Structural Small Molecule-Protein Interaction Dataset for Unbiased Bioactivity Prediction [18.0] 生理活性」は、小分子の治療または毒性の薬理学的結果を決定する。
小さな分子-タンパク質相互作用の既存の構造データセットは、しばしば大規模に制限され、体系的に組織化された生物活性ラベルが欠如している。
本研究では,100万以上の結合構造からなり,それぞれに実際の生物活性ラベルを付加した,小さな分子-タンパク質相互作用の包括的データセットを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:49:58 GMT)
NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents [17.9] NextLevelBERTはトークンではなく、テキスト埋め込みという形で高レベルの意味表現を操作するMasked Language Modelである。
次世代のマスケプド言語モデリングは、ドキュメントの長いユースケースに対処するための効果的な手法であり、セマンティック情報の詳細の必要なレベルが十分でない限り、はるかに大きな埋め込みモデルよりも優れていることが分かりました。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:21:03 GMT)
HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models [17.8] HoneyBeeは、マルチモーダルオンコロジーデータセットを構築するためのスケーラブルなモジュラーフレームワークである。
生の医療データに欠かせない特徴や関係を捉えた埋め込みを生成する。
HoneyBeeは、現在進行中のオープンソース活動であり、コード、データセット、モデルは、プロジェクトリポジトリで利用可能である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:22:04 GMT)
PTA: Enhancing Multimodal Sentiment Analysis through Pipelined Prediction and Translation-based Alignment [17.7] マルチモーダル・アスペクトベース感情分析(MABSA)は、意見のきめ細かい理解を目的としている。
伝統的に、MABSA法は側面と感情を同時に識別するために共同予測手法を用いている。
本稿では、まずその側面を予測し、次に翻訳に基づくアライメント(TBA)を用いて、画像利用を改善するためにマルチモーダルなセマンティック一貫性を向上させるパイプラインフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:26:56 GMT)
DenoiseReID: Denoising Model for Representation Learning of Person Re-Identification [17.6] DenoiseReIDという名前のベンチマークタスクとしてPerson Re-Identification(ReID)を採用し、共同特徴抽出とデノナイジングによる特徴識別を改善する。
FEAは、デノナイズされたレイヤのパラメータを既存の埋め込みレイヤにマージすることで、フィーチャデノナイズされた計算を不要にする。
様々なタスク(大規模画像分類、きめ細かな画像分類、画像検索)とバックボーン(変換器と畳み込み器)の実験結果から,本手法のスケーラビリティと安定性が示された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:05:36 GMT)
Revisiting RIP guarantees for sketching operators on mixture models [17.6] スケッチ演算子の制限等尺性に関する既存の証明を再検討する。
本稿では,重要サンプリングを前提とする新たな分析手法を提案する。
我々の分析は、高速なランダム線形作用素に付随する周波数による構造化スケッチの理論的保証への扉を開く。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:42:58 GMT)
A Label-Free and Non-Monotonic Metric for Evaluating Denoising in Event Cameras [17.6] イベントカメラは、スパースで非同期なイベントストリームを出力するため、その高い効率で有名である。
denoisingはイベントカメラにとって必須のタスクだが、denoisingパフォーマンスを評価することは難しい。
連続コントラスト曲線(AOCC)の面積であるラベルフリーで非単調な評価指標を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:12:48 GMT)
Efficient Discrepancy Testing for Learning with Distribution Shift [17.5] 局所的な一致距離をテストするための証明可能なアルゴリズムの最初のセットを提供する。
結果は、最近導入されたTestable Learning with Distribution Shiftモデルにおいて、新しい効率的な学習アルゴリズムの幅広いセットを示唆している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:51:10 GMT)
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.4] 1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:42 GMT)
On the Robustness of Global Feature Effect Explanations [17.3] ブラックボックス教師あり学習における予測的特徴の影響は、応用科学におけるモデルと科学的発見に不可欠な診断ツールである。
部分依存プロットのロバスト性の評価と局所効果の蓄積に関する理論的考察を紹介する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:54:53 GMT)
RTF: Region-based Table Filling Method for Relational Triple Extraction [17.3] 本稿では,知識グラフからトリプルを抽出する領域ベースのテーブルフィリング手法を提案する。
そこで我々は,各トリプルを関係特化テーブル上の領域とみなし,各領域の2つのエンドポイントを決定することで3つを識別する,新しい領域ベースのタグ付け手法と双方向デコーディング戦略を考案した。
提案手法は,2つの広く使用されているベンチマークデータセットの3変種に対して,より優れた一般化を実現することを示す実験結果を得た。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:26:15 GMT)
TikTag: Breaking ARM's Memory Tagging Extension with Speculative Execution [17.2] ARM Memory Tagging Extension (MTE)は、ARMv8.5-Aアーキテクチャで導入された新しいハードウェア機能で、メモリ破損の脆弱性を検出することを目的としている。
本稿では,MTEに対する投機的実行攻撃による潜在的なセキュリティリスクについて検討する。
我々はTikTagガジェットが4秒未満で95%以上の成功率でMTEタグをリークできることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:48:51 GMT)
On Value Iteration Convergence in Connected MDPs [17.1] 本稿では,一意の最適ポリシとエルゴディック関連遷移行列を持つMDPが,値反復アルゴリズムの様々なバージョンを収束させることを確かめる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:17:25 GMT)
A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder [16.7] リモートセンシング(RS)データは、重要な空間情報、時間情報、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。
RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。
本研究では,異なる種類の画像と地理情報から固有の補完情報を活用し,事前学習期間中にマスク付きパッチを再構築するアンカー・アウェア・マスク付きオートエンコーダ手法(A$2-MAE)を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:29:43 GMT)
VLind-Bench: Measuring Language Priors in Large Vision-Language Models [16.7] LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れた性能を示す。
それらは、画像情報を無視しながら、テキストパターンのみに基づいて応答が生成される、言語事前(Language prior)と呼ばれる問題に悩まされる。
我々は,LVLMの言語先行性を測定するために設計された最初のベンチマークであるVLind-Benchという新しいベンチマークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:00:20 GMT)
Enhancing Domain Adaptation through Prompt Gradient Alignment [16.6] ドメイン不変性と特定の特徴の両方を学ぶために,素早い学習に基づく一連の研究を提示する。
我々は、UDAを、各目的がドメイン損失で表される多重目的最適化問題とみなした。
提案手法は,異なるUDAベンチマークにおいて,他のプロンプトベースベースラインをはるかに上回っている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:40:15 GMT)
CLIPAway: Harmonizing Focused Embeddings for Removing Objects via Diffusion Models [16.6] CLIPAwayは、CLIP埋め込みを活用して、前景要素を除外しながらバックグラウンドリージョンに集中する新しいアプローチである。
背景を優先する埋め込みを識別することで、塗装精度と品質を向上させる。
特別なトレーニングデータセットや高価な手作業によるアノテーションに依存する他の方法とは異なり、CLIPAwayは柔軟なプラグイン・アンド・プレイソリューションを提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:50:28 GMT)
DIET: Customized Slimming for Incompatible Networks in Sequential Recommendation [16.4] 推奨システムは、頻繁なモバイル要求によるネットワークの混雑を軽減するために、エッジにモデルをデプロイし始める。
いくつかの研究はエッジ側とリアルタイムデータの近接を利用して、エッジ固有のモデルを作成するように微調整している。
これらの手法は、モデルを最新の状態に保つために、相当量の計算資源と頻繁なネットワーク転送を必要とする。
我々は、DIET(IncompatiblE neTworks)のためのカスタマイズされたslImmingフレームワークを提案し、DIETはすべてのデバイスに同じ一般的なバックボーン(潜在的に特定のエッジと互換性のない)をデプロイする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:39:16 GMT)
Data-driven modeling and supervisory control system optimization for plug-in hybrid electric vehicles [16.3] プラグインハイブリッド電気自動車(PHEV)のための学習型インテリジェントエネルギー管理システムは,効率的なエネルギー利用の実現に不可欠である。
彼らのアプリケーションは現実世界でシステム信頼性の課題に直面しており、元の機器メーカー(OEM)が広く受け入れられることを防ぐ。
本稿では,水平延長型強化学習(RL)に基づくエネルギー管理と等価消費最小化戦略(ECMS)を組み合わせた実車用アプリケーション指向制御フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:04:42 GMT)
Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.3] 高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。
ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。
本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:52:49 GMT)
MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning [16.3] 大規模言語モデル(LLM)の効率的な微調整は、計算量とメモリコストを削減してLLMに適応することを目的としている。
以前のLoRAベースのアプローチでは、元の重量行列を凍結させながら、ガウス分布とゼロ値を持つ低ランク行列を初期化していた。
基本特異成分を凍結したまま、重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:30:02 GMT)
Improving Autoregressive Training with Dynamic Oracles [16.0] DAgger の計量固有動的オラクルアルゴリズムを開発した。
DAggerがスパンベースF1のような分解可能なメトリクスを保証していないことを示す。
我々は、名前付きエンティティ認識、テキスト要約、機械翻訳におけるアルゴリズムの性能を評価する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:09 GMT)
VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [16.0] ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:59 GMT)
Armored Core of PKI: Removing Signing Keys for CA via Efficient and Trusted Physical Certification [15.9] 本稿では,PKIのセキュリティ拡張であるArmored Coreを提案する。
Armored Coreでは、固定鍵を使わずに物理的に信頼された「署名」を生成するために、PUFベースのCA用のX.509v3TLS証明書関数を設計する。
また、Armored CoreがLet's Encrypt Pebble CAやCertbotといった現実世界のPKIシステムに統合される、オープンソースの実装も提供しています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:17:08 GMT)
A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices [15.9] 構成学習は人間の認知、特に人間の言語理解と視覚知覚において重要である。
インテリジェンスにおいて重要な役割を担っているにもかかわらず、体系的な理論的、実験的研究方法論が欠如している。
本稿では,AIモデルの構成学習に関する文献と,認知研究との関わりについて考察する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:46:21 GMT)
Contrastive Pretraining for Visual Concept Explanations of Socioeconomic Outcomes [15.8] ポストホックの概念に基づく説明は、ポリシー作成においてこれらのモデルを広く採用するための重要なステップである。
本研究では,社会経済研究におけるタスク固有のコントラスト損失とポストホック概念の説明可能性を用いた表現学習の相互作用について検討した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:00:24 GMT)
Online Bandit Learning with Offline Preference Data [15.8] ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成した専門家の能力をモデル化することにより、そのようなデータセットを最も効果的に利用できることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:25:52 GMT)
Contribution Functions for Quantitative Bipolar Argumentation Graphs: A Principle-based Analysis [15.8] 定量的双極性議論グラフに対する寄与関数の原理に基づく解析について述べる。
導入された原理は、貢献関数の振る舞いに関する期待と同様に、様々な貢献関数の根底にある直観を定式化する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:07:30 GMT)
RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar [15.8] 3D占有に基づく知覚パイプラインは、かなり進歩した自律運転を持つ。
現在の方法では、LiDARやカメラの入力を3D占有率予測に頼っている。
本稿では,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:51:50 GMT)
An Analysis of the Variance of Diffusion-based Speech Enhancement [15.7] 分散のスケールが音声強調性能の主要なパラメータであることを示す。
より大きな分散はノイズ減衰を増大させ、計算フットプリントを低減できることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:20:59 GMT)
End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations [15.5] 構造化状態と象徴的ポリシーを共同学習するための,ニューロシンボリックな枠組みを提案する。
我々は、GPT-4に学習ポリシーと意思決定に関するテキスト説明を生成するパイプラインを設計する。
我々は,9つのアタリ課題に対するアプローチの有効性を検証するとともに,政策と意思決定に関するGPTによる説明を行う。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:04:08 GMT)
BTS: Building Timeseries Dataset: Empowering Large-Scale Building Analytics [15.5] 建築は人間の健康に重要な役割を担い、住民の快適さ、健康、安全、安全に影響を及ぼす。
世界のエネルギー消費に大きく貢献し、総エネルギー使用量の3分の1を占める。
しかし、分析を構築する研究は、複数のビルディング操作におけるアクセス可能で、利用可能な、そして包括的な現実世界のデータセットが欠如していることによって妨げられている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:38:38 GMT)
Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.5] 我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:55:22 GMT)
CoXQL: A Dataset for Parsing Explanation Requests in Conversational XAI Systems [15.4] 大規模言語モデル(LLM)に基づく会話説明型人工知能(ConvXAI)システムは,研究コミュニティから大きな関心を集めている。
我々は、ConvXAIでユーザ意図認識のための最初のデータセットであるCoXQLを紹介し、31のインテントをカバーし、そのうち7つは複数のスロットを埋める必要がある。
我々は,改良された解析手法 (MP+) が従来の手法よりも優れていると結論付けた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:16:47 GMT)
Q-Mamba: On First Exploration of Vision Mamba for Image Quality Assessment [15.3] 我々は、最近人気になった基礎モデルであるステートスペースモデル(State Space Model/Mamba)を、画像品質評価において初めて探求する。
本稿では,3つの重要なIQAタスクに対して,Q-Mambaモデルを再検討し適応させることにより,Q-Mambaを提案する。
提案するStylePromptは,より少ない計算コストで知覚伝達能力を向上させる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:21:01 GMT)
FLea: Addressing Data Scarcity and Label Skew in Federated Learning via Privacy-preserving Feature Augmentation [15.3] フェデレートラーニング(FL)は、ローカルデータを中央サーバに転送することなく、多数のエッジデバイスに分散したデータを活用することによって、モデル開発を可能にする。
既存のFLメソッドは、デバイス間の不足やラベルスキュードデータを扱う際に問題に直面し、結果としてローカルモデルが過度に適合し、ドリフトする。
我々はFLeaと呼ばれる先駆的なフレームワークを提案し、以下のキーコンポーネントを取り入れた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:28:08 GMT)
PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance [15.2] ピアノ演奏のための手の動きと指の動きをガイドするピアノハンド動作生成ベンチマークを構築した。
この目的のために,1000万個の手ポーズを持つ鳥眼ビューから116時間のピアノ演奏ビデオからなる注釈付きデータセットPianoMotion10Mを収集した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:05:23 GMT)
Quantum space-time Poincaré inequality for Lindblad dynamics [15.0] 非可換な$L2$-ノルムの収束に対して、明示的で建設的な指数的減衰推定を導出する。
我々の分析は、時空ポアンカーの不等式の量子アナログを確立することに依存している。
理論的結果の応用例として, 具体例をいくつか挙げる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:43:41 GMT)
Improving Consistency Models with Generator-Induced Coupling [14.9] 本研究では,入力ノイズデータを一貫性モデル自体から生成した出力に関連付ける新しい結合手法を提案する。
当社の安価なアプローチでは,一貫性モデル固有の能力を活用して,単一のステップでトランスポートマップを計算しています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:22:38 GMT)
Automated Essay Scoring Using Grammatical Variety and Errors with Multi-Task Learning and Item Response Theory [14.9] AESモデルの入力には,著者がエッセイで正しく用いた文法項目と文法誤差の2種類の文法特徴を用いる。
実験結果から,エッセイの総合的なスコアを予測するAESモデルの性能は,文法的特徴により向上することが示された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:19:51 GMT)
Score Distillation via Reparametrized DDIM [14.8] スコア蒸留サンプリングで用いられる画像誘導は, 2次元デノベーション生成過程の速度場として理解できることを示す。
本研究では,SDS更新ステップ毎にDDIMを反転させることにより,より優れたノイズ近似を復元可能であることを示す。
本手法は、他の最先端のスコア蒸留法と比較して、より良く、あるいは類似した3D生成品質を実現する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:56:53 GMT)
EquiPrompt: Debiasing Diffusion Models via Iterative Bootstrapping in Chain of Thoughts [14.6] EquiPromptは、テキストから画像への生成モデルにおけるバイアスを減らすために、Chain of Thought (CoT)推論を用いた新しい手法である。
反復的なブートストラップとバイアス対応の選択を統合し、創造性と倫理的責任のバランスを取る。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:55:10 GMT)
Interoperability of the Metaverse: A Digital Ecosystem Perspective Review [14.6] その重要な役割について意見が一致しているにもかかわらず、メタバースへの影響を探るには研究のギャップがある。
本研究は,Web of Science と Scopus データベースの文献とコンテンツ分析の体系的レビューを通じて,このギャップを埋めるものである。
本研究は,メタバース相互運用研究の複雑な分野をナビゲートし,今後の調査のためのベンチマークを確立することを目的とする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:43:41 GMT)
LLAVIDAL: Benchmarking Large Language Vision Models for Daily Activities of Living [14.5] LLAVIDALは,ADL内の複雑な関係を理解するために,関連する3次元ポーズと関連するオブジェクト軌跡を組み込むLLVMである。
ADL-Xでトレーニングすると、LLAVIDALはすべてのADL評価指標に対して一貫して最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:05 GMT)
Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling [14.3] ShaSpecは、トレーニングと評価で利用可能なすべての入力モダリティを活用するように設計されている。
医用画像分割とコンピュータビジョン分類の両方について実験を行った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:57:58 GMT)
ELF-UA: Efficient Label-Free User Adaptation in Gaze Estimation [14.3] 我々のゴールは、ターゲットユーザーに特異的に適応したパーソナライズされた視線推定モデルを提供することです。
以前の作業では、テスト時にモデルを微調整するために、対象人物データのラベル付きイメージが必要になる。
提案手法はメタラーニング手法を用いて,少数の未ラベル画像で新しいユーザへの適応方法を学習する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:00:33 GMT)
AdaRevD: Adaptive Patch Exiting Reversible Decoder Pushes the Limit of Image Deblurring [14.1] 本稿では,Adaptive Patch Exiting Reversible Decoder (AdaRevD)を提案する。
我々の可逆構造は、徐々に高レベルの劣化度と低レベルのぼかしパターンを分解する。
実験によると、AdaRevDはGoProデータセット上のPSNRで34.60dBを達成したため、画像の劣化の限界を押し上げている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:06:12 GMT)
No perspective, no perception!! Perspective-aware Healthcare Answer Summarization [14.1] 医療コミュニティ質問回答(CQA)フォーラムは、様々な医療関連トピックに関する情報を求める個人に対して、アクセス可能なプラットフォームを提供する。
これらのフォーラムに対する回答は、典型的には多様であり、話題外の議論をしがちである。
読者が多くの回答を出し、意味のある洞察を抽出することは困難である。
本稿では,視点特異的回答要約の新しい課題を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:35:37 GMT)
Learning Macroeconomic Policies based on Microfoundations: A Dynamic Stackelberg Mean Field Game Approach [13.9] 本稿では,このような政策決定をモデル化するためのDynamic Stackelberg Mean Field Games (Dynamic SMFG) という新しいフレームワークを提案する。
動的SMFGは、大規模世帯間の動的相互作用とマクロ経済政策の変化に対する反応を捉えている。
実験では,実世界のマクロ経済政策,既存のAIに基づく,経済的な手法を超越した手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:55:16 GMT)
Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation [13.7] NAIST英語と日本語の単調翻訳評価データセットを用いて単調翻訳の特徴を解析した。
英語と日本語のSIでは単調翻訳が難しい文法構造がいくつか見出された。
その結果、既存のSIベースのテストセットはモデルの性能を過小評価していることがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:10:16 GMT)
Is Diffusion Model Safe? Severe Data Leakage via Gradient-Guided Diffusion Model [13.7] グラディエントリークは、現代の画像処理システムにおけるプライバシー侵害の潜在的な原因として特定されている。
本稿では,高解像度画像を盗むことができる新しい再構成攻撃法を提案する。
本手法は,画像再構成の画素単位の精度と時間効率の両方でSOTA攻撃ベースラインを著しく上回っている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:41:47 GMT)
Learning Metrics that Maximise Power for Accelerated A/B-Tests [13.5] ノーススター測度は通常遅延し、感度が低い。
実験は長い時間実行する必要があるが、それでも型IIエラーは多い。
短期的な信号からメトリクスを学習することで、この問題に対処することを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:02:23 GMT)
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs [13.3] 大規模言語モデル(LLM)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示している。
それらはジェイルブレイク攻撃の影響を受けやすく、有害な出力を生成するために操作することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:01:40 GMT)
ElicitationGPT: Text Elicitation Mechanisms via Language Models [12.9] 本稿では,大規模言語モデルに対するドメイン知識のないクエリを用いて,提案したテキストを真理テキストに対してスコアリングする機構について述べる。
ピアグレーディングデータセットからのピアレビューと、ピアレビューのマニュアルインストラクタースコアとの比較により、経験的評価を行う。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:49:10 GMT)
ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal Images [12.9] 熱画像に基づくエゴセントリックな3Dハンドポーズ推定のための新しいベンチマークであるThermoHandsを提案する。
このベンチマークには、28の被験者から収集されたマルチビューとマルチスペクトルのデータセットが含まれており、手動オブジェクトと手動仮想インタラクションを実行している。
本稿では,2つのトランスフォーマーモジュールを有効エゴセントリックな3Dハンドポーズ推定に利用した新しいベースライン手法であるTherFormerを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:51:26 GMT)
Enhancing Cross-Modal Fine-Tuning with Gradually Intermediate Modality Generation [12.9] 本稿では,クロスモーダルファインチューニングを強化するために,エンドツーエンドのPaReを提案する。
PaReは、大規模な事前訓練されたモデルを、様々なターゲットモダリティに転送することを目的としている。
ハンドデザイン、汎用、タスク特化、最先端のクロスモーダル微調整アプローチと比較すると、PaReは優れたパフォーマンスを示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:12:46 GMT)
SecureLLM: Using Compositionality to Build Provably Secure Language Models for Private, Sensitive, and Secret Data [12.9] 従来のセキュリティメカニズムは、アクセスすべきでないユーザからリソースを分離する。
我々は、このようなセキュリティ機構の構成特性をLLMの構造に反映し、確実にセキュアなLLMを構築する。
SecureLLMは、アクセスセキュリティと微調整メソッドをブレンドする。
我々は、難易度の高い新しい自然言語翻訳タスクと、今日安全な環境にモデルをデプロイできるLLMセキュリティに関する新しい視点の両方に貢献する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:54:51 GMT)
e-COP : Episodic Constrained Optimization of Policies [12.9] 本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:12:09 GMT)
When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search [12.8] 深部強化学習(DRL)によるブラックボックスジェイルブレイク攻撃であるRLbreakerを提案する。
RLbreakerは6つのSOTA(State-of-the-art (SOTA) LLM)に対する既存のジェイルブレイク攻撃よりも効果的であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:04:15 GMT)
Beyond Recommendations: From Backward to Forward AI Support of Pilots' Decision-Making Process [12.7] 航空における転向の文脈において、リコメンデーション中心のサポートを代替パラダイムである継続的サポートと比較する。
継続的サポートは、パイロットの意思決定を前方に支援し、システムの限界を超えて考えることができることがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:44:04 GMT)
Towards Generalising Neural Topical Representations [12.6] トピックモデルは、従来のベイズ確率モデルから最近のニューラルトピックモデル(NTM)へと進化してきた。
NTMは特定のコーパスでトレーニングおよびテストを行う際に有望な性能を示すが、コーパス間の一般化能力はまだ研究されていない。
本研究では,文書の表現能力がコーパスやタスク全体にわたって確実に一般化されるように,NTMを改善することを目的とする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:14:30 GMT)
LLM Reading Tea Leaves: Automatically Evaluating Topic Models with Large Language Models [12.5] トピックモデリングのための新しい評価手法であるWALM(Words Agreement with Language Model)を提案する。
異なる種類のトピックモデルを含む広範な実験により、WALMは人間の判断に合致することを示した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:19:50 GMT)
ReadCtrl: Personalizing text generation with readability-controlled instruction learning [12.5] Readability-Controlled Instruction Learning (ReadCtrl) は,大規模言語モデル (LLM) を指導し,ユーザの可読性レベルを調整することを目的としている。
その結果,ReadCtrl-Mistral-7BモデルはGPT-4やClaude-3といった強力なベースラインモデルよりも優れていた。
これらの結果は、高品質で文脈的に適切な出力を生成する上でのRead-Ctrlの有効性と忍耐性を裏付けるものである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:03:46 GMT)
Multiple Prior Representation Learning for Self-Supervised Monocular Depth Estimation via Hybrid Transformer [12.5] 自己教師付き単眼深度推定はラベル付きデータに頼ることなく深度情報を推定することを目的としている。
ラベル付き情報の欠如はモデルの表現に重大な課題をもたらし、シーンの複雑な詳細を正確に捉える能力を制限する。
空間的, 文脈的, 意味的次元にまたがる表現能力に, 複数の先行情報を活用する新しい自己教師付き単眼深度推定モデルを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:51:57 GMT)
CodedEvents: Optimal Point-Spread-Function Engineering for 3D-Tracking with Event Cameras [12.3] ポイント・スプレッド・ファンクション(PSF)技術は、よく確立された計算イメージング技術である。
我々は既存のフィッシャー位相マスクが静的な点源の局所化に既に最適であることを示す。
次に、既存の設計が点源の追跡に最適であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:46 GMT)
A Generative Model for Digital Camera Noise Synthesis [12.2] クリーンな特徴をガイダンスとして利用し,続いてネットワークにノイズ注入を行う効果的な生成モデルを提案する。
具体的には、ジェネレータはスキップ接続を持つUNetのような構造を踏襲するが、ダウンサンプリングやアップサンプリングは行わない。
提案手法は,カメラノイズを合成するための既存手法よりも優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:43:49 GMT)
Leveraging Explicit Reasoning for Inference Integration in Commonsense-Augmented Dialogue Models [12.1] オープンドメイン対話システムは、人間のユーザに対して効果的に理解し、応答するために、社会的常識を理解する必要がある。
既存のコモンセンス拡張ダイアログへのアプローチは、応答生成中にコモンセンス推論を統合する暗黙の推論に依存している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:07:52 GMT)
Diverse and Effective Synthetic Data Generation for Adaptable Zero-Shot Dialogue State Tracking [12.1] 合成データ生成によるトレーニングデータの多様性の向上により,ゼロショット対話状態追跡(DST)の性能向上を示す。
既存のDSTデータセットは、データ収集のコストが高いため、それらがカバーするアプリケーションドメイン数やスロットタイプに大きく制限されている。
この研究は、合成ゼロショットDSTデータセットを生成する新しい完全自動データ生成アプローチで、この課題に対処する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:32:00 GMT)
Separation Power of Equivariant Neural Networks [11.9] そこで我々は,同変ニューラルネットのポイントワイドアクティベーションを用いた分離パワーを理論的に検討する枠組みを提案する。
ReLU や sigmoid のような全ての非ポリノミカルな活性化は、表現性の観点から等価であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:52:44 GMT)
Gaussian Plane-Wave Neural Operator for Electron Density Estimation [11.9] 無限次元関数空間で動作するガウス平面波ニューラル演算子(GPWNO)を紹介する。
特に、密度の高周波数成分と低周波数成分は、2つの基底の相補的な性質により効果的に表すことができる。
QM9、MD、およびマテリアルプロジェクトデータセットに関する実験は、GPWNOの10つのベースラインよりも優れた性能を示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:54:52 GMT)
Orthogonality and isotropy of speaker and phonetic information in self-supervised speech representations [11.6] 表現空間の幾何学に関連する2つの候補特性は、下流のタスクとよく相関していると仮定されている。
両特性の評価に使用できる新しい尺度であるCRV(Cumulative Residual Variance)を導入する。
両測度は音韻探索精度と相関するが, 等方性に関する結果はより微妙である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:57:18 GMT)
Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits [11.4] 我々のポリシーは、$O(1/sqrtN)$Optimity gap for a $N$-armed problemで最適であることを示す。
当社のアプローチは、インデックスや優先順位ポリシーに重点を置く既存の作業から逸脱しています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:43:45 GMT)
Spin-lattice relaxation with non-linear couplings: Comparison between Fermi's golden rule and extended dissipaton equation of motion [11.4] フェルミの黄金律(FGR)は磁気分子におけるスピン格子緩和の力学を理解するための経験的な枠組みを提供する。
本稿では,スピン格子緩和速度カーネルを数値的に評価する。
FGRはスピン格子緩和の非マルコフ的性質を無視するので、FGRによって予測される温度依存性は正確な結果から著しく逸脱する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:02:46 GMT)
An Unsupervised Approach to Achieve Supervised-Level Explainability in Healthcare Records [11.4] 最先端の説明可能性の手法はモデルの透明性を高めるが、人間による注釈付きエビデンスに頼っている。
本稿では,このようなアノテーションを必要とせず,妥当かつ忠実な説明を提示する手法を提案する。
本稿では、対人訓練が説明の妥当性を向上させる自動化医療コーディングタスクについて紹介し、従来よりも優れた新しい説明方法であるAttInGradを紹介した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:36:27 GMT)
Towards Domain Adaptive Neural Contextual Bandits [11.3] 文脈的包帯に対する第1次一般領域適応法を提案する。
提案手法は,ソースドメインからのフィードバックを収集することで,対象ドメインの帯域幅モデルを学習する。
実験結果から,本手法は実世界のデータセット上での最先端の文脈的帯域幅アルゴリズムよりも優れていることが示された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:12:46 GMT)
Evolve Cost-aware Acquisition Functions Using Large Language Models [11.2] 本稿では,大規模言語モデル (LLM) と進化計算 (EC) を統合する新しいフレームワークであるEvolCAFを紹介する。
設計されたコストアウェアAFは、過去のデータ、サロゲートモデル、予算の詳細から利用可能な情報の利用を最大化する。
EIpu と EI-cool の手法は, 人的専門家が設計した手法と比較して, 様々なタスクにまたがる顕著な効率性と一般化を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:53:40 GMT)
SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video [11.2] SViTT-Egoは,エッジとノードのスペーシングを統合した,最初のスパースなエゴセントリックなビデオテキストトランスフォーマーモデルである。
SViTT-Ego は LAVILA に比べて EgoMCQ の精度が 2.8% 向上している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:57:38 GMT)
Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes [11.1] バイオメディカル文献から抽出した公開症例報告を用いて, 大規模臨床記録を合成する。
次に、これらの合成ノートを使用して、専門的な臨床大言語モデルであるAsclepiusを訓練します。
我々は、GPT-3.5-turboや他のオープンソースの代替品を含む、いくつかの大きな言語モデルに対してAsclepiusをベンチマークした。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:04:33 GMT)
End-to-end Streaming model for Low-Latency Speech Anonymization [11.1] 本稿では低レイテンシで話者匿名化を実現するストリーミングモデルを提案する。
システムは軽量コンテンツエンコーダを用いてエンドツーエンドのオートエンコーダ方式で訓練される。
本稿では,2つのシステムの実装による評価結果について述べる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:15:53 GMT)
A Review of 315 Benchmark and Test Functions for Machine Learning Optimization Algorithms and Metaheuristics with Mathematical and Visual Descriptions [10.9] 急速に進化する最適化とメタヒューリスティックス領域では、アルゴリズムの有効性はベンチマーク(テスト)関数によって決定される。
本稿では,最適化アルゴリズムとメタヒューリスティックスアルゴリズムの評価に使用される300以上のベンチマーク関数について概説する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:39:59 GMT)
Mirror and Preconditioned Gradient Descent in Wasserstein Space [10.9] 我々は、ミラー降下とプレコンディショニング勾配という2つの明示的なアルゴリズムを持ち上げることに重点を置いている。
目的関数と正則化器の新しいペアリングに対して、ワッサーシュタイン勾配に基づく離散時間スキームの収束を保証する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:07:22 GMT)
Prediction Risk and Estimation Risk of the Ridgeless Least Squares Estimator under General Assumptions on Regression Errors [10.9] より一般的な回帰誤差仮定の下で予測リスクと推定リスクについて検討する。
その結果,パラメータ化の利点は時系列,パネル,グループ化データにまで拡張できることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 01:16:15 GMT)
An effective software risk prediction management analysis of data using machine learning and data mining method [10.6] ソフトウェアプロジェクトのリスクの適切な優先順位付けは、ソフトウェアプロジェクトのパフォーマンス機能と最終的な成功を確認する上で重要な要素である。
本稿では,最新の最先端WF攻撃モデルの相互依存性をキャプチャする逐次拡張パラメータ最適化手法を提案する。
NASA 93のデータセットと93のソフトウェアプロジェクトによる実験的な検証が行われた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:11:01 GMT)
Hybrid Spatial-spectral Neural Network for Hyperspectral Image Denoising [10.6] 本稿では,CNNとTransformer特性にインスパイアされたハイブリッド空間スペクトル復調ネットワークを提案する。
提案手法は空間的およびスペクトル的再構成における最先端の手法より優れている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:27:01 GMT)
Direct generation of multi-photon hyperentanglement [10.5] 本稿では,3光子および4光子ハイパーエンタングルメントの直接生成プロトコルについて述べる。
我々は、自発的なダウンコンバージョン源の簡単なカスケードを通して、任意の数の光子へのアプローチを拡張する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:48:23 GMT)
Where Do Large Language Models Fail When Generating Code? [10.5] 大規模言語モデル(LLM)はコード生成に大きな可能性を示しています。
LLMがどのようなコード生成エラーを発生させるのかは不明だ。
我々は、HumanEvalデータセット上で6つの人気のあるLCMが生成した誤りコードスニペットを分析した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 01:29:52 GMT)
Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery [10.5] RS画像から複数ソースの船体検出を行うために,Popyeと呼ばれる統一視覚言語モデルを提案する。
船舶検出のためのマルチソース画像間の解釈ギャップを埋めるために、新しい統一ラベル付けパラダイムを設計する。
提案されたPopyeは、ゼロショットマルチソース船検出のための現在のスペシャリスト、オープンボキャブラリ、その他のビジュアル言語モデルよりも優れています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:46:14 GMT)
Anticipating User Needs: Insights from Design Fiction on Conversational Agents for Computational Thinking [10.4] 本研究では,演習を通じて学生を段階的に指導する対話エージェントを構想し,その指導方法を教育的背景,スキルと欠陥,学習嗜好を意識して調整する。
本稿では,計算思考とコンピュータプログラミングの教育を指向した学習エージェントの今後の実装について考察する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:51:08 GMT)
Integrated Modeling, Verification, and Code Generation for Unmanned Aerial Systems [10.3] 無人航空システム(UAS)は、産業生産、軍事作戦、災害救助などの安全上重要な分野で広く利用されている。
本稿では,UASのモデリング,検証,コード生成に対する統合的なアプローチを検討することを目的とする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:53:40 GMT)
HypR: A comprehensive study for ASR hypothesis revising with a reference corpus [10.2] 本研究は,ASR仮説修正データセット(HypR)の提供に焦点を当てた。
HypRはいくつかの一般的なコーパスを含み、各発話に対して50の認識仮説を提供する。
さらに,音声認識結果の改訂における最近の研究の進展を示すために,いくつかの古典的,代表的手法の実装と比較を行った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:32:08 GMT)
Validity of the Lieb-Schultz-Mattis Theorem in Long-Range Interacting Systems [10.0] リーブ・シュルツ・マティスの定理(LSM)に対する長距離相互作用の影響は未解決の問題である。
長距離相互作用は、リドベルク原子、双極子量子ガス、極性分子、光学キャビティ、閉じ込められたイオンなどの実験プラットフォームでよく見られる。
一次元の LSM 定理を長距離相互作用系に拡張し、LSM 定理が崩壊指数 $alpha > 2$ と指数関数的あるいはパワーローな二体相互作用に対して成り立つことを発見した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:18:34 GMT)
CUDRT: Benchmarking the Detection of Human vs. Large Language Models Generated Texts [10.0] 本稿では,主要なAI生成テキスト検出器を評価するために,中国語と英語の総合的なベンチマークを構築した。
テキスト生成は、Create、Update、Delete、Rewrite、Translateの5つの異なる操作に分類します。
各CUDRTカテゴリに対して,検出性能を徹底的に評価するための広範囲なデータセットを開発した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:43:40 GMT)
Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't [9.9] 本稿では,言語的要因が自動音声認識(ASR)モデルの性能に与える影響について検討する。
15の書き起こしシステムを持つ25言語で、多言語で教師付き事前訓練されたWav2Vec2-XLSR-53を微調整する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:59:45 GMT)
Schur's Positive-Definite Network: Deep Learning in the SPD cone with structure [9.8] 対称正定値錐(SPD)における行列の推定は、コンピュータビジョンからグラフ学習まで、多くの応用において興味深い。
本研究では,SPD出力を保証した新しい汎用学習モジュールSpadNetを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:56:20 GMT)
3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection [9.8] 本稿では,多教師によるゲームイベント検出フレームワークを新たに導入し,総合的なフレームワークの構築を究極の目標とする。
この実験により,提案フレームワークの有効性が明らかとなった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:58:53 GMT)
A Comprehensive Graph Pooling Benchmark: Effectiveness, Robustness and Generalizability [9.8] 最近のグラフプーリングアプローチの急増にもかかわらず、そのパフォーマンスを評価するための標準化された実験的設定と公正なベンチマークが欠如している。
我々は15のグラフプーリング手法と21のグラフデータセットを含む包括的なベンチマークを構築した。
このベンチマークは3次元のグラフプーリング法の性能を体系的に評価する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:04:40 GMT)
Fair Data Generation via Score-based Diffusion Model [9.7] 拡散モデルに基づくフレームワーク FADM: Fairness-Aware Diffusion with Meta-training を提案する。
下流のタスクで使用するバイアス付きデータセットから、完全に新しい、公正な合成データを生成する。
実データセットの実験により、FADMは下流タスクの精度と最適な公正性を達成することが示された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:36:05 GMT)
ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models [9.7] ProxyLMは、多言語タスクでプロキシモデルを使用してLMパフォーマンスを予測するフレームワークである。
プロキシモデルを活用することにより、ProxyLMはタスク評価の計算オーバーヘッドを大幅に削減する。
本手法は、事前学習されたLMにおける未確認言語への適応性を示し、最先端の性能を1.89倍に向上させる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:15:33 GMT)
Are we there yet? A brief survey of Music Emotion Prediction Datasets, Models and Outstanding Challenges [9.6] 利用可能な音楽感情データセットの概要を概観し,評価基準とフィールドでの競争について論じる。
音楽の感情を正確に捉え続ける上での課題を強調します。
このリポジトリには、音楽感情データセットと最近の予測モデルの全リストが含まれている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:00:27 GMT)
Learning with little mixing [9.6] マーチンゲール差雑音を考慮した実測可能な時系列フレームワークにおける正方損失について検討する。
この結果から, トラジェクトリ過収縮条件が成立するたびに, 従属データに対する最小二乗推定器のリスクが, バーンイン時間後におけるイドレートの順に一致していることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:34:45 GMT)
An Approach to Build Zero-Shot Slot-Filling System for Industry-Grade Conversational Assistants [9.5] 1) レイテンシの低い要件を満たし、利便性とコスト効率のよいクラウドおよび顧客の前提デプロイメントを実現するために、小さなモデルを使用する。
我々は,事前学習したLCMをタスク固有データを用いてスロット充足モデルに微調整する,微調整アプローチを採用する。
その結果, スロット充填モデル構築に対する我々の所定のアプローチは, F1の基準値よりも6.9%向上し, 同時に遅延を57%低減できた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:24:52 GMT)
PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation [9.4] ローランク適応(ローランク適応、LoRA)は、微調整のために凍結した事前学習重量に少数の学習可能なパラメータを付加する顕著な手法である。
本稿では,モデル圧縮と微調整を同時に行うProgressive Compression LoRA(PC-LoRA)を紹介する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:44:31 GMT)
Step-by-Step Diffusion: An Elementary Tutorial [9.4] このコースは、拡散経験のないテクニカルオーディエンスを対象としている。
我々は、正しいアルゴリズムを導き出すのに十分な精度を維持しながら、数学的詳細をできるだけ単純化しようと試みている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:58:45 GMT)
CARLOR @ Ego4D Step Grounding Challenge: Bayesian temporal-order priors for test time refinement [9.3] ステップグラウンディングタスクの目的は、自然言語の記述に基づく活動の時間的境界を見つけることである。
この技術的レポートでは、ベイジアンVSLNetを導入し、長い、トリミングされていないエゴセントリックなビデオでそのような時間セグメントを特定するという課題に対処する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:31:28 GMT)
EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.0] 大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:15:33 GMT)
Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior [8.8] 本稿では,事前学習した拡散モデルの強力な生成能力を生かした,新しい2段階の極端画像圧縮フレームワークを提案する。
本手法は, 視覚的性能を極端に低め, 最先端の手法よりも優れていた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:41:27 GMT)
Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection [8.7] 大規模言語モデル(LLM)は人間のような会話を約束しているが、主にテキストデータに基づいて事前訓練されている。
本稿では,事前学習した単調なLDMを効率よく適用し,これまで目に見えなかった新しいモダリティを消費するFLORA手法を提案する。
デバイス指向音声検出では、FLoRAを用いることで、テキストのみのアプローチに比べて、マルチモーダルLLMは22%の誤差率(EER)の相対的な低減を実現している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:52:07 GMT)
Bengining overfitting in Fixed Dimension via Physics-Informed Learning with Smooth Iductive Bias [8.7] 補間された機械学習は、物理インフォームドラーニングを使用する際に、良心的な過剰適合と一貫性を示すことができる。
解析は、線形逆問題に対処するカーネルリッジ(レス)回帰のためのソボレフノルム学習曲線を提供する。
その結果、PDE作用素は分散を安定化し、固定次元問題に対して良性オーバーフィッティングをもたらすことが判明した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:54:30 GMT)
Latent Assistance Networks: Rediscovering Hyperbolic Tangents in RL [8.6] 活性化関数は、ニューラルネットワークの重要な構成要素の1つである。
本稿では,活性化機能が神経細胞の発生と有効ランクの大きさにどのように影響するかを考察する。
アタリ領域では、学習の高速化、死んだ神経細胞の減少、効果的なランクの向上が示される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:03:37 GMT)
KNVQA: A Benchmark for evaluation knowledge-based VQA [8.6] 大きな視覚言語モデル(LVLM)は、視覚システムや言語システムにおいて、その強い知覚と推論能力のために大きな進歩を遂げている。
LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。
マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:12:48 GMT)
Interpretable Decision Tree Search as a Markov Decision Process [8.5] 教師付き学習タスクに最適な決定木を見つけることは、大規模に解決する上で難しい問題である。
近年、マルコフ決定問題 (MDP) としてこの問題の枠組みを定め、深層強化学習を用いてスケーリングに取り組むことが提案されている。
そこで我々は,全ての状態に対して生成する情報理論テスト生成関数を用いて,MDPの分解能を拡大する手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:33:26 GMT)
Language Models Resist Alignment [8.5] 大きな言語モデル(LLM)は望ましくない振る舞いを示す。
近年の取り組みは、有害な発生を防ぐためにこれらのモデルを調整することに重点を置いている。
その結果,微調整プロセスは事前訓練に比べてアライメントを損なうことがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:46:14 GMT)
You Don't Need Data-Augmentation in Self-Supervised Learning [8.4] JEA(Joint-Embedding Architectures)とSSL(Self-Supervised Learning)は、優れたパフォーマンスを実現している。
生成的再構成モデルではマスキング以外のデータ拡張を使わずに高い性能を示した。
トレーニングデータの大きさが十分大きい場合, 画像の強い表現はJEAで得られ, 刈り取りだけはサイズを変えずに得られることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:30:03 GMT)
Fredformer: Frequency Debiased Transformer for Time Series Forecasting [8.4] Transformerモデルは時系列予測において主要なパフォーマンスを示している。
データの中で低周波の特徴を学習し、高周波の特徴を見落とし、周波数バイアスを示す傾向がある。
そこで我々はFredformerを提案する。Fredformerは、異なる周波数帯域にまたがる特徴を均等に学習することで、周波数バイアスを軽減するために設計されたフレームワークである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:29:21 GMT)
Oblivious subspace embeddings for compressed Tucker decompositions [8.3] この研究は、タッカー分解の推定に対する一般的なジョンソン・リンデンシュトラウス型保証を確立する。
適度に大きな顔画像とfMRIのニューロイメージングデータセットでは、実験結果から、かなりの次元の縮小が可能であることが示されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:58:32 GMT)
ALPHAGMUT: A Rationale-Guided Alpha Shape Graph Neural Network to Evaluate Mutation Effects [8.3] 本研究では,変異効果を評価するための有理グラフニューラルネットワークAlphaGMutを提案する。
グラフのノード属性として割り当てられる変異部位の構造的, 位相的, 生物物理学的, シーケンス的特性を計算する。
我々は、AlphaGMutがDeepMindのAlphaMissenseを含む最先端の手法よりも多くのパフォーマンス指標で優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:22:12 GMT)
Operator-informed score matching for Markov diffusion models [8.2] 本稿では、マルコフ拡散モデルが他の種類の拡散モデルよりも有利であり、関連する演算子をトレーニングプロセスを改善するために利用することができることを論じる。
低次元と高次元の拡散モデルの両方で容易に実装可能な分散低減手法である演算子インフォームドスコアマッチングを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:07:52 GMT)
Ranking Manipulation for Conversational Search Engines [8.0] 本稿では,対話型検索エンジンが参照するソースのランク付け順序に対するインジェクションのインジェクションの影響について検討する。
低品位製品を確実に促進する攻撃木を用いた脱獄技術を提案する。
これらの攻撃は、Perplexity.aiのような最先端の会話検索エンジンに効果的に転送される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 01:12:56 GMT)
Data-dependent and Oracle Bounds on Forgetting in Continual Learning [7.9] 継続的な学習では、知識はタスク間で保存され、再利用されなければならない。
モデルとアルゴリズムの選択に関係なく適用可能な,データ依存およびオラクル上界の両方を提供する。
我々は境界にインスパイアされたアルゴリズムを導出し、我々のアプローチが前方および後方移動を改善することを実証的に実証した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:50:51 GMT)
Parameter-Efficient Active Learning for Foundational models [7.8] 基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:30:32 GMT)
SR-CACO-2: A Dataset for Confocal Fluorescence Microscopy Image Super-Resolution [7.8] SR-CACO-2と呼ばれる大規模な走査共焦点顕微鏡データセットを導入する。
3つの異なる蛍光マーカーにマークされた低解像度画像対と高解像度画像対で構成されている。
これにより、SISR法の性能を3つの異なるアップスケーリングレベルで評価することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:30:35 GMT)
Failures Are Fated, But Can Be Faded: Characterizing and Mitigating Unwanted Behaviors in Large-Scale Vision and Language Models [7.7] 多くのタスクで驚くほどうまく機能しているように見える大きなディープニューラルネットワークでは、精度、社会的バイアス、人間の価値観との整合性に関連するいくつかの障害も観察します。
本研究では,事前学習した識別モデルと生成モデルを用いて,エンフディープ強化学習を用いて,障害モードの景観を探索・構築するポストホック手法を提案する。
提案手法の有効性を,コンピュータビジョン,自然言語処理,視覚言語タスクで実証的に示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:58:32 GMT)
Hyper-parameter Tuning for Adversarially Robust Models [7.7] 我々は,3つの一般的な深層モデルに基づく実験を行い,9つのHP,2つの忠実度次元,2つの攻撃境界を網羅的に探索した。
我々は、この新しいアイデアを最近の多面体(taKG)と組み合わせることで、HPTプロセスの効率を最大2.1倍に向上させることができることを示した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:17:55 GMT)
How Powerful is Graph Filtering for Recommendation [7.5] グラフフィルタリングのパワーを抑制する2つの制限を示す。
様々なノイズ分布のため、グラフフィルタは全ての周波数にノイズが散らばっているスパースデータを劣化させることができない。
教師付きトレーニングは、トレーニングなしでグラフフィルタによって除去できる中周波数にノイズが集中している高密度データに対して、より悪いパフォーマンスをもたらす。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:37:54 GMT)
Meta-Learning an Evolvable Developmental Encoding [7.5] 生成モデルはブラックボックス最適化のための学習可能な表現であることを示す。
本稿では,表現の質の多様性を生成する能力を最適化することで,そのような表現をメタ学習できるシステムを提案する。
より詳しくは、我々のメタラーニングアプローチが、開発中に細胞が「DNA」文字列ゲノムの異なる部分に参加することができる1つのニューラルセルオートマタを見つけることができることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:52:06 GMT)
Interpretable Temporal Class Activation Representation for Audio Spoofing Detection [7.5] 我々は、wav2vec 2.0モデルと注意的発話レベルの特徴を利用して、解釈可能性を直接モデルのアーキテクチャに統合する。
ASVspoof 2019-LAセットのEERは0.51%、min t-DCFは0.0165である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:36:01 GMT)
Continuous-Time Distributed Dynamic Programming for Networked Multi-Agent Markov Decision Processes [7.5] 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する連続時間分散動的プログラミング(DP)アルゴリズムについて検討する。
本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:39:59 GMT)
Introducing HOT3D: An Egocentric Dataset for 3D Hand and Object Tracking [7.4] 我々は,自我中心手と物体追跡のためのデータセットであるHOT3Dを3Dで導入する。
データセットはマルチビューのRGB/モノクロ画像ストリームを833分以上提供し、19人の被験者が33の多様な剛体オブジェクトと対話していることを示している。
単純なピックアップ/オブザーバ/プットダウンアクションに加えて、HOT3Dはキッチン、オフィス、リビングルーム環境における典型的なアクションに似たシナリオを含んでいる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:38:17 GMT)
Single-photon scattering and bound states in a one-dimensional waveguide with topological giant atom [7.3] 共振器導波路(CRW)とトポロジカル・ジャイアント・アトム(TGA)を結合する結合型共振器導波路(CRW)の単一光子散乱と束縛状態について検討した。
TGAの位相位相を変調することにより、CRW内の入射光子を完全に反射または伝達することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:15:45 GMT)
Interaction and entanglement engineering in driven giant atoms setup with coupled resonator waveguide [7.1] 2種類の巨大原子間の結合共振器導波路によるコヒーレント相互作用について検討した。
巨大原子の配置を調整することにより,有効結合と集合散逸を需要に応じて制御できることが判明した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:55:13 GMT)
Classic GNNs are Strong Baselines: Reassessing GNNs for Node Classification [7.1] グラフトランスフォーマー(GT)は、従来のグラフニューラルネットワーク(GNN)の代替として人気がある。
本稿では,GTに対する3つの古典的GNNモデル(GCN, GAT, GraphSAGE)の性能を再評価する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:53:33 GMT)
DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.1] DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:23:22 GMT)
Engineering Digital Systems for Humanity: Challenges and Opportunities [7.1] 従来のソフトウェア行動と品質に加えて、社会的および人的価値は、持続可能性と長期的な幸福のために重要であると認識されている。
人類のために設計されるべき、現在および将来のデジタルシステムのマクロおよび技術的課題と機会を特定します。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:53:59 GMT)
AMSA-UNet: An Asymmetric Multiple Scales U-net Based on Self-attention for Deblurring [7.0] asymmetric multiple scales U-net based on self-attention (AMSA-UNet) was proposed to improve the accuracy and compute complexity。
マルチスケールなU字型アーキテクチャを導入することで、ネットワークはグローバルレベルでぼやけた領域に集中でき、ローカルレベルで画像の詳細を回復することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:39:02 GMT)
T-JEPA: A Joint-Embedding Predictive Architecture for Trajectory Similarity Computation [6.8] 軌道類似性計算は,様々なアプリケーション間での空間データの移動パターンを解析するための重要な手法である。
本稿では,JEPA(Joint-Embedding Predictive Architecture)を用いた自己教師付き軌道類似性手法T-JEPAを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:51:51 GMT)
Master of Disaster: A Disaster-Related Event Monitoring System From News Streams [6.7] 災害関連イベント監視システムの必要性は、重大災害の増加による社会的・経済的影響によるものである。
我々は,ニュースストリームを受信し,イベント情報を抽出し,抽出した情報を知識グラフ(KG)にリンクし,イベントインスタンスを視覚的に識別する,オープンソースのイベント監視システムであるMaster of Disaster(MoD)を実証する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:01:28 GMT)
Uncertainty of quantum channels based on symmetrized \r{ho}-absolute variance and modified Wigner-Yanase skew information [6.7] 我々は、任意の作用素(必ずしもエルミート的ではない)の量子チャネルに対する不確実性関係を一般化する対称性付きrho-absolute分散の観点で不確実性関係を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:18:59 GMT)
Changes by Butterflies: Farsighted Forecasting with Group Reservoir Transformer [6.7] カオスでは、2つの初期条件の間の小さなばらつきが時間とともに指数的な増幅を示し、遠方の結果をもたらす。
グループ貯水池変圧器を導入し、より正確で堅牢な長期イベントを予測する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:22:02 GMT)
Active Learning for Multilingual Fingerspelling Corpora [6.5] 我々は手話におけるデータ不足問題を支援するために能動的学習を適用した。
多くの手話はフランス語手話の言語的子孫であるため、手話の構成を共有している。
我々はこの仮説を、アメリカ、中国、ドイツ、アイルランドの指打ちコーパスで検証する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:04:18 GMT)
Anomaly in open quantum systems and its implications on mixed-state quantum phases [6.4] オープン量子システムにおける't Hooft異常を特徴付けるための体系的なアプローチを開発する。
それらの対称性変換をスーパー演算子を通して表現することにより、それらを統一的なフレームワークに組み込む。
ボゾン系の異常は、$d$空間次元において$Hd+2(Ktimes G,U(1))/Hd+2(G,U(1))$によって分類される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:29:12 GMT)
Is Programming by Example solved by LLMs? [6.4] PBE(Programming-by-Examples)は、入力出力の例からアルゴリズムを生成することを目的としている。
我々は,Large Language Models (LLMs) が PBE の解き方について検討する。
事前訓練されたモデルはPBEでは有効ではないが、より高性能に微調整できる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:59:06 GMT)
Demystifying the Physics of Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making [6.2] 本稿では,ベースラインモデルとしてポリシー最適化に基づくDRLアルゴリズムを用い,オープンソースのAVシミュレーション環境にマルチヘッドアテンションフレームワークを付加する。
第1頭部の重みは隣接する車両の位置を符号化し、第2頭部は先頭車両のみに焦点を当てている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:03:40 GMT)
LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing [6.0] 特殊なファジィザは複雑な構造化データを扱うことができるが、文法にさらなる努力が必要であり、低スループットに悩まされる。
本稿では,構造化データに対するグレーボックスファジングを強化するために,Large Language Modelを活用する可能性について検討する。
LLMベースのファザであるLLAMAFUZZは、LLMのパワーを統合して、構造化データをファザリングに理解し、変更する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:11:09 GMT)
Anatomy-aware and acquisition-agnostic joint registration with SynthMorph [6.0] アフィン画像登録は、医用画像解析の基盤となっている。
ディープラーニング(DL)メソッドは、画像対を出力変換にマッピングする関数を学ぶ。
ほとんどのアフィン法は、ユーザが調整したい解剖学に依存しない。つまり、アルゴリズムが画像のすべての構造を考慮すれば、登録は不正確なものになる。
われわれはこれらの欠点をSynthMorphで解決する。これは高速で対称で、微分型で使い易いDLツールで、任意の脳画像の関節アフィン変形性登録を行う。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:00:00 GMT)
Investigating potential causes of Sepsis with Bayesian network structure learning [6.0] 本研究は、セプシスの潜在的な原因を調べるために、知識と利用可能な病院データを組み合わせる。
臨床専門知識とスコアベース,制約ベース,ハイブリッド構造学習アルゴリズムを組み合わせることで,この問題の根底にある因果構造を考察する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:08:44 GMT)
LaCoOT: Layer Collapse through Optimal Transport [5.9] 本稿では,過度にパラメータ化された深層ニューラルネットワークの深さを低減するための最適輸送手法を提案する。
この距離を最小化することで、ネットワーク内の中間層を完全に取り除くことができ、性能損失はほとんどなく、微調整も不要であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:03:53 GMT)
StructuralSleight: Automated Jailbreak Attacks on Large Language Models Utilizing Uncommon Text-Encoded Structure [5.8] 本稿では,ジェイルブレイク攻撃に対する迅速な構造の影響について検討する。
LLMトレーニングではほとんど使われない尾構造に基づく新しい構造レベルアタック手法を提案する。
われわれは、3つのエスカレート攻撃戦略を含む、StructureSleightという自動ジェイルブレイクツールを構築した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:24:08 GMT)
3D-HGS: 3D Half-Gaussian Splatting [5.8] 光リアルな3D再構成は、3Dコンピュータビジョンの基本的な問題である。
本稿では,プラグアンドプレイカーネルとして使用できる3Dハーフガウス(3D-HGS)カーネルを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:49:59 GMT)
Research on Early Warning Model of Cardiovascular Disease Based on Computer Deep Learning [5.8] 本研究は,1次元畳み込みニューラルネットワークに基づく心血管疾患早期警戒モデルについて検討することを目的とする。
患者年齢,血糖値,コレステロール値,胸痛値などの生理・症状指標が欠落し,Zスコアが標準化された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:04:22 GMT)
Chain-of-Though (CoT) prompting strategies for medical error detection and correction [5.8] 本稿では,MEDIQA-CORR 2024共有課題に対する臨床ノートにおける医療ミスの自動検出と修正について述べる。
大型言語モデル(LLM)を用いたChain-of-Thought(CoT)と理性プロンプトを併用した複数ショットインコンテクスト学習の3つの手法の成果を報告する。
我々のアンサンブル法は,サブタスクのランキングを3位とし,サブタスク3の7位を確保した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:31:04 GMT)
Physics-Informed Neural Networks: Minimizing Residual Loss with Wide Networks and Effective Activations [5.7] 特定の条件下では、広いニューラルネットワークによってPINNの残留損失を世界規模で最小化できることを示す。
良好な高次導関数を持つ活性化関数は、残留損失を最小限に抑える上で重要な役割を果たす。
確立された理論は、PINNの効果的な活性化関数の設計と選択の道を開く。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:39:43 GMT)
AGFA-Net: Attention-Guided and Feature-Aggregated Network for Coronary Artery Segmentation using Computed Tomography Angiography [5.6] CCTA画像を用いた冠動脈セグメンテーションのための注意誘導型3Dディープネットワーク(AGFA-Net)を提案する。
AGFA-Netは注意機構と機能改善モジュールを活用して、有能な特徴を捉え、セグメンテーションの精度を高める。
1000個のCCTAスキャンからなるデータセットの評価はAGFA-Netの優れた性能を示し、平均Dice係数は86.74%、ハウスドルフ距離は0.23mmである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 01:04:47 GMT)
Bayesian Statistical Modeling with Predictors from LLMs [5.6] State of the Art Large Language Model (LLM)は、様々なベンチマークタスクで印象的なパフォーマンスを示している。
このことは、LLMから派生した情報の人間的類似性に関する疑問を提起する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:33:30 GMT)
Single Round-trip Hierarchical ORAM via Succinct Indices [5.4] ランクORAMは1回の通信でデータを取得することができる。
emphcompressedクライアント側データ構造は、暗黙的に、各要素の位置をサーバに格納する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:16:38 GMT)
Human-level molecular optimization driven by mol-gene evolution [5.4] 本研究では、DGMM(Deep Genetic Modification Algorithm)を導入し、薬剤師のレベルに構造変更をもたらす。
離散変分オートエンコーダ(D-VAE)は、分子を量子化符号、mol-geneとして符号化するためにDGMMで使用される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 01:06:03 GMT)
CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.3] 我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。
CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:03:40 GMT)
Muharaf: Manuscripts of Handwritten Arabic Dataset for Cursive Text Recognition [5.3] Manuscripts of Hand written Arabic(Muharaf)データセットは、1,600以上の歴史的な手書きページイメージからなる機械学習データセットである。
このデータセットは、手書きのテキスト認識において、最先端の技術を前進させるためにコンパイルされた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 23:40:34 GMT)
Exponential speedup of quantum algorithms for the pathfinding problem [5.3] 非重みのないグラフで$s, t$が与えられたとき、パスフィンディング問題の目標は、$s$-$t$パスを見つけることである。
溶接木に基づいてグラフ$G$を構築し、隣接リスト oracle $O$ でパスフィニング問題を定義する。
古典的なアルゴリズムが確率の高い指数時間で$s$-$t$パスを見つけることはできないことを証明している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:33:05 GMT)
TriLoRA: Integrating SVD for Advanced Style Personalization in Text-to-Image Generation [5.2] 本稿では,Singular Value DecompositionをLo-Rank Adaptation (LoRA)パラメータ更新戦略に統合する革新的な手法を提案する。
LoRAフレームワークにSVDを組み込むことで、オーバーフィッティングのリスクを効果的に低減できるだけでなく、モデル出力の安定性も向上する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:42:23 GMT)
Scalable multiphoton generation from cavity-synchronized single-photon sources [5.2] 設計は複数の単一光子源に依存し、それぞれが導波路に結合され、これらすべてが共通のキャビティモードと相互作用する。
最先端の回路QED実装では、このスキームは純度、不明瞭性、効率99%の99%のコストで1つの光子を作成することをサポートする。
これは、ボソンサンプリングのための以前の分解されたソースよりも桁違いに効率的であり、決定論的多光子源の実現と光子によるスケーラブルな量子情報処理を可能にする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:54:21 GMT)
Predictive Linear Online Tracking for Unknown Targets [5.0] 線形制御システムにおけるオンライントラッキングの問題について検討し,移動目標を追従することを目的とした。
予測線形オンライントラッキング(PLOT)と呼ばれる新しいアルゴリズムを提案する。
PLOTを実機に実装し,オープンソースソフトウェアを提供することにより,実機上でのオンライン制御手法の最初の成功例の1つを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:04:41 GMT)
Plan, Generate and Complicate: Improving Low-resource Dialogue State Tracking via Easy-to-Difficult Zero-shot Data Augmentation [5.0] 我々は,低リソースの対話状態追跡のためのZero-shot Data AugmentationフレームワークであるEDZ-DAを提案する。
また、ドメイン関係に基づいて対話を複雑化し、参照スロット追跡のためのモデルの能力を高める。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:49:03 GMT)
Roping in Uncertainty: Robustness and Regularization in Markov Games [5.0] 頑健なマルコフゲーム(RMG)を$s$の正方形不確実性で研究する。
正方形RMGのロバストなナッシュ平衡(RNE)と、適切に構成された正規化MGのナッシュ平衡(NE)との一般的な等価性を示す。
報酬のない2プレイヤーゼロサム行列ゲームであっても、RNEの計算はPPADハードであることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:15:44 GMT)
ArguMentor: Augmenting User Experiences with Counter-Perspectives [4.8] 私たちはArguMentorを設計しました。
LLMを使用してそれらに対する反論を識別し、現在のイベントに基づいたコンテキストベースの要約を生成する。
評価の結果、参加者はより多くの議論や反論を生成でき、システムに関わった後、平均すると、より穏健な視点を持てることが明らかとなった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:33:58 GMT)
Fusion of regional and sparse attention in Vision Transformers [4.8] 現代の視覚変換器は、ウィンドウやグリッド領域内で計算された注意を通して、ピクセル間の視覚的にインスパイアされた局所的な相互作用を利用する。
本稿では,地域情報とグローバル情報の両方を動的に統合した,地域的・疎外的な注意の混合であるAtrous Attentionを提案する。
我々のコンパクトモデルは、2850万パラメータ未満のImageNet-1Kで約84%の精度を達成し、最先端のMaxViTを0.42%上回った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:48:25 GMT)
Flexible Heteroscedastic Count Regression with Deep Double Poisson Networks [4.6] ニューラルネットワークを用いてDouble Poisson分布のパラメータを出力する。
DDPNは既存の離散モデルよりも大幅に優れていることを示す。
DDPNは、様々なカウント回帰データセットに容易に適用できる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:02:03 GMT)
Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models [4.5] 本稿では,異なるジェイルブレイク入力に対するモデルアクティベーションの解析を行う。
我々は、ジェイルブレイクの有効性を他のクラスから軽減するための単一のクラスからジェイルブレイクベクトルを抽出できることを発見した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:26:47 GMT)
Efficient Multi-View Fusion and Flexible Adaptation to View Missing in Cardiovascular System Signals [4.5] 深層学習は、心臓血管系(CVS)信号に関する自動多視点融合(MVF)を促進する。
MVFモデルアーキテクチャは、しばしば同じ時間ステップからCVS信号と一致するが、統一された表現に異なる視点を持つ。
本稿では,事前学習したMVFモデルに対して,様々なシナリオに柔軟に対応するためのプロンプト手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:58:59 GMT)
Motion-based video compression for resource-constrained camera traps [4.3] そこで我々は,カメラトラップデバイス上での動作を考慮した動画圧縮アルゴリズムを提案する。
本研究では,このアルゴリズムを昆虫・寄生虫運動追跡のケーススタディを用いて実装・テストした。
本稿では,コンピュータビジョン対応低消費電力カメラトラップ装置の遠隔動物行動監視への応用について概説する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 23:48:05 GMT)
Engineering bound state in continuum via giant atom in photonic waveguide [4.3] 制御可能なBICは, 人工原子を被覆した1次元フォトニック導波路で見つかる。
我々は、BICと連続体外の境界状態の間の振動によって引き起こされる原子・光子力学進化における量子ビートを予測する。
これらの知見は、有界状態を介して導波路系を操作するためのアプローチを提供し、量子情報処理に適用することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:06:47 GMT)
Unveiling Group-Specific Distributed Concept Drift: A Fairness Imperative in Federated Learning [4.3] グループ固有の概念ドリフト(グループ特化概念ドリフト)とは、あるグループが時間とともに概念をドリフトし、別のグループがそうでない状況を指す。
連合学習のフレームワークでは、各クライアントは、同じ概念を共有しながら、独立してグループ固有の概念ドリフトを経験できる。
我々は、グループ固有の分散コンセプトドリフトに取り組むために、既存の分散コンセプトドリフト適応アルゴリズムを適用した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:37:15 GMT)
Unconditionally decoherence-free quantum error mitigation by density matrix vectorization [4.3] 密度行列のベクトル化に基づく量子誤差緩和の新しいパラダイムを提案する。
提案手法は,情報符号化の方法を直接変更し,ノイズのない純状態に雑音の多い量子状態の密度行列をマッピングする。
我々のプロトコルは、ノイズモデルに関する知識、ノイズ強度を調整する能力、複雑な制御ユニタリのためのアンシラキュービットを必要としない。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:43:43 GMT)
GPT-ology, Computational Models, Silicon Sampling: How should we think about LLMs in Cognitive Science? [4.2] GPT-ology, LLMs-as-computational-models, Silicon sample など,いくつかの新しい研究パラダイムについてレビューする。
我々は、科学を前進させるために対処しなければならないLCMに関するいくつかの際立った問題を強調します。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:19:17 GMT)
The European Commitment to Human-Centered Technology: The Integral Role of HCI in the EU AI Act's Success [4.2] EUはAI法を制定し、AIベースのシステムの市場アクセスを規制している。
この法律は、透明性、説明可能性、AIシステムを理解し制御する人間の能力に関する規制に焦点を当てている。
EUは、人間中心のAIシステムに対する民主的な要求を発行し、それによって、AI開発における人間中心のイノベーションのための学際的な研究課題を発行する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:30:26 GMT)
MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection [4.2] イベント独立ネットワークV2(EINV2)は、音事象の局所化と検出において優れた性能を発揮している。
本稿では,マルチスケール・フィーチャー・フュージョン(MFF)モジュールという3段階のネットワーク構造を提案し,スペクトル領域,空間領域,時間領域にまたがるマルチスケール特徴を抽出する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:03:02 GMT)
Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.1] オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:54:53 GMT)
On the Effects of Data Scale on Computer Control Agents [4.1] 我々は,ファインチューニング単独が現実のコンピュータ制御エージェント構築の有効なアプローチであるかどうかを考察する。
新しいデータセットであるAndroidControlをリリースし、Androidアプリによる日々のタスクのデモ15,283件で構成されています。
ドメインを微調整したモデルでテストすると、ゼロと数ショットのベースラインを上回り、ロバストなパフォーマンスを単純により多くのデータを収集して得られるようにスケールすることがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:31:05 GMT)
ALINA: Advanced Line Identification and Notation Algorithm [4.1] クラウドソーシングのような従来のラベリング手法は、コスト、データのプライバシ、時間、大規模なデータセットの潜在的なエラーのために禁止されている。
本稿では,タクシーウェイデータセットのラベル付けに使用できる新しいアノテーションフレームワークであるAdvanced Line Identification and Notation Algorithm (ALINA)を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:10:22 GMT)
Tool Wear Prediction in CNC Turning Operations using Ultrasonic Microphone Arrays and CNNs [4.1] 本稿では,超音波マイクロホンアレイと畳み込みニューラルネットワーク(CNN)を組み合わせたCNC回転動作におけるツール摩耗予測手法を提案する。
以上の結果から,高度な超音波センサを深層学習と統合し,精度の高い予測保守を実現する可能性が示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:36:13 GMT)
CoastTerm: a Corpus for Multidisciplinary Term Extraction in Coastal Scientific Literature [4.0] 沿岸域に関する410の科学的要約から,2,491文からなる新しい専門コーパスを紹介した。
ARDIフレームワークに触発されて、単言語および多言語トランスフォーマーモデルを利用して、沿岸システムの機能におけるドメイン用語とその役割を自動的に抽出する。
評価の結果,自動用語抽出ではF1スコアが約80%,用語抽出ではF1スコアが70%,ラベル抽出ではF1スコアが得られた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:01:08 GMT)
Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [4.0] 本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 23:08:06 GMT)
EncCluster: Scalable Functional Encryption in Federated Learning through Weight Clustering and Probabilistic Filters [4.0] フェデレートラーニング(FL)は、アグリゲーションサーバにのみローカルモデルの更新を通信することで、分散デバイス間のモデルトレーニングを可能にする。
FLはモデル更新送信中に推論攻撃に弱いままである。
本稿では、重みクラスタリングによるモデル圧縮と、最近の分散型FEとプライバシ強化データエンコーディングを統合する新しい方法であるEncClusterを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:16:50 GMT)
Zero-Shot Learning Over Large Output Spaces : Utilizing Indirect Knowledge Extraction from Large Language Models [3.9] Extreme Zero-shot XMC (EZ-XMC) はXMCの特別な設定であり、監督は提供されない。
従来の最先端の手法は、文書のタイトルやセグメントから擬似ラベルを抽出する。
大規模言語モデル(LLM)からのフィードバックにより,小さなバイエンコーダモデルをトレーニングするためのフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:26:37 GMT)
Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech [3.8] 本稿では,話者ダイアリゼーションと言語識別からなるケースケードシステムを提案する。
結果から,提案システムは低言語分類と言語ダイアリゼーション誤り率をしばしば達成することがわかった。
同時に、モノリンガル音声における音声認識に悪影響を及ぼさない。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:27:56 GMT)
Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.8] 本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:33:29 GMT)
Weak-measurement-based pseudospin pointer: A cost-effective scheme for precision measurement [3.8] 弱測定に基づく新しい次元無次元擬似スピンポインターを提案する。
光パラメータ推定の文脈において、パラメトリック分布のモーメントが実験的に得られることを示す。
実験費用の解約に加えて、光子計数に基づくポインターは弱い信号の検出に適している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:01:21 GMT)
MGRQ: Post-Training Quantization For Vision Transformer With Mixed Granularity Reconstruction [3.7] 後学習量子化(PTQ)は視覚モデルを効率的に圧縮する。
ViT (Vision Transformer) の再構成によるPTQの性能向上への取り組みは, 有効性に限界があることが示されている。
この問題に対処するためのソリューションとして,MGRQ (Mixed Granularity Reconstruction Quantization) を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:29:37 GMT)
Exploring the Reversal Curse and Other Deductive Logical Reasoning in BERT and GPT-Based Large Language Models [3.6] 自己回帰型デコーダ大言語モデル(LLM)は、BとAが別個であり、互いに一意に識別できると仮定して、"B is A"を学習できない。
これにより、知識グラフの構築など、ある種の一般的なタスクにGPTモデルを使用することで、赤旗を掲げる。
そこで本研究では,両方向性 LLM であるBERT について検討し,逆行性呪いに対する免疫性が確認された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:32:58 GMT)
Subsystem Information Capacity in Random Circuits and Hamiltonian Dynamics [3.6] 本研究は、ランダム量子回路のサブシステムと量子ハミルトン進化によって形成される有効チャネルに焦点を当てる。
本研究では,初期情報符号化方式が1対1,1対マニー,多対マニーといった情報力学に与える影響を明らかにする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:15:11 GMT)
Newswire: A Large-Scale Structured Database of a Century of Historical News [3.6] 歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:20:05 GMT)
Dispelling the Mirage of Progress in Offline MARL through Standardised Baselines and Evaluation [3.5] オフラインマルチエージェント強化学習(MARL)は、現実世界のアプリケーションに非常に有望な新興分野である。
オフラインMARLの研究の現状は、ベースラインと評価プロトコルの不整合に悩まされている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:54:29 GMT)
Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models [3.5] 本研究では,テキスト分類における能動的学習の効率向上のために,自己学習がいかに有効かを検討する。
我々は,4つのテキスト分類ベンチマークで評価した,新しい効果的な自己学習戦略であるHASTを考案した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:06:11 GMT)
Quantum Error Suppression with Subgroup Stabilisation [3.5] 量子状態浄化(Quantum state purification)とは、未知の状態の複数のコピーが与えられたとき、純度の高い状態を出力する機能である。
そこで本稿では,M$のノイズ量子入力をサブスペースに投射することで,量子オーバーヘッドを適度に高める有効な状態浄化ガジェットを提案する。
提案手法は, ノイズ状態の重複コピーを$M$以上の短い進化で適用することにより, 整合性および誤差をそれぞれ1/M$の係数で抑制することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:12:05 GMT)
Beyond the Frontier: Predicting Unseen Walls from Occupancy Grids by Learning from Floor Plans [3.4] 本研究では,360deg LIDARセンサの軌跡に沿って集積された占有格子上に2次元の線分を配置し,部分観測環境の見えない壁面を予測する課題に取り組む。
大学キャンパスからのオフィススケールフロアプランのコレクションにおいて、ランダムにサンプリングされたウェイポイントのセット間で仮想ロボットをナビゲートすることにより、そのような占有グリッドとその対象壁セグメントのデータセットを収集する。
行セグメント予測タスクを自己回帰シーケンス予測タスクとして定式化し、データセット上で注目ベースのディープネットワークをトレーニングする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:22:59 GMT)
Personalized Product Assortment with Real-time 3D Perception and Bayesian Payoff Estimation [3.4] リアルタイムレコメンデーションシステムを導入し、EdgeRec3Dと呼ぶ。
本システムは,3次元コンピュータビジョンの最近の進歩を,認識と自動的,きめ細かな販売推定に活用する。
ドリンク製品を用いた2~8週間のA/Bテストで実店舗でテストを行い,それぞれ35%,27%の売り上げ増を示した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:21:26 GMT)
False Sense of Security in Explainable Artificial Intelligence (XAI) [3.3] 我々は、AI規制と現在の市場条件が効果的なAIガバナンスと安全性を脅かすと主張している。
政府は明確な立法と政策ステートメントを通じて説明可能性の問題に明示的に対処しない限り、AIガバナンスのリスクは空虚な「ボックス・ティック」のエクササイズになる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:57:12 GMT)
Enhanced Object Detection: A Study on Vast Vocabulary Object Detection Track for V3Det Challenge 2024 [3.2] 本研究の成果は, 最大語彙視覚検出課題を対象としたVast Vocabulary Visual Detectionのデータセットから得られたものである。
我々のモデルは,V3Det Challenge 2024のVast Vocabulary Object Detection(Supervised)トラックとOpen Vocabulary Object Detection(OVD)トラックの両方において,ベースラインを改良し,Leadboardの優れたランキングを達成した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:59:45 GMT)
Deep conditional distribution learning via conditional Föllmer flow [3.2] 本研究では,条件F"ollmer Flow"という条件分布を学習するための常微分方程式(ODE)に基づく深部生成手法を提案する。
効率的な実装のために、我々は、深層ニューラルネットワークを用いて非パラメトリックに速度場を推定するオイラー法を用いて流れを判別する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:11:10 GMT)
You are what you eat? Feeding foundation models a regionally diverse food dataset of World Wide Dishes [3.1] 765の料理からなる混合テキストと画像データセットであるWorld Wide Dishesを131の地方言語で収集した。
本稿では,言語モデルやテキスト・ツー・イメージ生成モデルといった基礎モデルにおいて,機能と表現バイアスを運用する新たな方法を示す。
これらのモデルは、一般的に、異なる地域固有の料理の質の高いテキストや画像の出力を生成しない。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:00:00 GMT)
A PCA based Keypoint Tracking Approach to Automated Facial Expressions Encoding [3.1] 本稿では,表情学習におけるアクション・ユニット(AU)の自動生成手法について検討する。
データ駆動型AUを生成するために,主成分分析(PCA)と顔キーポイント追跡に基づく教師なしアプローチを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:40:26 GMT)
A Novel Quantum LSTM Network [2.9] 本稿では,量子コンピューティングの原理を従来のLSTMネットワークと統合した量子LSTM(Quantum LSTM)モデルを提案する。
我々のqLSTMモデルは従来のLSTMの限界に対処することを目的としており、より効率的で効率的なシーケンシャルデータ処理のための堅牢なフレームワークを提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:26:14 GMT)
The Promise of Analog Deep Learning: Recent Advances, Challenges and Opportunities [2.9] アナログ実装における深層学習の進歩とともに、そのメリットとデメリットを評価し、特定する。
これらのハードウェアデバイスを用いて実装されたニューラルネットワークに基づく実験を同定し、異なるアナログ深層学習法により達成された比較性能について議論する。
全体としては、Analog Deep Learningは将来のコンシューマレベルのアプリケーションにとって大きな可能性を秘めていますが、スケーラビリティに関してはまだ長い道のりがあります。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:52:33 GMT)
Effects of Multimodal Explanations for Autonomous Driving on Driving Performance, Cognitive Load, Expertise, Confidence, and Trust [2.9] 我々は、AIコーチの説明コミュニケーションが、パフォーマンス駆動専門家の指示をモデルにした影響を検証した。
結果として、AIコーチングは、初心者にパフォーマンス駆動スキルを効果的に教えることができることを示している。
効率的なHMI通信を設計する際には,効率的なモダリティに適した説明を選択すべきである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:01:00 GMT)
Stepwise Regression and Pre-trained Edge for Robust Stereo Matching [2.9] 本稿では,SR-Stereoと呼ばれる新しいステレオマッチング手法を提案する。
また,事前訓練されたエッジ(DAPE)に基づくドメイン適応手法を提案する。
これらの手法は,SceneFlow,KITTI,Middbury 2014,ETH3Dで広く評価されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:11:29 GMT)
Laser-target symmetry-breaking in high harmonic generation: from frequency shift to odd-even intensity modulation [2.9] 高次高調波発生における周波数シフトと奇数均一強度変調の包括的画像を提供する。
非対称レーザーターゲット系をチューニングすることにより、高調波周波数シフトから奇等強度変調への遷移を発見する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:40:37 GMT)
Axis Tour: Word Tour Determines the Order of Axes in ICA-transformed Embeddings [2.8] ICA変換された単語埋め込みは解釈可能な意味軸を示すが、これらの軸の順序は任意である。
1次元の単語埋め込み手法であるWord Tourに着想を得て,単語埋め込み空間の明瞭さの向上を目指す。
我々は,Axis Tour が PCA と ICA のどちらよりも優れた,あるいは同等の低次元埋め込みをもたらすことを示す実験を通して示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:44:03 GMT)
HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.8] 本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:30:38 GMT)
Conceptual Learning via Embedding Approximations for Reinforcing Interpretability and Transparency [2.8] 解釈可能性が最重要である領域において、概念ボトルネックモデル(CBM)が重要なツールとして出現している。
本研究では、アンダーラインtextbfReinforcecing Interpretability and Transparency に対するアンダーラインtextbfEmbedding UnderlinetextbfApproximations によるアンダーラインtextbfConceptual UnderlinetextbfLbeddingを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:04:34 GMT)
Technical Report of NICE Challenge at CVPR 2024: Caption Re-ranking Evaluation Using Ensembled CLIP and Consensus Scores [2.8] ECO(Ensembled Clip score and cOnsensus score)は、画像のキャプションの評価とランク付けに使用される新しいフレームワークである。
これは、画像とキャプションのセマンティックアライメントを考慮するEnsembled CLIPスコアと、キャプションの本質性を説明するConsensusスコアを組み合わせることで実現される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:59:41 GMT)
Current applications and potential future directions of reinforcement learning-based Digital Twins in agriculture [2.7] 本研究は, 農業環境における強化学習を活用した既存の研究を, ロボット工学, 温室管理, 灌水システム, 作物管理などの応用分野によって分類することを目的としている。
また、表式手法、ディープQネットワークワークス(DQN)、ポリシーグラディエント手法、アクタ・クリティカルアルゴリズムなど、使用する強化学習技術も分類する。
このレビューは、Digital Twinsの統合と農業における強化学習の最先端に関する洞察を提供することを目指している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:38:09 GMT)
Computer vision-based model for detecting turning lane features on Florida's public roadways [2.6] 本研究では,AIを用いた高解像度空中画像からフロリダ州の公道の道路特徴を検出する。
抽出された道路形状データは、事故や交通データと統合して、政策立案者や道路利用者に貴重な洞察を与えることができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:28:53 GMT)
GROD: Enhancing Generalization of Transformer with Out-of-Distribution Detection [2.6] トランスフォーマーネットワークは自然言語処理(NLP)とコンピュータビジョン(CV)タスクに優れている。
彼らは、out-of-Distribution(OOD)データセットを一般化する上で、課題に直面している。
本稿では,OOD検出に基づく新しい手法を提案し,このアルゴリズムをGROD(Generate Rounded OOD Data)アルゴリズムと呼ぶ。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:54:09 GMT)
Deep learning empowered sensor fusion to improve infant movement classification [2.5] そこで本研究では,センサフュージョンを用いたフィジィ動作の評価手法を提案する。
様々な組み合わせと2つのセンサ融合法を用いて、マルチセンサシステムが単一モードアセスメントよりも優れた性能を発揮するかどうかを検証した。
三感融合(94.5%の分類精度)の性能は、評価されたどの単一モダリティよりも著しく高かった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:38:58 GMT)
Between Randomness and Arbitrariness: Some Lessons for Reliable Machine Learning at Scale [2.5] dissertation: 信頼性を犠牲にすることなくスケーラビリティを実現するために、MLにおける偏在性のソースの定量化と緩和、不確実性推定と最適化アルゴリズムのランダム性。
論文は、機械学習の信頼性測定に関する研究が法と政策の研究と密接に結びついていることの例による実証的な証明として機能する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:29:37 GMT)
Polynomial Reduction Methods and their Impact on QAOA Circuits [2.5] 量子最適化のために、高次問題定式化が、異なる所望の非機能特性を活用するためにどのように使用できるかを示す。
本研究は,本手法がさまざまなトレードオフを満足できることを示すとともに,今後の汎用抽象概念の構築の可能性も示唆している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:43:18 GMT)
Towards AI Lesion Tracking in PET/CT Imaging: A Siamese-based CNN Pipeline applied on PSMA PET/CT Scans [2.4] 本研究はPET/CTスキャン間の病変追跡のためのSamese CNNアプローチを導入する。
本アルゴリズムは適切な病変のパッチを抽出し,対応する病変または非対応病変として病変のパッチペアを分類する訓練を施したシームズCNNに転送する。
異なる入力パッチタイプと2Dおよび3DのSiameseネットワークで実験が行われた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:06:15 GMT)
Advanced Feature Manipulation for Enhanced Change Detection Leveraging Natural Language Models [2.3] 大規模言語モデル (LLM) は, 様々な領域で特徴抽出機能に利用されてきた。
本研究では、事前学習したLLMのパワーを活用し、広範囲なデータセットから特徴マップを抽出し、変化を検出する補助ネットワークを利用する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:30:02 GMT)
Effects of Antivaccine Tweets on COVID-19 Vaccinations, Cases, and Deaths [2.2] 本稿では,ワクチン接種,ワクチン接種,抗接種内容への曝露を含む分節感染モデルを提案する。
その結果、米国内では2021年2月から8月にかけて75万人がワクチン接種を拒否している。
調査結果は、ソーシャルメディアのモデレーション政策と公衆衛生の介入を知らせるべきである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:11:02 GMT)
Time Elastic Neural Networks [2.2] 時間弾性ニューラルネットワーク(teNN)という,非定型ニューラルネットワークアーキテクチャの導入と詳細化について述べる。
古典的ニューラルネットワークアーキテクチャと比較して新しいのは、時間ゆがみ能力を明確に組み込んでいることだ。
トレーニング過程において,TENNは各細胞に必要となるニューロン数を減少させることに成功した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:34:10 GMT)
Artificial Intelligence and Dual Contract [2.2] 独立したQ-ラーニングアルゴリズムを備えた2つのプリンシパルが1つのエージェントと対話するモデルを開発する。
その結果、AIプリンシパルの戦略的行動は、利益の整合性に決定的に左右されることがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:24:16 GMT)
Vortex Feature Positioning: Bridging Tabular IIoT Data and Image-Based Deep Learning [2.2] 本稿では,Vortex Feature Positioning (VFP)を導入し,その相関に基づいて特徴を配置し,特徴量によって決定される画像サイズとともに,画像中心から渦パターンに類似の特徴を分散させる。
VFPは、さまざまな実数値属性を持つ7つのデータセットにわたるテストにおいて、従来の機械学習手法や既存の変換テクニックよりも優れています。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:00:29 GMT)
How structured are the representations in transformer-based vision encoders? An analysis of multi-object representations in vision-language models [2.0] そのような抽象表現の極端な形は記号である。
この研究は、視覚エンコーダにおけるそのような構造化された表現の状態を推定する。
マルチオブジェクトシーンにおける基本的な下流タスクにおいて、これらのモデルの障害モードを引き起こすネットワークダイナミクスを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:54:20 GMT)
StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning [2.0] 本稿では,フォトリアリスティック物理ベースレンダリング(PBR)材料を生成する新しいアプローチであるStableMaterialsを紹介する。
本手法は,既存の大規模画像生成モデルから知識を抽出するために,逆行訓練を用いる。
拡散ステップの少ない視覚的アーティファクトを除去する新しいタイルビリティ手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:29:46 GMT)
3D Building Generation in Minecraft via Large Language Models [2.0] 本稿では,大規模言語モデル(LLM)がサンドボックスゲームであるMinecraftにおける3Dビルディングの生成にどのように貢献するかを考察する。
本稿では,プロンプトの精細化,層間表現の復号化,修復を含む,Minecraft (T2BM) モデルを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:21:07 GMT)
Color Equivariant Network [2.0] 群同変畳み込みニューラルネットワークは様々な幾何学的変換のために設計されている。
畳み込みニューラルネットワークは,設計による色調や彩度の変化に等しくなる。
合成および実世界のデータセット上でのネットワークの有用性を実証する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:02:03 GMT)
Neural Class Expression Synthesis [2.0] 本稿では,ニューラルクラス表現合成器を用いたクラス表現学習手法を提案する。
訓練例'' は機械翻訳に似た方法でクラス表現に翻訳される。
4つのベンチマークデータセットに対するアプローチの評価は,高品質なクラス表現を効果的に合成できることを示唆している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:36:47 GMT)
Correlations and Signaling in the Schrödinger-Newton Model [1.9] シュル・オーディンガー・ニュートンモデル(Schr "odinger-Newton model)は、相互のアトラクションに加えて、巨大な量子粒子が自身の重力場と相互作用する半古典理論である。
ここでは、Schr"odinger-Newton相互作用が初期状態の積形式を保存することを示すが、平均的には連続質量分布の古典力学と一致する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:30:16 GMT)
Solving the Clustering Reasoning Problems by Modeling a Deep-Learning-Based Probabilistic Model [1.8] 我々は,Bongard-Logoで高い推論精度を実現する深層学習に基づく確率モデルであるPMoCを紹介する。
また,複雑な視覚的抽象的推論タスクのためのPose-Transformerを設計した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:41:55 GMT)
RH-SQL: Refined Schema and Hardness Prompt for Text-to-SQL [1.7] 本稿では,精製実行モデルとハードネス・プロンプトに基づくテキスト・トゥ・エクセルの手法を提案する。
パフォーマンスを維持しながら、ストレージとトレーニングのコストを削減する。
スパイダーデータセットに関する我々の実験は、特に大規模なLMを用いて、82.6%の異常な精度(EX)を達成した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:04:34 GMT)
Active Inference Meeting Energy-Efficient Control of Parallel and Identical Machines [1.7] 製造システムにおけるエネルギー効率制御剤開発における能動推論の適用について検討する。
本研究は,ディープラーニングとアクティブ推論決定フレームワークを組み合わせた新たな分野である深層能動推論について検討する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:00:30 GMT)
Learning Joint and Individual Structure in Network Data with Covariates [1.7] この研究は、ネットワークデータ内のジョイントと個々の情報を同時にキャプチャする低ランクモデルを定式化する。
本手法は, 一般信号+雑音モデルを用いて, 接合部と個々の成分を連続的に復元できることを示す。
特に、食品取引ネットワークへの方法論の適用は、取引パターンを説明する共同および個別の要因をもたらす。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:10:56 GMT)
CLST: Cold-Start Mitigation in Knowledge Tracing by Aligning a Generative Language Model as a Students' Knowledge Tracer [1.7] 学生の知識トレーサとして生成言語モデルを整列させることにより、知識追跡におけるコールドスタート緩和を提案する(T)。
我々は、自然言語処理タスクとしてKTタスクをフレーム化し、自然言語で問題解決データを表現した。
各種ベースラインモデルを用いたデータ不足状況におけるCLSTの性能評価を行った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:21:43 GMT)
Input-Gen: Guided Generation of Stateful Inputs for Testing, Tuning, and Training [1.7] 入力は、コードのように、大規模に自動生成できることを示します。
当社のアプローチでは,ComPileデータセットモジュールの90%に対して,初期メモリ状態を含む有効な入力を生成することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:09:16 GMT)
On when is Reservoir Computing with Cellular Automata Beneficial? [1.7] Reservoir Computing with Cellular Automata (ReCA)は比較的新しくて有望なアプローチである。
本稿では,ReCA システムの最も単純な実装であっても,ReCA の概念が有効であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:04:34 GMT)
Controlling Unknown Quantum States via Data-Driven State Representations [1.6] 量子状態の正確な制御は、量子コンピューティングや他の量子技術にとって重要である。
システム状態の表現を構築するために,少量の測定データを用いた機械学習アルゴリズムを開発した。
本研究では, 未知の多体量子状態と非ガウス連続変数状態の, 限定された量子測定値からのデータを用いて, 正確な制御を実現することを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:39:36 GMT)
Investigating the translation capabilities of Large Language Models trained on parallel data only [1.6] 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの幅広い範囲で例外的な習熟性を示している。
PLUMEは,カタルーニャ語中心の並列例に特化して訓練された語彙サイズ(32k,128k,256k)の異なる3つの2B LLMのコレクションである。
これらのモデルは、16の教師付き翻訳方向と56のゼロショット上で、以前のエンコーダ・デコーダアーキテクチャと互換性がある。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:08:56 GMT)
How Much Training Data is Memorized in Overparameterized Autoencoders? An Inverse Problem Perspective on Memorization Evaluation [1.6] 本稿では,暗記研究のための逆問題視点を提案する。
トレーニングされたオートエンコーダを使用して、学習対象とする特定のトレーニングデータセットの正規化子を暗黙的に定義します。
提案手法は,オートエンコーダからトレーニングデータを復元する過去の記憶・評価手法よりも優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:13:09 GMT)
Language Models are Crossword Solvers [1.5] 我々は大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。
我々は,現在の最先端技術(SoTA)言語モデルが,暗号的クロスワードの手がかりを解読する能力を示すことを示した。
また,LLMを用いて全クロスワードグリッドを解く問題に対処するために,この性能を生かした探索アルゴリズムを開発した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:29:27 GMT)
Transfer learning with generative models for object detection on limited datasets [1.5] 海洋生物学などいくつかの分野では、各物体の周囲に有界箱を正しくラベル付けする必要がある。
本稿では,一般的なシナリオに有効な伝達学習フレームワークを提案する。
我々の研究結果は、さまざまな分野における機械学習アプリケーションのための、新しい生成AIベースのプロトコルの道を開くものである。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:09:51 GMT)
FacEnhance: Facial Expression Enhancing with Recurrent DDPMs [1.5] FacEnhanceは低解像度の表情ビデオ(64x64ピクセル)を高解像度(192x192ピクセル)に拡張する
FacEnhanceは、資源効率が高く、高忠実な表情生成に向けて大きな進歩を示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:23:35 GMT)
Injective Flows for parametric hypersurfaces [1.5] パラメトリック超曲面の場合、NFと同じコストでジャコビアン行列式を正確に効率的に計算できることが示される。
2つの設定で超曲面上の密度のモデル化の妥当性を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:43:59 GMT)
Japanese Tort-case Dataset for Rationale-supported Legal Judgment Prediction [1.4] 本稿では,日本法定判決予測(LJP)のための最初のデータセットを提案する。
トート予測と合理的抽出という2つのタスクが特徴である。
合理性抽出タスクは、原告と被告による主張された議論から裁判所が主張を受け入れることを特定する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:38:07 GMT)
Research on Jing Dong's Self-built Logistics Based on Technology Acceptance Model [1.4] 本稿では,Jing Dongの自己構築型ロジスティクスシステムの特徴がユーザの満足度と継続的な使用意図に及ぼす影響を考察した。
マーケティング情報の品質、ロジスティクスシステムの品質、ロジスティクスサービスは、Jing Dongの自己構築ロジスティクスの有用性に大きな影響を与えている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:50:04 GMT)
NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function [1.4] このアテンション機構はコンピュータビジョンでビジョントランスフォーマー ViT として使用された。
コストがかかり、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
本稿では,新しい計算ブロックを標準ViTブロックの代替として導入し,計算負荷を削減する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:55:19 GMT)
Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns [1.4] 本研究では,運転関連質問に対するVQAモデルと比較し,人間の注意パターンについて検討した。
本稿では,モデルの注意機構を最適化するためにフィルタを統合する手法を提案し,関連オブジェクトの優先順位付けと精度の向上を図る。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:00:17 GMT)
Assessment of Uncertainty Quantification in Universal Differential Equations [1.4] 普遍微分方程式(Universal Differential Equations、UDE)は、機械式とニューラルネットワークのような普遍関数近似器という形で、事前の知識を組み合わせるために用いられる。
本稿では,UDEに対する不確実性定量化(UQ)の形式化と,重要な頻繁性とベイズ法について検討する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:36:19 GMT)
Distributed genetic algorithm for application placement in the compute continuum leveraging infrastructure nodes for optimization [1.4] フォグコンピューティングにおける資源最適化のための遺伝的アルゴリズム(GA)の3つの分散設計について述べる。
その結果,分散度が低い設計では従来の手法に匹敵するソリューション品質が得られるが,高いネットワーク負荷が生じることがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:58:21 GMT)
Introducing 3DCNN ResNets for ASD full-body kinematic assessment: a comparison with hand-crafted features [1.3] 本稿では,新しい3DCNN ResNetを提案するとともに,モータASD評価に広く用いられている手作り機能と比較する。
具体的には、複数のモータータスクと、両方のアプローチを用いたトレーニングモデルを備えたバーチャルリアリティ環境を開発した。
その結果,提案モデルでは最大85$pm$3%の精度を達成し,短い1~3分間のサンプルで最先端のエンド・ツー・エンドモデルを上回る結果を得た。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:35:17 GMT)
Learning the Influence Graph of a High-Dimensional Markov Process with Memory [1.3] 本研究は,基礎となる(直接)影響グラフや因果グラフをメモリで学習する問題を考察する。
我々は、i.d.モデルを学習するための既存のアルゴリズムをメモリ付きマルコフ設定に拡張する。
この研究の重要な分析的貢献は、サンプルの複雑さの結果の導出である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:19:43 GMT)
Towards Multilingual Audio-Visual Question Answering [1.3] 機械翻訳を活用し、8言語を対象とした2つの多言語AVQAデータセットを提示する。
これにより、質問や回答を手作業で収集する、追加の人間のアノテーション作業が防止される。
提案したデータセットをベンチマークするために,様々なモデルアーキテクチャを備えたMERA-L, MERA-C, MERA-T というモデルスイートを導入する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:18:56 GMT)
Causal Fine-Tuning and Effect Calibration of Non-Causal Predictive Models [1.3] 本稿では,無作為な実験データを用いた因果推論のための非因果モデルの性能向上手法を提案する。
広告、顧客の保持、精密医療のような領域では、介入なしの結果を予測する非因果モデルはしばしば、介入の期待された効果に応じて個人をスコアしランク付けするために使用される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:18:16 GMT)
Standard Language Ideology in AI-Generated Language [1.3] 大規模言語モデル(LLM)によって生成された言語における標準言語イデオロギーについて検討する。
我々は、標準AI生成言語イデオロギーの概念を導入し、AI生成言語が標準アメリカ英語(SAE)を言語的デフォルトとみなし、SAEが最も「適切な」言語であるとの言語バイアスを強化する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 01:08:40 GMT)
My Body My Choice: Human-Centric Full-Body Anonymization [1.2] 「ボディー・マイ・チョイス」(MBMC)は、物理的および敵対的な匿名化を、取り外しやスワップによって実現している。
我々は,7つのデータセットの匿名化を評価し,SOTAの塗装法や匿名化法と比較し,画像,逆数,生成指標による評価を行った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:40:30 GMT)
Generative Inverse Design of Crystal Structures via Diffusion Models with Transformers [1.2] 有望な性質を持つ新しい無機材料は、科学的にも工業的にも重要な課題である。
有望な性質を持つ新しい無機材料の発見は、科学的にも工業的にも重要な課題である。
そこで本研究では,トランスフォーマーアーキテクチャに基づくバックボーンを用いた,結晶構造の生成的逆設計のための新しいタイプの拡散モデルについて検討する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:03:15 GMT)
Characterising Interventions in Causal Games [1.2] 因果ゲームは、多エージェント設定で因果クエリを答えられる確率的グラフィカルモデルである。
我々は、因果メカニズムの設計とコミットメントを考慮し、安全なAIシステムの設計への応用を実証する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:55:07 GMT)
Harnessing Quantum Entanglement: Comprehensive Strategies for Enhanced Communication and Beyond in Quantum Networks [1.2] 鍵となる量子現象であるエンタングルメントは、セキュリティと処理能力を強化した高度なプロトコルを可能にする。
量子インターネット、量子エラー訂正符号、およびセキュアな通信を保証するための量子暗号の役割。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:54:34 GMT)
The Significance of Latent Data Divergence in Predicting System Degradation [1.2] 条件ベースのメンテナンスは、エンジニアリングシステムにおける潜在的な障害を早期に検出する上で、重要である。
本稿では,システムコンポーネントの潜在データ内における統計的類似性の分析を基礎とした新しい手法を提案する。
システム間の類似性は、これらの先行の相違を評価し、個々のシステム行動の微妙な理解を提供することによって推測する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:41:20 GMT)
Inverse Probability of Treatment Weighting with Deep Sequence Models Enables Accurate treatment effect Estimation from Electronic Health Records [1.2] 治療重み付けの逆確率 (IPTW) は広く用いられている確率スコア法である。
我々は,IMTWを用いて,クレームレコードを用いた時間依存コンバウンディングの存在下での処理効果を推定することを提案する。
ディープシークエンスモデルは、様々な下流タスクのためのEHRのモデリングにおいて優れた性能を示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:29:16 GMT)
Introducing Brain-like Concepts to Embodied Hand-crafted Dialog Management System [1.2] 本稿では,グラフィカル言語を用いた手作りモデルに基づく混合イニシアティブダイアログとアクション生成を実現するニューラル・ビヘイビア・エンジンを提案する。
このような脳のようなアーキテクチャのユーザビリティのデモは、セミパブリック空間で動作する仮想レセプタリストアプリケーションを通じて記述される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:54:03 GMT)
Universal scaling of Green's functions in disordered non-Hermitian systems [1.2] グリーン関数によって正確に記述された非エルミート系の線形応答について検討する。
外部摂動に対する最大応答を定量化するグリーン関数の行列要素の平均最大値は、異なるスケーリング挙動を特徴とする異なる位相を示す。
我々の研究は、非エルミート皮膚効果とアンダーソン局在の予期せぬ相互作用を強調している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:00:02 GMT)
Towards a Characterisation of Monte-Carlo Tree Search Performance in Different Games [1.2] 本稿では、そのような理解に向けて前進するために構築した初期データセットについて述べる。
このデータセットの予備分析と予測モデルをトレーニングする作業に加えて、学習した教訓と、新しい改良版データセットの今後の計画について説明する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:46:27 GMT)
Large-Scale Evaluation of Open-Set Image Classification Techniques [1.1] Open-Set Classification (OSC)アルゴリズムは、クローズドとオープンセットの両方の認識能力を最大化することを目的としている。
近年の研究では、このようなアルゴリズムが小規模なデータセット上で有効であることが示されているが、実験が限定されているため、実世界の問題における性能評価は困難である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:43:01 GMT)
Network-Based Transfer Learning Helps Improve Short-Term Crime Prediction Accuracy [1.1] 本稿では,短期犯罪予測モデルのための新しいトランスファー学習フレームワークを提案する。
提案手法は,移動データ不足のある対象都市を対象としたF1スコアを改善する。
また、F1スコアの改善は、米国の様々な種類の犯罪や多様な都市に広く浸透していることも示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:02:17 GMT)
Improving the Fairness of Deep-Learning, Short-term Crime Prediction with Under-reporting-aware Models [1.1] 本稿では,予測公正性を高めるために2つのアプローチのパワーを組み合わせた新しいディープラーニングアーキテクチャを提案する。
提案手法は, 内処理脱バイアスモデルと比較して, 犯罪予測の公平性を向上することを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:53:01 GMT)
Enhancing Psychotherapy Counseling: A Data Augmentation Pipeline Leveraging Large Language Models for Counseling Conversations [1.0] 本稿では,Large Language Models (LLMs) を利用して,シングルターン精神療法のカウンセリングセッションをマルチターンインタラクションに変換するパイプラインを提案する。
我々のアプローチは、メンタルヘルスカウンセリングの文脈において、高い品質のマルチターン対話を実現するLLMの能力を大幅に向上させる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:48:44 GMT)
DEFT: Data Efficient Fine-Tuning for Pre-Trained Language Models via Unsupervised Core-Set Selection [1.0] DEFT-UCSは、事前訓練された言語モデルのためのデータ効率の良い微調整フレームワークである。
我々はDEFT-UCSを最先端のテキスト編集モデルであるCoEDITと比較した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:31:28 GMT)
Generative vs. Discriminative modeling under the lens of uncertainty quantification [0.9] 本稿では,生成的アプローチと識別的アプローチの比較分析を行った。
両手法が,不確実性を考慮した推論において,様々な情報源からの情報を活用する能力を比較する。
本稿では,両手法の教師あり学習と,検討されたモデリング手法と互換性のあるセミ教師あり学習を実現するための一般的なサンプリング手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:32:43 GMT)
Mathematical models for off-ball scoring prediction in basketball [0.9] バスケットボールにおけるオフボールスコアリングの機会を予測するために、2つの数学的モデルが提案されている。
我々は,2015-2016年シーズンのNBA630試合の選手追跡データを用いて,これらのモデルを評価する。
本モデルは,バスケットボールにおける戦術分析と選手評価に有用な知見を提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:17:19 GMT)
Wave function matching transformation for solving the quantum many-body problem [0.9] 本稿では,波動関数マッチングと呼ばれる量子多体系の解法を提案する。
波動関数マッチングは粒子間の相互作用を変換し、波動関数がある程度の有限範囲までの距離で容易に計算可能な相互作用と一致するようにする。
本手法を光核, 中質量核, 中性子物質, 核物質のモンテカルロシミュレーションに応用する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:54:56 GMT)
Fair by design: A sociotechnical approach to justifying the fairness of AI-enabled systems across the lifecycle [0.8] 公正性は、既存のAIガイドラインにおいて最もよく認識される倫理的原則の1つである。
公正なAI対応システムの開発は、新たなAI規制によって要求される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:03:29 GMT)
RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8] 本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:42:32 GMT)
Variational quantum eigensolver with embedded entanglement using a tensor-network ansatz [0.8] 我々は、相乗最適化フレームワークのエンタングルメント拡大プロセスにテンソルネットワーク(TN)スキームを導入する。
このフレームワークは、不均一なシステムに対して、そのプロセスを体系的に構築するために使用できることを示す。
また, オール・ツー・オール結合不均質系におけるMERAの絡み合いの改善, エンハンスメント, および潜在的な相乗的応用についても論じる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:33:57 GMT)
Decoding the Diversity: A Review of the Indic AI Research Landscape [0.8] インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。
本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:55:20 GMT)
Neural-network quantum state study of the long-range antiferromagnetic Ising chain [0.8] 横磁場イジング鎖の反強磁性相互作用を代数的に減衰させた反強磁性相互作用における量子相転移について検討する。
SR極限の普遍比が$alpha_mathrmLR 2$で成り立たないことが、臨界度の偏りを示唆している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:55:37 GMT)
Neural Implicit Morphing of Face Images [0.8] フェイスフォーミングは、多くの芸術的および法医学的応用を持つコンピュータグラフィックスにおける問題である。
このタスクは、特徴アライメントのためのワープと、歪んだ画像間のシームレスな遷移のためのブレンディングで構成される。
我々は,このような歪みや顔画像のブレンドを表現するために,協調型ニューラルネットワークを活用することを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:44:18 GMT)
An optical atomic clock using $4D_J$ states of rubidium [0.7] ルビジウム中の2光子5S_1/2正ローローロー4D_J$遷移を用いた光原子時計の解析を行った。
微細構造状態4D_3/2$と4D_5/2$の4つの1色および2色の励起スキームを詳細に検討する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:40:06 GMT)
Progress Towards Decoding Visual Imagery via fNIRS [0.7] 我々は,fNIRS脳活動からのイメージ再構成の可能性を示し,必要な仕様に適合するプロトタイプの構築に着手する。
その結果, フル解像度fMRIでは93%, 2cmでは20%の精度で検索精度は71%であった。
我々は、レーザードライバ、光子検出器、デジタルコンバータシステムからなるプロトタイプの時間領域fNIRSデバイスの設計を共有している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 01:39:23 GMT)
Continuous time crystals as a PT symmetric state and the emergence of critical exceptional points [0.7] リンドラディアンパリティ時対称性は周期振動を持続的に生成できることを示す。
PT対称相の周期軌道は中心型であり、初期状態に依存した振幅を意味する。
この研究は、自発的な反単位対称性の破れを伴う物質と相転移の新しい非平衡相の理解をさらに進める。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:43:45 GMT)
Applying Multi-Agent Negotiation to Solve the Production Routing Problem With Privacy Preserving [0.7] 実業界アプリケーションにおける生産、在庫、流通、ルーティング決定の統合最適化は、いくつかの課題を提起する。
本稿では,最適化アルゴリズムと統合されたハイブリッドマルチエージェントシステム(MAS)におけるインテリジェントエージェントネゴシエーションの利用を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:15:34 GMT)
The polarization hierarchy for polynomial optimization over convex bodies, with applications to nonnegative matrix rank [0.7] 我々は、凸体上の関数を制約に最適化する問題に対して、外部近似の収束族を構築する。
階層の3段階の数値的な実装は、この問題に対して非常に厳密な近似をもたらすことが示されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:00:09 GMT)
Metric Entropy-Free Sample Complexity Bounds for Sample Average Approximation in Convex Stochastic Programming [0.7] 本稿では,凸あるいは強凸プログラミング問題の解法におけるサンプル平均近似(SAA)について検討する。
SAAのサンプルの複雑さは、計量エントロピーの定量化から完全に解放されることを示している。
本稿では, SAA が証明可能な有効性を維持している非リプシッツ的シナリオについて検討する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:25:31 GMT)
Benchmarking Pretrained Vision Embeddings for Near- and Duplicate Detection in Medical Images [0.7] 本稿では,2次元コンピュータビジョンの埋め込みを利用した近距離・重複3次元医用画像の同定手法を提案する。
公開されているメディカルデスロンデータセットに基づいて,実験的なベンチマークを生成する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:59:15 GMT)
ChatISA: A Prompt-Engineered Chatbot for Coding, Project Management, Interview and Exam Preparation Activities [0.7] ChatISAは、コーディングの問い合わせ、プロジェクト管理、試験の準備、インタビューの準備に対処する堅牢なツールである。
ChatISAの実装は、倫理的ガイドラインの必要性や、AI利用と学生機関の維持とのバランスなど、重要な洞察と課題を明らかにした。
ChatISAのすべてのコードはGitHubで公開されており、他の機関は、カリキュラム内で同様のAI駆動の教育ツールをカスタマイズし、統合することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:00:07 GMT)
Scale-Invariant Monocular Depth Estimation via SSI Depth [0.7] スケール不変単分子深度推定(SI MDE)の現在の手法は、タスクの複雑さのためにしばしば困難である。
本稿では,SSI入力を活用してSI深度推定を強化し,ネットワークの役割を合理化し,組込み一般化を容易にする手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:52:47 GMT)
Novel oracle constructions for quantum random access memory [0.6] 量子ランダムアクセスメモリのための新しい設計を提案する。
我々は、プロパティの始式であるMathcalO_f left| x rightrangle_n left| 0 rightrangle_d = left| x rightrangle_n left| f(x) rightrangle_d で、オラクルを$mathcalO_f$で構築する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:34:47 GMT)
A tutorial on fairness in machine learning in healthcare [0.6] 本チュートリアルでは,機械学習における公平性の共通概念について,医療情報化コミュニティを紹介する。
本稿では、医療におけるモデルが不公平である理由の概説を含む、MLにおける公平性を定義するための基本的な概念と方法について述べる。
我々は、総合的なグループフェアネス評価のためのユーザフレンドリーなRパッケージを提供し、研究者や臨床医が自身のMLワークにおけるフェアネスを評価することを可能にする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:41:30 GMT)
Computer Vision Approaches for Automated Bee Counting Application [0.6] 本稿では,2つのデータセットを数える自動蜂の3つの方法を比較する。
最も優れたパフォーマンスの方法は、BUT1データセットで87%、BUT2データセットで93%の精度を達成したResNet-50畳み込みニューラルネットワーク分類器に基づいている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:51:08 GMT)
Solving the Tree Containment Problem Using Graph Neural Networks [0.6] 木含量は、植物遺伝学において、提案された系統ネットワークを検証するのに有用な問題である。
本稿では,グラフニューラルネットワークを用いて大まかに解くことを提案する。
本アルゴリズムは,最大100個の葉を持つインスタンスにおける木封じ込め問題の解法において,95%以上の精度を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:20:40 GMT)
Structure Editor for Building Software Models [0.6] 93,000以上の新しいユーザーモデルに関する最近の調査によると、ユーザーは当初から問題を抱えている。
我々は,アロイの文法と型情報は,有効な公式を構成するための狭い経路を概説しているにもかかわらず,ユーザに対して受動的に伝達されると考えている。
本稿では,フリータイピングではなく,ブロックベースの入力でモデルを構築するアロイ用構造エディタのコンセプト実証について概説する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:21:02 GMT)
Analyzing Gender Polarity in Short Social Media Texts with BERT: The Role of Emojis and Emoticons [0.5] 我々は,絵文字とエモティコンがモデルの性能に与える影響を分類タスクで分析した。
つぶやきのような短いテキスト形式で、他のアカウントへの言及と並んで、これらの単語入力を使用することが、アカウント所有者の性別を検出することに影響を及ぼすことを示した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:23:59 GMT)
GluPredKit: Development and User Evaluation of a Standardization Software for Blood Glucose Prediction [0.5] GluPredKitは、血糖予測アルゴリズムのトレーニング、テスト、比較を標準化するために設計されたソフトウェアプラットフォームである。
この結果は、GluPredKitが標準化の課題に効果的に対応し、高いユーザビリティを提供することを示している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:23:05 GMT)
A Practical Protocol for Quantum Oblivious Transfer from One-Way Functions [0.5] 平板モデルにおける一方向関数に基づく新しいシミュレーションセキュアな量子オブリバスト転送(QOT)プロトコルを提案する。
実践的な実装に焦点をあてて、我々のプロトコルは、実現可能な実験的実現を約束する、これまでの効率性に勝っている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:39:56 GMT)
The Penalized Inverse Probability Measure for Conformal Classification [0.5] この研究は、Pinalized Inverse Probability(PIP)の非整合性スコアと、その正規化バージョンRePIPを導入し、効率性と情報性の両方を共同で最適化する。
この研究は、PIPに基づく共形分類器が、他の非整合性対策と比較して正確に望ましい振る舞いを示し、情報性と効率のバランスを保っていることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:37:16 GMT)
Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification [0.5] ラベルの弱い補助的なタスクは、学習した話者表現の質を高めることができることを示す。
また、GE2E(Generalized End-to-End Loss)をマルチモーダル入力に拡張し、オーディオ視覚空間における競合性能の実現を実証する。
我々のネットワークは,VoxCeleb1-O/E/Hテストセット上で,0.244%,0.252%,0.441%のEER(Equal Error Rate)を報告した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:08:24 GMT)
Embedding machine-learnt sub-grid variability improves climate model biases [0.4] 雲形成の下の表現は、気候シミュレーションに関連する長年の偏見である。
高分解能統一モデルシミュレーションで訓練された多出力ガウス過程(MOGP)を組み込むことで,これらのバイアスを克服する。
制御モデルとMLハイブリッドモデルの両方に対して10年間の予測が生成される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:35:58 GMT)
A Passwordless MFA Utlizing Biometrics, Proximity and Contactless Communication [0.4] 本稿では,ユーザの顔の生体認証をリアルタイムに活用する高度な認証手法を提案する。
BLE-NFC対応Androidデバイス上で,プロトタイプ認証システムを実装した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:58:25 GMT)
A Systematic Review of Generative AI for Teaching and Learning Practice [0.4] 高等教育におけるGenAIシステムの利用に関するガイドラインは合意されていない。
HEにおける学際的・多次元的な研究は、共同研究を通じて必要である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:16:27 GMT)
Research on Deep Learning Model of Feature Extraction Based on Convolutional Neural Network [0.3] AlexNetとInceptionV3はより優れた画像認識結果を得るために選択された。
トレーニングされたAlexNetモデルの予測精度、特異性、感度は4.25ポイント向上した。
グラフィックス処理の使用率は、InceptionV3モードと比較して51%減少した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:00:28 GMT)
Investigate the Performance of Distribution Loading with Conditional Quantum Generative Adversarial Network Algorithm on Quantum Hardware with Error Suppression [0.3] 本研究では、IBMの量子コンピューティングプラットフォームと統合されたFire Opalエラー抑制とAI回路最適化システムの有効性について検討した。
その結果, 条件量子生成逆数アルゴリズムが生成する時間依存分布を, シミュレータと比較すると30~40%改善できることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:21:43 GMT)
Prospects for NMR Spectral Prediction on Fault-Tolerant Quantum Computers [0.2] 核磁気共鳴分光法は顕著な分析ツールである。
原子磁気学の進歩により、この分光法は電磁界の強度よりはるかに低いものとなった。
これらのスペクトルをシミュレートするために、フォールトトレラント量子計算がいかに用いられるかを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:20:49 GMT)
Deep Transformer Network for Monocular Pose Estimation of Ship-Based UAV [0.2] トランスフォーマーニューラルネットワークモデルは、2Dキーポイントを検出し、各部分の6Dポーズを推定するように訓練される。
この手法は、船舶による無人無人無人航空機の着陸と航行に応用できる可能性がある。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:01:22 GMT)
Instruction Makes a Difference [0.2] Instruction Document Visual Question Answering (iDocVQA) データセットとLarge Language Document (LLaDoc) モデルを紹介する。
我々は、最近の最先端(SotA)Large Language and Vision Assistant(LLaVA)1.5をベースモデルとして、文書関連データセットのパフォーマンスを比較した。
また,Polling-based Object Probing Evaluation (POPE) データセットを用いて,対象幻覚の導出モデルの性能評価を行った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:28:37 GMT)
The Superconducting Quasiparticle-Amplifying Transmon: A Qubit-Based Sensor for meV Scale Phonons and Single THz Photons [0.2] SquaTs: 超伝導準粒子増幅トランスモン。
そこで本研究では,トランスモン量子ビットアーキテクチャと超伝導準粒子増幅器を併用した新しいセンサを提案する。
我々は、R&Dの最小限の労力で、これらのセンサーでパターン化された固体検出器は、単一のTHz光子に対する感度を達成し、mumathrms$タイムスケールの検出器吸収体基板における1,mathrmmeV$フォノンに対する感度を達成できると予測した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:59:40 GMT)
Weaponizing Disinformation Against Critical Infrastructures [0.2] 偽情報(disinformation)は、社会的な議論を支配しており、その有害な影響はより明確になっている。1月6日の米国議会議事堂攻撃やロヒンギャ虐殺のようなエピソードは、この現象がいかに武器化されたかを実証している。
本稿では,送電網を含む仮説シナリオ,交通管理への攻撃,XZ Utilsバックドアの3つのケーススタディを提示することにより,このギャップに対処する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:51:46 GMT)
$S^3$ -- Semantic Signal Separation [0.2] ニューラル埋め込み空間における理論駆動型トピックモデリング手法を提案する。
S3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。
我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:43:38 GMT)
Solving Fractional Differential Equations on a Quantum Computer: A Variational Approach [0.1] 本稿では, 時間-屈折偏微分方程式の解法として, 効率的な変分型量子古典アルゴリズムを提案する。
その結果, 解の忠実度は分数指数に不感であり, 勾配評価コストは時間ステップ数とともに経済的にスケールすることがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:27:16 GMT)
Simulations of distributed-phase-reference quantum key distribution protocols [0.1] 量子鍵配布プロトコルは、量子力学の法則によって保証されるセキュリティを持つ2人のユーザー間で秘密鍵を提供する。
我々は、これらのデバイスの実装を特徴付けるために、Interconnectプラットフォーム上でシミュレーションを行う。
本報告では, 盗難防止, バックフラッシュ攻撃, トロイの木馬攻撃, ディテクターブラディング攻撃など, デバイス不完全性を利用したいくつかの可能性について, 簡単な説明とシミュレーションを行った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:19:04 GMT)
Probing the quantum nature of gravity using a Bose-Einstein condensate [0.1] ボース・アインシュタイン凝縮体を用いてグラビトンによる騒音の影響について検討した。
ボース=アインシュタインが1つのモードで凝縮すると、振幅測定における不確実性の平方の期待値の低い境界は無限にはならない。
重力波によって誘導されるノイズのため、ボース・アインシュタイン凝縮体を用いて重力波を検出できない測定時間の最小値が存在する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:01:39 GMT)
Initial Guessing Bias: How Untrained Networks Favor Some Classes [0.1] 深層ニューラルネットワーク(DNN)の構造は、トレーニング開始前であっても、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す。
この現象の存在は,データセット前処理手法を含むモデル選択の影響を受けていることを実証する。
ノード置換対称性の分解や自己回避の違反など理論的な結果を強調した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:30:36 GMT)
Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.1] 我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。
ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:47:57 GMT)
Lightning-Fast Thunderstorm Warnings: Predicting Severe Convective Environments with Global Neural Weather Models [0.1] 最近リリースされたAI天気モデルのスイートは、数秒で複数の日中距離の予測を生成することができる。
従来のAIモデル評価は、主に単一レベルのグローバルスコアをターゲットにしている。
2020年の世界的なホットスポットの対流季節に焦点を当てて、私たちは3つのトップパフォーマンスAIモデルのスキルを評価します。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:46:03 GMT)
Research on Optimization of Natural Language Processing Model Based on Multimodal Deep Learning [0.0] 本研究の目的は,アテンション機構とマルチモーダルデータに基づく画像表現の研究である。
モデルに複数のパターン層を追加することで、画像コンテンツのセマンティック層と隠れ層が統合される。
ワードベクトルはWord2Vec法で定量化され、畳み込みニューラルネットワークを埋め込んだワードで評価される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:03:59 GMT)
Zoom and Shift are All You Need [0.0] マルチモーダル情報の完全統合を実現する機能アライメント手法を提案する。
提案手法は,異なるモダリティから派生した特徴間の高レベルな相互作用を確実に捉えることができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 07:09:41 GMT)
WildlifeReID-10k: Wildlife re-identification dataset with 10k individual animals [0.0] WildlifeReID-10kは、30の既存の野生生物の再識別データセットのコレクションである。
海産カメ、霊長類、鳥類、アフリカの草食動物、海産哺乳類、家畜など多様な動物を含む。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:15:07 GMT)
Wigner non-negative states that verify the Wigner entropy conjecture [0.0] 我々は、フォック状態 $|0rangle$ と $|1rangle$ によって形成される量子ビットに対するウィグナーエントロピー予想を証明する。
次に、一般混合状態を考え、ウィグナー非負性性に対する十分条件を導出する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:49:55 GMT)
Wigner function method for the Gibbons-Hawking and the Unruh effect [0.0] 膨張する宇宙と休んでいるオブザーバーは、量子真空の中で余分なノイズを経験する。
真空相関の周波数時間ウィグナー関数を用いて時間依存スペクトルを定義する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:20:24 GMT)
Why Warmup the Learning Rate? Underlying Mechanisms and Improvements [0.0] ディープラーニングでは、$eta_textinit = 0$と所定のターゲットである$eta_texttrgt$の間の線形スケジュールによって、学習率を$eta$にウォームアップすることが一般的である。
本稿では、SGDとAdamを用いた系統的な実験を通して、ウォームアップの圧倒的な利点は、ネットワークがより大きな$eta_texttrgt$を許容することにあることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:35 GMT)
Vertical LoRA: Dense Expectation-Maximization Interpretation of Transformers [0.0] 本稿では,トランスフォーマーをベイズネット上での高密度期待最大化アルゴリズムとして解釈する方法を示す。
本稿では,性能を保ちながらパラメータ数を劇的に削減する新しいモデル設計パラダイム,すなわちVertical LoRAを提案する。
その結果,1) VLoRAではトランスフォーマーモデルパラメータカウントが劇的に減少し,2)元のモデルの性能が保たれることがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:51:33 GMT)
Trainability issues in quantum policy gradients [0.0] 本研究では、強化学習における量子回路ベースのポリシーのトレーニング可能性について検討する。
急激な勾配と爆発を伴う標準バレン高原など,重要な課題が明らかとなった。
多くのアクションに対して、基底状態の連続的なパーティショニングが使用される場合、トレーニング可能なウィンドウを多数の測定で確保することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 22:45:13 GMT)
The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches [0.0] 本稿では,LLMに基づく評価と人間の評価との関連性について論じる。
本稿では,人間とLLMによる評価と組み合わせて活用できる包括的因子評価機構を提案する。
その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるか, より優れた洞察をもたらすことがわかった。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:13:40 GMT)
Taxonomy for Physics Beyond Quantum Mechanics [0.0] 本稿では、量子力学の解釈と、量子力学を修正または完全化するモデルを分類する用語を提案する。
この文書は、2022年のBonn Workshop on Superdeterminism and Retrocausalityでの議論から生まれた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:09:32 GMT)
Stochastic modeling of x-ray superfluorescence [0.0] X線自然発光と超蛍光のダイナミクスをモデル化する手法を提案する。
方程式は第一導出原理から導出され、刺激されたX線放射に特有の近似、ステップ、拡張が提示される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:48:53 GMT)
Steady-state work extraction from two coupled qubits embedded within equilibrium and non-equilibrium reservoirs [0.0] 2つの結合量子ビットの定常エルゴトロピーについて検討し、それぞれが個々のボソンやフェルミオン貯水池と局所的に相互作用することを示した。
ボーソンおよびフェルミオン貯水池内の結合量子ビットが対称である状況において, 最大作業が抽出されることが観察された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:39:38 GMT)
Spin excitations in Nd1-xSrxNiO2 and YBa2Cu3O7-delta: the influence of Hubbard U [0.0] Infinite-Layer nickelateの磁気励起のドーピング依存性と原型超伝導銅酸化物のドーピング依存性を比較した。
RIXSスペクトルの偏光解析は、どちらの場合も中赤外ピークの主スピンフリップ特性を確立する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:10:13 GMT)
Speed limits to the growth of Krylov complexity in open quantum systems [0.0] 我々は、散逸的開量子系におけるクリロフ複雑性の成長に普遍的な極限を導入する。
また、散逸系におけるランツォス係数の特性挙動に対するクリロフ複雑性の解析結果を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:01:41 GMT)
Spectroscopy of two-dimensional interacting lattice electrons using symmetry-aware neural backflow transformations [0.0] 本稿では格子対称性をNeural Slater-Backflow-Jastrow波動関数アンサテイズに埋め込むフレームワークを提案する。
我々は、我々のモデルが基底状態と低い励起状態をターゲットにする方法を実証する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:01:50 GMT)
Semiclassical descriptions of dissipative dynamics of strongly interacting Bose gases in optical lattices [0.0] 本研究では, 発散型Bose-Hubbard系の実時間力学を記述する手法を開発した。
我々は、離散的TWAアプローチが動的に連続的な量子ゼノ効果を定性的に捉えることができることを数値的に示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:56:53 GMT)
Scoreformer: A Surrogate Model For Large-Scale Prediction of Docking Scores [0.0] 分子ドッキングスコアを正確に予測するために設計された新しいグラフトランスフォーマモデルであるScoreFormerを提案する。
ScoreFormerはドッキングスコア予測の競争性能を達成し、既存のモデルに比べて1.65倍の推論時間削減を実現している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:31:02 GMT)
Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM) [0.0] 本研究では,文書スキューが3つの最先端マルチモーダルモデルのデータの抽出精度に与える影響について検討した。
モデル毎に安全な面内回転角(SIPRA)を同定し,スキューがモデル幻覚に及ぼす影響について検討する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:55:01 GMT)
Quantum statistics in the minimal scenario [0.0] 極端点の観点から、完全量子統計量の解析的記述を得る。
私たちの記述は、量子論の性質と限界に関する直接的な洞察を与えてくれる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:34:59 GMT)
Prediction of the Realisation of an Information Need: An EEG Study [0.0] 本研究は,質問応答(Q/A)タスクにおいて,14項目にわたる脳波データ内のINの実現を予測できる能力について検討した。
脳波データは、73.5%の精度で全被験者にわたるINの実現をリアルタイムに予測するのに十分である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:53:56 GMT)
Predicting Fault-Ride-Through Probability of Inverter-Dominated Power Grids using Machine Learning [0.0] インバータの大きな共有で将来の電力グリッドの動的安定性を予測する機械学習の可能性を分析する。
本研究では,合成電力グリッドの故障発生確率を,MLモデルで正確に予測できることを実証する。
また,MLモデルがIEEE-96テストシステムに一般化されることも示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 08:28:14 GMT)
Precise analysis of ridge interpolators under heavy correlations -- a Random Duality Theory view [0.0] EmphRandom Duality Theory (RDT) を用いて, 関心量の最適化に係わるすべての推定器の正確なクローズドな形状のキャラクタリゼーションが得られることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:56:52 GMT)
Pauli Noise Learning for Mid-Circuit Measurements [0.0] 中間回路計測(MCM)におけるパウリ雑音の学習理論について紹介する。
MCMをベンチマークするスケーラブルな方法であるMCMサイクルベンチマークの作成に使用しています。
提案手法は既存のパウリ雑音学習手法に統合され,MCMを含む幅広い回路の特性評価とベンチマークを行うことができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:35:16 GMT)
PCN: A Deep Learning Approach to Jet Tagging Utilizing Novel Graph Construction Methods and Chebyshev Graph Convolutions [0.0] ジェットタグは高エネルギー物理実験における分類問題である。
現在のアプローチでは、複雑な衝突データに隠れたパターンを明らかにするためにディープラーニングを使用している。
可能な限り多くの情報をエンコードするジェットのグラフベース表現を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:48:39 GMT)
Optimising finite-time photon extraction from emitter-cavity systems [0.0] 本研究では,エミッタキャビティシステムから有限時間単一光子抽出限界を求める手法を開発した。
これらの手法を用いて、有限時間光子抽出の限界とそれらを満たす波束を研究する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:16:57 GMT)
Optimal demonstration of generalized quantum contextuality [0.0] 本研究は、実際の非文脈ポリトープを含むポリトープを構築するための代替手法を提案する。
特に、このポリトープの面の不等式は、非文脈性に必要な条件である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:40:30 GMT)
Optimal Control of Agent-Based Dynamics under Deep Galerkin Feedback Laws [0.0] 本稿では,Deep Galerkin法が適用すべきサンプリング問題について検討する。
高分散政策近似の症状を軽減するためのドリフト緩和に基づくサンプリング手法を提案する。
結果として、手動で最適化された制御関数よりも大幅なコスト削減がもたらされ、線形量子レギュレータの問題が改善された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:10:57 GMT)
Opening the Black Box: predicting the trainability of deep neural networks with reconstruction entropy [0.0] 本稿では,ディープフィードフォワードニューラルネットワークのパラメータ空間におけるトレーニング可能な状態を予測する手法を提案する。
MNIST と CIFAR10 のどちらも,深層フィードフォワードネットワークのトレーニング性を予測するのに,訓練の1つのエポックが十分であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:00:05 GMT)
On the Measurement of the Unruh Effect Through Extended Quantum Thermometers [0.0] ウンルー効果は、加速系の熱貯水池を予測し、量子系を温度計として含む測定プロセスのより洗練された理解を求めている。
本研究では,スピンが温度指標として機能するスピン1/2粒子を用いた精密温度計モデルを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:51:45 GMT)
On the Expressibility of the Reconstructional Color Refinement [0.0] カラー精細アイソモーフィズムテストにおいて、デッキ内の部分グラフが同値となるとき、接続性は依然として決定可能であることを証明した。
このことは、リコンストラクション予測にインスパイアされた近年導入されたGNNアーキテクチャであるReコンストラクショングラフニューラルネットワークによって、接続性が認識可能であることを示唆している。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:38:26 GMT)
Neural networks in non-metric spaces [0.0] 我々は、入力空間と出力空間の広大なクラスに対して、いくつかの普遍近似定理を証明した。
ニューラルネットワークアーキテクチャは、任意の精度で「有限次元」サブスペースに投影可能であることを示す。
結果として得られるニューラルネットワークアーキテクチャは、関数データに基づく予測タスクに適用できる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:44:58 GMT)
Neural logic programs and neural nets [0.0] まず、(ブール)ニューラルネットの解集合セマンティクスを定義し、まず第一原理からニューラルネットワークプログラムのクラスを紹介し、ネットとプログラムが等価であることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:22:04 GMT)
Neural Bayes Estimators for Irregular Spatial Data using Graph Neural Networks [0.0] グラフニューラルネットワークを用いて任意の空間的位置から収集したデータからパラメータ点推定の問題に対処する。
ニューラルベイズ推定を不規則な空間データに拡張することに加えて、我々のアーキテクチャは相当な計算上の利点をもたらす。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 23:25:37 GMT)
Multiplexed Quantum Communication with Surface and Hypergraph Product Codes [0.0] 量子相互接続技術を介して複数のプロセッサを接続することは、単一プロセッサの量子コンピュータにおけるスケーラビリティの問題を克服するのに役立つ。
多重化は損失誤差を悪化させるが、インテリジェントな方法で光子に量子ビットを割り当てることで、これらの効果を最小化できることを示す。
この多重化技術は、量子通信や高次元のQuditシステムによるマルチモード量子メモリにも適用することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 05:54:28 GMT)
MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0] 本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 00:35:06 GMT)
Lower Bounds for Unitary Property Testing with Proofs and Advice [0.0] 本稿では,一元性検定における量子クエリの下位境界を証明するための新しい手法を提案する。
すべての得られる下限は$mathsfC$-testerで$mathsfC subseteq mathsfQMA(2)/mathsfqpoly$である。
我々は、$mathsfQMA(2) notsupset mathsfSBQP$と$mathsfQMA/mathsfqpolyの量子オラクルが存在することを示した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:55:24 GMT)
Logical Noise Bias in Magic State Injection [0.0] 物理レベルでの偏りのないノイズであっても、重要な位相(Z$)バイアスが論理ノイズにどのように生じるかを示す。
本手法は, 耐故障性プリミティブの全体的な性能だけでなく, 詳細なノイズ特性を評価するためのフレームワークを提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:11:47 GMT)
Limitations of Quantum Measurements and Operations of Scattering Type under the Energy Conservation Law [0.0] 本研究は, 保存法により, 達成可能な測定精度とユニタリ操作の精度が制限されていることを示す。
エネルギー保存則を満たす散乱過程を用いた量子測定の誤差に対する下界について述べる。
また、制御されたユニタリゲートのゲート忠実度の上界と系のエネルギー変動との関係を定量的に示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:02:25 GMT)
Learning conditional distributions on continuous spaces [0.0] 多次元単位箱上の条件分布のサンプルベース学習について検討する。
我々は2つの異なるクラスタリングスキームを用いる: 1つは固定ラディウス球に基づいており、もう1つは近接する近傍にある。
我々は,ニューラルネットワークのトレーニングに近接する手法を取り入れることを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:53:47 GMT)
Large Language Models as Software Components: A Taxonomy for LLM-Integrated Applications [0.0] 大規模言語モデル(LLM)が最近広く採用されている。自律エージェントやソフトウェア工学のツールとしての利用について調査している。
一方、LLMの統合されたアプリケーションは、LLMを利用してタスクを実行するソフトウェアシステムである。
本研究は,LLM統合アプリケーションに対する分類学を提供し,これらのシステムの解析と記述のためのフレームワークを提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:32:56 GMT)
Kinematics and Dynamics Modeling of 7 Degrees of Freedom Human Lower Limb Using Dual Quaternions Algebra [0.0] 本稿では、2重四元数理論を利用して、フォワード・逆運動学とニュートン・オイラー力学アルゴリズムの高速かつ正確な解を提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:27:59 GMT)
Khmer Semantic Search Engine: Digital Information Access and Document Retrieval [0.0] そこで本研究では,Khmer Semantic Search Engine (KSE) を提案する。
キーワード抽出とセマンティック検索マッチングに基づく2つのセマンティック検索フレームワークを提案する。
検索項のセマンティクスの理解がより正確な結果をもたらすことを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:58:02 GMT)
Investigating writing style as a contributor to gender gaps in science and technology [0.0] 文章のスタイルは性別によって大きく異なり、女性はより関連性のある特徴を用いている。
より関連性の高い論文や特許も女性によって引用される傾向にある。
以上の結果から, 科学的テキストは人格を欠くものではないことが示唆され, 評価のバイアスに寄与する可能性が示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 21:04:26 GMT)
Interpolating gauge-fixing for Yang-Mills-Chern-Simons theory in D=3 [0.0] ミンコフスキー時空におけるヤン・ミルズ・チャーン・サイモンズ理論はゲージ固定スキームで研究されている。
理論の紫外有限性は、ベッチ・ルー・ストーラ(英語版)(BRS)代数的再正規化法(英語版)によって証明される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:11:11 GMT)
Injecting Combinatorial Optimization into MCTS: Application to the Board Game boop [0.0] Combinatorial OptimizationとMonte Carlo Tree Searchを効率的に組み合わせることができる。
我々の手法はモンテカルロ木探索アルゴリズムのベースラインの96%を上回りました。
我々は,ボードゲームアリーナプラットフォーム上での人間プレイヤーに対するAI手法に反対した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:55:08 GMT)
IMPACT: Integrated Bottom-Up Greenhouse Gas Emission Pathways for Cities [0.0] IMPACT経路は、技術導入ポリシーとゾーン政策、気候変動、グリッド脱炭シナリオを統合する。
スプロールの排出プレミアムを特定し、時間とともにリバウンドする排出を示す有害な政策の組み合わせが存在することを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:32:25 GMT)
How Decentralization Affects User Agency on Social Platforms [0.0] 本研究は,園芸プラットフォームへの代替モデルとして,分散化が約束を果たす可能性について考察する。
本稿では,ブロックによるユーザ主導型コンテンツモデレーションを,分散型ソーシャルプラットフォームであるBluesky上のエージェンシー表現として記述する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:15:15 GMT)
Hermitian stochastic methodology for X-ray superfluorescence [0.0] 最近導入されたX線自発放射の力学をモデル化するための理論的枠組みは、量子エミッタの密度行列と放射場のサンプリングに基づいている。
第一原理に基づいて、価値ある理論的な洞察を与える一方で、元の微分方程式は分岐と数値的不安定性を示す。
ここでは、コンポーネントを摂動的に考慮し、この問題を解決する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:28:44 GMT)
Hamiltonian Forging of a Thermofield Double [0.0] 熱場二重状態 (TFD) の変分準備を, ヒルベルト空間上に作用する適切に設計されたハミルトニアンの基底状態として扱う。
エンタングルメント鍛造アンザッツを用いて,幅$N$の回路のみを含む解を提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:12:02 GMT)
Generating QES potentials supporting zero energy normalizable states for an extended class of truncated Calogero Sutherland model [0.0] ここでは、QESポテンシャル系の正則ゼロエネルギー正規化解が存在するという別の証拠を示す。
結合パラメータを制限することで、各ケースを別々に扱う。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:27:15 GMT)
Fundamental Limits of Feedback Cooling Ultracold Atomic Gases [0.0] 量子フィードバック制御による超低温原子ガスの冷却可能性について検討する。
本研究は,光学画像技術の分解能と破壊性との間のトレードオフが,フィードバック冷却の有効性に制約を課していることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:00:24 GMT)
From an Integrated Usability Framework to Lessons on Usability and Performance of Open Government Data Portals: A Comparative Study of European Union and Gulf Cooperation Council Countries [0.0] 本研究では,Open Government Data (OGD)ポータル評価のための統合ユーザビリティフレームワークを提案する。
この枠組みは欧州連合(EU)と湾岸協力理事会(GCC)の33のOGDポータルに開発され、適用されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:05:36 GMT)
Free-space quantum information platform on a chip [0.0] 本稿では、位相アレーと波面工学の動作原理を量子場に一般化する量子位相アレーを紹介する。
集積フォトニック電子システムは、自由空間量子情報を操作するために使われ、再構成可能な無線量子リンクを確立する。
このような堅牢でスケーラブルで統合された量子プラットフォームは、高い接続性を持つ量子技術の広範な展開を可能にする。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:20:22 GMT)
Exploring thermal equilibria of the Fermi-Hubbard model with variational quantum algorithms [0.0] 本研究では, 化学ポテンシャルを持つフェルミ・ハバードモデルの熱特性について検討した。
本研究では,Fermi-Hubbardモデルの熱特性のシミュレーションにおける変分アルゴリズムの可能性を示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:58:49 GMT)
Exploring Syntactic Patterns in Urdu: A Deep Dive into Dependency Analysis [0.0] 依存性解析のアプローチは、Urduのような秩序のない言語に適している。
依存タグセットは、ウルドゥー語の複雑な形態構造を慎重に考慮した設計である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:30:32 GMT)
Exact Correlation Functions for Dual-Unitary Quantum circuits with exceptional points [0.0] 双対ユニタリ量子回路を例外点で構築する逆手法を提案する。
固有ベクトルの結果として、相関関数は指数関数の変形を示す。
相関関数の挙動はラテンポス変換によって異なることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 03:17:59 GMT)
Entanglement dynamics and eigenstate correlations in strongly disordered quantum many-body systems [0.0] 我々は、強い乱れ、相互作用する量子系の動的固有状態相関の観点から、絡み合いの顕微鏡理論を示す。
これらの時間スケールの階層構造と非自明な分布は、絡み合いの時間的成長において対数論を生み出すことを示唆する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:07 GMT)
Emergence of superradiance in dissipative dipolar-coupled spin systems [0.0] この研究は、散逸性双極子カップリング系が、双極子カップリングの非分子部分によって支援される同一の集合散逸を示すことを示している。
本結果は, 種々の系で実験的に観察された純スピン超放射能の標準結果とよく一致した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:29:07 GMT)
Elastic scattering on a quantum computer [0.0] 量子コンピュータ上での短距離相互作用に対する2粒子弾性散乱位相シフトを計算する。
シュミット分解(Schmidt decomposition)は、名目上数量子ビットを2量子ビット回路に還元するために用いられる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:31:38 GMT)
Effect of measurements on quantum speed limit [0.0] 連続的な測定では、量子系の輸送速度はゼロになる傾向がある。
小さな時間スケールでは、測定強度が有限であっても量子速度が増大する。
我々の発見は、量子コンピューティングと量子制御に応用でき、ダイナミクスはユニタリプロセスと測定プロセスの両方で制御される。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 11:14:22 GMT)
DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks [0.0] 本研究では,AI生成画像と人間生成画像とを区別するLVLM(Large Vision-Language Models)の能力を評価する。
この評価のための新しい自動ベンチマーク構築手法を導入する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:46:22 GMT)
Correlating two qubits via common cavity environment [0.0] 一対の量子ビット間の量子絡み合いの生成は空洞QEDプラットフォームで研究される。
量子-光子カップリングの相対強度は、量子間絡みの確立に不可欠である。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:53:05 GMT)
Cooperative decay of an ensemble of atoms in a one-dimensional chain with a single excitation [0.0] 原子-原子相互作用グリーン関数の固有値問題なしで自然に超放射と準放射が生じる。
協調崩壊速度は、系の有効非エルミート・ハミルトニアンの期待値の想像上の部分と解釈できる。
格子定数dと原子番号Nの関数として、協調減衰率の簡単な近似式を得る。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 06:41:43 GMT)
Cooperative Evolutionary Pressure and Diminishing Returns Might Explain the Fermi Paradox: On What Super-AIs Are Like [0.0] 道徳に対する進化的アプローチは、協力の問題への適応として説明できる。
物質資源へのアクセスの増加による利益の減少は、全体として、銀河全体を植民地化する動機がない可能性を示唆している。
また、各実体が一定の空間を占有するため、数学的理由から指数的植民地化や複製はできないことも注目されている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:12:24 GMT)
Consistency and Causality of Interconnected Nonsignaling Resources [0.0] 本稿では、局所的に配線できる独立した非署名リソースを共有できる$m$のネットワークについて検討する。
このようなネットワークで発生する確率分布を研究するための特定のフレームワークを提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:10:18 GMT)
Casimir energy of $N$ $δ$-plates with constant conductivity [0.0] N$$delta$-function plateのカシミールエネルギーは、複数の散乱パラメータ$Delta$に依存する。
この$N$体間相互作用は、N-1$の分割とその置換に基づく近接散乱と隣り合う隣り合う隣りの散乱との2つの体間相互作用に分配された。
また、完全な磁気伝導体と複数導電率$delta$プレートの間のカシミール相互作用について検討し、ボイジャーの反発をもたらす。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:26:14 GMT)
Can Social Ontological Knowledge Representations be Measured Using Machine Learning? [0.0] 個人社会オントロジー(個人社会オントロジー、英: Personal Social Ontology、PSO)とは、個人が用語の存在論的性質をどう知覚するかをいう。
我々は、社会心理学と社会文学が、個人の社会神経科学の主要な特徴と考えられる社会概念のリストに到達したと考えている。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:31:31 GMT)
CGP++ : A Modern C++ Implementation of Cartesian Genetic Programming [0.0] カルテシアン遺伝プログラミング(CGP)の参照実装はC言語で記述された。
本稿では,オブジェクト指向設計と汎用プログラミングパラダイムを追求するCGPのC++実装を初めて提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:22:08 GMT)
Bose-Hubbard model with a single qubit [0.0] 量子多体系の基底状態エネルギーの計算は1次元Bose-Hubbardモデルを用いて行う。
IBM Quantumハードウェア上で実行される計算についても紹介する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:52:10 GMT)
Boosting information transfer in a quantum correlated medium [0.0] 既存の量子通信プロトコルは、一般的に送信者と受信者の間で共有された絡み合った状態に基づいている。
エンタングルメント分布を伴わない量子相関媒質で情報伝達を促進できることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 16:16:59 GMT)
Bioptic -- A Target-Agnostic Efficacy-Based Small Molecules Search Engine [0.0] 我々は,標的に依存せず有効性に基づく分子探索モデルを開発した。
超大型の40B Enamine REALライブラリを100%リコールレートでスクリーニングした。
我々は、新しい分子の速度性能と検索品質の両面において、我々のモデルと最先端モデルのベンチマークを行った。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:53:29 GMT)
Bayesian Inference of General Noise Model Parameters from Surface Code's Syndrome Statistics [0.0] 表面符号のテンソルネットワークシミュレータを統合する一般雑音モデルベイズ推論法を提案する。
雑音パラメータが一定であり変化しない定常雑音に対しては,マルコフ連鎖モンテカルロに基づく手法を提案する。
より現実的な状況である時間変化ノイズに対しては、シーケンシャルなモンテカルロに基づく別の手法を導入する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 10:26:04 GMT)
Asymptotic Birkhoff-Violation in Operational Theories: Thermodynamic Implications and Information Processing [0.0] 有名なバーホフ=ヴォン・ノイマンの定理は、ランダム性の源泉が研究中のシステムに対する可逆的操作の応用であることを証明している。
ここでは、この研究を量子力学を超えて、一般的な確率論の枠組みの中で記述されたより広範な操作理論のクラスに拡張する。
GPTにおけるバーホフ違反は、量子論に非典型的な結果をもたらす可能性があることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:38:43 GMT)
Approximate quantum error correcting codes from conformal field theory [0.0] 局所的デファス化チャネル下での汎用1+1D CFT符号について検討する。
連続対称性を持つCFT符号が共変符号の回復忠実度の境界を飽和させることを示す。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 19:40:36 GMT)
An attractive way to correct for missing singles excitations in unitary coupled cluster doubles theory [0.0] 本研究は,多体理論において,低次摂動から欠落した単一励起が回復できる範囲について検討する。
我々の分析は、有限次 UCC エネルギー汎関数の導出を含む。
以上より, UCCDの術後摂動補正によりUCCDを増大させると, UCCSD品質が向上する可能性が示唆された。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 14:36:15 GMT)
An AI Architecture with the Capability to Explain Recognition Results [0.0] 本研究は、説明可能性に対するメトリクスの重要性に焦点をあて、性能向上をもたらす2つの方法に貢献する。
第1の方法は説明不能なフローと説明不能なフローの組み合わせを導入し、意思決定の説明容易性を特徴づける指標を提案する。
第2の方法は、システム内のニューラルネットワークの有効性を推定するための古典的なメトリクスを比較し、新しいメトリックをリードパフォーマーとして振る舞う。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 02:00:13 GMT)
After the Breach: Incident Response within Enterprises [0.0] 本稿では,自動攻撃調査を行うシステムについて紹介する。
これらのシステムで直面する課題について議論し、それらの課題に対処する効果、実用性、能力について比較する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 15:38:51 GMT)
A robust statistical framework for cyber-vulnerability prioritisation under partial information in threat intelligence [0.0] この研究は、サイバー脆弱性に関する不確実性の下で、定量的および質的な推論のための頑健な統計的枠組みを導入する。
我々は,既存の脆弱性の集合全体の部分的知識の下で,ばらつきのランクに適合する新しい精度尺度を同定する。
本稿では,サイバー脆弱性に関する部分的知識が,運用シナリオにおける脅威インテリジェンスと意思決定に与える影響について論じる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 23:12:58 GMT)
A photon-interfaced ten qubit quantum network node [0.0] 我々は、個々の物質量子ビットを10のレジスタに、別々の移動光子に絡み合わせる。
それぞれの光子を検出する平均確率9.1(8)%に対して、平均イオン光子ベル状態忠実度92(1)%を達成する。
この技術は、より大きなイオン量子ビットレジスタに直接拡張可能であり、トラップされたイオン量子プロセッサの分散ネットワーク、アレイ、クロックの短期的可能性を開く。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 12:05:19 GMT)
A Symbolic Computing Perspective on Software Systems [0.0] シンボリック数学計算システムは、60年以上にわたって、ソフトウェアシステムの石炭鉱山の運河として機能してきた。
主要な記号的数理計算システムには、算術、メモリ管理、その他のプリミティブのための低レベルコード、bespokeプログラミング言語のコンパイラまたはインタプリタ、高レベルの数理アルゴリズムのライブラリ、ユーザーインターフェースなどが含まれる。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 13:10:47 GMT)
A New Generation of Intelligent Development Environments [0.0] プログラミングの実践は、AI支援開発(コパイロット)の導入と、新しいプログラミング言語の作成によって、革命を遂げている。
本稿では,統合開発環境を統合開発環境からインテリジェント開発環境へ転換するビジョンを提案する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 20:33:25 GMT)
A More Practical Approach to Machine Unlearning [0.0] 機械学習は、訓練されたモデルから特定のデータポイントの影響を取り除く能力である。
GPT-2の埋め込み層は効果的なアンラーニングに不可欠である。
ファジィマッチング技術はモデルを新しい最適に移行し、反復的アンラーニングはより完全なモダリティを提供する。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:06 GMT)
A Large Language Model Pipeline for Breast Cancer Oncology [0.0] 最先端のOpenAIモデルは、2つの重要ながん治療因子に対する臨床データセットと臨床ガイドラインテキストコーパスに基づいて微調整された。
乳癌に対するアジュバント放射線療法と化学療法の分類において高い精度(0.85+)が得られた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 18:48:17 GMT)
A Document-based Knowledge Discovery with Microservices Architecture [0.0] 我々は、知識発見の文脈における重要な課題を指摘し、データベースアーキテクチャを用いてこれらに対処するためのアプローチを提示した。
提案手法は,キーワード抽出,文書の計算,自然言語の類似性,抽出した情報の言語に依存しない提供に焦点をあてた概念設計へと導いた。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 09:28:31 GMT)
A Deep Learning Approach to Detect Complete Safety Equipment For Construction Workers Based On YOLOv7 [0.0] 本研究では,建設作業員が着用する安全装置を同定する深層学習技術を提案する。
推奨されるアプローチは、YOLO v7オブジェクト検出アルゴリズムを使用して、これらの安全アイテムを正確に検出する。
トレーニングされたモデルでは,安全機器認識のための精度,リコール,F1スコアが良好に動作した。
論文参考訳(メタデータ) (Thu, 13 Jun 2024 04:51:11 GMT)