Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context [645.3] 本稿では,次世代の計算効率の高いマルチモーダルモデルであるGemini 1.5モデルについて紹介する。
ファミリーには2つの新しいモデルが含まれている: (1) アップデートされたGemini 1.5 Proは、機能とベンチマークの大部分で2月バージョンを超え、(2) Gemini 1.5 Flashは、品質の最小限の回帰で効率よく設計された、より軽量な派生型である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:14:10 GMT)
Language models scale reliably with over-training and on downstream tasks [121.7] スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 20:21:05 GMT)
EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.9] 引用ベースのQAシステムは2つの欠点に悩まされている。
彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。
システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:40:38 GMT)
Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.9] 大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:40:52 GMT)
SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3] LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:52:21 GMT)
L4GM: Large 4D Gaussian Reconstruction Model [99.8] 単視点ビデオ入力からアニメーションオブジェクトを生成する最初の4次元大規模再構成モデルであるL4GMを提案する。
私たちの成功の鍵は、キュレートされたレンダリングされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:51:18 GMT)
CHIRON: Rich Character Representations in Long-Form Narratives [98.3] 文字のテキスト情報を整理・フィルタリングする新しい文字シートの表現であるCHIRONを提案する。
実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。
CHIRONから派生したメトリクスは、ストーリーのキャラクター中心性を自動的に推測するために使用することができ、これらのメトリクスは人間の判断と一致している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:23:57 GMT)
Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0] 本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:13:39 GMT)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.2] VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:00:00 GMT)
Efficient Prompting for LLM-based Generative Internet of Things [88.8] 大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示す。
本稿では,テキストベースの生成IoT(GIoT)システムを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:24:00 GMT)
On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.5] Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:37:52 GMT)
Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.8] 本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。
BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。
我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:32:43 GMT)
On Context Utilization in Summarization with Large Language Models [83.8] 大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:26:19 GMT)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.2] 本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:22:26 GMT)
VideoGUI: A Benchmark for GUI Automation from Instructional Videos [79.0] VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:59:08 GMT)
FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.8] ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:19:51 GMT)
The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.7] プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:41:06 GMT)
From Pixels to Prose: A Large Dataset of Dense Image Captions [77.0] PixelProseは、合成されたキャプション16万あまりの包括的データセットである。
データ整合性を確保するため、問題のあるコンテンツのデータセットを厳格に分析します。
また、透かしの存在や美的スコアなどの貴重なメタデータも提供します。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:59:53 GMT)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.9] 我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:59:40 GMT)
Self-Play Preference Optimization for Language Model Alignment [75.8] 近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:57:01 GMT)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.8] 大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:32:19 GMT)
StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models [74.9] ToolBenchから進化したベンチマークであるStableToolBenchを紹介します。
仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。
安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:19:56 GMT)
Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [73.5] AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:42:38 GMT)
To what extent can ASV systems naturally defend against spoofing attacks? [73.1] 本研究は, ASV がスプーフィング攻撃に対して頑強に堅牢性を得るか否かを考察する。
ASVの進化は本質的にスプーフ攻撃に対する防御機構を組み込んでいることを実証する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:51:16 GMT)
Localizing Events in Videos with Multimodal Queries [71.4] マルチモーダルクエリによるビデオ内のイベントのローカライズのための新しいベンチマークICQを導入する。
4種類の参照イメージと5種類のリファインメントテキストが含まれており、異なるドメインにわたるモデルパフォーマンスを探索することができます。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:35:58 GMT)
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.3] 大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:07:27 GMT)
Rethinking the Evaluation of Out-of-Distribution Detection: A Sorites Paradox [70.6] 既存のアウト・オブ・ディストリビューション(OOD)検出ベンチマークは、サンプルを新しいラベルでOODデータとして分類する。
いくつかの限界OODサンプルは、実際には分布内(ID)サンプルに密接なセマンティック内容を持ち、OODサンプルをソリテスパラドックス(英語版)と判定する。
この問題に対処するため,Incremental Shift OOD (IS-OOD) というベンチマークを構築した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:27:56 GMT)
NeuralClothSim: Neural Deformation Fields Meet the Thin Shell Theory [70.1] 薄型シェルを用いた新しい擬似布シミュレータであるNeuralClothSimを提案する。
メモリ効率の高い解法は、ニューラル変形場と呼ばれる、新しい連続座標に基づく表面表現で動作する。
NDFは、変形の詳細にキャパシティを割り当て、2)任意の空間解像度でのサーフェスステートクエリを、再トレーニングせずに許容する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:21:39 GMT)
Selecting Interpretability Techniques for Healthcare Machine Learning models [69.7] 医療では、いくつかの意思決定シナリオにおいて、医療専門家を支援するために解釈可能なアルゴリズムを採用することが追求されている。
本稿では, ポストホックとモデルベースという8つのアルゴリズムを概説する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:49:04 GMT)
RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.7] RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:09:49 GMT)
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs [68.6] 金魚の喪失と呼ばれる次の訓練目標に微妙な修正を加える。
トレーニング中、ランダムにサンプリングされたトークンのサブセットは損失計算から除外される。
これらのドロップトークンはモデルによって記憶されないため、トレーニングセットから完全なトークンの連鎖を冗長に再現することができない。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:44:22 GMT)
Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights [67.7] 大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:42:47 GMT)
GenQA: Generating Millions of Instructions from a Handful of Prompts [67.5] ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。
本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。
我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:44:08 GMT)
Secure Aggregation is Not Private Against Membership Inference Attacks [66.6] フェデレーション学習におけるSecAggのプライバシーへの影響について検討する。
SecAggは、単一のトレーニングラウンドであっても、メンバシップ推論攻撃に対して弱いプライバシを提供します。
以上の結果から,ノイズ注入などの付加的なプライバシー強化機構の必要性が浮き彫りになった。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:57:53 GMT)
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.3] ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:23:53 GMT)
OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.0] OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:16:18 GMT)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.5] アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:18:18 GMT)
Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.3] 本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:39:43 GMT)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.6] VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:59:01 GMT)
An Intrinsic Vector Heat Network [64.6] 本稿では,3次元に埋め込まれた接ベクトル場を学習するためのニューラルネットワークアーキテクチャを提案する。
本研究では, ベクトル値の特徴データを空間的に伝播させるために, トレーニング可能なベクトル熱拡散モジュールを提案する。
また,四面体メッシュ生成の産業的有用性に対する本手法の有効性を実証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:40:31 GMT)
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages [64.1] SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。
私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:23:39 GMT)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.3] ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:38:50 GMT)
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.1] 本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:49:55 GMT)
A Primal-Dual-Assisted Penalty Approach to Bilevel Optimization with Coupled Constraints [60.9] We developed a BLOCC algorithm to tackle BiLevel Optimization problems with Coupled Constraints。
2つのよく知られた実世界のアプリケーションでその効果を実証する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:59:36 GMT)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.5] 本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:37:24 GMT)
BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.0] 本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:39:19 GMT)
Datasets for Multilingual Answer Sentence Selection [59.3] ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:50:29 GMT)
PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.3] 本稿では,現在のアプローチよりも優れた空間感性プルーニングスコアを提案する。
また,事前学習した任意の3D-GSモデルに適用可能なマルチラウンドプルーファインパイプラインを提案する。
我々のパイプラインは、3D-GSの平均レンダリング速度を2.65$times$で増加させ、より健全なフォアグラウンド情報を保持します。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:53:55 GMT)
Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design [58.5] 本稿では, 現実的な応用を目指して, 難聴者のための覚醒語スポッティング(WWS)タスクについて述べる。
我々は,家庭環境における変形性個人を対象としたデータセットであるMandarin Dysarthria Speech Corpus (MDSC) をオープンソースとしてリリースした。
また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示すカスタマイズ型変形性WWSシステムの開発を行った。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:06:55 GMT)
LAVIB: A Large-scale Video Interpolation Benchmark [58.2] LAVIBは、Webから自動パイプラインを通じてソースされる高解像度ビデオの大規模なコレクションで構成されている。
各ビデオの運動の大きさ、輝度条件、フレームのシャープネス、コントラストについてメトリクスが計算される。
LAVIBには17KのUltra-HDビデオから283Kのクリップが含まれ、77.6時間に及ぶ。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:44:01 GMT)
Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.2] 我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:28:03 GMT)
CinePile: A Long Video Question Answering Dataset and Benchmark [58.1] 現在のロングフォームビデオ理解のためのデータセットは、真のロングフォーム理解の課題を提供するのに足りていないことが多い。
我々は、CinePileという新しいデータセットとベンチマークを提示する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:59:34 GMT)
Bayesian Learning for Deep Neural Network Adaptation [57.7] 音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:25:27 GMT)
DeltaPhi: Learning Physical Trajectory Residual for PDE Solving [54.1] 我々は,物理軌道残差学習(DeltaPhi)を提案し,定式化する。
既存のニューラル演算子ネットワークに基づく残差演算子マッピングのサロゲートモデルについて学習する。
直接学習と比較して,PDEの解法には物理残差学習が望ましいと結論づける。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:45:07 GMT)
D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.8] 本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:35:44 GMT)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.3] 大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:16:18 GMT)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [53.0] 本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:17:17 GMT)
Shelf-Supervised Multi-Modal Pre-Training for 3D Object Detection [52.7] 組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
画像ベースシェルフスーパービジョンは,LiDARのみおよびマルチモーダル(RGB + LiDAR)検出器のトレーニングに有効であることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:21:57 GMT)
Towards Scalable and Versatile Weight Space Learning [51.8] 本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:12:07 GMT)
On Softmax Direct Preference Optimization for Recommendation [50.9] 我々は,LMをベースとした推薦者が好む項目と好ましくない項目を区別するのを支援するために,ランキング情報をLMに挿入するソフトマックスDPOを提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:22:58 GMT)
Knowledge Editing in Language Models via Adapted Direct Preference Optimization [50.6] 大きな言語モデル(LLM)は、時間とともに時代遅れになる可能性がある。
知識編集は、高価なリトレーニングを必要としないウェイトアップデートを使用して、この課題を克服することを目的としている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:02:21 GMT)
IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [50.4] 本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。
インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。
人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:51:21 GMT)
Run LoRA Run: Faster and Lighter LoRA Implementations [50.3] LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:36:45 GMT)
Adaptive Robust Learning using Latent Bernoulli Variables [50.2] 破損したトレーニングセットから学習するための適応的なアプローチを提案する。
我々は,潜伏したベルヌーイ変数を持つ崩壊した非破壊標本を同定した。
結果の問題は変分推論によって解決される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:19:30 GMT)
A Fundamental Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.0] 汎用言語モデルとその整列バージョンが与えられた場合、一般的な言語モデルの下では、平均報酬と平均ログライクな文字列の間にトレードオフが存在する。
この問題を形式的に処理し、サンプリングアダプタの選択が、報酬と交換する可能性の選択を可能にすることを実証する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:38:21 GMT)
Self-Distilled Disentangled Learning for Counterfactual Prediction [49.8] 我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:30:22 GMT)
A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [49.8] 現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:52:27 GMT)
Stimulated emission of virtual photons: Energy transfer by light [49.2] エネルギー移動過程は、仮想光子の放出によるものと見なすことができる。
仮想光子の放出とエネルギー移動は、光子の密接な存在によって促進されることを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:04:24 GMT)
Future Directions in the Theory of Graph Machine Learning [49.0] グラフ上の機械学習、特にグラフニューラルネットワーク(GNN)を使用すると、グラフデータが広く利用できるため、関心が高まっている。
実際の成功にもかかわらず、GNNの特性に関する理論的理解は非常に不完全である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:54:12 GMT)
BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.1] 両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:49:12 GMT)
HiP Attention: Sparse Sub-Quadratic Attention with Hierarchical Attention Pruning [47.8] HiP(Hierarchically Pruned Attention)はトレーニング時間と推論時間の複雑さを同時に$O(T2)$から$O(T2)$に下げる。
HiPはトレーニングなしで、トレーニング済みのアテンションスコアのみを使用して、クエリ毎に上位の$k$の最も重要な要素の位置を検出する。
さまざまな実世界のベンチマークの実験では、HiPはプロンプト(例えばプリフィル)とデコード遅延とメモリ使用量を大幅に削減する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:32:45 GMT)
IGL-Bench: Establishing the Comprehensive Benchmark for Imbalanced Graph Learning [47.3] IGL-Benchは、不均衡グラフ学習のための包括的なベンチマークである。
ノードレベルおよびグラフレベルのタスクにおける有効性、堅牢性、効率性の観点から、最先端のIGLアルゴリズムについて検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:30:18 GMT)
Guided Discrete Diffusion for Electronic Health Record Generation [47.1] EHRは、病気の進行予測、臨床試験設計、健康経済学と結果研究など、多くの計算医学の応用を可能にする中心的なデータソースである。
幅広いユーザビリティにもかかわらず、その繊細な性質はプライバシーと秘密の懸念を高め、潜在的なユースケースを制限する。
これらの課題に対処するために,人工的かつ現実的なEHRを合成するための生成モデルの利用について検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:36:03 GMT)
MoME: Mixture of Multimodal Experts for Cancer Survival Prediction [46.5] 生存分析は、難しい課題として、全体スライド画像(WSI)とゲノムデータを総合的な意思決定のために統合する必要がある。
従来の手法ではコアテンション(co-attention)方式が用いられており、この手法は両方のモダリティから特徴を分離した後にのみ融合する。
符号化と融合を同時に行うBiased Progressive Clever(BPE)パラダイムを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:44:33 GMT)
In-Context Reinforcement Learning for Variable Action Spaces [46.3] Headless-ADは、可変サイズ、セマンティックコンテンツ、順序の離散的なアクション空間に一般化することができる。
我々は、ヘッドレスADは、これまでに遭遇したことのないアクション空間に一般化する重要な能力を示すことを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:42:43 GMT)
Long-Tailed 3D Detection via 2D Late Fusion [45.8] Long-Tailed 3D Object Detection (LT3D) は、一般的なクラスと稀なクラスの両方からオブジェクトを正確に検出する問題に対処する。
本研究では,2次元・3次元RGB検出器の訓練方法,3次元におけるRGBおよびLiDAR検出の整合性,融合のために投影された2次元画像平面の融合性,マッチング検出の融合性について検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:26:31 GMT)
Bootstrapping Language Models with DPO Implicit Rewards [45.7] 直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。
本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。
DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:57:18 GMT)
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation [45.3] Whisperのような音声モデルは、数十万時間のデータで訓練されているため、より良い音声からテキストへのデコーダを学ぶことができる。
本稿では,Whisper音声認識と翻訳モデルに視覚的特徴を統合するWhisper-Flamingoを提案する。
音声視覚のWhisper-Flamingoは、雑音の多い6言語に対する英語音声認識とEn-X翻訳において、オーディオのみのWhisperよりも優れています。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:36:54 GMT)
COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning [45.3] 大規模言語モデル(LLM)に音声を統合するコスト効率のよい手法を提案する。
教師あり指導のための音声書き起こしから音声テスト質問応答(SQA)ペアを生成する。
3000万以上のトレーニング可能なパラメータで、COSMICは命令追従およびコンテキスト内学習の新たな能力を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:57:13 GMT)
Xi-Net: Transformer Based Seismic Waveform Reconstructor [45.0] 地震波形のギャップは、さらなる信号処理を妨げ、貴重な情報を得る。
本稿では,複数面時間と周波数領域入力を用いた変換器を用いた深層学習モデルXi-Netを提案する。
我々の知る限りでは、これは地震波形再構成のためのトランスフォーマーに基づく最初のディープラーニングモデルである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:34:13 GMT)
Open-Vocabulary Calibration for Fine-tuned CLIP [44.8] 微調整視覚言語モデル(VLM)の信頼性校正問題は、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。
本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することにより,ギャップを埋める。
本稿では,予測されたテキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づく,DAC(Distance-Aware)と呼ばれるシンプルで効果的なアプローチを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 01:26:05 GMT)
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.4] 我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:52:35 GMT)
Three-Receiver Quantum Broadcast Channels: Classical Communication with Quantum Non-unique Decoding [44.4] ネットワーク通信では、デコードされた情報に基づいて受信者間に階層構造が存在する。
この階層は、特定の受信機のための高品質なビデオなど、様々な情報品質をもたらす可能性がある。
我々は、2段と3段の劣化したメッセージセットを持つ3段の量子放送チャンネルを探索する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:07:53 GMT)
Forgetting Order of Continual Learning: Examples That are Learned First are Forgotten Last [44.3] 破滅的な忘れ物は、継続的な学習において重要な課題となる。
早期に学んだ例は、ほとんど忘れられませんが、後で学んだ例は、忘れることにより敏感です。
我々はGoldilocksを紹介した。これは新しいリプレイバッファサンプリング手法で、学習したサンプルを高速あるいは遅すぎるとフィルタリングし、学習を中間的な速度で維持する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:31:12 GMT)
LGB: Language Model and Graph Neural Network-Driven Social Bot Detection [43.9] 悪意のあるソーシャルボットは、誤った情報を広め、社会的世論を喚起することで、悪意ある目的を達成する。
言語モデル (LM) とグラフニューラルネットワーク (GNN) の2つの主要コンポーネントから構成される新しいソーシャルボット検出フレームワーク LGB を提案する。
2つの実世界のデータセットの実験では、LGBは最先端のベースラインモデルよりも最大10.95%向上している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:31:25 GMT)
Unraveling Anomalies in Time: Unsupervised Discovery and Isolation of Anomalous Behavior in Bio-regenerative Life Support System Telemetry [43.9] 南極のEDEN ISS宇宙温室から得られたテレメトリデータから得られた異常を解析した。
我々は,異常検出結果に時系列クラスタリングを適用し,様々な種類の異常を分類する。
本稿では, MDI と DAMP の異常検出手法が相補的な結果をもたらすことを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:29:34 GMT)
Impermanent Identifiers: Enhanced Source Code Comprehension and Refactoring [43.6] この記事では、Imbermanent Identifierを中心としたコード拡張に対する革新的なアプローチを紹介します。
一番の目標は、変化するコンテキストに適応する動的な識別子を導入することで、ソフトウェア開発エクスペリエンスを強化することです。
本研究は,ソフトウェア開発現場における不整合識別子の採用と受容について,厳密に評価する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:44:15 GMT)
An Empirical Study Into What Matters for Calibrating Vision-Language Models [43.5] VLM(Vision-Language Models)がゼロショット認識の主流のアプローチとして登場した。
本研究では,異なるアーキテクチャ,データセット,トレーニング戦略にまたがるVLMの校正特性について検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:40:31 GMT)
Unraveling the Mechanics of Learning-Based Demonstration Selection for In-Context Learning [43.4] 本研究では,学習に基づく実演選択手法の動作メカニズムを解析する。
類似度測定に関連する2つの重要な因子を実験的に同定した。
本稿では,タスクに依存しない要求とタスク固有の要求に対応する,効果的かつ単純化された2つの例選択手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:34:02 GMT)
Leveraging Large Language Models for Learning Complex Legal Concepts through Storytelling [43.2] 我々は,非専門家がストーリーテリングを通じて複雑な法的概念を学ぶのを支援するために,法律教育における大規模言語モデル(LLM)の新たな応用法を提案する。
そこで我々は,294の複雑な法的教義からなり,それぞれに物語と複数の選択肢の質問が伴う新たなデータセットであるLegalStoriesを紹介した。
LLMが生成した物語は、定義のみに比較して、法的概念の理解と、非ネイティブ話者間の法律への関心を高めることが判明した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:22:51 GMT)
TACCO: Task-guided Co-clustering of Clinical Concepts and Patient Visits for Disease Subtyping based on EHR Data [43.0] TACCOは、EMHデータのハイパーグラフモデリングに基づいて、臨床概念と患者訪問のクラスターを共同で発見する新しいフレームワークである。
我々は,表現型分類と心血管リスク予測の下流臨床課題に対して,公共MIMIC-IIIデータセットとエモリー内部CRADLEデータセットを用いて実験を行った。
深層モデル解析,クラスタリング結果解析,臨床ケーススタディは,TACCOが提供した改良されたユーティリティと洞察に富んだ解釈をさらに検証する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:18:38 GMT)
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation [42.9] 我々は,大規模マルチモーダルモデル(LMM)の視覚的なコード生成能力を評価することを目的とした,新しいベンチマークであるChartMimicを導入する。
ChartMimicには1,000の人造(図、命令、コード)の三つ子が含まれている。
既存のコード生成ベンチマークとは異なり、ChartMimicは認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:10:51 GMT)
Scaling of symmetry-restricted quantum circuits [42.8] 本研究では、特殊ユニタリリー群 $SU(2N)$ の $mathcalMSU(2N)$, $mathcalM$-不変部分空間の性質について検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:12:15 GMT)
VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild [42.8] 本稿では,音声編集とゼロショット音声タスクの両方で最先端のパフォーマンスを実現する,トークンを埋め込んだニューラルネットワークモデルであるVoiceCraftを紹介する。
音声編集タスクでは、ボイスクラフトは自然性の観点から未編集の録音とほとんど区別できない編集された音声を生成する。
ゼロショットTSでは、VALLEや一般的な商用モデルであるXTTS-v2など、従来のSotAモデルよりも優れています。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:29:46 GMT)
R2Human: Real-Time 3D Human Appearance Rendering from a Single Image [42.7] R2Humanは、1つの画像から3D人間の外見をリアルタイムにレンダリングし、推測するための最初のアプローチである。
本稿では、可視領域の高忠実な色再現を行い、隠蔽領域に対して信頼性の高い色推定を行うエンド・ツー・エンド・ネットワークを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:17:38 GMT)
Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models [42.7] 拡散モデル(DM)はテキスト・画像生成において顕著な成功を収めてきたが、安全性のリスクも生じている。
マシン・アンラーニングのテクニックは、概念消去としても知られ、これらのリスクに対処するために開発されている。
本研究は, 対人訓練(AT)の原理をマシン・アンラーニングに統合することにより, 概念消去の堅牢性を高めることを目的とする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:50:22 GMT)
One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model [42.6] 本稿では,オールインワンニューラルモデルを用いた新しい1パス多重ASRシステムの共同圧縮と量子化手法を提案する。
単一の圧縮サイクルにより、異なる深さ、幅、量子化の精度設定を持つ複数のネスト系を、個別のターゲット系を個別に訓練・保存することなく同時に構築することができる。
実験では、単一のオールインワンモデルで圧縮された複数のASRシステムが、同じ複雑さを持つ個別に訓練されたシステムよりも、ワードエラー率(WER)が1.01%以上(6.98%)低いことを一貫して実証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:18:34 GMT)
Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.0] 本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:58:35 GMT)
Event-Based Simulation of Stochastic Memristive Devices for Neuromorphic Computing [41.7] イベントベースシステムのシミュレーションに適したメムリスタの一般モデルを構築した。
既存のmemristorの汎用モデルをイベント駆動設定に拡張する。
本稿では,イベントベースモデルのパラメータをドリフトモデルに適合させる手法を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:17:19 GMT)
Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.3] 混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:55:26 GMT)
TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models [41.2] TS-Align"フレームワークは、その出力から自動的に抽出されるペアのフィードバックデータを使用してポリシーモデルを微調整する。
最終調整方針は, 平均勝利率69.7%で基本方針モデルを上回っていることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:23:33 GMT)
ED-sKWS: Early-Decision Spiking Neural Networks for Rapid,and Energy-Efficient Keyword Spotting [40.9] キーワードスポッティング(KWS)は、高速でエネルギー効率の良い応答を必要とするエッジコンピューティングにおいて不可欠である。
本研究では,SNNに基づくKWSモデルであるED-sKWSを紹介する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:46:01 GMT)
Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition [40.4] Perceiver-PromptはWhisperの大規模モデル上でP-Tuningを利用する話者適応手法である。
我々はまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合して可変長入力から固定長話者プロンプトを生成する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:36:46 GMT)
AstroCLIP: A Cross-Modal Foundation Model for Galaxies [40.4] AstroCLIPは、銀河の画像とスペクトルを個別に埋め込むため、トランスフォーマーベースの画像とスペクトルエンコーダを自己監督設定で事前訓練する。
教師付きベースラインと比較しても、下流のタスクで顕著なパフォーマンスが得られます。
提案手法は、銀河の画像とスペクトルの自己教師型変換器に基づく最初のアーキテクチャである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:19:58 GMT)
Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models [40.2] 仕様ゲームで容易に発見できるLarge Language Model (LLM) アシスタントが、より稀でより柔軟な形式に一般化されるかどうかを考察する。
より洗練されたゲーム環境のカリキュラムを構築し、早期のカリキュラム環境におけるトレーニングが、残りの環境におけるより多くの仕様ゲームに繋がることを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:26:20 GMT)
A Large-scale Universal Evaluation Benchmark For Face Forgery Detection [40.2] 我々は,顔偽造検出技術の有効性を定量的に評価するために,DeepFaceGenというベンチマークを構築した。
DeepFaceGenは776,990の実顔画像/ビデオサンプルと773,812の顔偽画像/ビデオサンプルで構成され、34の主流顔生成技術を用いて生成される。
DeepFaceGenは,13の顔偽造検出技術の性能を様々な観点から評価・解析するために用いられている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:17:04 GMT)
Resonant analogue configurations in atomic condensates [39.6] 我々は、原子凝縮体におけるその実装に焦点を当て、アナログ重力における共鳴配置について議論する。
ボゴリューボフ近似に基づく微視的記述を用いてアンドレーフ効果とホーキング効果の類似を解析した。
我々は、共鳴アナログ構造のさらなる例として、ブラックホールレーザーの物理について研究する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:37:14 GMT)
A kinetic approach to consensus-based segmentation of biomedical images [39.6] バイオメディカルセグメンテーション問題に有界信頼度コンセンサスモデルの運動バージョンを適用した。
システムの長時間の挙動は、代理のフォッカー・プランク法(英語版)の助けを借りて計算される。
2次元グレースケール画像の関連集合に対して導入されたセグメンテーション距離を最小化する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:52:29 GMT)
Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.4] 後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。
近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:39:24 GMT)
BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages [39.2] 大型言語モデル(LLM)は、特に多種多様な地域や非英語言語において、日常生活に関する文化特有の知識を欠いていることが多い。
BLEnDはLLMの日常的な知識を様々な文化や言語で評価するために設計された手作りのベンチマークである。
提案手法は,短問合せと複数問合せの2つの形式を含むベンチマークを構築した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:48:54 GMT)
WonderWorld: Interactive 3D Scene Generation from a Single Image [38.8] 我々はインタラクティブな3Dシーン外挿のための新しいフレームワークWonderWorldを紹介する。
WonderWorldは、単一のA6000 GPU上で10秒未満で接続された多様な3Dシーンを生成する。
We demonstrate the potential of WonderWorld for application in virtual reality, gaming and creative design。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:19:47 GMT)
Characterizing out-of-distribution generalization of neural networks: application to the disordered Su-Schrieffer-Heeger model [38.8] 本稿では、量子位相の分類を訓練したニューラルネットワークの予測において、解釈可能性の手法が信頼を高める方法を示す。
特に, 複雑な分類問題において, 分配外分布の一般化を確実にできることを示す。
この研究は,解釈可能性手法の体系的利用が,科学的問題におけるNNの性能をいかに向上させるかを示す一例である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:24:32 GMT)
CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning [38.6] 我々は、返却条件付きオフライン強化学習を利用して、制御可能なトラフィックエージェントを効率的に生成するCtRL-Simを提案する。
具体的には、物理学的なNocturneシミュレータを通して実世界の運転データを処理し、多様なオフライン強化学習データセットを生成する。
このデータセットを用いて、エージェントの振る舞いのきめ細かい操作を可能にする、返却条件付きマルチエージェント動作モデルをトレーニングする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:47:41 GMT)
Crafting Parts for Expressive Object Composition [37.8] PartCraftは、ベーステキストプロンプト内のオブジェクトに指定されたきめ細かい部分レベルの詳細に基づいた画像生成を可能にする。
PartCraftは、オブジェクト領域を特定の拡散プロセスから切り離すことで、まずオブジェクト部分をローカライズする。
部分マスクの取得後,各部分領域に微細な部分記述に基づいて局所拡散プロセスを実行する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:31:29 GMT)
Understanding Pedestrian Movement Using Urban Sensing Technologies: The Promise of Audio-based Sensors [37.2] 歩行者の容積や流れを理解することは、安全で魅力的な歩行者のインフラを設計するのに不可欠である。
本研究は,新しい音声ベース技術を用いて,都市感を拡大するための新しいアプローチについて論じる。
マイクベースのセンサーの利点と限界を、他の歩行者センサーと比較して評価する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:15:18 GMT)
Enhancing Vision-Language Model with Unmasked Token Alignment [37.1] 本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:29:41 GMT)
Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation [37.1] ヴィジュアル・アンド・ランゲージナビゲーション(VLN)により、エージェントは自然言語の指示に従って3D環境の遠隔地へ移動することができる。
本研究では,パノラマ的トラバーサビリティ認識とパノラマ的セマンティック理解を備えた単分子ロボットを実現するためのシミュレート・トゥ・リアル・トランスファー手法を提案する。
我々のVLNシステムはシミュレーション環境でR2R-CEとRxR-CEのベンチマークにおいて従来のSOTA単分子VLN法よりも優れており、実環境においても検証されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:50:09 GMT)
NeST: Neural Stress Tensor Tomography by leveraging 3D Photoelasticity [36.8] 光弾性は、応力誘起複屈折による透明物体のフルフィールド応力解析を可能にする。
既存の技術は2Dスライスに限られており、オブジェクトを破壊的にスライスする必要がある。
我々は,3次元応力テンソル場を偏光測定による暗黙的表現として再構成するための解析バイシンセシス手法であるNeSTを紹介する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:48:45 GMT)
Differentiable Programming for Differential Equations: A Review [36.7] 微分可能プログラミングは現代の科学計算の基盤である。
微分方程式の数値解に基づく微分関数は非自明である。
本稿では、微分方程式の数値解の微分を計算するための既存の手法を概観する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:54:25 GMT)
Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models [36.6] KBVQA (Knowledge-Based Visual Question Answering) は、外部知識と質問に答える画像を追加することで、この概念を前進させる。
本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。
知識に富んだ我々のモデルは,3種類のKBVQAデータセット上での最先端技術よりも,Exact Match Scoreの平均4.75%向上を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:07:46 GMT)
Cross-Subject Data Splitting for Brain-to-Text Decoding [36.3] 各種認知データセット(fMRI,EEG)における脳からテキストへのデコーディングのためのオブジェクト間データ分割基準を提案する。
既存のクロスオブジェクトデータ分割戦略を包括的に分析し、これらの手法がデータ漏洩に悩まされていることを証明する。
提案するクロスオブジェクト分割法は,データ漏洩問題に対処し,さらなる研究のベースラインとして,いくつかのSOTA脳-テキストデコーディングモデルを再評価する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:30:33 GMT)
An Interpretable Evaluation of Entropy-based Novelty of Generative Models [36.3] 生成モデルのモードベースノベルティを定量化するために,カーネルベースのエントロピーノベルティ(KEN)スコアを提案する。
合成および実画像データセットの数値計算結果から,新しいモードの検出におけるフレームワークの有効性を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 01:37:57 GMT)
Modified Risk Formulation for Improving the Prediction of Knee Osteoarthritis Progression [36.1] 変形性関節症(OA)の予後を予測するための現在の手法は、疾患固有の先行知識を取り入れていない。
我々は,OA結果予測を改善するために連続画像解析を効果的に活用する新しい手法を開発した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:24:49 GMT)
Exploring Training on Heterogeneous Data with Mixture of Low-rank Adapters [36.1] 我々はMixture of Low-rank Adapters (MoLA)を活用し、異種データトレーニングにおける競合を軽減する。
MoLA-Grad と MoLA-SJ の2つの変種を導入し,目標認識シナリオと目標認識シナリオをそれぞれ扱う。
後者は、新しいTask-wise Decorrelation (TwD)を使用して、同種タスクへのアダプタの指向的な重み付けを学習するためにルータを介入する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:04:05 GMT)
Multi-source Unsupervised Domain Adaptation on Graphs with Transferability Modeling [35.4] 本稿では、グラフモデリングに基づくドメインセレクタ、サブグラフノードセレクタ、およびバイレベルアライメント目的を備えた、グラフのためのSelective Multi-source Adaptation for Graph(method)を提案する。
5つのグラフデータセットの結果から,提案手法の有効性が示された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:05:21 GMT)
4DRecons: 4D Neural Implicit Deformable Objects Reconstruction from a single RGB-D Camera with Geometrical and Topological Regularizations [35.2] 4DReconsは出力を4Dの暗黙の表面としてエンコードする。
4DReconsは大きな変形や複雑な部品間相互作用を処理可能であることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:38:00 GMT)
AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.8] 新興中国ビジョンランゲージモデル(VLM)の総合的アライメントベンチマークであるAlignMMBenchを紹介する。
このベンチマークは、現実世界のシナリオと中国のインターネットソースから慎重にキュレートされ、3つのカテゴリにまたがる13の特定のタスクを含み、シングルターンとマルチターンの対話シナリオを含んでいる。
評価パイプラインを容易にするために,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:14:49 GMT)
RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model [34.8] ネストされたVLMを用いた閉ループ制御と反射平衡ループでデュアルカメラの視覚入力を知覚するフレームワークであるRoboGolfを紹介する。
RoboGolfのミニゴルフコートに対する効果を実験で実証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:16:52 GMT)
Towards Better Benchmark Datasets for Inductive Knowledge Graph Completion [34.6] インダクティブなKGCデータセットを構築するための現在の手順は、必然的に、利用可能なショートカットを生成します。
具体的には、パーソナライズされたPageRank(PPR)スコアが、ほとんどの帰納的データセット上で、SOTAのパフォーマンスを強く、あるいは近く達成できることを観察する。
本稿では,PPRショートカットの緩和に役立つインダクティブなKGCデータセット構築のための代替戦略を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:01:46 GMT)
Empowering Character-level Text Infilling by Eliminating Sub-Tokens [34.4] FIM-SEは"Fill-In-the-Middle"の略で、開始文字と終了文字の制約がある。
本稿では,FIM-SEについて紹介する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:26:41 GMT)
Quantifying Variance in Evaluation Benchmarks [34.1] 評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。
選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。
人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:59:54 GMT)
A Survey of Video Datasets for Grounded Event Understanding [34.1] マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:36:55 GMT)
Open-Vocabulary Semantic Segmentation with Image Embedding Balancing [33.7] 本稿では,EBSegと呼ばれるオープン語彙セマンティックセグメンテーションのための新しいフレームワークを提案する。
AdaB Decoderは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。
SSC Lossは画像特徴空間のクラス間の親和性とCLIPのテキスト特徴空間の親和性を調整する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:34:20 GMT)
An I2I Inpainting Approach for Efficient Channel Knowledge Map Construction [33.6] 本研究では,ラプラシアンピラミッド (LP) を用いたCKM構築手法を提案する。
提案手法は高い一般化能力を有し,異なる無線通信シナリオで実装可能である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:24:52 GMT)
GraphFM: A Comprehensive Benchmark for Graph Foundation Model [33.2] ファンデーション・モデル(FM)は、人工知能システムの開発のための一般的なクラスである。
FMの基礎として自己教師型学習の研究が盛んに行われたが、いくつかの顕著な問題が続いている。
下流タスクにおける一般化能力の程度は未だ不明である。
これらのモデルが大規模なデータセットにどの程度効果的にスケールできるかは不明だ。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:36:00 GMT)
SpeechAct: Towards Generating Whole-body Motion from Speech [33.1] 本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:28:05 GMT)
An Exploratory Study on Using Large Language Models for Mutation Testing [32.9] LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
オープンソースモデルとクローズドソースモデルの両方を含む4つのLLMと、2つのJavaベンチマークの440の実際のバグを含む、大規模な実証研究を行います。
既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:49:41 GMT)
PID: Prompt-Independent Data Protection Against Latent Diffusion Models [32.1] 大量の個人画像がオンラインでアクセス可能であることを考えると、この機能は市民のプライバシーに対する重大な懸念を引き起こす。
我々は, LDMに対するプライバシー保護のために, textbfPrompt-Independent Defense (PID) と呼ばれるシンプルで効果的な方法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:56:42 GMT)
Make It Count: Text-to-Image Generation with an Accurate Number of Objects [31.9] テキストを使って描かれたオブジェクトの数を制御するのは驚くほど難しい。
生成モデルは、オブジェクトのインスタンス毎に別々のアイデンティティの感覚を保持する必要があるため、オブジェクトの正しいカウントを生成することは難しい。
我々は、CountGenが正しいオブジェクト数でdenoisingをガイドするのにどのように使えるかを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:46:08 GMT)
InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning [31.8] 本稿では,対象物体の注意図で導かれる画像を生成するために拡散モデルを訓練するための強化学習ガイド画像編集法(InstructRL4Pix)を提案する。
実験結果から、InstructRL4Pixは従来のデータセットの限界を突破し、教師なし学習を用いて、編集目標を最適化し、自然な人間のコマンドに基づいて正確な画像編集を実現することがわかった。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:31:48 GMT)
Understanding Large Language Model Based Fuzz Driver Generation [31.8] 本研究は,LLMを用いてファズドライバを効果的に生成する上で重要な課題を対象とした,最初の詳細な研究である。
我々の研究は、736,430個のファジィドライバの評価を行い、トークンコストは0.85億ドル(8000ドル以上)だった。
我々の洞察はOSS-Fuzz-Genプロジェクトを改善するために実装され、業界におけるファズドライバの実践的生成を促進しました。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:26:00 GMT)
GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation [31.7] GenH2Rは、一般化可能なビジョンベースのヒューマン・トゥ・ロボット(H2R)ハンドオーバスキルを学ぶためのフレームワークである。
我々は、H2Rハンドオーバを包括的解を用いて大規模に学習することで、そのような一般化可能性を得る。
大規模3次元モデルレポジトリ、デクスタラスグリップ生成方法、曲線ベースの3次元アニメーションを活用している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:10:19 GMT)
UnlearnCanvas: Stylized Image Dataset for Enhanced Machine Unlearning Evaluation in Diffusion Models [31.5] 拡散モデル(DM)はテキスト・画像生成において前例のない機能を示し、多様な用途で広く利用されている。
彼らはまた、有害なコンテンツの生成や著作権紛争など、社会的な問題も提起している。
マシン・アンラーニング(MU)は、DMから望ましくない生成能力を除去できる有望なソリューションとして登場した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:52:26 GMT)
Enhancing Incomplete Multi-modal Brain Tumor Segmentation with Intra-modal Asymmetry and Inter-modal Dependency [31.0] 現実の一般的な問題は、様々なスキャンプロトコルや患者の状態によって、いくつかのモダリティが利用できないことである。
従来の手法では、アクセス可能なマルチモーダルの特徴を融合させ、注意機構を活用し、欠落したモダリティを合成することで、この問題に対処しようと試みてきた。
本稿では,2つの視点から深層学習に基づく脳腫瘍セグメンテーションモデルを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:54:53 GMT)
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models [30.9] リッチなセマンティクスを持つ画像を用いて,LVLMの高レベル認知能力を評価するための新しい評価ベンチマークを提案する。
8つの推論機能を定義し、画像記述タスクと視覚的質問応答タスクで構成される。
LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:35:57 GMT)
Using an LLM to Turn Sign Spottings into Spoken Language Sentences [30.9] 手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,符号スポッターと強力な大言語モデル(LLM)を用いてSLT性能を向上させるハイブリッドSLTアプローチであるSputter+GPTを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:57:09 GMT)
Robustness-Inspired Defense Against Backdoor Attacks on Graph Neural Networks [30.8] グラフニューラルネットワーク(GNN)は,ノード分類やグラフ分類といったタスクにおいて,有望な結果を達成している。
最近の研究で、GNNはバックドア攻撃に弱いことが判明し、実際の採用に重大な脅威をもたらしている。
本研究では,裏口検出にランダムなエッジドロップを用いることにより,汚染ノードとクリーンノードを効率的に識別できることを理論的に示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:46:26 GMT)
Vision-Language Models Meet Meteorology: Developing Models for Extreme Weather Events Detection with Heatmaps [30.8] 極端な気象のリアルタイム検出と予測は、人間の生命とインフラを保護する。
従来の手法は地理情報システム(GIS)を用いた気象熱マップの数値しきい値設定と手動解釈に依存している。
本研究は,視覚質問応答 (VQA) 問題としてフレーミングすることで,極度気象事象検出 (EWED) を再定義する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:46:44 GMT)
Byzantine-Robust Decentralized Federated Learning [30.3] フェデレーション・ラーニング(FL)は、複数のクライアントがプライベートデータを公開せずに、共同で機械学習モデルをトレーニングすることを可能にする。
分散学習(DFL)アーキテクチャは、クライアントがサーバーレスとピアツーピアの方法でモデルを協調的にトレーニングできるように提案されている。
悪意のあるクライアントは、近隣のクライアントに慎重に構築されたローカルモデルを送信することでシステムを操作できる。
本稿では,DFLにおける毒殺対策として,BALANCE (Byzantine-robust averaging through local similarity in decentralization) というアルゴリズムを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:28:37 GMT)
Wild-GS: Real-Time Novel View Synthesis from Unconstrained Photo Collections [30.3] 本稿では、制約のない写真コレクションに最適化された3DGSの革新的な適応であるWild-GSについて述べる。
Wild-GSは、それぞれの3Dガウスの出現を、その固有の材料特性、大域照明と画像当たりのカメラ特性、反射率の点レベルの局所的ばらつきによって決定する。
この斬新な設計は、参照ビューの高周波詳細外観を3次元空間に効果的に転送し、トレーニングプロセスを大幅に高速化する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:06:07 GMT)
Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding [30.1] 本研究では,1078本のアマチュア映画を公開するショートフィルムデータセットを提案する。
本実験は,SFD課題を解決するための長期的推論の必要性を強調した。
視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:54:54 GMT)
Full-reference Point Cloud Quality Assessment Using Spectral Graph Wavelets [29.1] 3Dアプリケーションにおけるポイントクラウドは、しばしば、スキャンや圧縮などの処理中に品質劣化を経験する。
本稿ではスペクトルグラフウェーブレット(SGW)を用いた全参照(FR)PCQA法を提案する。
我々の知る限り、PCQA向けのSGWを紹介する最初の研究である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:59:54 GMT)
Disentangled Hyperbolic Representation Learning for Heterogeneous Graphs [29.1] 本稿では,分散ハイパーボリックなヘテロジニアスグラフ畳み込みネットワークである$textDis-H2textGCN$を提案する。
提案した$textDis-H2textGCN$を実世界の5つの異種グラフデータセット上で評価した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:50:47 GMT)
Large-scale Dataset Pruning with Dynamic Uncertainty [28.6] 画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:10:07 GMT)
Creating a Lens of Chinese Culture: A Multimodal Dataset for Chinese Pun Rebus Art Understanding [28.5] 我々は、伝統的な中国文化に根ざした芸術理解のために、パン・レバス・アート・データセットを提供する。
視覚的要素の健全な識別、シンボル的な意味の要素のマッチング、伝達されたメッセージの説明の3つの主要なタスクに焦点をあてる。
我々の評価は、最先端のVLMがこれらの課題に苦しむことを示し、しばしば偏見と幻覚的な説明を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:52:00 GMT)
How to Teach Programming in the AI Era? Using LLMs as a Teachable Agent for Debugging [28.3] 大規模言語モデル(LLM)は、生成スキルに優れ、実行不可能な速度でコンテンツを作成することができる。
人間の初心者は、教師アシスタントの役割を担い、LLMで教えられるエージェントのコードを支援する。
そこで我々は,人間の初心者が指導アシスタントの役割を担い,LLMを利用した学習エージェントのコード作成を支援する,デバッグの意図的な実践を促進する新しいシステムであるPhyを紹介した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 01:55:28 GMT)
POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models [28.1] 大規模言語モデル(LLM)の効率的なプロンプトエンジニアリングを容易にするビジュアル分析システムであるPOEMを提案する。
本システムは,様々なプロンプトによって引き起こされるマルチモーダル知識を包括的に理解するために,モジュール間の相互作用パターンを様々な詳細レベルで探索することを可能にする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:36:58 GMT)
Faster Convergence on Heterogeneous Federated Edge Learning: An Adaptive Sidelink-Assisted Data Multicasting Approach [27.9] Federated Edge Learning (FEEL)は、6G Hyper-Connectivityのための分散機械学習パラダイムのパイオニアとして登場した。
現在のFEELアルゴリズムは、非独立かつ非独立に分散した(非IID)データと競合し、通信コストの上昇とモデルの精度が損なわれる。
我々はクラスタ化データ共有フレームワークを導入し、クラスタヘッドから信頼されたアソシエイトに部分的なデータを選択的に共有することで、データの均一性を緩和する。
実験により, このフレームワークは, 限られた通信環境において, 収束速度が速く, モデル精度が高い非IIDデータセット上で FEEL を促進することを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:22:39 GMT)
SmartOracle: Generating Smart Contract Oracle via Fine-Grained Invariant Detection [27.4] SmartOracleは、脆弱性検出のためのアプリケーション固有のオラクルとして、きめ細かな不変量を自動生成する動的不変検出器である。
過去のトランザクションから、SmartOracleはパターンベースの検出と高度な推論を使用して包括的なプロパティを構築する。
SmartOracleは、31の脆弱なコントラクトを含む許容精度96%で、466の異常トランザクションを正常に検出した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:09:20 GMT)
Learning Solution-Aware Transformers for Efficiently Solving Quadratic Assignment Problem [27.3] 本研究は,2次割当て問題(QAP)を効率的に解くための学習ベースソリューションに焦点を当てる。
QAPに関する現在の研究は、限られた規模と非効率性に悩まされている。
そこで本研究では,QAPの学習と改善のカテゴリにおける第1の解法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:15:03 GMT)
Gradient Coding in Decentralized Learning for Evading Stragglers [27.3] 勾配符号化(GOCO)を用いた新しいゴシップ型分散学習法を提案する。
ストラグラーの負の影響を避けるため、パラメータベクトルは勾配符号化の枠組みに基づいて符号化された勾配を用いて局所的に更新される。
強い凸損失関数に対するGOCOの収束性能を解析する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:22:31 GMT)
FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models [27.0] textttFinDABenchは、大規模言語モデルの財務データ分析能力を評価するために設計されたベンチマークである。
textttFinDABenchは、LLM能力の詳細な分析のための指標を提供することを目的としている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:17:40 GMT)
Any2Graph: Deep End-To-End Supervised Graph Prediction With An Optimal Transport Loss [26.8] 我々は,SGP(End-to-end Supervised Graph Prediction)のための汎用フレームワークであるAny2graphを提案する。
このフレームワークは、新しい最適輸送損失である、部分的にマス化されたグロモフ=ワッサーシュタインの上に構築されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:06:23 GMT)
On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey [26.7] 大規模言語モデル(LLM)は、合成データ生成による現実世界のデータ制限を軽減するために、データ中心のソリューションを提供する。
本稿では、合成データ生成の一般的なワークフローに基づく、関連する研究の組織を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:47:09 GMT)
Enhancing Question Answering on Charts Through Effective Pre-training Tasks [26.6] グラフやプロットに適用した場合の現在のVisualQAモデルの制限に対処する。
以上の結果から,既存のモデルでは,図の構造的・視覚的文脈に関する疑問に答える上で,特に性能が低いことが示唆された。
本稿では,構造的・視覚的知識と数値的疑問の理解の両面から,既存のモデルを強制する3つの簡単な事前学習タスクを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:40:10 GMT)
Towards the TopMost: A Topic Modeling System Toolkit [26.5] トピックモデルのためのトピックモデリングシステムツールキット(TopMost)を提案する。
TopMostは、データセット、前処理、モデル、トレーニング、評価を含む、完全なライフサイクルを含む、幅広いトピックモデリングシナリオをカバーしている。
密集的で疎結合なモジュール設計のおかげで、TopMostは様々な最先端トピックモデルの迅速な利用、公正な比較、柔軟な拡張を可能にします。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:27:24 GMT)
Compressed Video Quality Enhancement with Temporal Group Alignment and Fusion [26.5] 画像群(GoP)は,時間的距離に応じて映像から対象の強調フレームへフレームを選択することで形成する。
IntraGFAモジュールを設計し、各GoPのフレームの特徴を整列させ、フレーム間に存在する動きを除去する。
我々は、異なるGoPに属する機能を融合させるInterGFFモジュールを構築し、最終的にFEモジュールとの融合機能を強化し、高品質なビデオフレームを生成する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:36:55 GMT)
Less is More: Discovering Concise Network Explanations [26.1] 本稿では,人間の理解可能な視覚的説明を生成するための新しいアプローチであるDiscovering Conceptual Network Explanations (DCNE)を紹介する。
本手法は,クラス間の識別に重要な視覚的説明を自動的に見つける。
DCNEは、ニューラルネットワークの決定を人間にアクセスし、解釈できるようにするための一歩である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:11:43 GMT)
SkySenseGPT: A Fine-Grained Instruction Tuning Dataset and Model for Remote Sensing Vision-Language Understanding [26.1] 本稿では,1,800,851個の命令サンプルを含む大規模命令チューニングデータセットFIT-RSを提案する。
FIT-RSは、一般的な解釈タスクをカバーし、難易度を増大させるいくつかの複雑な理解タスクを革新的に導入する。
我々は、FIT-RSRCと呼ばれるLMMの詳細な関係理解能力を評価するための新しいベンチマークを構築した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:57:07 GMT)
Over-parameterization and Adversarial Robustness in Neural Networks: An Overview and Empirical Analysis [26.0] 大きなパラメータ空間を持つことは、敵の例に対するニューラルネットワークの脆弱性の主な疑念の1つと考えられている。
従来の研究は、検討されたモデルによっては、敵の例を生成するアルゴリズムが適切に機能しないことを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:47:06 GMT)
Heuristic Learning with Graph Neural Networks: A Unified Framework for Link Prediction [25.9] リンク予測はグラフ学習における基本的なタスクであり、本質的にグラフのトポロジーによって形作られる。
種々の重みを適応・一般化するための統一行列定式化を提案する。
また,この定式化を効率的に実装するためのHuristic Learning Graph Neural Network (HL-GNN)を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:06:38 GMT)
Towards Robust Instruction Tuning on Multimodal Large Language Models [25.5] 本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:38:14 GMT)
M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark [25.4] 我々は,MLLMの汎用知能を評価するために,認知駆動型多言語・多モーダルベンチマークを導入した。
我々は,知能のモデルであるキャッテル・ホルン・キャロル(CHC)に基づいて,5つの認知要因を同定した。
私たちは英語を超えて、中国語、フランス語、スペイン語、ポルトガル語、韓国語など、その人気に基づいて他の言語を包含しています。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:35:06 GMT)
Sunnie: An Anthropomorphic LLM-Based Conversational Agent for Mental Well-Being Activity Recommendation [25.2] 精神福祉支援における長年の課題は、人々が心理的に有益な活動を採用するのを嫌うことである。
スニー(Sunnie)は、多ターン会話による幸福なサポートを提供するために設計された人間型会話エージェントである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:54:31 GMT)
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.0] 人間の嗜好データに基づいてトレーニングされたリワードモデルは、大規模言語モデルと人間の意図を一致させるのに有効であることが証明されている。
しかし、現在の報酬モデルの無意味なプロンプトや応答に対する一般化能力は限られている。
本研究は,隠れ状態の正規化による分布シフトに対する報酬モデルの一般化能力を向上するための新しいアプローチを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:49:59 GMT)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.8] リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:10:32 GMT)
A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis [24.5] 我々はこのアイデアを、Detection TRansformer (DETR) にインスパイアされた Transformer Encoder-decoder を通じて実現した。
Interpretable TRansformer (INTR) は実装が容易で、いくつかの魅力的な特性を示す。
私たちのコードと事前トレーニングされたモデルは、Imageomics Institute GitHubサイトで公開されています。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:28:14 GMT)
PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos [24.2] Ego4Dデータセット用の新しいアクションレコメンデーションアノテーションであるPARSE-Ego4Dをリリースする。
我々は、文脈対応アクション提案を生成するために、プロンプトエンジニアリングされた大言語モデル(LLM)を使用する。
我々は、PARSE-Ego4Dのすべての人の嗜好を基礎づける大規模な人間のアノテーション研究を行っている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:39:53 GMT)
Off-Policy Evaluation from Logged Human Feedback [23.9] 我々は、ログ化された人間のフィードバックから、政治以外の評価について検討する。
政策値に対するモデルベースおよびモデルフリー推定器を提案する。
我々の推定器は評価されたポリシーの絶対値を予測し、それらをランク付けし、最適化することができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:38:18 GMT)
OSPC: Detecting Harmful Memes with Large Language Model as a Catalyst [23.8] 本研究では,シンガポールの多言語・多言語的文脈において,有害なミームを検出する新しいアプローチを提案する。
我々は画像キャプション、光学文字認識(OCR)、Large Language Model(LLM)分析を統合した。
当社のフレームワークは,AIシンガポール主催のオンライン安全賞コンテストにおいて,トップ1を達成している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:28:02 GMT)
COPAL: Continual Pruning in Large Language Generative Models [23.7] COPALは、連続的なモデル適応設定の下で、大規模言語生成モデルを解析するために開発されたアルゴリズムである。
LLMの様々なサイズに対する実験的な評価は,COPALがベースラインモデルより優れていることを示している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:06:47 GMT)
Emergent Dynamics in Neural Cellular Automata [23.7] ニューラルセルラーオートマタアーキテクチャとトレーニングモデルの創発的ダイナミクスとの関係について検討する。
解析の結果,これらの変数間の相違と比例性は,NCA出力の創発的ダイナミクスと強い相関関係があることが判明した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:15:15 GMT)
Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent [23.7] HyperAgentは、RLにおける探索のためのハイパーモデルフレームワークに基づく強化学習(RL)アルゴリズムである。
我々はHyperAgentが大規模深部RLベンチマークで堅牢なパフォーマンスを提供することを示した。
問題の大きさで最適にスケールし、Atariスイートで顕著な効率向上を示すエピソードでディープシーのハードな探索問題を解決することができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:51:07 GMT)
When Graph Neural Network Meets Causality: Opportunities, Methodologies and An Outlook [23.5] グラフニューラルネットワーク(GNN)は、さまざまなグラフ構造化データ内の複雑な依存関係をキャプチャする強力な表現学習ツールとして登場した。
GNNは、分布シフトへの感受性、特定の人口への偏見、説明責任の欠如など、信頼性に関する深刻な懸念を提起している。
因果学習技術をGNNに統合することは、多くのGNNの信頼性の問題を軽減することができるため、多くの画期的な研究を引き起こしている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:08:54 GMT)
Sim2Real in Reconstructive Spectroscopy: Deep Learning with Augmented Device-Informed Data Simulation [23.2] 本研究は、再構成分光におけるスペクトル信号再構成のためのディープラーニングフレームワークであるSim2Realを提案する。
これは、デバイスインフォームド・シミュレートされたデータのみをトレーニングに利用できる極端な設定の下で、現実世界のスペクトル信号を再構築するという課題に焦点を当てている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 23:35:36 GMT)
Automated Design of Linear Bounding Functions for Sigmoidal Nonlinearities in Neural Networks [23.0] 既存の完全検証技術は、すべての堅牢性クエリに対して証明可能な保証を提供するが、小さなニューラルネットワークを超えてスケールするのに苦労する。
本稿では,これらの線形近似の品質向上のためのパラメータ探索手法を提案する。
具体的には、最先端のアルゴリズム構成手法によって与えられた検証問題に慎重に適応する単純な探索手法を用いることで、最先端技術よりも平均で25%のグローバルローバウンドを向上することを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:16:26 GMT)
What is the Visual Cognition Gap between Humans and Multimodal LLMs? [23.0] MLLM(Multimodal Large Language Models)は、認識、セグメンテーション、オブジェクト検出などの言語誘導タスクにおいて大きな可能性を示している。
このような課題の1つは抽象的な視覚的推論(AVR)であり、一連の画像におけるパターン間の関係を識別し、その後のパターンを予測するために外挿する認知能力である。
MLLMのゼロショット能力を評価するために,新しいデータセットMaRs-VQAとVCog-Benchを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:02:21 GMT)
Unobtrusive Monitoring of Physical Weakness: A Simulated Approach [22.9] 高齢化や慢性的な状態は、高齢者の日常生活に影響を与え、発達する健康問題の早期発見が不可欠である。
我々は、非侵入型カメラセンサーを用いて、個人の毎日の座り方やリラックスした活動を監視し、弱さの兆候を検知する。
健康な被験者の身体運動を行い,運動前後の日常生活行動の変化を観察することにより,弱さをシミュレートする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:52:58 GMT)
EX-FEVER: A Dataset for Multi-hop Explainable Fact Verification [22.8] マルチホップで説明可能な事実検証のための先駆的データセットを提案する。
2ホップと3ホップの推論を含む6万件以上の主張により、それぞれがハイパーリンクされたウィキペディア文書から情報を要約して修正することによって作成される。
提案するEX-FEVERデータセットをベースラインとして,文書検索,説明生成,クレーム検証を行う。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:10:04 GMT)
QQQ: Quality Quattuor-Bit Quantization for Large Language Models [22.6] QQQは、4ビットの重みと8ビットのアクティベーションを持つQuality Quattuor-bit Quantization法である。
QQQは適応的平滑化とヘッセン型補償を採用し、広範囲のトレーニングを伴わずに量子化されたモデルの性能を大幅に向上させる。
専用チャネルごとのW4A8 GEMMとグループごとのW4A8 GEMMは、FP16 GEMMよりも3.67$times$と3.29$times$の大幅な速度向上を実現している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:23:45 GMT)
Generative AI-based Prompt Evolution Engineering Design Optimization With Vision-Language Model [22.5] 本稿では,車両設計シナリオでコンテキスト化された,迅速な進化設計最適化(PEDO)フレームワークを提案する。
生成車の設計において,物理に基づく解法と視覚言語モデルを用いて,実用的あるいは機能的な指導を行う。
自動車設計最適化問題に関する調査は,探索の初期段階に発生する潜在的な自動車設計の広範な普及を示唆している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:33:11 GMT)
SemantIC: Semantic Interference Cancellation Towards 6G Wireless Communications [22.4] 本報告では,第6世代(6G)無線ネットワークに対するセマンティック・インターセプション・キャンセリング(SemantIC)という,新たなアンチ・インターオペラビリティ手法を提案する。
SemantICは、セマンティックオートエンコーダを持つチャンネルデコーダへのレシーバのみを必要とする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:59:15 GMT)
Consistency-diversity-realism Pareto fronts of conditional image generative models [22.4] 我々は、最先端のテキスト・ツー・イメージモデルと画像・アンド・テキスト・ツー・イメージモデルとそのノブを使用して、一貫性の多様性-リアリズムをParetoフロントに描画する。
我々の実験は、リアリズムと一貫性を同時に改善できることを示唆している。
我々の分析は、最良のモデルが存在しず、ダウンストリームアプリケーションによってモデルの選択が決定されるべきであることを示している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:14:11 GMT)
Detecting Complex Multi-step Attacks with Explainable Graph Neural Network [22.4] 複雑な多段階攻撃は、多くの重要なインフラに大きな損傷を与えた。
このような攻撃を検出するため、グラフニューラルネットワークに基づく手法は有望な結果を示している。
しかし、既存のメソッドは、実際にデプロイする際にも、いくつかの課題に直面している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:19:45 GMT)
Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming [22.3] GPT-4oやLlama3のような最先端のモデルは、平均的な学生のパフォーマンスとほとんど一致しない。
我々はこれらのモデルを新しい合成データ生成手法を用いて微調整する。
生成モデルにおける計算思考の強化に関するさらなる研究を促進するため、完全な実装とデータセットをリリースする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:02:52 GMT)
Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.3] 大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:14:22 GMT)
Privacy-preserving Quantification of Non-IID Degree in Federated Learning [22.2] フェデレーテッド・ラーニング(FL)は、生データを共有することなく、複数のコラボレータに対して、マシンラーニングに対するプライバシ保護アプローチを提供する。
異なるクライアントにまたがる非独立かつ非独立に分散された(非IID)データセットの存在は、FLにとって大きな課題である。
本稿では,累積分布関数を用いて,フェデレーション環境における非IID度を定量的に定義する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:08:53 GMT)
GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.1] 単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:58:05 GMT)
Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [21.9] 教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。
このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:31:20 GMT)
Learning Flexible Time-windowed Granger Causality Integrating Heterogeneous Interventional Time Series Data [21.7] 本研究では,Granger因果構造を推定し,異種干渉時系列データを活用することによって未知のターゲットを同定する理論的基礎的手法を提案する。
本手法は,介入時系列データからGranger因果構造を学習する上で,いくつかの頑健なベースライン法より優れている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:36:00 GMT)
TimeCMA: Towards LLM-Empowered Time Series Forecasting via Cross-Modality Alignment [21.7] TimeCMAは、モーダリティ間のアライメントを伴う時系列予測のフレームワークである。
実データに関する大規模な実験は、提案したフレームワークの精度と効率に関する洞察を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 01:39:29 GMT)
How Does Distribution Matching Help Domain Generalization: An Information-theoretic Analysis [21.7] ドメインの一般化を新しい確率論的観点から定式化する。
一般化を促進する上での勾配と表現マッチングの役割について重要な知見を提供する。
これらの理論的な知見を踏まえ、ドメイン間の勾配と表現を同時に調整するIDMを導入する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:28:17 GMT)
Synthetic Programming Elicitation and Repair for Text-to-Code in Very Low-Resource Programming Languages [21.2] SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは意味的正当性を犠牲にすることなく、構文的正当性プログラムをはるかに頻繁に生成する。
ケーススタディにおいて,SPEACの性能を実証的に評価し,既存の検索基準や微調整基準と比較すると,SPEACは構文的に正しいプログラムをかなり頻繁に生成することがわかった。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:35:33 GMT)
DurLAR: A High-fidelity 128-channel LiDAR Dataset with Panoramic Ambient and Reflectivity Imagery for Multi-modal Autonomous Driving Applications [21.1] DurLARはパノラマ環境(近赤外)と反射率画像を備えた高忠実度18チャンネルのLiDARデータセットである。
提案手法は, 自己監督的・自己監督的損失項を, より優れた基礎的真理分解によって実現したことを示すものである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:24:05 GMT)
A Benchmark Suite for Systematically Evaluating Reasoning Shortcuts [20.9] モデルに対する推論ショートカットの影響を体系的に評価するベンチマークスイートであるrsbenchを紹介する。
rsbenchを用いることで、純粋にニューラルモデルとニューラルシンボリックモデルの両方で高品質な概念を得るのは、解決から遠ざかる問題である、と強調する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:52:34 GMT)
Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment [20.9] 画像品質評価(IQA)の開発には品質評価属性に関する高レベル知識の蒸留が不可欠である
自己監督・視線監督画像QUality Evaluator (SLIQUE) と呼ばれる新しいブラインドIQA(BIQA)モデルを提案する。
SLIQUEは、画像意味内容、歪み特性およびIQAの外観特性に関する高度な知識を得るための、視覚言語と視覚コントラスト表現学習フレームワークである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:18:28 GMT)
Explainable AI for Comparative Analysis of Intrusion Detection Models [20.7] 本研究は,ネットワークトラフィックから侵入検出を行うために,各種機械学習モデルを二分分類および多クラス分類のタスクに解析する。
すべてのモデルをUNSW-NB15データセットで90%の精度でトレーニングしました。
また、Random Forestは正確さ、時間効率、堅牢性という点で最高のパフォーマンスを提供します。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:11:01 GMT)
RASPNet: A Benchmark Dataset for Radar Adaptive Signal Processing Applications [20.6] RASPNetと呼ばれるこのデータセットは、アメリカ合衆国全土の様々な地形や土地タイプにまたがる100の現実的なシナリオで構成されている。
RASPNetは、適応レーダー処理技術の評価を標準化する大規模で現実的なデータセットの可用性において、大きなギャップを埋めようとしている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:07:52 GMT)
Benchmarking Spectral Graph Neural Networks: A Comprehensive Study on Effectiveness and Efficiency [20.5] 周波数パースペクティブに着目したスペクトルGNNを広範囲にベンチマークする。
我々はこれらのスペクトルモデルを、グラフ計算と効率的なトレーニングスキームを備えた統合されたフレームワークで実装する。
我々の実装は、同等の性能とオーバーヘッドの少ない大きなグラフ上でのアプリケーションを可能にする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:56:57 GMT)
What Does Softmax Probability Tell Us about Classifiers Ranking Across Diverse Test Conditions? [19.9] 我々はSoftmax correlation(SoftmaxCorr)と呼ばれる新しい尺度を導入する。
クラスクラス相関行列と予め定義された参照行列との間のコサイン類似性を計算する。
基準行列の予測と高い類似性は、モデルが自信と均一な予測をもたらすことを示唆する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:36:26 GMT)
L2XGNN: Learning to Explain Graph Neural Networks [19.9] 説明可能なグラフニューラルネットワーク(GNN)のためのフレームワークであるL2XGNNを提案する。
L2XGNNは、GNNのメッセージパッシング操作でのみ使用される説明サブグラフ(モチーフ)を選択するメカニズムを学習する。
L2XGNNは、グラフが予測するプロパティに責任を持つモチーフを識別できることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:54:58 GMT)
Towards Adaptive Neighborhood for Advancing Temporal Interaction Graph Modeling [19.8] テンポラルグラフネットワーク(TGN)は、テンポラル相互作用グラフのモデル化において、その顕著な性能を実証している。
本稿では,適応型近傍符号化機構を導入し,既存のTGNの強化を目指す。
既存のTGNとシームレスに統合可能な,フレキシブルなプラグアンドプレイモデルSEANを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:57:17 GMT)
Training-free Camera Control for Video Generation [19.5] 本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:33:00 GMT)
Enhancing Fake News Detection in Social Media via Label Propagation on Cross-modal Tweet Graph [19.4] ソーシャルメディアにおける偽ニュースを検出する新しい方法を提案する。
我々の手法は、より密な相互作用をよりよく捉えるために、グラフの接続性を高める。
評価には、Twitter、PHEME、Weiboの3つの公開フェイクニュースデータセットを使用します。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:55:54 GMT)
EFM3D: A Benchmark for Measuring Progress Towards 3D Egocentric Foundation Models [19.1] EFM3Dは、Project Ariaのアノテートされたエゴセントリックなデータに対する3Dオブジェクトの検出と表面回帰のベンチマークである。
EFM3Dは、Project Ariaの注釈付きエゴセントリックデータの3Dオブジェクト検出と表面回帰のための最初のベンチマークである。
本稿では,3次元EMFのベースラインであるEgocentric Voxel Lifting (EVL)を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:57:35 GMT)
Inferring State Machine from the Protocol Implementation via Large Language Model [18.9] 大規模言語モデル(LLM)を利用した革新的状態マシン推論手法を提案する。
提案手法の有効性を6つのプロトコル実装で評価した結果,精度90%を超える精度が得られた。
提案手法は, 精度の高い状態マシン推論において重要な一歩を踏み出すだけでなく, プロトコル実装のセキュリティと信頼性向上のための新たな道を開く。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:03:56 GMT)
From Text to Life: On the Reciprocal Relationship between Artificial Life and Large Language Models [18.9] 大規模言語モデル(LLM)は、AIの分野を嵐によって捉えてきたが、ALife(Artificial Life)分野への採用は、これまでは比較的限定的だった。
例えば、進化のオペレーターやオープンエンド環境の生成など、ALife研究のツールとしてのLLMの可能性を探る。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:45:32 GMT)
ScaLES: Scalable Latent Exploration Score for Pre-Trained Generative Networks [18.7] ScaLES(Scalable Latent Exploration Score)を開発し、LSO(Latent Space Optimization)における過剰探索を緩和する。
ScaLESは、訓練されたデコーダによるデータ分布の近似を利用した、正確で理論的に動機付けられた手法である。
LSOへの新たな道は、分散領域、微分可能性、計算的トラクタビリティから特定できるScaLES能力によって開くと信じている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:04:59 GMT)
GRASP: A Disagreement Analysis Framework to Assess Group Associations in Perspectives [18.6] 本稿では,グループ関係を,異なるレーダサブグループ間の視点で測定するための総合的不一致分析フレームワークGRASPを提案する。
本フレームワークは,特定のタスクにおいて他と大きく異なる視点を持つ特定のレーダ群を明らかにし,特定のタスクコンテキストにおいて考慮すべき人口動態の同定を支援する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:28:49 GMT)
Super-resolution multi-contrast unbiased eye atlases with deep probabilistic refinement [18.5] 眼の形態は、特に眼窩と視神経において、個体群によって大きく異なる。
本稿では,高分解能不偏眼アトラスの創製法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:11:43 GMT)
Improved Crop and Weed Detection with Diverse Data Ensemble Learning [18.5] 現代の農業は、現場における作物や雑草の正確な検出、地域化、定量化を必要とする、サイト・スペクティブ・ファーム・マネジメントの実践に大きく依存している。
既存の手法は、制御されていない畑の条件を考慮に入れた農業データを増強し、合成する。
我々は,他の作物や雑草に特有のデータを活用することを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:26:48 GMT)
Beyond Slow Signs in High-fidelity Model Extraction [18.3] 深層ニューラルネットワークは、訓練に費用がかかり、知的財産価値が豊富である。
それまでの攻撃は、少なくとも3つの隠蔽層を持つランダムデータで訓練されたモデルに対して、逆エンジニアリングモデルパラメーターをfloat64の精度まで向上させることに成功した。
我々は,従来の手法を統合した統一最適化を導入し,計算ツールが性能に著しく影響を及ぼすことを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:24:07 GMT)
Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning [18.3] 大規模言語モデル(LLM)は様々なタスクにまたがる顕著な能力を示しているが、幻覚のような課題に直面している。
本研究では,モデルの知識境界を認識する能力を向上させるために,不確実性感性チューニングと呼ばれる新しい手法を提案する。
提案手法はLlama2-chat-7Bモデルの性能を著しく向上させる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:56:04 GMT)
FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [18.3] FinTralは、Mistral-7bモデルに基づいて構築された、最先端のマルチモーダル言語モデル(LLM)のスイートである。
我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。
我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:26:47 GMT)
TGB 2.0: A Benchmark for Learning on Temporal Knowledge Graphs and Heterogeneous Graphs [18.2] テンポラルグラフベンチマーク2.0 (TGB 2.0) は、テンポラルグラフ上の将来のリンクを予測する手法を評価するための新しいベンチマークフレームワークである。
TGB 2.0は、最大5300万のエッジを持つ5つのドメインにまたがる8つの新しいデータセットを提示することで、包括的な評価を容易にする。
1)エッジタイプの情報を活用することは高いパフォーマンスを得るために不可欠であり、2)単純なベースラインはより複雑な手法と競合することが多く、3)ほとんどのメソッドは我々の最大のデータセット上で動作しない。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:08:04 GMT)
On the Encoding of Gender in Transformer-based ASR Representations [18.1] 本研究では,2つのASRモデル(Wav2Vec2とHuBERT)の潜在表現における性別のエンコーディングと利用について検討する。
分析の結果、最終層における第1および最終層における性別情報の集中が明らかとなり、これらの層における性別の消去の容易さが説明できる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:10:24 GMT)
Towards Effectively Detecting and Explaining Vulnerabilities Using Large Language Models [18.0] 大規模言語モデル(LLM)は、複雑なコンテキストとコンテンツ生成の理解において顕著な能力を示している。
脆弱性検出と説明にLLMを利用するフレームワークであるLLMVulExpを提案する。
LLMVulExpは、LLMが脆弱性検出(例えば、SeVCデータセットの90%以上のF1スコア)と説明を効果的に行うことができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:01:25 GMT)
A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization [17.4] 本研究では,大規模言語モデル(LLM)を用いたテキスト評価の迅速設計について検討する。
結果,理由と得点の順序がLLMの得点に大きく影響していることが判明した。
追加の最適化は、十分なデータが利用可能であればアライメントアライメントを強化する可能性がある。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:31:44 GMT)
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.4] 1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:43:26 GMT)
Are EEG-to-Text Models Working? [17.4] この研究は、オープン語彙EEG-to-Text翻訳のための既存のモデルを批判的に分析する。
本稿では,脳波信号から真に学習するモデルと,トレーニングデータを記憶するモデルとを区別する手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:27:00 GMT)
GeoSEE: Regional Socio-Economic Estimation With a Large Language Model [17.3] 大規模言語モデル(LLM)を用いた統合パイプラインを用いて,様々な社会経済指標を推定できるGeoSEEを提案する。
システムは、自然言語ベースのテキストフォーマットで選択したモジュールの結果を集約した後、コンテキスト内学習を通じてターゲットインジケータを算出する。
本手法は、教師なしコンテキストとローショットコンテキストの両方において、他の予測モデルよりも優れている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:50:22 GMT)
I Know How: Combining Prior Policies to Solve New Tasks [17.2] マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:44:51 GMT)
Heterogeneous Federated Learning with Convolutional and Spiking Neural Networks [17.2] フェデレートラーニング(FL)は、分散データ上でモデルをトレーニングするための有望なパラダイムとして登場した。
この研究は、CNN(Convoluntional Neural Network)とSNN(Biologically more plausible Spiking Neural Network)の両方を含むFLシステムのベンチマークを行う。
CNN-SNN融合フレームワークが最高の性能を示すことを示す実験結果が得られた。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:05:05 GMT)
Siamese-DETR for Generic Multi-Object Tracking [16.9] 従来のマルチオブジェクト追跡(MOT)は、事前に定義されたクローズドセットカテゴリに属するオブジェクトを追跡することに限定されている。
Siamese-DETRは、所定のテキストプロンプトとテンプレート画像を用いて、事前に定義されたカテゴリを超えてオブジェクトを追跡する。
Siamese-DETRはGMOT-40データセット上の既存のMOTメソッドを大きなマージンで上回る。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:00:34 GMT)
Disentangling Dialect from Social Bias via Multitask Learning to Improve Fairness [16.7] 本稿では,構文的および語彙的バリエーションを組み込む補助課題として,方言をモデル化するマルチタスク学習手法を提案する。
アフリカ系アメリカ人の英語方言を用いた実験では、共通学習アプローチと方言モデリングを補完することで、その公正さが向上することを示す実証的証拠を提供する。
その結果、マルチタスク学習は最先端の性能を達成し、偏りのある言語の性質をより確実に検出するのに役立つことが示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:39:39 GMT)
Analysing Multi-Task Regression via Random Matrix Theory with Application to Time Series Forecasting [16.6] 我々は,マルチタスク最適化問題を正規化手法として定式化し,マルチタスク学習情報を活用することを可能とする。
線形モデルの文脈におけるマルチタスク最適化のための閉形式解を導出する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:59:25 GMT)
CliBench: Multifaceted Evaluation of Large Language Models in Clinical Decisions on Diagnoses, Procedures, Lab Tests Orders and Prescriptions [16.3] 我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:10:17 GMT)
$\text{H}^2\text{TNE}$: Temporal Heterogeneous Information Network Embedding in Hyperbolic Spaces [16.3] 時間的HINに対する双曲的ヘテロジニアス時間ネットワーク埋め込みモデルを提案する。
具体的には、時間的かつ不均一に2重拘束されたランダムウォーク戦略を利用して、構造的および意味的な情報をキャプチャする。
実験の結果,本手法はSOTAモデルと比較して時間的リンク予測とノード分類に優れていた。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:43:40 GMT)
Towards Neural Scaling Laws for Foundation Models on Temporal Graphs [16.3] 我々は,85のERC20トークントランザクションネットワークからなる時間グラフの集合であるテンポラルグラフスケーリングデータセットを提案する。
時間グラフ特性予測タスクにおける時間グラフニューラルネットワーク(TGNN)の事前学習による伝達性の評価を行った。
NLPやComputer Visionで観測されるニューラルネットワークのスケーリング法則は、時間グラフ学習にも適用され、より多くのネットワークで事前学習することで、下流のパフォーマンスが向上する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:07:11 GMT)
Harm Mitigation in Recommender Systems under User Preference Dynamics [16.2] 本稿では,レコメンデーション,ユーザ関心,有害コンテンツとの相互作用を考慮したレコメンデーションシステムについて考察する。
クリックスルー率(CTR)の最大化と害軽減のトレードオフを確立するためのレコメンデーションポリシーを模索する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:52:47 GMT)
Same App, Different Behaviors: Uncovering Device-specific Behaviors in Android Apps [16.0] 実世界のAndroidアプリにおいて,デバイス固有の動作に関する大規模な実証的研究を行った。
デバイス固有の行動の分布を調べることで、中国のサードパーティアプリマーケット内のアプリが、Google Playのアプリに比べて、より関連性の高い行動を示すことが明らかになった。
問題修正や機能適応といった一般的な行動以外にも、何百万ダウンロードという人気アプリを含む33のアグレッシブなアプリを観察しました。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:58:22 GMT)
CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes [16.0] 因果的ビデオ質問応答(QA)はますます関心を集めているが、既存のデータセットは因果的推論の深さを欠いていることが多い。
漫画のユニークな特性を活かし、CausalChaos!を構築。
我々の質問は、キャラクターと視覚シーン間の複数の動的相互作用を相互に関連付ける因果連鎖に関するものである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:46:02 GMT)
Context-Aware Prediction of User Engagement on Online Social Platforms [15.8] 我々は、コンテキスト対応モデリングアプローチが、オンラインソーシャルプラットフォーム上でのユーザエンゲージメントの全体的かつ軽量な表現を提供する可能性を示唆するデータを提示する。
約8万人から1億以上のSnapchatセッションを分析しています。
スマートフォンの接続状況,位置,時間的コンテキスト,天候に関連する特徴は,ユーザエンゲージメントの非冗長なばらつきを捉えている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:21:51 GMT)
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering [15.8] Glyph-ByT5はグラフィックデザイン画像における高精度な視覚テキストレンダリング性能を実現している。
現在でも英語のみに特化しており、視覚的魅力の面では比較的貧弱である。
Glyph-ByT5-v2 と Glyph-SDXL-v2 は 10 言語で正確なビジュアルテキストレンダリングをサポートする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:44:09 GMT)
IBoxCLA: Towards Robust Box-supervised Segmentation of Polyp via Improved Box-dice and Contrastive Latent-anchors [15.7] Inproved Box-dice (IBox) とContrastive Latent-Anchors (CLA) は、頑健なボックス管理モデルであるIBoxCLAを訓練するために提案されている。
IBoxは、セグメントマップをシェープデカップリングと混乱領域スワップを使用してプロキシマップに変換する。
CLAは2種類の潜伏アンカーを生成して形状学習に寄与する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:46:54 GMT)
WindowMixer: Intra-Window and Inter-Window Modeling for Time Series Forecasting [15.6] 時系列予測は、経済予測、天気予報、交通流分析、公衆衛生監視といった分野において重要である。
従来の手法はポイントツーポイントの関係をモデル化し、複雑な時間パターンをキャプチャする能力を制限する。
全MLPフレームワーク上に構築された WindowMixer モデルを紹介する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:09:39 GMT)
Maestro: Uncovering Low-Rank Structures via Trainable Decomposition [15.3] 近年、ディープニューラルネットワーク(DNN)はAIのブレークスルーの大きな要因となっている。
より正確で安全になるにつれて、ますます大きなものになってきています。
つまり、トレーニングはますますコストと時間がかかります。
トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:40:29 GMT)
Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.0] Object State-Sensitive Agent (OSSA)は、トレーニング済みニューラルネットワークによって強化されたタスク計画エージェントである。
i)事前学習した視覚処理モジュールと自然言語処理モデル(LLM)からなるモジュールモデルと,(ii)VLMのみからなるモノリシックモデルである。
その結果、どちらの手法もオブジェクトの状態に敏感なタスクに使用できることがわかったが、モノリシックなアプローチはモジュラーアプローチよりも優れていた。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:52:42 GMT)
Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection [15.0] 我々は、Whisperのクロスアテンションに埋め込まれた時間アライメントを利用して自動回帰デコーディングをガイドするSimul-Whisperを紹介する。
複数の言語とWhisperアーキテクチャの実験により、Simul-Whisperは1秒のチャンクサイズで平均1.46%の絶対単語誤り率を達成した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:07:26 GMT)
Detecting Response Generation Not Requiring Factual Judgment [14.9] 本研究は, 事実正当性判定を必要としない文を予測するタスクが設定された対話応答において, 魅力と事実性を両立することを目的とした。
クラウドソーシングにより,ファクトチェック関連ラベル(DDFC)を付加したデータセットと対話データセットを作成し,このデータセットを用いて複数のモデルで分類タスクを行った。
分類精度が最も高いモデルでは、およそ88%の正確な分類結果が得られる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:03:24 GMT)
CarLLaVA: Vision language models for camera-only closed-loop driving [14.9] 本稿では,自律運転のための視覚言語モデル(VLM)であるCarLLaVAについて紹介する。
CarLLaVAは、LLaVA VLMとLLaMAアーキテクチャのビジョンエンコーダをバックボーンとして使用し、最先端の閉ループ駆動性能を実現する。
本研究は、駆動出力とともに言語解説の予測に関する予備的な結果を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:35:47 GMT)
GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors [14.7] 低分解能入力ビューからの高分解能新規ビュー合成(HRNVS)は、高分解能データがないため難しい課題である。
従来の手法では、低解像度の入力ビューから高分解能ニューラルネットワーク(NeRF)を最適化するが、レンダリング速度は遅い。
本研究では,高速なレンダリング速度で高品質な画像を生成する能力により,3Dガウススティング(3DGS)に基づく手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:19:21 GMT)
Fine-Grained Urban Flow Inference with Multi-scale Representation Learning [14.7] そこで本稿では,UrbanMSRと呼ばれる都市流モデルを提案する。
自己教師付きコントラスト学習を用いて、近隣レベルと都市レベルの地理的情報の動的マルチスケール表現を得る。
実世界の3つのデータセットに対する広範な実験により,その性能を検証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:42:29 GMT)
Next-Generation Simulation Illuminates Scientific Problems of Organised Complexity [14.7] 我々は、科学的問題の古典的な分類を再考し、未解決の問題の連続が残っていることを認めた。
我々は,異なるパラダイムのメソッドを統合するプラットフォームとして機能する次世代シミュレーション(NGS)に焦点を当てる。
本稿では,それを実現するための方法論,洗練された行動シミュレーション(SBS)を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:31:43 GMT)
TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs [14.4] Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化し、データとその相互接続の詳細な描写を容易にする。
既存のTAGデータセットは、主にノードでのみテキスト情報を特徴付けており、エッジは通常、単なるバイナリまたはカテゴリ属性で表される。
このギャップに対処するため、ノードとエッジにリッチなテキスト記述を備えたTextual-Edge Graphsデータセットを導入しました。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:22:47 GMT)
Non-Hermitian Aubry-André-Harper model with short- and long-range p-wave pairing [14.4] 短距離の非エルミートオーブリー・アンドリー・ハーパーモデルと長距離のp波ペアリングについて検討する。
短距離ペアリングではマヨラナゼロモードが出現するのに対し、長距離ペアリングでは巨大なディラックモードが出現する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:38:42 GMT)
SCKansformer: Fine-Grained Classification of Bone Marrow Cells via Kansformer Backbone and Hierarchical Attention Mechanisms [14.3] そこで本研究では,骨髄血球の詳細な分類モデルであるSCKansformerを提案する。
このモデルは、Kansformer、SCConvCD、Global-Local Attentionを統合している。
骨マーロウ血球微細粒度分類データセットを用いて,本モデルの有効性を検証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:25:53 GMT)
Harmonics of Learning: Universal Fourier Features Emerge in Invariant Networks [14.3] ある条件下では、ニューラルネットワークが有限群に不変であれば、その重みはその群上のフーリエ変換を回復する。
これは、生物学的および人工的な学習システムにおいて、ユビキタスな現象であるフーリエ特徴の出現に関する数学的説明を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:03:08 GMT)
Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores [14.2] 本稿では,2つのモノリンガルデータストアとゲートデータストア選択機構を利用する,kNN-CTCベースのコードスイッチングASR(Code-Switching ASR)フレームワークを提案する。
提案手法では,各フレームの復号化に適したデータストアを選択し,言語固有の情報をASRプロセスに確実に注入する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:36:39 GMT)
Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.1] 大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:27:26 GMT)
Learning Multi-view Molecular Representations with Structured and Unstructured Knowledge [14.1] 本稿では, 化学構造から多視点分子知識を抽出する表現学習モデルMV-Mol, バイオメディカルテキストからの非構造化知識, 知識グラフからの構造化知識について述べる。
MV-Molは分子特性予測に有効であることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:48:10 GMT)
I Still See You: Why Existing IoT Traffic Reshaping Fails [14.1] Internet of Things(IoT)デバイスによって生成されたインターネットトラフィックデータは、インターネットサービスプロバイダ(ISP)とデバイスメーカによって収集される。
オンパスの敵は、これらのネットワークトラフィックトレースを分析することによって、ユーザの機密プライバシー情報を推測し、フィンガープリントすることができる。
現在、既存の研究の包括性を比較評価する体系的な方法はない。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:11:44 GMT)
SDA: Simple Discrete Augmentation for Contrastive Sentence Representation Learning [14.0] SimCSEは、報告されているように、トリミング、単語削除、同義語置換といった個別の増強を驚くほど支配している。
我々は,句読点挿入,モーダル動詞,二重否定の3つの簡易かつ効果的な離散文拡張手法を開発した。
その結果,提案手法の優越性は一貫して向上した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:42:17 GMT)
Impact of Speech Mode in Automatic Pathological Speech Detection [14.0] 本稿では,病的音声検出における音声モードの影響を解析する。
古典的な機械学習とディープラーニングという2つのカテゴリのアプローチを調べます。
以上の結果から,古典的アプローチは自然発話における病因判別に苦慮している可能性が示唆された。
対照的に、ディープラーニングアプローチは優れた性能を示し、非自発音声では従来アクセス不能だった追加の手がかりを抽出する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:19:18 GMT)
Tree Search for Simultaneous Move Games via Equilibrium Approximation [13.9] 同時移動ゲームのクラスについて検討する。
どちらのエージェントも、相手の動き以外はゲーム状態を知っている。
本研究では,完全な情報設定から自己プレイを通じて学習した木探索アルゴリズムを,パフォーマンスを著しく損なうことなく同時移動ゲームに適応させることができるか?
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:02:35 GMT)
Direct Preference Optimization for Suppressing Hallucinated Prior Exams in Radiology Report Generation [13.9] 本稿では, 生成視覚言語モデル(VLM)の振る舞いを, 不要な世代を抑えることで, 放射線学レポート生成を行う手法を提案する。
DPOファインチューニングは,臨床精度測定値のモデル性能を維持しつつ,前科試験を幻覚させるラインの3.2-4.8倍の縮小を実現している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:47:20 GMT)
Towards the Theory of Unsupervised Federated Learning: Non-asymptotic Analysis of Federated EM Algorithms [13.9] 混合モデルの教師なし学習のために設計されたフェデレート勾配EMアルゴリズム(FedGrEM)を導入する。
一般混合モデルに対する包括的有限サンプル理論を提案する。
次に、この一般理論を特定の統計モデルに適用し、モデルパラメータと混合比例の明示的な推定誤差を特徴づける。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 23:03:32 GMT)
What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark [13.8] 音声による感情認識(SER)は、音声ベースのアプリケーションにおける人間とコンピュータの相互作用の促進に不可欠である。
特定の感情的データセットの改善にもかかわらず、SERが現実世界の状況にまたがって一般化する能力にはまだ研究のギャップがある。
本稿では,異なる感情データセットにまたがってSERシステムを一般化するためのアプローチについて検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:27:19 GMT)
How and Why LLMs Use Deprecated APIs in Code Completion? An Empirical Study [13.6] 大規模言語モデル(LLM)では、ライブラリの迅速かつ継続的な進化のために、コード補完は、正しく最新のアプリケーションプログラミングインタフェース(API)を使用するのに苦労する可能性がある。
この研究には、7つの高度なLLM、人気のあるPythonライブラリの145のAPIマッピング、28125の補完プロンプトが含まれていた。
我々は,textscReplaceAPI と textscInsertPrompt の2つの軽量固定手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:44:10 GMT)
Mokav: Execution-driven Differential Testing with LLMs [13.5] Mokavは2つのプログラム間の機能的差異を検出する実行駆動ツールである。
Mozav は、P と Q の異なる出力につながるテスト入力である有効な DET を生成する。
我々は、Codeforcesコンペティションプラットフォームから収集した1,535組のPythonプログラムとQuixBugsデータセットから収集した32組のプログラムについてMokavを評価する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:07:03 GMT)
When Will Gradient Regularization Be Harmful? [13.4] グラディエント正規化(GR)は、損失関数の上のノルムをペナル化することを目的としている。
本稿では,GRが適応最適化シナリオにおいて性能劣化を引き起こすことを明らかにする。
本稿では3つのGRウォームアップ戦略を提案し、それぞれがウォームアップコース中に一定の程度に正規化効果を緩和する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:17:39 GMT)
Quantum computing of reacting flows via Hamiltonian simulation [13.4] 本研究では, 周期的および一般条件下での反応流をシミュレーションするための量子スペクトル法と有限差分法を開発する。
現在の量子コンピューティングアルゴリズムは、時間的離散化なしで与えられた時間に対してワンショットの解を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:09:18 GMT)
Simple and near-optimal algorithms for hidden stratification and multi-group learning [13.3] 本稿では,多群学習問題に対する解の構造について考察する。
学習問題に対して単純でほぼ最適のアルゴリズムを提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:39:04 GMT)
Compressed Sensor Caching and Collaborative Sparse Data Recovery with Anchor Alignment [13.2] 本研究では,無線センサネットワークにおける圧縮センサキャッシング問題について検討する。
複数のキャッシュ間の協調を可能にするために,効率的な分散スパースデータリカバリアルゴリズムを考案した。
組込みオートエンコーダによりメッセージ交換をより効率的に行うグラフニューラルネットワークアーキテクチャを得る。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:47:13 GMT)
MeshPose: Unifying DensePose and 3D Body Mesh reconstruction [13.2] DensePoseとHuman Mesh Reconstructionに取り組むためにMeshPoseを導入する。
DensePoseは3Dメッシュ座標と画像のピクセル精度の相関を提供するが、3Dメッシュは提供しない。
我々のシステムはエンドツーエンドで訓練されており、DensePoseの精度を競う最初のHMR法である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:59:04 GMT)
Challenging the Machine: Contestability in Government AI Systems [13.2] 2024年1月24日から25日にかけて行われたワークショップは、人工知能に関する願望を実用的なガイダンスに変えることを目的としていた。
先進的な意思決定システムの競争性に関する要件はまだ完全に定義されておらず、実装されていない。
この文書は、そのワークショップの報告であり、勧告と解説資料である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:22:17 GMT)
Mesh Neural Networks for SE(3)-Equivariant Hemodynamics Estimation on the Artery Wall [13.1] 三次元幾何学的動脈モデルによる壁面上のベクトル値量の推定について検討する。
我々は、三角形のメッシュ上で直接動作するエンドツーエンドSE(3)-同変ニューラルネットワークにおいて、グループ同変グラフ畳み込みを用いる。
本手法は, 経時的, ベクトル値のWSSを, 異なる流れ境界条件下で正確に予測できるほど強力であることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:34:21 GMT)
Investigating Gender Fairness in Machine Learning-driven Personalized Care for Chronic Pain [13.0] 我々は、実世界における強化学習の応用を用いて、パーソナライズされた痛みケアレコメンデーションにおけるジェンダーフェアネスについて検討した。
実世界のデータを用いて行われた実験は、その特徴が男女の公平性に影響を与えることを示唆している。
実用性と公正性を最適化する機能を適応的に選択できることを実証するRLソリューションであるNestedを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:32:32 GMT)
FreeCtrl: Constructing Control Centers with Feedforward Layers for Learning-Free Controllable Text Generation [12.9] 制御可能なテキスト生成(CTG)は、特定の属性に忠実なテキストを作成しようとする。
選択したフィードフォワードニューラルネットワーク(FFN)ベクトルの重みを動的に調整する学習自由なアプローチであるFreeCtrlを提案する。
属性関連FFNベクトルの重みを同定し、適応的に調整することにより、FreeCtrlは生成されたコンテンツ中の属性キーワードの出力可能性を制御することができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:18:28 GMT)
Generative AI to Generate Test Data Generators [12.9] 我々は、異なるドメインでテストデータを生成するための生成AIの能力を評価する。
テストデータ生成タスクを実行するLarge Language Models (LLM) の3種類のプロンプトを設計する。
その結果, LLMは, 3段階の可積分性で, 広範囲の領域において, 現実的なテストデータ生成装置を生成できることが示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:49:12 GMT)
SALSA: Simulated Annealing based Loop-Ordering Scheduler for DNN Accelerators [12.8] SALSAは高速なデュアルエンジンスケジューラで、偶数マッピングと不均一マッピングの両方で最適な実行スケジュールを生成する。
SALSAは平均で11.9%、エネルギーは7.6%、検索速度は1.7倍、タイムループは24倍である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:49:38 GMT)
Federated Learning with Flexible Architectures [12.8] 本稿では,フレキシブルアーキテクチャを用いたフェデレートラーニング(FedFA)について紹介する。
FedFAは、モデルアグリゲーション中に、クライアントのローカルアーキテクチャとFLシステムにおける最大のネットワークアーキテクチャを整合させるために、レイヤグラフト技術を導入している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:44:46 GMT)
Sailing in high-dimensional spaces: Low-dimensional embeddings through angle preservation [12.8] 高次元データの低次元埋め込み(LDE)は、科学や工学においてユビキタスである。
我々は,LDE学習の新たな視点として,データポイント間の角度を再構築することを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:44:06 GMT)
Transformers are Provably Optimal In-context Estimators for Wireless Communications [12.8] マルチ層変換器は文脈内推定問題を効率的に解くことができることを示す。
また,このような変圧器の最適構成が,対応するトレーニング損失の最小化要因であることも証明した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:05:14 GMT)
L^2GC:Lorentzian Linear Graph Convolutional Networks for Node Classification [12.7] ローレンツ線形GCNの新しいフレームワークを提案する。
グラフノードの学習した特徴を双曲空間にマッピングする。
次に、ロレンツ線形特徴変換を行い、基礎となる木のようなデータ構造をキャプチャする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:15:20 GMT)
Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.7] 本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:39:01 GMT)
VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models [12.5] 本研究では,Large Language Models(LLM)の脆弱性検出機能を評価するために,新しいベンチマークであるVulDetectBenchを紹介する。
このベンチマークは、LLMの脆弱性を特定し、分類し、発見する能力を、難易度を高める5つのタスクを通じて総合的に評価している。
本ベンチマークでは,脆弱性検出の特定のタスクにおいて,様々なLLMの能力評価を効果的に行うとともに,コードセキュリティの重要領域における今後の研究と改善の基盤となる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:36:42 GMT)
"Did They F***ing Consent to That?": Safer Digital Intimacy via Proactive Protection Against Image-Based Sexual Abuse [12.4] 成人10人に8人がヌード画像やリュード画像などの親密な内容を共有している。
態度の厳格化と技術的な緩和の欠如は、そのようなコンテンツをシェアする人々を性的暴力のリスクに晒した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:56:24 GMT)
3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding [12.3] 3Dロータリー位置(3D-RPE)と呼ばれる3次元球面上の新しい回転位置符号化法を提案する。
3D-RPEは広く使われている2Dロータリーポジション(RoPE)の先進型である。
制御可能な長期崩壊に対して、3D-RPEはチャンクサイズ内での長期崩壊の制御を可能にする。
位置分解能を高めるため、3D-RPEはRoPE上の位置分解能の劣化を軽減することができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:13:37 GMT)
LaCour!: Enabling Research on Argumentation in Hearings of the European Court of Human Rights [12.3] LaCour!はECHRの最初の口頭弁論コーパスである。
154の公聴会(267時間以上のビデオ映像から210万のトークン)が英語、フランス語、その他の裁判所の言語で行われている。
文レベルのタイムスタンプと手動でアノテートされた役割と言語ラベルを提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:27:49 GMT)
Explaining Probabilistic Models with Distributional Values [12.3] 研究によると、ゲーム理論的な説明は誤解を招くか、解釈が難しい可能性がある。
SHAPのような現在の方法と説明したいものの間には、しばしば重大なミスマッチがある、と我々は主張する。
本稿では、協調ゲームや値演算子を一般化することで確率モデルに対するそのようなギャップを解消する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:18:11 GMT)
CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge [12.2] この挑戦は非常に成功し、最も優れた応募はベースラインを大幅に上回った。
本稿では,データプロファイル,タスク仕様,ベースラインシステム構築といった課題を包括的にレビューする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:49:38 GMT)
Generalized Linear Bandits with Limited Adaptivity [12.1] 限定適応性の制約内における一般化線形文脈帯域問題について検討する。
我々は2つのアルゴリズム, $textttB-GLinCB$ と $textttRS-GLinCB$ を提示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:11:11 GMT)
GEB-1.3B: Open Lightweight Large Language Model [12.1] GEB-1.3Bは、中国語と英語の両方で5500億のトークンで訓練された軽量な大規模言語モデル(LLM)である。
我々は, ROPE, Group-Query-Attention, FlashAttention-2などの新しいトレーニング技術を用いて, モデル性能を維持しながらトレーニングを加速する。
GEB-1.3BはMMLU、C-Eval、CMMLUなどの一般的なベンチマークで優れた性能を示し、MindLLM-1.3BやTinyLLaMA-1.1Bのような比較モデルよりも優れている。
オープンソースモデルとしてのGAB-1.3Bのリリースは、開発に重大な貢献をした
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:15:49 GMT)
DiffusionBlend: Learning 3D Image Prior through Position-aware Diffusion Score Blending for 3D Computed Tomography Reconstruction [12.0] 位置認識型3D-パッチ拡散スコアブレンディングによる3D画像の学習を可能にする新しいフレームワークを提案する。
我々のアルゴリズムは、従来の最先端手法よりも優れた、あるいは同等の計算効率を持つ。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:47:50 GMT)
TabularFM: An Open Framework For Tabular Foundational Models [12.0] 基礎モデル(FM)は大量のデータから一般化されたパターンを学習することができる。
FMに関するほとんどの研究は、主にテキストや画像のような非構造化データや、時系列のような半構造化データに焦点を当てている。
このギャップに対応するために、構造化データのためのFMを開発する最先端の手法を取り入れたTabularFMというフレームワークを導入する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:46:33 GMT)
A Benchmark for Maximum Cut: Towards Standardization of the Evaluation of Learned Heuristics for Combinatorial Optimization [12.0] 我々はNP-hard Maximum Cut問題に特化しているオープンソースのベンチマークスイートMaxCut-Benchを提案する。
我々は、このベンチマークを用いて、いくつかの一般的な学習ベースのアプローチの結果を体系的に相関づけたり、再現したりしようとする。
以上の結果から, 学習者の数人は, ナイーブな欲求アルゴリズムを上回り得ず, タブサーチを一貫して上回っているのはそのうちの1人だけであることが示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:44:23 GMT)
Practical offloading for fine-tuning LLM on commodity GPU via learned subspace projectors [11.9] 微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP_Offload を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:59:11 GMT)
Perturbing Attention Gives You More Bang for the Buck: Subtle Imaging Perturbations That Efficiently Fool Customized Diffusion Models [11.9] 疑似潜伏拡散モデル(LDM)に対する汎用的で効率的なアプローチであるCAATを提案する。
画像上の微妙な勾配が相互注意層に大きく影響し,テキストと画像のマッピングが変化することを示す。
実験により、CAATは多様な拡散モデルと互換性があり、ベースライン攻撃法より優れていることが示された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:26:38 GMT)
TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.8] 本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:39:28 GMT)
Self-Knowledge Distillation for Learning Ambiguity [11.8] 最近の言語モデルは、その正確さを考慮せずに単一のラベルを過度に予測することが多い。
本稿では,ラベル分布をより正確に学習できる新しい自己知識蒸留法を提案する。
本手法を多種多様なNLUベンチマークデータセットで検証し,実験結果から,より優れたラベル分布を生成する上での有効性を実証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:11:32 GMT)
Bayesian Conditioned Diffusion Models for Inverse Problems [11.7] 拡散モデルは、前方測定演算子に基づく逆問題を含む多くの画像再構成タスクにおいて優れている。
本稿では,所望の画像の条件分布に関連付けられたスコア関数に基づく拡散モデルBCDMのための新しいベイズ条件付け手法を提案する。
提案手法を用いて,画像処理,デブロアリング,超高解像度化,及びインペイントにおける最先端性能を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:13:03 GMT)
Neural Pose Representation Learning for Generating and Transferring Non-Rigid Object Poses [11.6] 本稿では,3次元変形可能なオブジェクトに対するポーズの表現を学習するための新しい手法を提案する。
1)オブジェクトの同一性からポーズ情報を遠ざけること、2)ポーズのバリエーションの学習を容易にすること、3)他のオブジェクトの同一性にポーズ情報を転送すること。
これらの特性に基づいて, 同一性およびポーズの多様性を有する3次元変形可能な物体の生成を可能にする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:33:01 GMT)
Asymmetrical Siamese Network for Point Clouds Normal Estimation [11.5] 本稿では、非対称なシームズネットワークアーキテクチャを用いて、クリーンでノイズの多い点群から学習した本質的な特徴の一貫性について検討する。
異なる枝から抽出された特徴間の合理的な制約を適用することにより、正規推定の品質を高める。
ノイズレベルの異なる様々な形状を含む新しい多視点正規推定データセットを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:07:23 GMT)
Research on Edge Detection of LiDAR Images Based on Artificial Intelligence Technology [11.5] 本研究では,人工知能技術を用いたLiDAR画像のエッジ検出手法を提案する。
ディープラーニングに基づくエッジ検出モデルの設計と実装を行い、モデルのトレーニングプロセスを最適化する。
実験結果から,提案手法は検出精度と計算効率において従来の手法よりも優れていたことが示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:18:54 GMT)
Application of Natural Language Processing in Financial Risk Detection [11.5] 本稿では,金融リスク検出における自然言語処理(NLP)の適用について検討する。
本研究は,NLPに基づく金融リスク検出モデルの構築により,金融文書や通信における潜在的なリスクを特定し,予測することを目的とする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:06:24 GMT)
One-Step Effective Diffusion Network for Real-World Image Super-Resolution [11.3] 本稿では,Real-ISR問題に対する1ステップの効果的な拡散ネットワーク,すなわちOSEDiffを提案する。
我々は,KL分散正則化を行うために,潜時空間における変分点蒸留を適用した。
実験の結果,OSEDiffは,客観的指標と主観的評価の両方の観点から,同等あるいはさらに優れたリアルISR結果が得られることが示された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:11:14 GMT)
SLoPe: Double-Pruned Sparse Plus Lazy Low-Rank Adapter Pretraining of LLMs [11.2] SLoPeは、トレーニング前の1%のイテレーションで低ランクのアダプタを追加することで、スパース事前訓練モデルの精度を向上させる。
SLoPeは、数十億のパラメータを持つモデルのトレーニングと推論を、それぞれ1.14times$と1.34times$に加速する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:43:26 GMT)
Shesha: Multi-head Microarchitectural Leakage Discovery in new-generation Intel Processors [11.1] Sheshaは、一貫した実行攻撃の自動発見のための最先端ファジィング技術よりも高速な収束率を示すフレームワークである。
我々は、Intelプロセッサの命令セット拡張(ISE)において、以前に報告されていない5つの実行パスを報告した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:02:28 GMT)
H-Fac: Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.0] モーメントとスケーリングパラメータに対する因子的アプローチを取り入れたH-Facを開発した。
提案アルゴリズムは,ResNetとVision Transformerの競合性能を示す。
これらの最適化アルゴリズムは、単純で適応性があり、多様な設定で容易に実装できるように設計されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:05:17 GMT)
Version Control of Speaker Recognition Systems [10.8] 本稿では,Googleが長年の工学的実践から学んだ話者認識システムのバージョン管理戦略について述べる。
SpeakerVerSimは、容易に拡張可能なPythonベースのシミュレーションフレームワークである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:26:40 GMT)
Underneath the Numbers: Quantitative and Qualitative Gender Fairness in LLMs for Depression Prediction [10.7] 本研究は、抑うつ検出のための機械学習モデルにおいて、性差の程度を調査するための最初の試みである。
定量的評価の結果,ChatGPTは様々なパフォーマンス指標で最高の性能を示した。
また,ジェンダーフェアネスを質的に評価するために,LLMが採用するテーマをいくつか挙げた。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:34:35 GMT)
Enhancing multimodal cooperation via sample-level modality valuation [10.7] そこで本研究では,各サンプルに対するモダリティの寄与を評価するために,サンプルレベルのモダリティ評価指標を提案する。
モダリティ評価によって、モダリティの相違は、データセットレベルでのグローバルな貢献相違を超えて、実際にサンプルレベルで異なる可能性があることが分かる。
本手法は, 微細なユニモーダル・コントリビューションを合理的に観察し, 大幅な改善を実現している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:37:46 GMT)
Out of style: Misadventures with LLMs and code style transfer [10.7] テキストスタイルの転送に言語モデルを使うことの成功に触発されて、コード言語モデルがコードスタイルの転送を行うことができるかどうかを検討する。
私たちは、forループからcomprehensionsのリストへの変換、コードの重複の排除、デコレータの追加など、5つのカテゴリにわたるコードスタイルの転送タスクのベンチマークスイートを設計しました。
次に、これらのテストを使用して、大規模な事前学習されたコード言語モデルや微調整されたモデルが、その転送が発生したかどうかを厳密なメトリクスに基づいて、スタイル転送を正しく実行し、コードがまだ機能テストに合格しているかを確認しました。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:04:56 GMT)
A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion [10.5] 室内深度補完のための2段階トランスフォーマーネットワークを提案する。
提案するネットワークは,Matterport3Dデータセット上での最先端性能を実現する。
また, 深度完了作業の重要性を検証するため, 室内3次元再構成に本手法を適用した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:42:27 GMT)
EUROPA: A Legal Multilingual Keyphrase Generation Dataset [10.4] 法律領域における多言語キーフレーズ生成のためのデータセットであるEUROPAを提案する。
欧州連合司法裁判所(EU)の法的判断から派生したもので、EUの公用語24言語全てに該当する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:51:01 GMT)
Generalization Error of Graph Neural Networks in the Mean-field Regime [10.4] グラフ畳み込みニューラルネットワークとメッセージパッシンググラフニューラルネットワークという,広く利用されている2種類のグラフニューラルネットワークについて検討する。
我々の新しいアプローチは、これらのグラフニューラルネットワークの一般化誤差を評価する平均場内上限を導出することである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:21:49 GMT)
SemanticSpray++: A Multimodal Dataset for Autonomous Driving in Wet Surface Conditions [10.3] SemanticSpray++データセットは、湿った表面条件下でのハイウェイのようなシナリオのカメラ、LiDAR、レーダーデータのためのラベルを提供する。
3つのセンサーのモダリティをラベル付けすることで、データセットは、異なる知覚方法のパフォーマンスを分析するための包括的なテストベッドを提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:46:48 GMT)
Label-Efficient Semantic Segmentation of LiDAR Point Clouds in Adverse Weather Conditions [10.3] 逆気象条件はLiDARセンサーの性能に深刻な影響を及ぼす可能性がある。
悪天候を検出するための現在のアプローチは、大量のラベル付きデータを必要とする。
本稿では,悪天候下でのLiDAR点雲のセグメンテーションに対するラベル効率のよいアプローチを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:29:00 GMT)
Deep Symbolic Optimization for Combinatorial Optimization: Accelerating Node Selection by Discovering Potential Heuristics [10.2] 本稿では,その利点を生かした,新しい記号的最適化学習フレームワークを提案する。
Dso4NSは高次元離散記号空間内の数学的表現の探索をガイドし、最高性能の数学的表現を解法に組み込む。
実験では、Dso4NSが高品質な表現の学習に有効であることを示し、CPUマシンにおける既存のアプローチよりも優れていた。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:02:14 GMT)
Challenging Forgets: Unveiling the Worst-Case Forget Sets in Machine Unlearning [10.0] マシン・アンラーニング(MU)は、選択したデータポイントがモデルの性能に与える影響を排除することを目的としている。
データ影響消去のための様々なMU手法にもかかわらず、評価は主にランダムなデータの忘れ方に焦点を当てている。
本稿では,影響消去の最も重要な課題を示すデータサブセットの同定を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:03:36 GMT)
Improved Particle Approximation Error for Mean Field Neural Networks [9.8] MFLD(Mean-field Langevin dynamics)は、確率分布の空間上で定義されるエントロピー規則化された非線形凸関数を最小化する。
最近の研究は、MFLDにおけるカオスの時間的一様伝播を実証している。
粒子近似誤差における対数的ソボレフ不等式(LSI)定数の依存性を改善する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:20:06 GMT)
Robust Latent Representation Tuning for Image-text Classification [9.8] 大規模モデルに対する頑健な潜在表現チューニング手法を提案する。
提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。
このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:29:19 GMT)
FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.7] 本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 01:46:04 GMT)
ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models [9.7] ProxyLMは、多言語タスクでプロキシモデルを使用してLMパフォーマンスを予測するフレームワークである。
我々の手法は、事前学習されたLMにおける未確認言語への適応性を示し、ルート平均二乗誤差(RMSE)によって測定された最先端性能を1.89倍に向上させる。
このフレームワークはモデル選択を合理化し、広範囲の計算資源を使わずに効率的なデプロイメントと反復的なLM拡張を可能にする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:52:05 GMT)
On the Computability of Robust PAC Learning [9.5] 本稿では,頑健な計算可能PAC(robust CPAC)学習の問題を紹介する。
このセットアップにおける学習性は,コンポーネントの組み合わせによってもたらされるものではない。
我々はその有限性は必要であるが、堅牢なCPAC学習には不十分であることを証明した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:20:04 GMT)
Precipitation Nowcasting Using Physics Informed Discriminator Generative Models [9.5] PySTEPSを含む最先端のモデルでは、予測不可能な分布パターンのため、極端な気象事象を正確に予測するのは難しい。
オランダ王立気象研究所の降水データと気象データを用いて降水流しを行う物理インフォームニューラルネットワークを設計する。
以上の結果から,PID-GANモデルは降水量で数値およびSOTA深部生成モデルよりも優れていた。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:12:53 GMT)
A Multivocal Review of MLOps Practices, Challenges and Open Issues [9.2] MLOpsに関する総合的な知識を提供するため,150の学術研究と48のグレー文学の多言語文献レビュー(MLR)を実施している。
複雑なパイプラインの開発と運用、大規模生産の管理、アーティファクトの管理、品質、セキュリティ、ガバナンス、倫理的側面の確保など、さまざまな分野に関するMLOpsのプラクティスや採用課題、ソリューションの出現を特定します。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:47:13 GMT)
Neural Operators for PDE Backstepping Control of First-Order Hyperbolic PIDE with Recycle and Delay [9.2] 我々は最近導入されたPDE制御のためのDeepONet演算子学習フレームワークを高度な双曲型クラスに拡張する。
PDEバックステッピング設計は非線形作用素の出力であるゲイン関数を生成する。
この演算子は、DeepONetニューラルネットワークと近似して、任意にきつい精度の程度に近似する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:17:20 GMT)
Enhancing In-Context Learning with Semantic Representations for Relation Extraction [9.1] 本稿では,RE 上の ICL に 2 つの AMR 強化意味表現を用いる。
どちらの場合も、すべての設定が粒度の細かいAMRのセマンティック構造から恩恵を受けることを示す。
我々は,このモデルを4つのREデータセットで評価した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:36:08 GMT)
PointSCNet: Point Cloud Structure and Correlation Learning Based on Space Filling Curve-Guided Sampling [9.1] 本稿では,PointSCNet と呼ばれるポイントクラウド特徴抽出ネットワークを提案する。
点雲の幾何学的構造情報と局所領域相関情報をキャプチャする。
実験の結果,PointSCNetは点雲の構造と相関を効果的に学習し,最先端の手法と同等あるいは同等であることがわかった。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:25:30 GMT)
The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences [9.0] これまでで最大の開発中心のビデオデータセットであるBabyViewデータセットをリリースしています。
この493時間のデータセットには、6ヶ月から5歳までの子どもの、長手、家庭、および就学前の環境のエゴセントリックなビデオが含まれています。
我々は,自己教師型言語と視覚モデルを訓練し,構文構造学習,物体認識,深度推定,画像セグメント化などのアウト・オブ・ディストリビューションタスクへの伝達を評価する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 23:52:27 GMT)
DNPM: A Neural Parametric Model for the Synthesis of Facial Geometric Details [8.8] 3次元顔モデリングでは、3DMMが最も広く使われているパラメトリックモデルであるが、アイデンティティや表現入力のみから詳細な幾何学的詳細を生成することはできない。
そこで我々は, 深層ニューラルネットワークを用いて, 詳細やしわを符号化した顔変位図から潜時符号を抽出するDNPMというニューラルパラメトリックモデルを提案する。
DNPMとDetailed3DMMは、音声駆動の詳細な3D顔アニメーションと、劣化画像からの3D顔再構成の2つのダウンストリームアプリケーションに役立つことを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:18:50 GMT)
Scalable MatMul-free Language Modeling [8.7] MatMul操作は大規模言語モデルから完全に除去可能であることを示す。
提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:48:33 GMT)
AdaViPro: Region-based Adaptive Visual Prompt for Large-Scale Models Adapting [8.7] 学習プロセスにプロンプトの「最適化」を組み込む領域ベースの適応型ビジュアルプロンプトAdaViProを提案する。
AdaViProは画像全体の地域化マスクマップを生成し、0と1で構成され、各領域にプロンプトを適用するか破棄するかを指定する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:00:30 GMT)
Mix Q-learning for Lane Changing: A Collaborative Decision-Making Method in Multi-Agent Deep Reinforcement Learning [8.5] 本稿では,Mix Q-learning for Lane Changing(MQLC)を提案する。
集団レベルでは,グローバル情報を利用して個別のQネットワークとグローバルQネットワークを協調する。
個人レベルでは、深層学習に基づく意図認識モジュールを観察に統合し、意思決定ネットワークを強化した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:44:19 GMT)
Learning Language Structures through Grounding [8.4] 言語構造を基礎として学習することを目的とした機械学習タスクのファミリーを考察する。
パートIでは,視覚的接地を通して構文解析を学習することを検討する。
第2部では文を対応する意味構造にマッピングする2つの実行対応手法を提案する。
パートIIIでは、他の言語のアノテーションから言語構造を学習する手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:21:53 GMT)
Fredformer: Frequency Debiased Transformer for Time Series Forecasting [8.4] Transformerモデルは時系列予測において主要なパフォーマンスを示している。
データの中で低周波の特徴を学習し、高周波の特徴を見落とし、周波数バイアスを示す傾向がある。
そこで我々はFredformerを提案する。Fredformerは、異なる周波数帯域にまたがる特徴を均等に学習することで、周波数バイアスを軽減するために設計されたフレームワークである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:41:22 GMT)
Approximate Contraction of Arbitrary Tensor Networks with a Flexible and Efficient Density Matrix Algorithm [8.3] 低ランク近似を用いてテンソルネットワークの収縮を効率的に近似する手法を提案する。
提案アルゴリズムは,低ランク近似を行う場合,環境の大部分を組み込む柔軟性を有する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:13:52 GMT)
Grounding Image Matching in 3D with MASt3R [8.1] 本稿では,トランスフォーマーをベースとした強力な3次元再構成フレームワークであるDUSt3Rによる3Dタスクのキャストマッチングを提案する。
我々は,DUSt3Rネットワークを高密度な局所的特徴を出力する新しいヘッドで拡張することを提案する。
提案手法はMASt3Rとよばれる手法で,複数のマッチングタスクにおいて技量を著しく上回っている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:46:30 GMT)
Lost in Latent Space: Disentangled Models and the Challenge of Combinatorial Generalisation [8.1] 近年の研究では、非常に不整合な表現を持つ生成モデルは、生成因子値の見当たらない組み合わせに一般化できないことが示されている。
さまざまなデータセットとトレーニング設定で複数のモデルをテストすることで、これらの代替品について検討する。
i) モデルが失敗した場合, エンコーダは未確認の組合せを潜在空間の正しい領域にマッピングできず, (ii) モデルが成功した場合, テスト条件が十分な例を除外しないためかのいずれかである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:09:18 GMT)
LimGen: Probing the LLMs for Generating Suggestive Limitations of Research Papers [8.1] 本稿では,研究論文におけるSLG(Suggestive Limitation Generation)の新たな課題について紹介する。
我々は textbftextitLimGen というデータセットをコンパイルし、4068 の研究論文とそれに関連する ACL アンソロジーの制限を包含する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:19:26 GMT)
STALL+: Boosting LLM-based Repository-level Code Completion with Static Analysis [8.1] この研究は、LLMベースのリポジトリレベルのコード補完における静的解析の統合に関する最初の研究を行う。
まず、拡張可能でカスタマイズ可能な複数の静的解析戦略の統合をサポートするフレームワークSTALL+を実装します。
その結果,ファイルレベルの依存関係をプロンプトフェーズに組み込むことが最善であるのに対して,後処理フェーズの統合はより悪くなっていることがわかった。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:28:31 GMT)
PixRO: Pixel-Distributed Rotational Odometry with Gaussian Belief Propagation [8.0] 本稿では,フレーム間回転推定の課題に対処する。
フレーム間の相対的な動きをフルイメージで推論する代わりに、ピクセルレベルで推定を分散する。
このパラダイムでは、各ピクセルは、局所的な情報と近隣のピクセルとの局所的なメッセージパッシングにのみ依存することで、グローバルな動きを推定する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:28:45 GMT)
Perturbed examples reveal invariances shared by language models [8.0] 2つのNLPモデルを比較するための新しいフレームワークを提案する。
このフレームワークは、同じおよび異なるアーキテクチャファミリーのモデルに関する実験であり、モデルの変化が言語機能にどのように影響するかについての洞察を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:36:36 GMT)
Architectural Blueprint For Heterogeneity-Resilient Federated Learning [8.0] 提案アーキテクチャは、クライアントデータの不均一性と計算制約に関連する課題に対処する。
スケーラブルでプライバシ保護のフレームワークを導入し、分散機械学習の効率を高める。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:25:29 GMT)
Parameter-Efficient Active Learning for Foundational models [7.8] 基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:40:09 GMT)
Evolving Self-Assembling Neural Networks: From Spontaneous Activity to Experience-Dependent Learning [7.5] 本稿では, 自己組織型ニューラルネットワークを, 活動と報酬に依存した方法でシナプス的, 構造的可塑性のクラスとして提案する。
その結果、ランダムに接続されたネットワークや空きネットワークから、異なる制御タスクの経験からモデルが学習できることが示されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:36:21 GMT)
Intra-QLAN Connectivity: beyond the Physical Topology [7.5] 量子ローカル・エリア・ネットワーク(Quantum Local Area Networks、QLAN)は、Quantum Internetのビルディングブロックである。
QLANは星のトポロジーのような単純な物理的トポロジーに基づいている。
本稿では,QLANの人工トポロジの工学的課題について述べる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:12:36 GMT)
What is the best model? Application-driven Evaluation for Large Language Models [7.1] A-Evalは、一般的な大規模言語モデルのアプリケーション駆動評価ベンチマークである。
我々は,678組の質問・回答ペアからなるデータセットを,アノテート・アノテート・レビューのプロセスを通じて構築する。
モデルスケールと課題難易度に関する興味深い法則を明らかにし、最適なモデルを選択するための実現可能な方法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:52:15 GMT)
CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models [7.1] CHiSafetyBenchは、リスクのあるコンテンツを特定し、中国のコンテキストにおけるリスクのある質問への回答を拒否する大きな言語モデルの能力を評価するための安全ベンチマークである。
このデータセットは、複数の選択質問と質問回答、リスクコンテンツ識別の観点からのLSMの評価、リスクのある質問への回答を拒否する能力の2つのタスクからなる。
本実験により, 各種安全領域における各種モデルの各種性能が明らかとなり, 中国における安全能力向上の可能性が示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:47:40 GMT)
Lifted Algorithms for Symmetric Weighted First-Order Model Sampling [7.0] 数量化器を用いた一階述語論理の2変数フラグメントのサンプリングにおけるドメインリフト性を証明する。
そして、この結果は、基数制約の存在下においても引き続き持続することを示す。
我々のアルゴリズムは、最先端のWMSサンプリングよりもかなりのマージンで優れています。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:39:07 GMT)
Enhancing Text Corpus Exploration with Post Hoc Explanations and Comparative Design [6.9] テキストコーパス探索(TCE)は探索探索タスクの範囲にまたがる。
現在のシステムは、実際に遭遇するタスクの範囲をサポートする柔軟性に欠けています。
ポストホックな説明やマルチスケールな比較設計によるTCEツールの強化手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:13:58 GMT)
Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content [6.6] ターン終端性の分析は、自発的会話におけるターンテイクのダイナミクスを研究するのに有用である。
本稿では,複数話者設定における音声発話を端末または非端末として自動分類する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:28:06 GMT)
BrainFounder: Towards Brain Foundation Models for Neuroimage Analysis [6.5] 本研究は,医療基盤モデルの創出に向けた新しいアプローチを紹介する。
本稿では,視覚変換器を用いた2段階事前学習手法を提案する。
BrainFounderは、これまでの勝利ソリューションの成果を上回る、大幅なパフォーマンス向上を実演している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:49:45 GMT)
TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.4] 伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:31:16 GMT)
SoK: Analysis of Software Supply Chain Security by Establishing Secure Design Properties [6.2] 本稿では,セキュアなソフトウェアサプライチェーンパターンに関する知識を体系化する。
ソフトウェアサプライチェーン攻撃の4段階を特定し、セキュアサプライチェーンに不可欠な3つのセキュリティ特性を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:16:09 GMT)
Bridging the Communication Gap: Artificial Agents Learning Sign Language through Imitation [6.1] 本研究は,実証から学ぶことによる非言語コミュニケーションスキルの獲得について考察する。
特に,人工エージェントの模倣学習に着目し,擬似ヒューマノイドアメリカン手話を教えることで実演した。
我々はコンピュータビジョンと深層学習を用いてビデオから情報を取り出すとともに、エージェントが観察された動作を再現できるように強化学習を行う。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:50:29 GMT)
Evaluating LLM-driven User-Intent Formalization for Verification-Aware Languages [6.1] Dafny と F* はプログラムの特性を正式に指定し、証明する手段を提供する。
プログラムに対するユーザ意図の形式化の正しさを保証するアルゴリズム的な方法はない。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:52:08 GMT)
Adaptive Teaching with Shared Classifier for Knowledge Distillation [6.0] 知識蒸留(KD)は、教師ネットワークから学生ネットワークへ知識を伝達する技術である。
共有分類器(ATSC)を用いた適応型授業を提案する。
提案手法は,CIFAR-100とImageNetのデータセットに対して,単教師と多教師の両方のシナリオで最新の結果が得られる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:19:28 GMT)
On the fidelity of information retrieval in the black hole final state model with scrambling interactions [5.7] 事象地平線内の崩壊物質と落下するホーキング放射との相互作用を考慮し, ブラックホール最終状態モデルにおける情報検索の忠実性について検討した。
衝突するユニタリ演算子を用いてこれらの相互作用をモデル化することにより、ブラックホールの蒸発の過程で情報がほとんど失われていることを直接計算により示している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:52:20 GMT)
Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy [5.6] Saliency Diversified Deep Ensemble (SDDE)は、Saliency Mapを活用することで、アンサンブルメンバー間の多様性を促進する新しいアプローチである。
特に,提案手法は,CIFAR10/100や大規模画像Netデータセットを含む複数のベンチマークにおいて,最先端のOOD検出品質,キャリブレーション,精度を実現する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:46:55 GMT)
Dataset Condensation with Latent Quantile Matching [5.5] 電流分布マッチング (DM) に基づく直流法は, 合成外乱と実外乱の遅延埋め込みの平均をマッチングすることにより, 合成データセットを学習する。
本稿では,2つの分布間の適合試験統計量の良さを最小化するために,遅延埋め込みの量子化と一致する潜在量子マッチング(LQM)を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:20:44 GMT)
Outlier detection in maritime environments using AIS data and deep recurrent architectures [5.4] 本稿では,海上監視のための深部再帰モデルに基づく手法を,公開可能な自動識別システム(AIS)データ上で提案する。
このセットアップはディープ・リカレント・ニューラルネットワーク(RNN)ベースのモデルを使用して、観測された船の動きパターンを符号化し、再構築する。
提案手法は,観測された動作パターンと再構成された動作パターンの計算誤差に対するしきい値決定機構に基づく。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:15:15 GMT)
A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations [5.3] 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて驚くべきパフォーマンスを示している。
本調査は,一般のLSMをベースとした医療用LSMの訓練方法について,体系的に検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:42:20 GMT)
Some things never change: how far generative AI can really change software engineering practice [5.2] Generative Artificial Intelligence(GenAI)は、ソフトウェアエンジニアリング(SE)の活動に影響を及ぼす可能性のあるいくつかのツールが利用可能になり、新興技術になりつつある。
我々は,SEにおけるGenAIに対する期待を明らかにするために,SE実践者との調査を行った。
私たちの結果は、実践者は生産性、コーディング、プロセス品質の向上を期待していますが、いくつかの側面は変わらないと想定しています。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:26:42 GMT)
Exploration by Learning Diverse Skills through Successor State Measures [5.1] 状態空間を均一にカバーする多様なスキルのセットを構築することを目的としている。
我々は,各スキルに規定された政策によって到達した国家の分布を考察し,後継国家対策を活用する。
この新たな形式化により,より堅牢で効率的な探査が可能となった。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:36:15 GMT)
SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering [5.0] AVQA(Audio-Visual Question Answering)のマルチモーダル入力により,特徴抽出と融合処理がより困難になる。
我々は、双曲幾何学と状態空間モデルの利点を統合するために、構造化双曲状態空間モデル(SHMamba: Structured Hyperbolic State Space Model)を提案する。
提案手法は,現行のすべての主要な手法の優越性を実証し,実用的なアプリケーションシナリオに適した方法である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:43:31 GMT)
Brain-Inspired Spike Echo State Network Dynamics for Aero-Engine Intelligent Fault Prediction [4.9] 本研究では,航空機の知的故障予測のための脳内スパイク状態ネットワーク(Spike-ES)モデルを提案する。
スパイクESは、航空エンジンの時系列データの進化過程を効果的に捉えるために用いられる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:06:17 GMT)
Compressed Meta-Optical Encoder for Image Classification [4.9] 我々は知識蒸留を用いて、改良されたAlexNetを1つの線形畳み込み層と電子バックエンドに圧縮する。
5つの畳み込み層と3つの完全連結層を持つ純粋電子CNNに匹敵する性能を得る。
MNISTデータセットでは,分類精度が93%を超えることが実験的に実証された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:43:12 GMT)
Bayesian uncertainty-weighted loss for improved generalisability on polyp segmentation task [4.6] 一方の中央から別の中心へのポリープの出現による変動, 内視鏡機器の品位の違い, および取得品質は, 分配試験データに対して良好な性能を示す方法をもたらす。
不公平モデルには深刻な意味があり、臨床応用にとって重要な課題となっている。
トレーニング中にベイズ予測の不確実性を生かした暗黙バイアス緩和手法を適用し, モデルが過小評価されたサンプル領域に集中するよう促す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:39:01 GMT)
An efficient text augmentation approach for contextualized Mandarin speech recognition [4.6] 本研究は、テキストのみのデータセットを活用し、事前学習されたASRモデルを文脈化することを提案する。
事前学習したCIFベースのASRを文脈化するために,限られた音声テキストデータを用いたコードブックを構築した。
多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:53:14 GMT)
Deep learning for precipitation nowcasting: A survey from the perspective of time series forecasting [4.5] 本稿では,ディープラーニングを用いた時系列降水予測モデルの最近の進歩を概観する。
予測モデルを,将来のフレームを予測するためのアプローチに基づいて,テキスト再帰戦略とテキスト多重戦略に分類する。
筆者らは,現在,降水予測のための深層学習モデルの評価を行い,その限界と課題について議論し,いくつかの有望な研究方向性を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 01:11:09 GMT)
A Decoding Scheme with Successive Aggregation of Multi-Level Features for Light-Weight Semantic Segmentation [4.5] セマンティックセグメンテーションのための新しいデコード方式を提案する。
エンコーダからマルチレベルの機能をマルチスケールアーキテクチャで取り出す。
計算コストの削減だけでなく、セグメンテーションの精度の向上も目指している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:48:24 GMT)
ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers [4.4] Adaptive Local-then-Global Merging (ALGM) は、平易な視覚変換器を用いたセグメンテーションネットワークのためのトークン削減手法である。
ALGMはスループットを最大100%改善し、平均IoUを最大+1.1まで向上させることができることを示す。
私たちのアプローチは推論中に適応的であり、アプリケーションによっては、同じモデルを最適な効率や精度で使用することができます。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:31:21 GMT)
Finite-Time Analysis of Simultaneous Double Q-learning [4.4] ダブル$Q$-learningは、$Q$-learningアップデートで過大評価バイアスになる傾向がある。
本稿では,Double $Q$-learning (SDQ) と有限時間解析を組み合わせた改良型Double $Q$-learningを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:47:25 GMT)
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack [4.3] BABILongベンチマークを導入し、長い文書に散在する事実を推論する言語モデルの能力をテストする。
BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。
評価の結果,LLM は文脈の 10-20% しか有効に利用できず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:00:29 GMT)
Enhancing Multilingual Voice Toxicity Detection with Speech-Text Alignment [4.3] 音声の毒性分類は、音声の意味的内容に大きく依存する。
テキストのセマンティック埋め込みを多ラベル音声毒性分類器に組み込むために,クロスモーダル学習を利用する新しいフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:56:53 GMT)
Experiments in News Bias Detection with Pre-Trained Neural Transformers [4.2] 州俳優や商業選手は、偏見のある(歪んだ)情報や偽の(非現実的な)情報を広めて、彼らの議題を宣伝した。
文レベルのニュースバイアス検出とサブタイプ分類のタスクにおいて,事前学習した大規模言語モデルを比較した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:34:36 GMT)
Optimizing Byte-level Representation for End-to-end ASR [4.2] エンドツーエンド自動音声認識(ASR)のためのバイトレベルの表現を最適化する新しい手法を提案する。
バイトレベルの表現は、サポート対象言語の文字集合が大きい場合、大規模なASRシステムでしばしば使用される。
この手法を用いて構築されたバイリンガル ASR モデルは,英語/マンダリン宣言タスクにおいて,エラー率の相対的に5% 向上することを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:58:19 GMT)
SmartRSD: An Intelligent Multimodal Approach to Real-Time Road Surface Detection for Safe Driving [4.2] 本稿では,音声と画像を統合することで路面条件の自動検出を実現するためのマルチモーダル手法を提案する。
本研究は,道路安全の向上と事故リスクの最小化を目的とした聴覚と視覚の融合の可能性を明らかにするものである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:38:21 GMT)
A Neural-preconditioned Poisson Solver for Mixed Dirichlet and Neumann Boundary Conditions [4.2] 混合境界条件を持つポアソン方程式に対するニューラルプレコンディション付き反復解法を提案する。
プレコンディショナーの成功の鍵は、空間的に異なる畳み込みカーネルを特徴とする、新しくて軽量なニューラルネットワークアーキテクチャである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:57:50 GMT)
XctDiff: Reconstruction of CT Images with Consistent Anatomical Structures from a Single Radiographic Projection Image [4.2] XctDiffは、単一のラジオグラフからCTを再構成するためのアルゴリズムフレームワークである。
まず,ロバストな3D先行情報を抽出できるプログレッシブな特徴抽出戦略を設計する。
次に,抽出した先行情報を用いて,潜伏空間におけるCT再構成を誘導する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:41:33 GMT)
Intepretative Deep Learning using Domain Adaptation for Fluorescence Spectroscopy [4.1] 蛍光分光法は生命科学や化学の基本的な道具であり、環境モニタリング、食品品質管理、生物医学診断などの応用に広く用いられている。
深層学習による分光データの解析,特に蛍光励起放出行列(EEMs)は,典型的には小さく,希少なデータセットによって大きな課題を生んでいる。
本研究では、これらの課題に対処する新しい解釈可能性アルゴリズムとともに、事前学習された視覚モデルによるドメイン適応を利用する新しいアプローチを提案する。
この研究で紹介されたニューラルネットワークの特徴エンジニアリングのおかげで、基礎となる物理化学的プロセスについてより深く意味のある洞察を得られるようになりました。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:41:21 GMT)
Large language model validity via enhanced conformal prediction methods [4.1] 我々は,大規模言語モデルの出力に対する妥当性を保証するための新しい共形推論手法を開発した。
まず、Gibs et al. (2023) の条件共形手順を一般化し、出力の有効性を維持する必要がある場合に、より弱い保証を適応的に発行する。
第2に,条件付きコンフォメーション手順を微分する新しいアルゴリズムを用いて,スコアリング関数の品質を体系的に改善する方法を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:46:39 GMT)
LieRE: Generalizing Rotary Position Encodings [4.1] より高次元入力をサポートするために、RoPEを超えるリー群相対位置 s (LieRE) を導入する。
2Dおよび3D画像分類タスクにおけるLieREの性能を評価し、LieREがRoFormer, Dei IIIT, RoPE-Mixed, Vision-Llamaのベースラインと比較して、パフォーマンス(最大6%)、トレーニング効率(3.5倍)、データ効率(30%)を著しく向上させることを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:41:55 GMT)
Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation [4.0] DiffuseSTは低遅延直接音声翻訳システムである。
タコトロン系シンセサイザーと新しい拡散型シンセサイザーを比較した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:55:55 GMT)
SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation [4.0] 本稿では,自己教師型学習を補助課題として行うビデオポリープセグメンテーション手法と,表現学習を改善するための空間的時間的自己認識機構を提案する。
実験により, 現状技術(SOTA)法の改良が示された。
本研究は,Diceの類似度係数と交叉結合度の両方において,ネットワークの精度が3%以上,10%近く向上することが確認された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:33:11 GMT)
Personalized Speech Enhancement Without a Separate Speaker Embedding Model [3.9] 本稿では,PSEモデル自体の内部表現を話者埋め込みとして用いることを提案する。
提案手法は,事前学習した話者埋め込みモデルを用いた標準的な手法よりも,等しく,あるいは良好に動作することを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:16:46 GMT)
The Rise and Fall(?) of Software Engineering [3.9] ソフトウェア工学へのAIのスムーズな統合に不可欠な重要な要素を概説することを目指している。
まず、SEとAIの進化について簡単に説明する。その後、AI駆動の自動化と人間のイノベーションの間の複雑な相互作用を掘り下げる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:50:24 GMT)
SatDiffMoE: A Mixture of Estimation Method for Satellite Image Super-resolution with Latent Diffusion Models [3.8] 我々はtextbfSatDiffMoE と呼ばれる新しい拡散型融合アルゴリズムを提案する。
アルゴリズムは非常に柔軟で、任意の数の低解像度画像のトレーニングと推測が可能である。
実験の結果,SatDiffMoE法は衛星画像の超解像処理に優れていた。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:58:28 GMT)
SigDiffusions: Score-Based Diffusion Models for Long Time Series via Log-Signature Embeddings [3.8] SigDiffusionは、データのログ署名で動作する新しい拡散モデルである。
対数符号式から信号を取り出すため、我々は新しい閉形式反転式を提供する。
SigDiffusionとこれらの公式を組み合わせることで、非常に現実的な時系列生成が得られることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:04:06 GMT)
RDRec: Rationale Distillation for LLM-based Recommendation [3.8] 本稿では,より大きな言語モデル(LM)が生成する合理性を学習するためのコンパクトモデルを提案する。
ユーザやアイテムに関するレビューの合理性を活用することで、RDRecはレコメンデーションのためにプロファイルを明確に指定する。
実験により、RDRecはトップNとシーケンシャルレコメンデーションの両方で最先端(SOTA)のパフォーマンスを達成することが示された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:07:32 GMT)
Suboptimality bounds for trace-bounded SDPs enable a faster and scalable low-rank SDP solver SDPLR+ [3.8] 半定プログラム(SDP)は、機械学習とデータサイエンスに多くの応用がある強力なツールである。
SDPソルバは、正の半定値決定変数がn×n$密度行列であるため、困難である。
20年前、Burer氏とMonterio氏は、完全な行列の代わりに低ランクの分解を最適化したSDPソルバを開発した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 20:31:22 GMT)
LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data [3.7] マルチモーダルディープラーニングは、テキスト、画像、オーディオ、ビデオなどの多様な情報ソースを統合することで意思決定を強化する。
信頼性の高いマルチモーダルアプローチを開発するためには、これらのモデルがいかに不確実性に与える影響を理解することが不可欠である。
我々は,不確実かつマルチモーダルなデータから学習するために,50クラスの音声,画像,テキストデータを含むユニークなベンチマークデータセットLUMAを紹介する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:22:07 GMT)
Group and Shuffle: Efficient Structured Orthogonal Parametrization [3.5] 構造化された行列の新しいクラスを導入し、以前の研究から構造化されたクラスを統一し一般化する。
我々は,テキスト・画像拡散モデルの適応や,言語モデルにおける下流タスクの微調整など,異なる領域での手法を実証的に検証する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:29:36 GMT)
Pcc-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual Similarity [3.4] 本稿では,コントラスト学習を用いて,スピアマンの相関スコアの詳細な分析を行う。
本稿では、Pearsonの相関係数を損失関数として用いてモデル性能を改良するPcc-tuningという革新的な手法を提案する。
実験の結果, Pcc-tuningは従来の最先端戦略を著しく上回り, スピアマン相関スコアは90。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:40:07 GMT)
Predicting User Perception of Move Brilliance in Chess [3.4] チェスの動きを華々しく分類する最初のシステムを示す。
精度は79%(ベースレート50%)、PPVは83%、NPVは75%である。
より弱いエンジンが低品質とみなすと、この動きは輝かしく、すべて等しいと予測される傾向が示される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:46:26 GMT)
In-depth analysis of recall initiators of medical devices with a Machine Learning-Natural language Processing workflow [3.4] この研究は、2018年から2024年までの医療機器リコールデータベースに基づいて、医療機器リコール開始者を特定し、評価し、分析した。
その結果、ノイズクラスタリングアルゴリズムを用いたアプリケーションにおける教師なし密度に基づく空間クラスタリングは、それぞれのリコール開始器を特定の方法で提示できることが示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:38:49 GMT)
Entanglement Structure and Information Protection in Noisy Hybrid Quantum Circuits [3.3] このレターは、量子ノイズと測定誘起相転移の間の相互作用の深い理解に寄与する。
また、量子計算におけるマルコフノイズと非マルコフノイズの影響を理解するための新しい視点を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:18:08 GMT)
Trustworthy Artificial Intelligence in the Context of Metrology [3.3] 我々は、信頼できる人工知能(TAI)分野の国立物理研究所での研究をレビューする。
技術的,社会技術的,社会的の3つのテーマについて述べる。これは,開発モデルが信頼性が高く,責任ある決定を下す上で重要な役割を担っている。
NPLで取り組んでいるTAI内の3つの研究領域について論じ、AIシステムの認証について、TAIの特徴の遵守の観点から検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:23:27 GMT)
Annotation Cost-Efficient Active Learning for Deep Metric Learning Driven Remote Sensing Image Retrieval [3.2] ANNEALは、類似した、異種のイメージペアで構成された、小さくて情報的なトレーニングセットを作成することを目的としている。
選択されたイメージペアは、専門家アノテータに送信され、類似または異種としてラベル付けされる。
このアノテート方式は、LULCラベルによる画像のアノテートコストと比較して、アノテーションコストを著しく削減する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:08:04 GMT)
Gradient-based Learning in State-based Potential Games for Self-Learning Production Systems [3.2] 本稿では,自己学習型分散生産システムにおける状態ベースポテンシャルゲーム(SbPG)の勾配に基づく最適化手法を提案する。
SbPGは自己最適化型分散マルチエージェントシステムの実現に有効であることが認識されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:26:36 GMT)
Enhancing Security in Millimeter Wave SWIPT Networks [3.1] ミリ波(mmWave)通信は、超高消費電力の大きな問題に遭遇する。
同時無線情報通信(SWIPT)は有望な技術である。
本稿では、一般的なmmWave SWIPTネットワークにおけるセキュリティ性能について検討し、異なる攻撃モデル下での盗聴を成功させる可能性について検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:45:16 GMT)
Rapport-Driven Virtual Agent: Rapport Building Dialogue Strategy for Improving User Experience at First Meeting [3.1] 本研究の目的は、ラプポート構築戦略を用いて、小さな講演を通して人間とエージェントのラプポートを確立することである。
対話戦略に基づく仮想エージェントのためのこの戦略を,大規模言語モデル(LLM)の推進により実現した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:47:15 GMT)
MEMO-QCD: Quantum Density Estimation through Memetic Optimisation for Quantum Circuit Design [3.0] 本稿では,密度推定のための効率的な量子回路設計手法を提案する。
この戦略は、密度推定のための量子インスパイアされたアルゴリズムと、メメティックアルゴリズムに基づく回路最適化ルーチンに基づいている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:07:16 GMT)
ECGMamba: Towards Efficient ECG Classification with BiSSM [3.0] 本稿では,双方向状態空間モデル(BiSSM)を用いて分類効率を向上させる新しいモデルECGMambaを提案する。
2つの公開ECGデータセットの実験結果は、ECGMambaが効果的に分類の有効性と効率のバランスをとることを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:55:53 GMT)
Positive-Unlabelled Learning for Identifying New Candidate Dietary Restriction-related Genes among Ageing-related Genes [3.0] 食事制限(DR)は最も人気のある抗老化介入の1つであり、そのメカニズムに関連する遺伝子を徹底的に研究する。
近年、機械学習は老化関連遺伝子中のDR関連遺伝子を同定するために研究されている。
本研究では,2段階のポジティブ・アンラベリード(PU)学習パラダイムに基づく新しい遺伝子優先順位付け手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:14:01 GMT)
Semantic Membership Inference Attack against Large Language Models [3.0] メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングセットに含まれるかどうかを決定する。
入力のセマンティックな内容と摂動を利用してMIA性能を向上させる新しいアプローチであるセマンティック・メンバーシップ・推論・アタック(SMIA)を導入する。
SMIAはニューラルネットワークをトレーニングし、摂動入力におけるターゲットモデルの振る舞いを分析し、メンバーと非メンバー間の出力確率分布の変動を効果的に捉える。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:53:50 GMT)
Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9] 特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。
我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。
実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:37:08 GMT)
Predicting Consultation Success in Online Health Platforms Using Dynamic Knowledge Networks and Multimodal Data Fusion [2.9] オンライン相談の成功を予測することは、患者の全医療ジャーニーにおける仮想相談の役割の一部が原因で困難である。
オンライン相談における患者データは、しばしばスパースで不完全であり、重要な技術的課題と研究のギャップを提示する。
本稿では,オンライン医療相談の予測能力を高める動的知識ネットワークとマルチモーダルデータフュージョンフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:41:30 GMT)
Tilt and Average : Geometric Adjustment of the Last Layer for Recalibration [2.8] キャリブレーションは 信頼性と精度を一致させ 予測の信頼性を高めることを目的としています
キャリブレーションマップに基づくいくつかの解がこの問題に対処するために提案されている。
我々は、キャリブレーションマップに基づくアプローチとは異なる、分類器の最後の層の重みを変換するアルゴリズムを提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:27:56 GMT)
HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.8] 本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 23:00:31 GMT)
GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding [2.8] 本研究では,動物行動認識における多モーダル大言語モデルの視覚知覚能力について検討した。
その結果,現在のマルチモーダルLLMでは意味的対応や時間知覚の改善が求められているが,動物行動認識の視覚的認識能力が実証された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:30:26 GMT)
Federated Learning driven Large Language Models for Swarm Intelligence: A Survey [2.8] Federated Learning (FL)は、大規模言語モデル(LLM)をトレーニングするための魅力的なフレームワークを提供する
私たちは機械学習に重点を置いています。これは、忘れられる権利のようなプライバシー規則に従う上で重要な側面です。
摂動技術やモデル分解,漸進学習など,効果的なアンラーニングを可能にするさまざまな戦略を探求する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:40:58 GMT)
A lightweight residual network for unsupervised deformable image registration [2.7] 本稿では, 並列拡張畳み込みブロックを組み込んだ残差U-Netを提案する。
本手法は患者間およびアトラスに基づくデータセットを用いて評価する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:20:49 GMT)
Federated Learning Across Decentralized and Unshared Archives for Remote Sensing Image Classification [2.7] フェデレートラーニング(Federated Learning, FL)は、複数のディープラーニングモデルのコラボレーションにより、クライアント上のデータにアクセスせずに、分散化されたデータアーカイブ(クライアント)から学習することができる。
FLは、分散画像アーカイブからの知識発見に十分な機会を提供するが、リモートセンシング(RS)ではめったに考えられない。
本稿では,RS画像分類問題に対する最先端FLアルゴリズムの比較検討を行う。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:52:13 GMT)
FZI-WIM at SemEval-2024 Task 2: Self-Consistent CoT for Complex NLI in Biomedical Domain [2.7] 本稿では,SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical TrialsにおけるFZI-WIMの推論システムについて述べる。
我々のシステムは、この複雑な推論問題に対処するために、思考の連鎖(CoT)パラダイムを利用する。
自己整合CoTシステムは、ベースラインF1スコアが0.80(第1位)、忠実スコアが0.90(第3位)、一貫性スコアが0.73(第12位)となる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:49:07 GMT)
From Manifestations to Cognitive Architectures: a Scalable Framework [2.7] 本稿では,現実を情報源として解釈する新しい手法を提案する。
このフレームワークは、Long Term MemoryやWorking Memoryといった、古典的な認知アーキテクチャの要素を構築することができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:26:26 GMT)
Development and Validation of a Machine Learning Algorithm for Clinical Wellness Visit Classification in Cats and Dogs [2.7] 獣医学における早期の疾患検出は、ウェルネス訪問中の無症状動物における下肢異常の同定に依存する。
本研究では,ウェルネスと他の獣医の訪問を区別するアルゴリズムを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:38:15 GMT)
Speed-up of Data Analysis with Kernel Trick in Encrypted Domain [2.6] ホモモルフィック暗号化(HE)は、プライバシ保護データ分析において重要な暗号化データに対するセキュアな計算に重要である。
本稿では,暗号ドメイン内のML/STATアルゴリズムの時間性能を向上させるため,HE方式のカーネル手法を用いた効果的な高速化手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:49:40 GMT)
Genons, Double Covers and Fault-tolerant Clifford Gates [2.6] 自然に発生するフォールトトレラントな論理クリフォードゲートを持つシンプレクティックな二重符号を生成する構成を示す。
我々はこれをQuantinuumのH1-1トラップイオン量子コンピュータで実験的に実証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:57:51 GMT)
Automated GIS-Based Framework for Detecting Crosswalk Changes from Bi-Temporal High-Resolution Aerial Images [2.6] 本研究では,フロリダ州のオレンジ郡,オセオラ郡,セミノール郡の横断歩道の変化を自動的に検出する枠組みを開発した。
様々な時間間隔で得られた高解像度画像から抽出したデータを使用する。
オレンジ郡では約2,094回の横断歩道変更があり、州道では312回起きている。
一方、セミノール郡とオセオラ郡では、地方道路と州道の両方で1,040と1,402の横断歩道の変化が観察された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:36:50 GMT)
Data Ethics in the Era of Healthcare Artificial Intelligence in Africa: An Ubuntu Philosophy Perspective [2.5] 本稿では、Ubuntu哲学の観点から、アフリカにおけるAI時代の医療データ倫理について論じる。
倫理的ガイドラインは、文化的多様性、傾向、植民地主義のような歴史的要因を説明するために、政治的・文化的設定を反映しなければならない。
提案されたフレームワークは、AI開発者、医療提供者、公衆、および政策立案者を含むステークホルダーに、アフリカのAIにおける医療データ倫理的利用について通知する可能性がある。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:28:36 GMT)
Deep learning empowered sensor fusion to improve infant movement classification [2.5] そこで本研究では,3つの異なるセンサモードを比較し,FM(Fidgety Movement)を評価するためのセンサ融合手法を提案する。
様々な組み合わせと2つのセンサ融合法を用いて、マルチセンサシステムが単一モードアセスメントよりも優れた性能を発揮するかどうかを検証した。
三感融合(94.5%の分類精度)の性能は、評価されたどの単一モダリティよりも著しく高かった。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:24:54 GMT)
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.5] 本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:47:37 GMT)
Bag of Lies: Robustness in Continuous Pre-training BERT [2.5] 本研究の目的は、エンティティ知識に関するBERTの継続的な事前学習フェーズに関する洞察を得ることである。
BERTの事前トレーニングデータの最後の更新以来、このモデルは新型コロナウイルスに関するエンティティ知識をほとんど、あるいは全く持っていない。
ベースラインBERTモデルと,ファクトチェックベンチマークであるCheck-COVIDの事前学習版を比較した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:16:08 GMT)
Multisensory extended reality applications offer benefits for volumetric biomedical image analysis in research and medicine [2.5] 高解像度ボリューム画像からの3Dデータは、現代医学における診断と治療の中心的な資源である。
近年の研究では、視覚深度知覚と触覚を持つ3次元画像の知覚に拡張現実(XR)を用いたが、制限的な触覚デバイスを用いた。
本研究では, バイオメディカル画像の専門家24名を対象に, 3次元医用形状を探索した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:23:27 GMT)
UniBridge: A Unified Approach to Cross-Lingual Transfer Learning for Low-Resource Languages [2.5] クロスリンガル・トランスファー・ラーニングの有効性を改善するための総合的なアプローチであるUniBridgeを紹介する。
本手法は,埋め込みの初期化と最適な語彙サイズという,言語モデルの2つの重要な要素に対処する。
多言語データセットを用いた実験により,いくつかの言語でF1スコアが大幅に改善された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:55:30 GMT)
Meta-Learning Loss Functions for Deep Neural Networks [2.4] この論文は、しばしば見過ごされる損失関数のコンポーネントを通して、メタ学習の概念を探求し、パフォーマンスを改善する。
損失関数は学習システムの重要な要素であり、一次学習の目的を表しており、その目的のために最適化するシステムの能力によって、成功が決定され、定量化される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:46:14 GMT)
Algebra of Nonlocal Boxes and the Collapse of Communication Complexity [2.4] 非局所的なボックスを接続する配線の構造について検討し、「ボックスの積」という概念を定義した。
これにより「箱の軌道」の概念が生まれ、蒸留された箱のアライメントと平行性に関する驚くべき幾何学的性質が明らかになる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:21:31 GMT)
Improving rule mining via embedding-based link prediction [2.4] 知識グラフのルールマイニングは、説明可能なリンク予測を可能にする。
この2つの家系を組み合わせたいくつかのアプローチが近年提案されている。
2つのアプローチを結合する新しい方法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:53:30 GMT)
Extended Reality for Enhanced Human-Robot Collaboration: a Human-in-the-Loop Approach [2.3] 人間とロボットのコラボレーションは、機械の強さと精度と人間の創造性と知覚的理解を組み合わせることで、これらの課題に取り組みます。
本稿では,人間のループ内原理を取り入れた自律型機械学習ベースのマニピュレータの実装フレームワークを提案する。
概念的枠組みは、ロボット学習プロセスに直接人間の関与を予測し、より高い適応性とタスクの一般化をもたらす。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:27:14 GMT)
OpenAnimalTracks: A Dataset for Animal Track Recognition [2.3] 動物足跡の自動分類と検出を容易にするために設計された,最初の公開ラベル付きデータセットであるOpenAnimalTracksデータセットを紹介する。
代表分類器と検出モデルを用いた自動フットプリント識別の可能性を示す。
われわれのデータセットは、動物の自動追跡技術の道を切り開き、生物多様性の保護と管理の能力を高めることを願っている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:37:17 GMT)
Comparison of fine-tuning strategies for transfer learning in medical image classification [2.3] 先進的な事前訓練モデルが利用可能であるにもかかわらず、医用画像への直接の応用は、医学データ特有の特徴のため、しばしば不足する。
本研究は,医療画像領域の領域にまたがる事前学習モデルに適用した各種微調整法の性能に関する総合的な分析を行う。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:00:02 GMT)
Biomarker based Cancer Classification using an Ensemble with Pre-trained Models [2.2] マルチクラス分類タスクに対して,事前学習したハイパーファストモデル,XGBoost,LightGBMを組み合わせた新しいアンサンブルモデルを提案する。
我々はメタトレーニングしたハイパーファストモデルを用いてがんの分類を行い、AUCは0.9929である。
また,事前学習したハイパーファストモデル,XGBoost,LightGBMを多クラス分類タスクに組み合わせた新しいアンサンブルモデルを提案し,精度を漸進的に向上させる(0.9464)。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:43:59 GMT)
Impact of Measurement Noise on Escaping Saddles in Variational Quantum Algorithms [2.2] 測定ノイズがVQE最適化力学に与える影響について検討する。
ランドスケープにおける計測ノイズの増加に伴い,避難時間が減少することが判明した。
SDEによると、$eta/N_s$はショットノイズの分散として解釈される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:29:34 GMT)
OpenCapBench: A Benchmark to Bridge Pose Estimation and Biomechanics [2.2] 我々はOpenCapBenchを開発し、人間のポーズ推定における共通タスクを評価するために、使いやすく統一されたベンチマークを提供する。
OpenCapBenchは、オープンソースの筋骨格モデリングソフトウェア(OpenSim)が提供する関節角度を通して一貫した運動量を計算する
我々は、事前訓練された2次元ポーズモデルの微調整を可能にする新しいアプローチであるSynthPoseを導入し、正確なキネマティック解析のために、より密集したキーポイントセットを予測する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:37:28 GMT)
Evaluation of Large Language Models: STEM education and Gender Stereotypes [2.2] 本稿では,大規模言語モデル(LLM)におけるジェンダーバイアスについて,オープンエンドな実験設計と定量的分析により検討する。
その結果,STEM と非STEM の比率は,チャットGPT が提供した教育パスに大きく差があることがわかった。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:42:42 GMT)
The Elephant in the Room: Software and Hardware Security Vulnerabilities of Portable Sequencing Devices [2.1] ポータブルゲノムシークエンシング技術は、より高速で柔軟なDNAとRNAのシークエンシング方法を提供することによってゲノム研究に革命をもたらしている。
実験室で密閉されたスタンドアローンのベンチトップ機器から小さなポータブルデバイスへの前例のないシフトは、新たなセキュリティとプライバシーの脅威を引き起こす。
携帯シークエンシング技術の新たなセキュリティとプライバシの脅威と、シークエンシングデータのプライベートかつセキュアな保持を支援するための推奨事項を提示する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:02:01 GMT)
Gemini & Physical World: Large Language Models Can Estimate the Intensity of Earthquake Shaking from Multi-Modal Social Media Posts [2.0] マルチモーダルなソーシャルメディアポストから地震震度を推定する。
Googleのジェミニモデルは、地震の大きさ、距離、MMI強度の一般的な関係を単純化した理解を示している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:12:17 GMT)
Universal randomised signatures for generative time series modelling [1.8] 我々は、財務時系列データの生成モデルを導入するためにランダム化シグネチャを用いる。
具体的には、離散時間ランダム化シグネチャに基づく新しいワッサーシュタイン型距離を提案する。
次に、合成時系列データに対する非逆生成モデルにおける損失関数として、我々の測定値を用いる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:49:29 GMT)
Towards General Neural Surrogate Solvers with Specialized Neural Accelerators [1.8] サーロゲートニューラルネットワークに基づく偏微分方程式(PDE)は、PDEを加速的に解くことができるが、それらは、固定された領域サイズ、幾何学的レイアウト、境界条件を含むシステムに限られる。
本稿では、任意の境界条件と幾何パラメータを含むサブドメイン問題を、特別なニューラル演算子のアンサンブルを用いて正確に解決する、DDMに基づくPDE解法であるSNAP-DDM(Federized Neural Accelerator-Powered Domain Decomposition Methods)を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 23:20:23 GMT)
Enhanced Intrusion Detection System for Multiclass Classification in UAV Networks [1.7] 本稿では,UAVネットワーク用の新しい侵入検知システム(IDS)を提案する。
クラスラベルのエンコードにはバイナリタプル表現が用いられ、クラス分類にはディープラーニングに基づくアプローチが用いられた。
提案システムは,複雑なクラス関係と時間的ネットワークパターンをキャプチャすることで,侵入検出を強化する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:29:15 GMT)
Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.7] 本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:10:33 GMT)
RSEND: Retinex-based Squeeze and Excitation Network with Dark Region Detection for Efficient Low Light Image Enhancement [1.7] より正確で簡潔で一段階のRetinex理論に基づくフレームワークRSENDを提案する。
RSENDはまず、低照度画像を照明マップと反射マップに分割し、照明マップの重要な詳細をキャプチャして光強調を行う。
我々の効率の良いRetinexモデルは、他のCNNベースモデルよりも大幅に優れており、異なるデータセットで0.44dBから4.2dBまでのPSNRの改善を実現している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 01:36:52 GMT)
Beyond Gut Feel: Using Time Series Transformers to Find Investment Gems [1.7] 本稿では,PE(Private Equity)業界におけるデータ駆動アプローチの適用拡大について論じる。
本稿では、関連するアプローチの総合的なレビューを行い、候補企業の成功可能性を予測するための新しいアプローチを提案する。
3つの一般的なベースラインに向けてベンチマークした2つの実世界の投資タスクに関する実験は、我々のアプローチの有効性を実証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:30:25 GMT)
OpenECAD: An Efficient Visual Language Model for Computer-Aided Design [1.7] OpenECADを作成するために、事前学習したモデルを微調整した。
OpenECADは入力として3Dデザインの画像を処理し、高度に構造化された2Dスケッチと3D構築コマンドを生成する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:47:52 GMT)
Sparse Graphical Linear Dynamical Systems [1.7] 時系列データセットは機械学習の中心であり、科学と工学の様々な分野に応用されている。
本研究は,共同グラフィカル・モデリング・フレームワークを導入することでギャップを埋める新しい手法を提案する。
本稿では,DGLASSOを提案する。DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:13:02 GMT)
Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.7] マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:36:41 GMT)
Quantum synchronization of qubits via dynamical Casimir effect [1.7] 原子空洞量子電磁力学系におけるカシミール効果によって誘導される量子ビットの同期について検討する。
動的カシミール効果によって誘導される同期に特有の特有な特徴を明らかにする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:46:42 GMT)
Exploring the Benefits of Vision Foundation Models for Unsupervised Domain Adaptation [1.6] 本研究では、VFM(Vision Foundation Models)とUnsupervised Domain Adaptation(Unsupervised Domain Adaptation)の手法が相補的かどうかを検討する。
その結果,VFMとUDAを併用することで,VFMのアウト・オブ・ディストリビューション性能を維持しつつ,UDAのパフォーマンスが向上し,また,(b)特定の時間を消費するUDAコンポーネントを冗長にする,という2つの利点が示された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:13:37 GMT)
Language Models are Crossword Solvers [1.5] 我々は大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。
我々は,現在の最先端技術(SoTA)言語モデルが,暗号的クロスワードの手がかりを解読する能力を示すことを示した。
また,LLMを用いて全クロスワードグリッドを解く問題に対処するために,この性能を生かした探索アルゴリズムを開発した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:29:40 GMT)
Reinforced Decoder: Towards Training Recurrent Neural Networks for Time Series Forecasting [1.5] 繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルは、マルチステップの時系列予測に広く応用されている。
これらのモデルは通常、デコーダ入力として以前の予測または実際の観測値を使用して訓練されたデコーダを含む。
本研究は、代替デコーダ入力を生成する補助モデルを導入する強化デコーダと呼ばれる新しいトレーニング手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:24:29 GMT)
Walking Noise: On Layer-Specific Robustness of Neural Architectures against Noisy Computations and Associated Characteristic Learning Dynamics [1.5] 本稿では,異なる分類タスクとモデルアーキテクチャに対する加法的,乗法的,混合ノイズの影響について論じる。
本研究では,ロバスト性を測定するため,層固有のノイズを注入するウォーキングノイズ法を提案する。
我々は,この方法論の実践的利用に関する議論をまとめ,ノイズの多い環境での適応型マルチエグゼクティブの活用について論じる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:04:54 GMT)
Probing entanglement dynamics and topological transitions on noisy intermediate-scale quantum computers [1.5] 我々は、IBM量子コンピュータ上のSu-Schrieffer-Heeger鎖のクエンチダイナミクスをシミュレートする。
我々はR'enyiエンタングルメントエントロピー、ツイストオーダーパラメータ、ベリー位相を計算する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:18:12 GMT)
A Novel Noise-Aware Classical Optimizer for Variational Quantum Algorithms [1.5] 変分量子アルゴリズム(VQA)の重要な構成要素は、アンザッツのパラメータ化を更新するために使用される古典的解法の選択である。
量子アルゴリズムは、近い将来、常に限られた忠実度を持つノイズの多いデバイス上で実行されることがよく認識されている。
本稿では,標準モデルベース手法と区別する新しいノイズ対応微分モデルベース手法のキーとなる特徴について紹介する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:47:14 GMT)
Quantum Merkle Trees [1.5] マークルツリーは簡潔な方法で行うための構造である。
暗号においてその重要性はあったが、メルクルツリーの量子アナログは存在しなかった。
本稿では,Gap-$k$-Local-Hamiltonian問題に対する簡潔な量子論法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 07:55:24 GMT)
Self-Reflection Outcome is Sensitive to Prompt Construction [1.4] 自己回帰の結果は,素早い発話に敏感であることを示す。
誤りの特定に保守的なプロンプトを構築するための異なる方法を提案する。
本研究は,自己回帰作業における迅速な工学の重要性を強調した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 20:07:11 GMT)
Cross-view geo-localization: a survey [1.4] クロスビューなジオローカライゼーションは、コンピュータビジョンの領域で注目を浴びている。
本稿では,この領域に不可欠な最先端の方法論,技法,および関連する課題について,徹底的な調査を行う。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:14:54 GMT)
Differentiable Predictive Control for Large-Scale Urban Road Networks [1.3] 輸送は二酸化炭素の排出に大きく貢献している。
本稿では,微分予測制御(DPC)を用いた新しい交通ネットワーク制御手法を提案する。
提案手法では,計算時間を最大4桁削減し,トラヒック性能を最大37%向上させる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:42:02 GMT)
Challenges in explaining deep learning models for data with biological variation [1.3] 機械学習の研究の進歩は、モデルを開発し、それらをベンチマークデータセットで評価することに基づいている。
このようなベンチマークに精通したメソッドを実世界のデータに適用することは、期待通りには機能しないことが多い。
本研究は穀物データを用いて,疾患や損傷を検出することを目的としている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:44:04 GMT)
Bell Nonlocality from Wigner Negativity in Qudit Systems [1.2] ウグナー負性性は、キュディット系における非局所性に必要であることを示す。
安定状態のウィグナー負性に関する相関を問うベル不等式の族を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:28:33 GMT)
Generative Inverse Design of Crystal Structures via Diffusion Models with Transformers [1.2] 有望な性質を持つ新しい無機材料は、科学的にも工業的にも重要な課題である。
有望な性質を持つ新しい無機材料の発見は、科学的にも工業的にも重要な課題である。
そこで本研究では,トランスフォーマーアーキテクチャに基づくバックボーンを用いた,結晶構造の生成的逆設計のための新しいタイプの拡散モデルについて検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:25:22 GMT)
Gender Representation in TV and Radio: Automatic Information Extraction methods versus Manual Analyses [1.2] 本研究は,テレビやラジオにおけるジェンダー表現の相違を記述するために,自動情報抽出記述子と手動分析の関係について検討する。
発見は、すべてのディスクリプタで男性に比べて女性が少なすぎるという、全身的な性別の不均衡を浮き彫りにする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:05:43 GMT)
Quality Does Matter: A Detailed Look at the Quality and Utility of Web-Mined Parallel Corpora [1.1] 我々は,ウェブマイニングコーパスの異なる部分間で,品質に有意な差異があることを指摘した。
また、Webマイニングされたデータセットでは、最もランクの高い25k部分でトレーニングされたNeural Machine Translation(NMT)モデルが、人間の計算したデータセットと同等であることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:50:53 GMT)
AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0] トラストロックされたAIシステムは、AIシステムの安全性を保証するために不可欠である。
AIシステムの開発者は、サンドバッグ評価のためのインセンティブを持つかもしれない。
性能評価がサンドバッグに弱いことを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 22:24:40 GMT)
Let the Poem Hit the Rhythm: Using a Byte-Based Transformer for Beat-Aligned Poetry Generation [1.0] 本稿では,詩の文脈における特定のビートパターンに適合する単語をバイトベースの言語モデルで生成できるかどうかを考察する。
我々は、詩をビートパターンに合わせるために、トランスフォーマーモデルであるByT5を訓練する方法を開発した。
その結果, セマンティック・コヒーレンスを維持しつつ高レベルのビートアライメントを示すことができた。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:54:48 GMT)
Trusting code in the wild: Exploring contributor reputation measures to review dependencies in the Rust ecosystem [1.0] ネットワーク集中度尺度を用いて、協力活動を用いたコントリビュータの評判を推し進める。
パッケージの追加や更新を行う前に,依存関係をレビューする回答者は24%に過ぎません。
GitHub、Rust、npmといったエコシステムは、依存関係レビューで開発者を支援するために、コントリビュータの評価バッジを実装することを推奨しています。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:13:58 GMT)
Universal quasi-Fermi liquid physics of one-dimensional interacting fermions [1.0] 準フェルミ液体物理学を表現する一次元一般スピンレスフェルミオン格子ハミルトン多様体のクラスを示す。
主な特徴はフェルミ準位における運動量分布の有限不連続性である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:21:16 GMT)
Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [1.0] 本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。
ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。
その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:47:19 GMT)
First Measurement of Correlated Charge Noise in Superconducting Qubits at an Underground Facility [1.0] 地表面から107メートル下にある4ビットのデバイス上で、空間的および時間的関連電荷ジャンプを測定する。
この施設の岩が埋まると、宇宙線ミューオンのフラックスは海面実験室に比べて99%以上減少する。
我々は、22時間以上連続して4量子ビットを動作させ、3ミリ以上の長さで無相関の電荷ジャンプを行う。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:17:30 GMT)
Wavefunction matching for solving quantum many-body problems [0.9] Ab initio計算は、量子多体系の基本的な理解において重要な役割を果たす。
主な課題の1つは、選択された計算方法が扱うのに、相互作用が複雑で難しいシステムに対して正確な計算を行うことである。
ここでは波動関数マッチングと呼ばれる新しい手法を導入することでこの問題に対処する。
波動関数マッチングは粒子間の相互作用を変換し、波動関数がある程度の有限範囲までの範囲で容易に計算可能な相互作用と一致するようにする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:45:28 GMT)
Misam: Using ML in Dataflow Selection of Sparse-Sparse Matrix Multiplication [0.8] スパース行列行列行列乗法(SpGEMM)は、科学計算、グラフ解析、ディープラーニングにおいて重要な演算である。
従来のハードウェアアクセラレータは、固定されたデータフロースキームを備えた特定のスパーシティパターン用に調整されている。
本稿では,SpGEMMタスクに最適なデータフロースキームを適応的に選択するための機械学習に基づくアプローチを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:36:35 GMT)
Linear Contextual Bandits with Hybrid Payoff: Revisited [0.8] ハイブリッド報酬設定における線形文脈問題について検討する。
この設定では、各アームの報酬モデルには、すべてのアームの報酬モデル間で共有されるパラメータに加えて、アーム固有のパラメータが含まれる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:41:21 GMT)
Finite-size analysis of prepare-and-measure and decoy-state QKD via entropy accumulation [0.8] 本稿では,一般化エントロピー累積定理(GEAT)を一般的な準備・測定プロトコルの有限サイズ解析に適用する手法を提案する。
本研究では,有限サイズの項をGEATの証明に組み込む手法を開発し,min-tradeoff関数を自動的に最適化する手法を実装した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:31:45 GMT)
Rule Based Learning with Dynamic (Graph) Neural Networks [0.8] 本稿ではルールベースグラフニューラルネットワーク(RuleGNN)を提案する。
実験の結果,ルールGNNの予測性能は最先端のグラフ分類器に匹敵することがわかった。
専門家の知識をルールGNNに組み込む方法を示すために,新しいベンチマークグラフデータセットを導入する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:01:18 GMT)
Relating tSNE and UMAP to Classical Dimensionality Reduction [0.8] UMAP出力が与えられた場合、現在、対応する入力について何が言えるかは不明である。
現代のDRパラダイムでは,PCA,MDS,ISOMAPなどの手法を完全に回復できることが示されている。
また、小さな変更で局所埋め込み(LLE)がUDP出力を区別不能に再現できることも示している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:16:00 GMT)
A Simple, Solid, and Reproducible Baseline for Bridge Bidding AI [0.8] WBridge5に対する橋梁入札において,既存の手法の適切な組み合わせが驚くほどうまく動作することを示す。
私たちのアプローチは明らかに単純ですが、この分野の最先端の方法論よりも優れています。
私たちはコードとモデルをオープンソースソフトウェアとして公開しました。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:07:37 GMT)
Vulnerable Road User Detection and Safety Enhancement: A Comprehensive Survey [0.7] 脆弱な道路利用者(VRU)を含む交通事故は、世界的な道路事故のかなりの割合を占める。
高度な信号処理と機械学習技術を組み合わせた交通通信エコシステムの進歩は、多様なセンサーからのデータの活用を促進している。
本稿では,VRUの安全性を高めるための最先端技術と方法論を包括的に調査する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:28:43 GMT)
Robust compressive tracking via online weighted multiple instance learning [0.7] 本稿では,スパース表現と重み付きマルチインスタンス学習(WMIL)アルゴリズムに基づく粗い検索戦略を統合することで,ビジュアルオブジェクト追跡アルゴリズムを提案する。
提案手法は,他のトラッカーと比較して,粗大な探索法によりより複雑度が低く,重要なサンプルの重み付けも可能である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:48:17 GMT)
Understanding active learning of molecular docking and its applications [0.7] 本研究では,2次元構造のみを用いて,能動的学習手法がドッキングスコアを効果的に予測する方法を検討する。
以上の結果から,サロゲートモデルではドッキング量の高い化合物に代表される構造パターンを記憶する傾向が示唆された。
我々の総合的な分析は、仮想スクリーニングキャンペーンにおけるアクティブラーニング手法の信頼性と潜在的な適用可能性を示している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:43:42 GMT)
ProtoS-ViT: Visual foundation models for sparse self-explainable classifications [0.6] この研究は、凍結したトレーニング済みのViTバックボーンが、いかに効果的に原型モデルに変換できるかを示す。
ProtoS-ViTは、精度、コンパクト性、説明可能性の点で優れた性能を示す既存のプロトタイプモデルを上回る。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:36:30 GMT)
Fast quantum integer multiplication with zero ancillas [0.6] 我々は,ゼロアンシラ量子ビットを用いた準四進時間量子乗法の新しいパラダイムを導入する。
関連するキュービットは入力と出力レジスタ自身のみである。
我々のアルゴリズムは、実際的な問題の大きさよりも優れている可能性がある。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 20:29:46 GMT)
YOLOv1 to YOLOv10: A comprehensive review of YOLO variants and their application in the agricultural domain [0.6] 本研究は、YOLOv1から最先端のYOLOv10まで、様々なYOLO変異体の変形ポテンシャルについて検討する。
主な目的は、これらの最先端の物体検出モデルが、農業の多様な側面を再エネルギー化し、最適化する方法について解明することである。
この知見は、精密農業と持続可能な農業実践の可能性に関する微妙な理解に寄与する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:48:43 GMT)
The Interplay of Learning, Analytics, and Artificial Intelligence in Education [0.5] 本稿では,AIが学習と教育において果たす役割を多次元的に考察する。
私は、AIを外部ツールとして広く普及している狭義の概念化に挑戦します。
私はAIの代替概念化の重要性を論じる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:05:18 GMT)
Centimeter-scale nanomechanical resonators with low dissipation [0.4] ナノメカニカル共振器は、長さがセンチメートル伸びてもナノメートルの厚みを維持できる。
提案手法は高収率の実現を保証し,理論予測に近い室温品質因子を実験的に確認する。
ナノファブリケーション、機械学習による設計最適化、精密エンジニアリングの相乗効果は、100億キロヘルツの機械周波数に近づく室温品質要因への固相経路を開く。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:44:20 GMT)
Nonclassicality in Two-Mode New Generalized Binomial State [0.4] 2モードの新一般化二項状態(TMNGBS)における非古典性の存在の可能性について検討した。
具体的には,2モードのアンチバンチング,四面体スクイージング,和と差分スクイージング,および様々な絡み合い基準について検討した。
反バンチング、スクイージング、SVエンタングルメントはパラメータによって異なる極限で可能であるが、NGBS に対するエンタングルメント基準 (EPR, SU (1,1) algebra and Cauchy - Schwarz inequality based) は不可能である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:36:42 GMT)
Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.4] 話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 20:07:21 GMT)
Browsing behavior exposes identities on the Web [0.4] ウェブをナビゲートすると、オンラインのトレースがそれらを識別する指紋を生成する。
我々は、データの切り離しで80%の個人を再識別できることを実証した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:37:18 GMT)
Automatic Counting and Classification of Mosquito Eggs in Field Traps [0.4] 蚊が卵を挿入するフィールドトラップの解析は、不妊虫技術(SIT)が適切に機能していることを確認するのに不可欠である。
これは、ハッチした卵の数は、不妊オスが野生の卵と競合していないことを示唆している可能性があるためである。
トラップの研究は顕微鏡で手作業で行われ、非常に時間がかかり、ヒューマンエラーを起こしやすい。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:46:14 GMT)
First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models [0.3] FlowCEは、フローチャートに関連するタスクに対して、MLLM(Multimodal large language model)を評価する包括的手法である。
GPT4oモデルでさえ56.63のスコアしか得られないことがわかった。
オープンソースモデルの中で、Phi-3-Visionは49.97という最高スコアを獲得した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:15:35 GMT)
DevBench: A multimodal developmental benchmark for language learning [0.3] タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:49:41 GMT)
Immunohistochemistry guided segmentation of benign epithelial cells, in situ lesions, and invasive epithelial cells in breast cancer slides [0.3] 乳がん領域における上皮細胞のセグメンテーションのためのAIモデルを開発した。
浸潤上皮細胞,良性上皮細胞,in situ病変に対するDiceスコア0.70,0.79,0.75の定量評価を行った。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:04:12 GMT)
Forecasting Four Business Cycle Phases Using Machine Learning: A Case Study of US and EuroZone [0.3] ビジネス・サイクル(ビジネス・サイクル)とは、長期にわたる経済活動の拡大と縮小のパターンをいう。
経済分析は本質的に複雑で、無数の要因(マクロ経済指標、政治的決定など)を取り入れている
本研究では,機械学習モデルによる経済状況の自動解析能力について検討した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:10:13 GMT)
Characterizing the quantum properties of ultralight dark matter -- an open quantum systems approach [0.3] 我々は、検出プロセス自体の量子的性質を直観しながら、これを実現するオープン量子システムアプローチを提案する。
本研究は, UBDMフィールドの宇宙発生機構を解明する上で, この理論的治療が意義があることを示唆する。
この研究は、相関測定から天体物理学的な関連情報を抽出する新しい方法の作成を促進する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:13:40 GMT)
Mysterious and Manipulative Black Boxes: A Qualitative Analysis of Perceptions on Recommender Systems [0.3] 本稿では,欧州のレコメンデーション制度における一般市民,市民社会グループ,企業,その他の認識の質的分析について述べる。
調査したデータセットは、欧州連合(EU)で最近施行されたデジタルサービス法(DSA)に関する協議に提出された回答に基づいている。
質的な結果によると、ヨーロッパ人は一般的にレコメンデーションシステムとレコメンデーションの品質について否定的な意見を持っている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:59:55 GMT)
Extending class group action attacks via sesquilinear pairings [0.2] これらのペアリングを用いて、向き付けられた常微分楕円曲線あるいは超特異楕円曲線の集合に対するクラス群作用に基づく問題の安全性を研究する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 23:17:48 GMT)
Real-time, accurate, and open source upper-limb musculoskeletal analysis using a single RGBD camera [0.1] バイオメカニカルバイオフィードバックは、リハビリテーションを強化し、より客観的なタスク評価を提供する。
我々のオープンソースアプローチは、単一の低コストのRGBDカメラを使用して、高忠実な上肢キネマティクスのためのユーザフレンドリーなソリューションを提供します。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:20:05 GMT)
Operational models of temperature superpositions [0.1] 量子系と熱浴は相互作用を通じて熱平衡に達する。
局所化量子系は、局所温度が変化する浴槽でどのように加熱されるか?
温度重畳の概念が生じる2つのシナリオを定式化する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:46:27 GMT)
Green's function approach to interacting lattice polaritons and optical nonlinearities in subwavelength arrays of quantum emitters [0.1] 量子エミッタのサブ波長アレイは、コヒーレント光マッターに対する効率的な自由空間アプローチを提供する。
非線形過程の解析的な研究を可能にする図式グリーン関数法について述べる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:32:13 GMT)
High-Entanglement Capabilities for Variational Quantum Algorithms: The Poisson Equation Case [0.1] 離散方程式行列(DPEM)は計算流体力学の分野において不可欠である。
量子コンピュータでそれを解くアルゴリズムは、指数空間と時間複雑性のスピードアップを与える可能性がある。
本研究は,計算流体力学の将来に量子コンピュータが関与することを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:16:50 GMT)
Phases and phase transition in Grover's algorithm with systematic noise [0.0] 我々は、系統的なノイズの存在下で、標準量子アルゴリズム(Grover's algorithm for unordered search on $L$ qubits)を考える。
RMT解析は多体ダイナミクスの相転移と相転移の解析的予測を可能にする。
我々は、コールド原子、閉じ込められたイオン、超伝導プラットフォームを含む現実的な量子コンピュータにおける非システムノイズとの関連についてコメントする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:00:06 GMT)
Unsupervised extraction of local and global keywords from a single text [0.0] テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:40:31 GMT)
Training from Zero: Radio Frequency Machine Learning Data Quantity Forecasting [0.0] 任意のアプリケーション空間でトレーニング中に使用されるデータは、一度デプロイされたシステムのパフォーマンスに直接関連している。
機械学習の分野で使われている親指の基本的なルールの1つは、より多くのデータがより良いモデルにつながることだ。
本研究では,電波周波数領域における変調分類問題について検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:33:28 GMT)
Towards Full Integration of Artificial Intelligence in Colon Capsule Endoscopy's Pathway [0.0] 99.9%の感度で大腸ポリープを検出できる認識ネットワークを開発した。
キャラクタリゼーションネットワークは82%, ポリプの80パーセントを2つのグループに分類した。
サイズ推定網は88%の精度でポリープを正確に区分けした。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:59:37 GMT)
Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks [0.0] 本研究は,GAN(Generative Adversarial Network)を用いた劣化色文書画像のバイナライズ画像を生成する3段階の手法を提案する。
実験の結果、提案手法のAvgスコアは77.64、77.95、79.05、76.38、75.34、77.00で、(H)-DIBCO 2011、2013年、2014年、2016年、2017年、2018年の各データセットが最先端の水準に達した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:14:05 GMT)
The quantumness of relic gravitons [0.0] したがって、MHz と THz の間の重力子の潜在的な検出は、重力場に関連するマクロ量子状態の直接的な証拠である可能性がある。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:43:34 GMT)
The duality structure gradient descent algorithm: analysis and applications to neural networks [0.0] 本稿では,非漸近的性能解析に寄与する双対構造勾配降下法(DSGD)を提案する。
いくつかのニューラルネットワークトレーニングシナリオにおいて,DSGDの動作を実証的に示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 23:01:38 GMT)
The Noiseless Quantum Computer Does Not Exist [0.0] 量子コンピュータ内の任意の論理ゲートが、他の量子論理ゲートに依存していることを示す。
言い換えれば、量子コンピュータの任意の論理ゲートが、他の量子論理ゲートに依存していることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:16:33 GMT)
The Lyapunov exponent as a signature of dissipative many-body quantum chaos [0.0] 正のリャプノフ指数は放散多体量子カオスの定義的特徴である。
正のリャプノフ指数は、放散多体量子カオスの定義的特徴であることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:20:30 GMT)
The Kolmogorov Complexity of Irish traditional dance music [0.0] アイルランドの伝統舞踊音楽における旋律のコンモゴロフ複雑性をLempel-Ziv圧縮を用いて推定する。
音楽の「トゥーン」は、単にアルファベットからの文字の列として、いわゆる「ABC表記」で表される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:38:06 GMT)
The Effect of Sampling Temperature on Problem Solving in Large Language Models [0.0] 本研究では,サンプル温度が大規模言語モデル(LLM)の性能に及ぼす影響について検討する。
その結果, 0.0~1.0の温度変化は, LLMの性能に統計的に有意な影響を与えないことが示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:41:51 GMT)
Temporal Planning via Interval Logic Satisfiability for Autonomous Systems [0.0] 我々は、時間的計画の定式化について考察する: 間隔は作用と流動性原子の両方に関連付けられ、それらの関係はアレンのインターバル論理(英語版)の文として与えられる。
本稿では,制約プログラミング(CP)モデルとして,行動と流動性の間の複雑な関係を考慮に入れた計画グラフの概念を提案する。
提案手法は既存のPDDL 2.1プランナよりも優れていることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:21:53 GMT)
Soil nitrogen forecasting from environmental variables provided by multisensor remote sensing images [0.0] 本研究では、リモートセンシング画像や機械学習手法を含むマルチモーダルデータを活用することにより、土壌窒素含量を予測するためのフレームワークを提案する。
我々は、ヨーロッパとイギリスの領域をカバーするLand Use/Land Cover Area Frame Survey (LUCAS)データベースと、衛星センサーからの環境変数を統合し、新しい特徴のデータセットを作成する。
農耕地や草地など,様々な土地被覆クラスで提案手法を検証し,このアプローチの堅牢性を確保する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:10:44 GMT)
Single-photon emitters in WSe$_2$: Critical role of phonons on excitation schemes and indistinguishability [0.0] 発光過程において、WSe$_2$量子エミッタが経験するフォノンスペクトル密度を再構成する。
近共振フォノンアシスト励起下で0.976 (0.997) 付近の励起忠実度を観測した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:44:29 GMT)
Self-adjoint extension procedure for a singular oscillator [0.0] 自己随伴拡大は、エネルギー準同値のよく知られた性質に反することを示した。
量子欠陥の概念は一般に導入され、問題の波動関数は単一関数として記述される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:21:38 GMT)
Self-Supervised and Few-Shot Learning for Robust Bioaerosol Monitoring [0.0] バイオエアロゾル粒子のホログラフィー画像の分類に自己教師付き学習と少数ショット学習を組み合わせることができることを示す。
本研究は,リアルタイムバイオエアロゾルモニタリングを効果的に最適化できることを示唆する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:48:26 GMT)
SAGA: Synthesis Augmentation with Genetic Algorithms for In-Memory Sequence Optimization [0.0] MAGIC(Memristor Aided Logic)は、メモリへの書き込み操作を通じて物理的に計算を行うメモリ回路を使用するアプローチである。
本稿では,これらの遺伝的アルゴリズムの生成と実装について詳述し,多数のオープン回路実装について評価する。
評価された10のベンチマーク回路のうち、これらの変更により、インメモリ回路評価の効率は、ベストケースで128%、平均で27.5%向上した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:00:42 GMT)
Reverse engineering control of relative phase and populations of two-level quantum systems [0.0] 外部場による相対位相と2レベル量子系の集団の同時制御について考察する。
本稿では,2つのユーザ定義関数に依存して制御領域の解析式を得ることができるリバースエンジニアリング手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 20:00:16 GMT)
Requirements are All You Need: From Requirements to Code with LLMs [0.0] 大規模言語モデル(LLM)は、ソフトウェア工学のタスクに適用できる。
本稿では,要求文書からコードスニペットを自動生成するLLMについて述べる。
複雑なユーザ要件を解釈し、ロバストな設計とコードソリューションを作成する上で、LCMの熟練度を実証する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:57:35 GMT)
Reinforcement learning pulses for transmon qubit entangling gates [0.0] 連続制御強化学習アルゴリズムを用いて、超伝導量子ビットの絡み合う2ビットゲートを設計する。
標準共振ゲートよりも優れた新しいパルス列を生成する能力を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 05:32:11 GMT)
RadEx: A Framework for Structured Information Extraction from Radiology Reports based on Large Language Models [0.0] 30億回以上の放射線検査とコンピュータ断層撮影の結果、主に自由テキストを含む非構造化の放射線学レポートが得られた。
構造化レポートの潜在的な利点にもかかわらず、その採用は確立されたプロセス、リソースの制約、潜在的な情報の喪失によって制限される。
本研究では,放射線学報告から自動情報抽出を行うシステムを開発するためのエンドツーエンドフレームワークであるRadExを紹介する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:17:44 GMT)
Quantum entanglement dynamics of the three-qubit W_zeta quantum state coupled to spin chain with ternary interaction [0.0] 異方性パラメータ,ガンマ,スピン鎖に印加する外部磁場の強度,eta,三重相互作用強度,アルファの負性率の変化について検討した。
これらのパラメータがシステムの絡み合い特性にどのように影響するかを考察し、量子情報処理や量子通信プロトコルにおける影響について考察する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:39:56 GMT)
Quantum entanglement dynamics in a three-qubit system interacting with a spin chain [0.0] 我々は、初期状態としてGHZ、W、W_zeta量子状態に焦点を当てる。
種々のパラメータに基づいて,これらの状態の絡み合いのダイナミクスを探索し,解析する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:28:49 GMT)
Quantum Non-Gaussian States of Superfluid Helium Vibrations [0.0] 光に結合したフォノン系の量子非ガウス状態は、シングルフォノン力学の研究に不可欠である。
低温振動する超ヘリウムの少数フォノン状態の量子非ガウス生成を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 10:59:10 GMT)
Purcell effect in chiral environments [0.0] 本研究では,局所補正と非局所補正,理想化されたカイラルミラー,キラル面を有するキラルバルク媒体について検討した。
その結果、キラル効果は、大きな遷移周波数、大きな光回転強度を持つ分子、強いクロスサセプティビリティを持つ媒体に対して最大であることが示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:48:02 GMT)
PRISM: A Design Framework for Open-Source Foundation Model Safety [0.0] 本稿では,オープンファンデーションモデル開発者がモデル安全性にどのようにアプローチすべきか,という課題に対処する。
オープンソースファウンデーションモデル安全のための設計フレームワークであるPRISMを導入し、プライベート、ロバスト、インディペンデント安全対策を強調した。
PRISMは、個人や社会全体のリスクを最小限に抑えつつ、これらの強力な技術のポテンシャルを最大化する、より安全なオープンソースエコシステムを作ることを目指している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:26:15 GMT)
Optimisation of ultrafast singlet fission in 1D rings towards unit efficiency [0.0] 一重項核分裂の促進と逆反応の防止を目的として, 1次元リングの事例に取り組む。
我々は、正確な伝播とテンソルネットワーク手法を用いてスピンボソンモデルを数値的に解く。
我々は、非散逸性(コヒーレントな)体制においてSF効率を85%を超え、エクシトン-フォノン相互作用を調整できる場合、99%の解のクラスを同定する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:54:38 GMT)
Operator Space Entangling Power of Quantum Dynamics and Local Operator Entanglement Growth in Dual-Unitary Circuits [0.0] 状態空間の絡み合いパワーの演算子レベル一般化を表す演算子絡み合いを生成するためのユニタリチャネルの能力を示す尺度を提案する。
二重単位回路の場合、解析的および数値的な研究の組み合わせは、局所作用素の絡み合いの平均的な成長が2つの異なる状態を示すことを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:40:53 GMT)
Observation of a phase transition from a continuous to a discrete time crystal [0.0] 離散結晶(DTC)と連続結晶(CTC)は、新しい動的多体状態である。
連続時間結晶から離散時間結晶への相転移を示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:39:32 GMT)
Nonlinear dynamical social and political prediction algorithm for city planning and public participation using the Impulse Pattern Formulation [0.0] 都市計画のための非線形力学アルゴリズムとしてのインパルスパターン定式化(IPF)の提案
IPFはすでに、楽器シミュレーション、脳力学、人間と人間の相互作用において、低い計算コストで高い予測精度を示している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:47:45 GMT)
Nonclassical features of the pointer states in the $q$-deformed post-selected weak measurement [0.0] 弱測定の精度が$q$-deformationにより大幅に向上したことを示す。
特に,サブポアソニアン光子分布は,マンデルパラメータ,光子アンチバンチング効果,および二次スケージングで特徴づけられ,$q$-deformationにより大幅に向上していることを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:59:55 GMT)
Non-Unitary Quantum Many-Body Dynamics using the Faber Polynomial Method [0.0] 数値的な手法は、非単体進化の下での量子多体系の非伝統的な力学を探索するにはまだ不足している。
我々はファワーを使って非エルミート系の力学とリンドブラッド力学の量子ジャンプの両方を数値的にシミュレートする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:44:26 GMT)
Non-Hermitian expander obtained with Haar distributed unitaries [0.0] 我々は、$d$独立およびHaar分散な$N$次元ユニタリを選択することで得られるランダムな量子チャネルを考える。
これは特異値と固有値の両方の観点からランダムな量子展開器を構築したことを示している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:37:46 GMT)
New algorithms for sampling and diffusion models [0.0] 本稿では,未知分布を持つ拡散生成モデルのための新しいサンプリング手法と新しいアルゴリズムを提案する。
我々のアプローチは、拡散生成モデルにおいて広く採用されている逆拡散過程の概念に着想を得たものである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:30:04 GMT)
Multi-time quantum process tomography on a superconducting qubit [0.0] 現在の量子技術は有用になりつつありますが、ノイズのような恐ろしい障害に直面しています。
ノイズは量子デバイスをスケールする能力を大幅に制限し、従来のデバイスよりも有利になる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 21:45:56 GMT)
Magnetic Field Tolerant Superconducting Spiral Resonators for Circuit QED [0.0] 薄膜ニオブ(Nb)のスパイラル共振器を作製し, 形状インダクタンス, 高臨界磁場, 高光子品質特性を示す。
これらの低幾何損失インダクタは、高インピーダンス超伝導デバイスを作るための運動インダクタに代わる魅力的な代替品である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:31:57 GMT)
Longitudinal Momentum Spectra of pair created in a pulsed field at finite times: Are Oscillations "Real" [0.0] 運動量空間における$(e+ e-)$pair生成の確率を解析的に計算する。
量子力学理論(QKT)と比較する。
どちらのアプローチも、任意の瞬間に粒子運動量スペクトルを研究することができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:32:30 GMT)
Learning thresholds lead to stable language coexistence [0.0] メモリと学習が言語シフトダイナミクスに与える影響を組み込んだ言語競合モデルを導入する。
粗い粒度の時間スケールでは、記憶と学習の影響を話者分数に対する閾値として表すことができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:24:02 GMT)
Joint estimation of noise and nonlinearity in Kerr systems [0.0] 我々は、コヒーレントプローブを用いたセルフケラー相互作用の存在下での損失チャネルと劣化チャネルのキャラクタリゼーションに対処する。
損失Kerrチャネルについては, 損失特性がKerr非線形性の存在下で向上していることを示す。
カーチャネルを劣化させるためには、2つのパラメータのQFIは非線形性とは独立であり、拡張は観測されない。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:59:08 GMT)
Investigating the Role of Quantum Entanglement in Heavy Ion Collisions through Elliptic Flow [0.0] 本稿では、重イオン衝突における初期異方性と最終状態運動量異方性の関係について検討する。
重イオン衝突における熱化に関する以前の研究に基づいて、Pb-PbおよびXe-Xe衝突における$nu$の$p_T$依存性まで解析を拡張した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:38:25 GMT)
Introduction to Theoretical and Experimental aspects of Quantum Optimal Control [0.0] このチュートリアルでは、ポントリャーギンの最大原理に基づいて、この理論の基本要素を紹介する。
古典ラグランジュ力学とハミルトン力学の類似性は、この分野で使われる主な結果を示すために提案されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:00:05 GMT)
Integration of through-sapphire substrate machining with superconducting quantum processors [0.0] 中間スケール量子プロセッサと一体化したサファイア加工プロセスを示す。
このプロセスでは、低周波モード緩和および信号ルーティングに必要な基板間電気接続が可能である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:21:33 GMT)
Industrial Language-Image Dataset (ILID): Adapting Vision Foundation Models for Industrial Settings [0.0] 産業用言語画像データセット(ILID)をWebcrawledデータに基づいて生成するパイプラインを提案する。
本稿では,安価なILIDを学習した後に,効果的な自己指導型トランスファー学習と下流タスクの議論を行う。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:06:52 GMT)
Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0] 進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:56:40 GMT)
Implementing engrams from a machine learning perspective: XOR as a basic motif [0.0] 我々は,XORスイッチを実装した基本モチーフに基づいて,最初のアイデアを提示する。
我々は、このXORモチーフを組み込んだ学習能力を備えた、基本的な生物学的神経構造の構築方法について検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:36:49 GMT)
Hybrid atom-photon entangling gates via Gaussian soft control [0.0] ハイブリッド原子-光子ゲートは、量子ネットワーク間の通信のために原子状態と光子をマッピングできる量子インターフェースの実現に重要な役割を果たしている。
超伝導コプラナー導波管共振器における原子とマイクロ波光子の間のハイブリッド原子光子制御Zゲートをガウス軟制御法に基づいて実現可能な理論的手法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:32:48 GMT)
HIRO: Hierarchical Information Retrieval Optimization [0.0] HIROは、階層構造を用いて文書を格納するRAGアプリケーションのための新しいクエリ手法である。
NarrativeQAデータセットの既存のクエリメカニズムを10.85%の絶対的なパフォーマンス向上で上回っている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:41:07 GMT)
GradeADreamer: Enhanced Text-to-3D Generation Using Gaussian Splatting and Multi-View Diffusion [0.0] GradeADreamerと呼ばれる新しい3段階トレーニングパイプラインを導入する。
このパイプラインは、30分未満の総生成時間で高品質な資産を生産することができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:58:28 GMT)
GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks [0.0] 我々は,小さなエンコーダモデルであると同時に,様々な情報抽出タスクに使用できる新しい種類のGLiNERモデルを導入する。
我々のモデルは,ゼロショットNERベンチマークにおけるSoTA性能を達成し,質問応答,要約,関係抽出タスクにおける主要な性能を実現した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:54:29 GMT)
Fundamental operating regimes, hyper-parameter fine-tuning and glassiness: towards an interpretable replica-theory for trained restricted Boltzmann machines [0.0] 本稿では,二つの可視層を持つボルツマンマシンと,単一基底パターンの雑音的現実化からなる乱れのないデータセットによって訓練されたガウス的隠れ層を考える。
本稿では,ネットワーク生成能力を記述するための統計力学フレームワークを開発し,レプリカのトリックを活用し,基礎となる順序パラメータの自己評価を仮定する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:12:00 GMT)
Finite temperature detection of quantum critical points: a comparative study [0.0] 量子不協和、量子テレポーテーションに基づくQCP検出器、および量子コヒーレンススペクトルがいくつかのスピン-1/2$チェーンのQCPをピンポイントする方法について検討する。
ここで研究したモデルは、外部の縦方向磁場を伴わない$XXZ$モデル、Ising transverseモデル、および外部の横方向磁場を対象とする$XY$モデルである。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:57:02 GMT)
Fast and Accurate GHZ Encoding Using All-to-all Interactions [0.0] Greenberger-Horne-Zeilinger状態(GHZ)は量子技術にとって重要な資源である。
オール・ツー・オールインタラクションを用いたGHZ符号化の課題について考察する。
高精度なGHZ符号化を実現する高速プロトコルを提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:00:02 GMT)
Extending Business Process Management for Regulatory Transparency [0.0] 規制の透明性を特徴とするBPMNへのプラグイン拡張を提供することで、ビジネスプロセスとアプリケーションシステム間のギャップを埋めます。
ビジネスプロセスにおける個人データフローの発見と分析にプロセスマイニング技術を活用します。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:08:34 GMT)
Exponential Expressivity of ReLU$^k$ Neural Networks on Gevrey Classes with Point Singularities [0.0] ソボレフ空間における指数的エミュレーション率をニューロン数の観点から証明する。
形状規則的で単純なポリトープ領域の分割は$mathrmD$で、ニューロンの数と非ゼロパラメータの数は、有限要素空間の自由度数に比例する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:02:12 GMT)
Exact Quantum Electrodynamics in Radiative Photonic Environments [0.0] フォトニック固有モデムの連続体を離散的な擬似モデムに変換することで、正に量子化する。
この方法は全ての貯水池近似を回避し、量子相関に関する新しい洞察を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 16:32:34 GMT)
Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam [0.0] 本研究では,OpenAIの最も先進的な視覚モデルであるChatGPT-4 Visionの性能について検討する。
試験のオープンで複数選択の質問を元の画像形式で提示することで,モデルの推論能力と自己回帰能力を評価することができた。
ChatGPT-4 Visionは、平均的な試験受験者よりも優れており、スコアパーセンタイルのトップ10に入っている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:42:30 GMT)
Entanglement entropy bounds for pure states of rapid decorrelation [0.0] 量子格子系の純状態に対する比較的低い複雑性の高忠実度近似を構築する。
一般結果の適用性は、逆場における量子イジングモデルで示される。
我々は、モデルの亜臨界基底状態の絡み合いに縛られ、すべての次元で有効であり、モデルの量子相転移まで有効である領域法型を確立する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 17:28:03 GMT)
Domain-Specific Shorthand for Generation Based on Context-Free Grammar [0.0] YAMLやXMLなどのフォーマットで構造化データを生成することは、Generative AI(GenAI)アプリケーションにおいて重要なタスクである。
文脈自由文法(CFG)を基盤としたドメイン特化短文形式(DSS)を導入する。
本稿では,DSSとそれに付随するCFGの開発について概説する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 23:26:41 GMT)
Does the full configuration interaction method based on quantum phase estimation with Trotter decomposition satisfy the size consistency condition? [0.0] 本稿では,QPEに基づくフルCI計算において,時間発展演算子のトロッタ化により,サイズ整合性条件が維持可能であるか否かを検討する。
また, 逐次量子ビット付加によるQPEシミュレーションの高速化について報告する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 08:36:50 GMT)
Distinguishing Graph States by the Properties of Their Marginals [0.0] グラフの辺構造に基づいて、計算が容易なLU不変量の族を導入する。
これらの不変量は、8量子ビット以下の全てのグラフ状態の全てのLU軌道と絡み合いクラスを一意に識別できることを示す。
また、より多くのノードを持つ絡み合いクラスの例についても論じる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:03:10 GMT)
Discovering influential text using convolutional neural networks [0.0] 本稿では,畳み込みニューラルネットワークを用いたテキストに対する人間の反応を予測可能な類似文句のクラスタを発見する手法を提案する。
提案手法を2つのデータセットに適用し,まず,結果の原因となるフレーズをモデルが検出する能力の直接検証を可能にする。
どちらの場合も、モデルはベンチマーク手法よりも多種多様なテキスト処理を学習し、これらのテキスト機能は、ベンチマーク手法が結果を予測する能力を定量的に満たしたり、超えたりすることができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 14:41:44 GMT)
Development of a Real-Time Simulator Using EMTP-ATP Foreign models for Testing Relays [0.0] 提案したシミュレータは、Linux OSとリアルタイムカーネルを用いて実装された。
PCIカードは、シミュレートされた電圧と電流に対応する波形を生成するために使用された。
このツールはリアルタイムシミュレーターで、HiLテストによって保護リレーと対話できる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:18:37 GMT)
Determination of the Number of Topics Intrinsically: Is It Possible? [0.0] 本研究では,複数のトピックモデルに適用した各種手法の性能について,公開コーパスを用いて検討した。
トピックの数は、特定のコーパスの絶対的な性質とは対照的に、メソッドとモデルに依存した量であることが示される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 20:07:46 GMT)
Deobfuscation of Semi-Linear Mixed Boolean-Arithmetic Expressions [0.0] MBA(Mixed-Arithmetic obfuscation)は、単純な表現を意味論的に等価だがより複雑な組み合わせに変換する手法である。
より広範な表現のクラスを単純化できるSiMBAの拡張を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:27:40 GMT)
Deep Learning Models to Automate the Scoring of Hand Radiographs for Rheumatoid Arthritis [0.0] シャープスコア(シャープスコア、英: Sharp score、SvdH)は、慢性関節リウマチ(RA)の臨床治験における損傷の定量化に広く用いられている放射線検査法である。
まず,手指のX線写真からSvdHのスコアとRAの重症度を推定できる自動パイプラインを開発した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:43:16 GMT)
Decoherence effects on local quantum Fisher information and quantum coherence in a spin-1/2 Ising-XYZ chain [0.0] 本研究は, 独立貯水池を有するスピン-1/2イジング-XYZ鎖モデルにおける局所的な量子フィッシャー情報と量子コヒーレンスダイナミクスに対するデコヒーレンスの影響について検討する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:51:02 GMT)
Cyberattack Data Analysis in IoT Environments using Big Data [0.0] 私たちの研究は、相互運用性や標準化プロトコルなど、接続性やセキュリティ上の課題の増加に対処しています。
セキュリティ脆弱性の詳細な分析では、攻撃行動、ネットワークトラフィック異常、TCPフラグの使用、ターゲット攻撃など、複雑なパターンと脅威を特定しました。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 02:12:43 GMT)
Coralai: Intrinsic Evolution of Embodied Neural Cellular Automata Ecosystems [0.0] 本稿では,ニューラルセルオートマタ(NCA)の多様な生態系を探索するフレームワークであるCoralaiについて述べる。
本研究は,無菌生物と移動生物との競争の出現を示すスライムカビ行動に着想を得た物理実験である。
我々は,マルチスケールの複雑性と多様性の測定を通じてシミュレーションパラメータを発見するための今後の取り組みを概説して結論づける。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 01:24:01 GMT)
Cooperative decay of an ensemble of atoms in a one-dimensional chain with a single excitation [0.0] 原子-原子相互作用グリーン関数の固有値問題なしで自然に超放射と準放射が生じる。
協調崩壊速度は、系の有効非エルミート・ハミルトニアンの期待値の想像上の部分と解釈できる。
格子定数dと原子番号Nの関数として、協調減衰率の簡単な近似式を得る。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:32:12 GMT)
Contextuality in anomalous heat flow [0.0] 量子熱力学では、異常な熱流が起こり、一時的に寒冷状態と暑熱状態がより高温になる。
本研究では,異常な熱流現象が非古典性に直接関連しているシナリオを紹介する。
本研究は,2つの量子ビット系の進化における熱流の研究から,我々の発見は2つの量子ビット系を用いるための人工物ではないことを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:48:51 GMT)
Complex Scaling Method applied to the study of the Swanson Hamiltonian in the broken PT-symmetry phase [0.0] 本研究では, Swanson Hamiltonian の非PT対称性位相を複素スケーリング手法の枠組みで検討する。
本稿では, 応答関数の形式化を, 異なる初期波動パッケージの時間進化の解析に応用する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:21:04 GMT)
Classical and Quantum Physical Reservoir Computing for Onboard Artificial Intelligence Systems: A Perspective [0.0] 本稿では,生体脳の動作を模倣する,搭載型ニューロモルフィックコンピュータの開発を論じる。
量子ニューロモルフィックプロセッサ(QNP)は、オンボードバッテリーの1%未満を消費しながら、標準的なコンピュータの効率で計算を行うことができる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 06:55:09 GMT)
Classical and Quantum Computing of Shear Viscosity for $2+1D$ SU(2) Gauge Theory [0.0] 我々は、$(2+1)$-dimensional SU(2)ゲージ理論に対するせん断粘度の非摂動計算を行う。
せん断粘度とエントロピー密度$fracetas$の比は、よく知られたホログラフィック結果と一致している。
本研究では,グリーン関数の量子計算法を開発し,計算の系統的特徴を解析する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:12:51 GMT)
Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation [0.0] 本稿では,Chebyshev Kolmogorov-Arnoldの定理に触発された新しいニューラルネットワークアーキテクチャであるChebyshev Kolmogorov-Arnold Networkについて述べる。
ネットワークのエッジ上でChebyshevによってパラメータ化された学習可能な関数を利用することで、Chebyshev Kansは関数近似タスクの柔軟性、効率、解釈性を向上させる。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:46:11 GMT)
Carbon accounting in the Cloud: a methodology for allocating emissions across data center users [0.0] Googleは、この方法論を使用して、複数のGoogle製品の企業顧客に対して、カーボンレポートデータを提供している。
ここでは、大規模クラウドカーボンレポートシステムの最先端のアプローチが文書化されている。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 00:34:02 GMT)
Beating one bit of communication with quantum correlations in smaller dimensions [0.0] ベルの定理は、いくつかの絡み合った状態の統計は局所的な隠れ変数だけではシミュレートできないというものである。
これまでの最も単純な例を報告します。これは$(5,2,5,5)$ Bellのシナリオです。
この証明は、最大1ビットスコアを見つけることは、2つのサブゲームの局所スコアの和が最大となる入力の分割を見つけることと等価である、という観察に基づいて構築される。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:18:34 GMT)
BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification [0.0] 音声サンプルのメタデータから派生した自由テキスト記述を用いて,事前学習したテキスト・オーディオ・マルチモーダルモデルを微調整する。
提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 12:57:53 GMT)
AnimalFormer: Multimodal Vision Framework for Behavior-based Precision Livestock Farming [0.0] 精密畜産のためのマルチモーダルビジョン・フレームワークを提案する。
我々は、GroundingDINO、HQSAM、ViTPoseモデルのパワーを利用する。
このスイートは、侵入的な動物タグ付けをすることなく、ビデオデータから包括的な行動分析を可能にする。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 04:42:44 GMT)
An entanglement witness and an effective criterion for bipartite states of different dimensions [0.0] 異なる次元の空間間の様々な正の写像の集合を生成するための簡単なアプローチを提案する。
一般密度行列へのこの絡み合いの応用が、閉形式での単純な計算可能基準にどのように導かれるかを示す。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 15:11:23 GMT)
An elementary proof of a universal approximation theorem [0.0] 本稿では、3つの隠れた層を持つニューラルネットワークに対する普遍近似定理の基本的な証明と、連続的、有界な活性化関数の増大について述べる。
結果は最もよく知られた結果よりも弱いが、学部分析以外の機械は使われていないという意味では初等的な証明である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 13:16:48 GMT)
An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits [0.0] 本稿では、平均処理効果(ATE)に対する任意の有効推論を可能にするマルチアーム・バンディット(MAB)アルゴリズムの新たな実験的設計を提案する。
また,MADは,標準バンディット設計と比較して,報酬のかなりの損失を伴わず,正確かつ正確にATEを推定しながら有限サンプル値を達成することを示した。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 20:24:39 GMT)
An Efficient Approach to Regression Problems with Tensor Neural Networks [0.0] 本稿では、非パラメトリック回帰問題に対処するテンソルニューラルネットワーク(TNN)を提案する。
異なるサブネットワーク構造によって特徴づけられるTNNは、変数分離を効果的に促進する。
提案手法の重要な革新は,TNNフレームワーク内での統計的回帰と数値積分の統合である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 03:38:40 GMT)
Algorithmic Misjudgement in Google Search Results: Evidence from Auditing the US Online Electoral Information Environment [0.0] 本稿では,政府の管理するWebドメインがオンライン選挙情報環境においてどのように表現されるかを検討する。
その結果、州、郡、地方自治体の情報源の71%が標的にされていないことがわかった。
我々は、これらのソースをそれぞれの構成元に適切なターゲティングを保証することは、権威的かつ局所的な選挙情報へのアクセスを促進するGoogleの役割の重要な部分であると主張している。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:46:46 GMT)
AI-Based Copyright Detection Of An Image In a Video Using Degree Of Similarity And Image Hashing [0.0] 報告では、著作権のある画像の利用を識別する戦略が計画されている。
それでもわれわれは、著作権のある画像をビデオに含めるという問題を解決したい。
機械学習(ML)と人工知能(AI)は、この問題に対処するために不可欠である。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 09:47:07 GMT)
A Strategy for Preparing Quantum Squeezed States Using Reinforcement Learning [0.0] 非古典的状態を生成するために,強化学習を工学的制御分野に適用する手法を提案する。
強化学習剤は、コヒーレントスピン状態から発生する制御パルスの時間シーケンスを決定する。
この研究は、他の量子系を操作するための応用の道を開いた。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 11:14:53 GMT)
A Hybrid Approach to Mitigate Errors in Linear Photonic Bell-State Measurement for Quantum Interconnects [0.0] ベル状態測定のための新しいハイブリッド検出手法を提案する。
量子テレポーテーションとエンタングルメントスワッププロセスの明確な忠実さを導出する。
この研究は、線形光学スキームのための新しいツールを提供し、量子状態工学と量子相互接続への応用を提供する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 18:00:00 GMT)
3D correlation imaging for localized phase disturbance mitigation [0.0] 相関レンズ画像は、空間分解能のない光場イメージングを行うための方法である。
本研究では, ゆるやかに変化する乱流の影響を克服する相関光場イメージング法を提案する。
論文参考訳(メタデータ) (Fri, 14 Jun 2024 19:12:21 GMT)