このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240729となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 動的ポテンシャル場を有するスケーラブルマルチエージェントRT*による協調経路探索の最適化
Optimizing Cooperative path-finding: A Scalable Multi-Agent RRT* with Dynamic Potential Fields ( http://arxiv.org/abs/1911.07840v4 ) ライセンス: Link先を確認 | Jinmingwu Jiang, Kaigui Wu, Haiyang Liu, Ren Zhang, Jingxin Liu, Yong He, Xipeng Kou, | (参考訳) マルチエージェントシステムにおける協調的パスフィニングは、エージェントの出身地から目的地への移動を競合なく行うためのスケーラブルなソリューションを要求する。
研究の幅が広いにもかかわらず、複雑な環境での計算要求の増加によってスケーラビリティが妨げられている。
本研究では,多エージェントRT*ポテンシャル場(MA-RRT*PF)を提案する。
MA-RRT*PFは、動的ポテンシャル場とヒューリスティックな手法を統合し、障害物回避を推進し、混雑空間におけるランダムツリーの拡張を最適化する。
実験により,MA-RRT*PFは高密度環境下での従来のマルチエージェントRT* (MA-RRT*) よりも顕著な優位性を示し,完全性を損なうことなく性能とソリューションの品質を向上させることができた。
この研究は、協調型マルチエージェントパスフィニングの分野への新しいアプローチに貢献するだけでなく、従来の手法では効果が低い密集した環境での実践的応用にも新たな視点を提供する。
Cooperative path-finding in multi-agent systems demands scalable solutions to navigate agents from their origins to destinations without conflict. Despite the breadth of research, scalability remains hampered by increased computational demands in complex environments. This study introduces the multi-agent RRT* potential field (MA-RRT*PF), an innovative algorithm that addresses computational efficiency and path-finding efficacy in dense scenarios. MA-RRT*PF integrates a dynamic potential field with a heuristic method, advancing obstacle avoidance and optimizing the expansion of random trees in congested spaces. The empirical evaluations highlight MA-RRT*PF's significant superiority over conventional multi-agent RRT* (MA-RRT*) in dense environments, offering enhanced performance and solution quality without compromising integrity. This work not only contributes a novel approach to the field of cooperative multi-agent path-finding but also offers a new perspective for practical applications in densely populated settings where traditional methods are less effective. | 翻訳日:2024-08-19 05:35:40 公開日:2024-07-29 |
# 安全・信頼性・説明可能なマルチエージェント強化学習のための量子コンピューティングとニューロモルフィックコンピューティング:自律ロボットにおける最適制御
Quantum Computing and Neuromorphic Computing for Safe, Reliable, and explainable Multi-Agent Reinforcement Learning: Optimal Control in Autonomous Robotics ( http://arxiv.org/abs/2408.03884v1 ) ライセンス: Link先を確認 | Mazyar Taghavi, | (参考訳) 本稿では,自律ロボット工学における最適制御の文脈における,量子コンピューティングとニューロモルフィックコンピューティングの安全性,信頼性,説明可能なマルチエージェント強化学習(MARL)の利用について検討する。
目的は、自律エージェントの動作を最適化し、安全性、信頼性、説明可能性を確保するという課題に対処することであった。
量子近似最適化アルゴリズム(QAOA)を含む量子コンピューティング技術は、大規模な解空間を効率的に探索し、複雑なMARL問題の近似解を求めるために用いられた。
人間の脳のアーキテクチャにインスパイアされたニューロモルフィックコンピューティングは、インテリジェントで適応的なシステムを開発するために活用された並列および分散処理機能を提供した。
これらの技術の組み合わせは、自律ロボット工学におけるMARLの安全性、信頼性、説明可能性を高める可能性を持っていた。
この研究は、最先端技術とそのマルチエージェントシステムへの応用を探求し、自律ロボット技術の進歩に寄与した。
コードとデータは利用可能である。
This paper investigates the utilization of Quantum Computing and Neuromorphic Computing for Safe, Reliable, and Explainable Multi_Agent Reinforcement Learning (MARL) in the context of optimal control in autonomous robotics. The objective was to address the challenges of optimizing the behavior of autonomous agents while ensuring safety, reliability, and explainability. Quantum Computing techniques, including Quantum Approximate Optimization Algorithm (QAOA), were employed to efficiently explore large solution spaces and find approximate solutions to complex MARL problems. Neuromorphic Computing, inspired by the architecture of the human brain, provided parallel and distributed processing capabilities, which were leveraged to develop intelligent and adaptive systems. The combination of these technologies held the potential to enhance the safety, reliability, and explainability of MARL in autonomous robotics. This research contributed to the advancement of autonomous robotics by exploring cutting-edge technologies and their applications in multi-agent systems. Codes and data are available. | 翻訳日:2024-08-19 04:39:15 公開日:2024-07-29 |
# APE: LLMベースのエンティティマッチングのためのインフォーマティブなサンプルを見つけるためのアクティブラーニングベースのツール
APE: Active Learning-based Tooling for Finding Informative Few-shot Examples for LLM-based Entity Matching ( http://arxiv.org/abs/2408.04637v1 ) ライセンス: Link先を確認 | Kun Qian, Yisi Sang, Farima Fatahi Bayat, Anton Belyi, Xianqi Chu, Yash Govind, Samira Khorshidi, Rahul Khot, Katherine Luna, Azadeh Nikfarjam, Xiaoguang Qi, Fei Wu, Xianhan Zhang, Yunyao Li, | (参考訳) プロンプトエンジニアリング(英: Prompt engineering)は、特定のタスクにおいて大きな言語モデル(LLM)を効果的に指示する適切な命令を定式化するために、広範囲な手作業を必要とする反復的な手順である。
数ショットの例を組み込むことは、LLMに正確な指示を与える上で不可欠で効果的なアプローチであり、LLMのパフォーマンスが向上する。
にもかかわらず、LLMの最も情報に富むデモンストレーションを特定することは、労働集約的であり、広範囲な検索空間を精査することが多い。
このデモでは、アクティブな学習を通してプロンプトを精錬するために設計されたAPE(Active Prompt Engineering)と呼ばれるループ型ツールを紹介した。
APEはアクティブな学習からインスピレーションを得て、人間のフィードバックの最も曖昧な例を反復的に選択します。
デモ録画は、提出書で確認したり、https://youtu.be/OwQ6MQx53-Yで見ることができる。
Prompt engineering is an iterative procedure often requiring extensive manual effort to formulate suitable instructions for effectively directing large language models (LLMs) in specific tasks. Incorporating few-shot examples is a vital and effective approach to providing LLMs with precise instructions, leading to improved LLM performance. Nonetheless, identifying the most informative demonstrations for LLMs is labor-intensive, frequently entailing sifting through an extensive search space. In this demonstration, we showcase a human-in-the-loop tool called APE (Active Prompt Engineering) designed for refining prompts through active learning. Drawing inspiration from active learning, APE iteratively selects the most ambiguous examples for human feedback, which will be transformed into few-shot examples within the prompt. The demo recording can be found with the submission or be viewed at https://youtu.be/OwQ6MQx53-Y. | 翻訳日:2024-08-19 04:27:34 公開日:2024-07-29 |
# 非教師付きニューラルネットワーク(ANN)自己組織化マップ(SOM)の自動車販売要因同定への応用
Application of Unsupervised Artificial Neural Network (ANN) Self_Organizing Map (SOM) in Identifying Main Car Sales Factors ( http://arxiv.org/abs/2408.05110v1 ) ライセンス: Link先を確認 | Mazyar Taghavi, | (参考訳) 客を惹きつけ、新車を買うよう説得する要因は、消費者の好みによって様々である。
パターン形状の質量データを抽出する方法はいくつかある。
本稿では,まず,ファジィデルフィ技術を用いて顧客の意思決定行動に影響を与える重要な要因について,客車マーケティングの専門家にランク付けするよう依頼し,質問紙からサンプルを抽出し,自己組織マップSOMと呼ばれる有用なニューラルネットワーク手法を適用し,イランの顧客の購買意思決定にどのような要因が影響するかを調べた。
ファジィツールを応用して、研究をよりリアルに調整した。
MATLABソフトウェアはネットワークの開発とトレーニングに使用された。
結果は、他の4因子よりも4因子の方が重要であることを報告している。
マーケティングの専門家のランキングとはかなり異なる。
このような結果は、メーカーがより重要な要素に集中し、企業の販売レベルを向上するのに役立ちます。
Factors which attract customers and persuade them to buy new car are various regarding different consumer tastes. There are some methods to extract pattern form mass data. In this case we firstly asked passenger car marketing experts to rank more important factors which affect customer decision making behavior using fuzzy Delphi technique, then we provided a sample set from questionnaires and tried to apply a useful artificial neural network method called self_organizing map SOM to find out which factors have more effect on Iranian customer's buying decision making. Fuzzy tools were applied to adjust the study to be more real. MATLAB software was used for developing and training network. Results report four factors are more important rather than the others. Results are rather different from marketing expert rankings. Such results would help manufacturers to focus on more important factors and increase company sales level. | 翻訳日:2024-08-19 04:16:58 公開日:2024-07-29 |
# 非変分量子ウォークに基づく最適化アルゴリズムの解析
Analysis of the Non-variational Quantum Walk-based Optimisation Algorithm ( http://arxiv.org/abs/2408.06368v1 ) ライセンス: Link先を確認 | Tavis Bennett, Lyle Noakes, Jingbo B. Wang, | (参考訳) 本稿では、制約問題や非バイナリ変数の問題を含む、幅広い組合せ最適化問題を解くために設計された非変分量子アルゴリズムを詳細に紹介する。
このアルゴリズムは、増幅状態の繰り返しの準備と測定から最適解とほぼ最適解を返す。
増幅状態は、2つのユニタリの繰り返し適用により作成される。一方は、目的関数値に依存する相シフト状態であり、他方は、問題固有の混合グラフ上の連続時間量子ウォーク(CTQW)を介して相シフトした確率振幅を混合する。
最適解を増幅する一般的な干渉過程は、混合グラフ上に分布する目的関数値の統計解析から導かれる。
アルゴリズムの汎用性は、重み付けマックスカット、k平均クラスタリング、二次割り当て、最大独立集合、容量化された施設位置といった様々な問題に適用することで実証される。
いずれの場合も、CTQWの効率的な回路実装について議論する。
ペナルティ関数を最適化する方法を含む制約付き問題に対するペナルティ関数アプローチも導入する。
検討された各問題に対して、アルゴリズムの性能はランダムに生成された問題インスタンスに対してシミュレートされ、それぞれの場合、増幅された状態は少数のイテレーションで大まかな最適解を生成する。
This paper introduces in detail a non-variational quantum algorithm designed to solve a wide range of combinatorial optimisation problems, including constrained problems and problems with non-binary variables. The algorithm returns optimal and near-optimal solutions from repeated preparation and measurement of an amplified state. The amplified state is prepared via repeated application of two unitaries; one which phase-shifts solution states dependent on objective function values, and the other which mixes phase-shifted probability amplitudes via a continuous-time quantum walk (CTQW) on a problem-specific mixing graph. The general interference process responsible for amplifying optimal solutions is derived in part from statistical analysis of objective function values as distributed over the mixing graph. The algorithm's versatility is demonstrated through its application to various problems: weighted maxcut, k-means clustering, quadratic assignment, maximum independent set and capacitated facility location. In all cases, efficient circuit implementations of the CTQWs are discussed. A penalty function approach for constrained problems is also introduced, including a method for optimising the penalty function. For each of the considered problems, the algorithm's performance is simulated for a randomly generated problem instance, and in each case, the amplified state produces a globally optimal solution within a small number of iterations. | 翻訳日:2024-08-19 03:47:26 公開日:2024-07-29 |
# UniFed:高度不均一な医用画像分類タスクの共通連盟
UniFed: A Universal Federation of a Mixture of Highly Heterogeneous Medical Image Classification Tasks ( http://arxiv.org/abs/2408.07075v1 ) ライセンス: Link先を確認 | Atefe Hassani, Islem Rek, | (参考訳) 連合学習における基本的な課題は、異種データセットと分類タスクを混在させながら、クライアントによる高い通信コストを最小化し、一定回数のラウンドでサーバと重み更新を交換することである。
この結果、分岐モデル収束率と性能が変化し、精度医学への展開を妨げる可能性がある。
現実のシナリオでは、クライアントデータは、非常に多様なコンポーネント(例えば、画像モダリティ、臓器タイプなど)を持つ異なる病院から収集されます。
以前の研究では、ターゲット学習タスクがクライアントだけでなく、データセットの種類や分布によって異なるトレーニング段階で、複雑な不均一性を見落としることが多かった。
このような制約に対処するため,我々はUniFedを前代未聞で導入した。UniFedは,任意の画像モダリティから疾患を分類することを目的とした,普遍的な統合学習パラダイムである。
UniFedは、学習タスクの複雑さに基づいて、クライアント固有の最適化において様々な収束時間を扱う。
特に、ローカルモデルとグローバルモデルの両方を動的に調整することで、UniFedはクライアントとサーバの様々なタスク複雑さを考慮し、現実のシナリオへの適応性を高め、過剰なトレーニングや過剰な通信に関連する問題を緩和する。
さらに,病院間の多様なタスクを考慮に入れたシーケンシャルなモデル転送機構と,動的タスク・複雑度に基づく注文機能を備えている。
われわれは, 網膜, 病理組織学, 肝腫瘍の診断において, 精度, 通信コスト, 収束時間を比較検討した。
UniFedのコードはhttps://github.com/basiralab/UniFed.comから入手可能です。
A fundamental challenge in federated learning lies in mixing heterogeneous datasets and classification tasks while minimizing the high communication cost caused by clients as well as the exchange of weight updates with the server over a fixed number of rounds. This results in divergent model convergence rates and performance, which may hinder their deployment in precision medicine. In real-world scenarios, client data is collected from different hospitals with extremely varying components (e.g., imaging modality, organ type, etc). Previous studies often overlooked the convoluted heterogeneity during the training stage where the target learning tasks vary across clients as well as the dataset type and their distributions. To address such limitations, we unprecedentedly introduce UniFed, a universal federated learning paradigm that aims to classify any disease from any imaging modality. UniFed also handles the issue of varying convergence times in the client-specific optimization based on the complexity of their learning tasks. Specifically, by dynamically adjusting both local and global models, UniFed considers the varying task complexities of clients and the server, enhancing its adaptability to real-world scenarios, thereby mitigating issues related to overtraining and excessive communication. Furthermore, our framework incorporates a sequential model transfer mechanism that takes into account the diverse tasks among hospitals and a dynamic task-complexity based ordering. We demonstrate the superiority of our framework in terms of accuracy, communication cost, and convergence time over relevant benchmarks in diagnosing retina, histopathology, and liver tumour diseases under federated learning. Our UniFed code is available at https://github.com/basiralab/UniFed. | 翻訳日:2024-08-19 03:47:26 公開日:2024-07-29 |
# ウェアラブルを用いた人間行動認識のための一貫性に基づく弱自己教師付き学習
Consistency Based Weakly Self-Supervised Learning for Human Activity Recognition with Wearables ( http://arxiv.org/abs/2408.07282v1 ) ライセンス: Link先を確認 | Taoran Sheng, Manfred Huber, | (参考訳) スマートフォンなどのウェアラブルデバイスに内蔵されているセンサーは、人間の活動のデータを入手しやすくするが、センサベースのデータからさまざまな種類の人間の活動を認識することは、ユビキタスコンピューティングにおいて難しい研究課題である。
この理由の1つは、収集されたデータのほとんどはラベル付けされていないためである。
しかしながら、現在の人間活動認識(HAR)システムの多くは、データラベルに大きく依存する教師付き手法に基づいている。
本論文では,(1)同種の活動をグループ化した埋め込み空間にデータを投影することで,人間の活動の性質からモデルを学習し,(2)類似性情報を用いてモデルを微調整する,という2つの段階からなる,弱い自己教師型アプローチについて述べる。
これにより、下流の分類やクラスタリングタスクが埋め込みの恩恵を受けることができる。
3つのベンチマークデータセットの実験は、このフレームワークの有効性を実証し、我々のアプローチがクラスタリングアルゴリズムが、対応する完全ラベル付きデータセットに直接適用される純粋な教師付き手法として、基礎となる人間の活動を特定し分類する上で同等のパフォーマンスを達成するのに役立つことを示した。
While the widely available embedded sensors in smartphones and other wearable devices make it easier to obtain data of human activities, recognizing different types of human activities from sensor-based data remains a difficult research topic in ubiquitous computing. One reason for this is that most of the collected data is unlabeled. However, many current human activity recognition (HAR) systems are based on supervised methods, which heavily rely on the labels of the data. We describe a weakly self-supervised approach in this paper that consists of two stages: (1) In stage one, the model learns from the nature of human activities by projecting the data into an embedding space where similar activities are grouped together; (2) In stage two, the model is fine-tuned using similarity information in a few-shot learning fashion using the similarity information of the data. This allows downstream classification or clustering tasks to benefit from the embeddings. Experiments on three benchmark datasets demonstrate the framework's effectiveness and show that our approach can help the clustering algorithm achieve comparable performance in identifying and categorizing the underlying human activities as pure supervised techniques applied directly to a corresponding fully labeled data set. | 翻訳日:2024-08-19 03:47:26 公開日:2024-07-29 |
# パリの「オアシス」校庭の空間的気候特性
Spatial Microclimatic Characterization of a Parisian "Oasis" Schoolyard ( http://arxiv.org/abs/2408.07284v1 ) ライセンス: Link先を確認 | Ghid Karam, Maïlys Chanial, Sophie Parison, Martin Hendel, Laurent Royon, | (参考訳) 2003年のヒートウェーブの後、気候変動に対する懸念が高まり、パリ市役所はいくつかの熱緩和戦略を実行してきた。
そのうちの1つは、パリの校庭を涼しい島に変えることを目的としたOASIS学園戦略である。
この枠組みの中で、EUが支援するERDF UIA OASISプロジェクトは、その微気候性能の評価を含む10の校庭の変容の研究を目標とし、GISデータと固定的および移動的ミクロ気候測定を用いた1つの校庭の事例研究結果を提示する。
実測データの解析手法を提案し,本事例に基づいて検討し,検討した。
In the aftermath of the 2003 heatwave, and with growing concern over climate change, Paris City Hall has been implementing several heat mitigation strategies. One of these is the OASIS Schoolyard Strategy which aims to transform Parisian schoolyards into cool islands. Within this framework, the EU-funded ERDF UIA OASIS Project aims to study the transformation of ten schoolyards, including an evaluation of their microclimatic performance.The present article presents case study results from one schoolyard using GIS data and fixed and mobile microclimatic measurements. An analysis method for mobile measurement data is proposed, tested and discussed on the basis of this case study. | 翻訳日:2024-08-19 03:47:26 公開日:2024-07-29 |
# HOAA: 高性能処理エンジンのためのハイブリッド過大評価近似加算器
HOAA: Hybrid Overestimating Approximate Adder for Enhanced Performance Processing Engine ( http://arxiv.org/abs/2408.00806v1 ) ライセンス: Link先を確認 | Omkar Kokane, Prabhat Sati, Mukul Lokhande, Santosh Kumar Vishvakarma, | (参考訳) 本稿では,エッジAIアプリケーションに特化して,処理エンジンの性能向上を目的としたHybrid Overestating Approximate Adderを提案する。
新規な Plus One Adder設計はRCA鎖の増分加算器として提案され、入力 A, B, Cin と並行して、過剰 1 のフル加算器が組み込まれている。
この設計は、ハードウェアの複雑さを減らし、リソース効率を向上させるために出力を2ビット値に近似する。
Plus One Adderは動的に再構成可能なHOAAに統合され、正確なオーバー見積モードと近似オーバー見積モード間の実行時のインターオペラビリティを実現する。
提案手法は,Twos を補完するサブトラクションやラウンドリング,プロセスエンジンの重要なコンポーネントである Configurable Activation 関数など,複数のアプリケーションに対して実証されている。
提案手法では, 精度の低下が最小限に抑えられた最先端設計と比較して, 面積効率が21%向上し, 消費電力が33%低減した。
したがって、提案されたHOAAは、ハードウェア効率と計算精度の間の理想的なトレードオフを提供する、リソース制約のある環境のための有望なソリューションである可能性がある。
This paper presents the Hybrid Overestimating Approximate Adder designed to enhance the performance in processing engines, specifically focused on edge AI applications. A novel Plus One Adder design is proposed as an incremental adder in the RCA chain, incorporating a Full Adder with an excess 1 alongside inputs A, B, and Cin. The design approximates outputs to 2 bit values to reduce hardware complexity and improve resource efficiency. The Plus One Adder is integrated into a dynamically reconfigurable HOAA, allowing runtime interchangeability between accurate and approximate overestimation modes. The proposed design is demonstrated for multiple applications, such as Twos complement subtraction and Rounding to even, and the Configurable Activation function, which are critical components of the Processing engine. Our approach shows 21 percent improvement in area efficiency and 33 percent reduction in power consumption, compared to state of the art designs with minimal accuracy loss. Thus, the proposed HOAA could be a promising solution for resource-constrained environments, offering ideal trade-offs between hardware efficiency vs computational accuracy. | 翻訳日:2024-08-05 15:40:20 公開日:2024-07-29 |
# Beyond Metrics: 大規模言語モデル評価フレームワークにおける変数の批判的分析
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks ( http://arxiv.org/abs/2407.21072v1 ) ライセンス: Link先を確認 | Marco AF Pimentel, Clément Christophe, Tathagata Raha, Prateek Munjal, Praveen K Kanithi, Shadab Khan, | (参考訳) 大規模言語モデル(LLM)が進化を続けるにつれ、堅牢で標準化された評価ベンチマークの必要性が最重要となる。
これらのモデルの性能を評価することは、様々な言語的タスク、モデルアーキテクチャ、ベンチマーク手法を慎重に検討する必要がある複雑な課題である。
近年、様々なフレームワークがこの分野への注目すべき貢献として現れており、様々な領域にわたるLSMの能力を評価するための総合的な評価テストとベンチマークを提供している。
本稿では,これらの評価手法の探索と批判的分析を行い,その強度,限界,および自然言語処理における最先端の進展に対する影響について述べる。
As large language models (LLMs) continue to evolve, the need for robust and standardized evaluation benchmarks becomes paramount. Evaluating the performance of these models is a complex challenge that requires careful consideration of various linguistic tasks, model architectures, and benchmarking methodologies. In recent years, various frameworks have emerged as noteworthy contributions to the field, offering comprehensive evaluation tests and benchmarks for assessing the capabilities of LLMs across diverse domains. This paper provides an exploration and critical analysis of some of these evaluation methodologies, shedding light on their strengths, limitations, and impact on advancing the state-of-the-art in natural language processing. | 翻訳日:2024-08-01 19:35:32 公開日:2024-07-29 |
# 予測勾配DescentによるBERTモデルにおける逆テキストアタックの強化
Enhancing Adversarial Text Attacks on BERT Models with Projected Gradient Descent ( http://arxiv.org/abs/2407.21073v1 ) ライセンス: Link先を確認 | Hetvi Waghela, Jaydip Sen, Sneha Rakshit, | (参考訳) ディープラーニングモデルに対する敵対的攻撃は、自然言語処理(NLP)システムのセキュリティと信頼性に対する大きな脅威である。
本稿では,BERT-Attackフレームワークを改良し,PGD(Projected Gradient Descent)を統合し,その有効性とロバスト性を向上させる。
BERT-Attackは、BERTベースのモデルに対して敵対的な例を生成するために設計されたもので、固定された摂動予算や意味的類似性に対する考慮の欠如のような制限に悩まされている。
本研究で提案されるアプローチであるPGD-BERT-Attackは、PGDを利用して逆例を反復的に生成し、本来の入力と意味的類似性を確保しながら、これらの制限に対処する。
PGD-BERT-Attackおよび他のベースライン法と比較して,PGD-BERT-Attackの性能を評価するために大規模な実験を行った。
その結果,PGD-BERT-Attackは,低知覚的変化を維持しつつ,誤分類を生じさせることで高い成功率が得られることが示された。
さらに、PGD-BERT-Attackは、初期入力とのセマンティックな類似性を示す敵インスタンスを生成し、現実のシナリオにおけるそれらの適用性を高める。
全体として、提案された修正は、BERTベースのモデルに対する敵攻撃に対してより効果的で堅牢なアプローチを提供し、それによってNLPシステムに対する攻撃に対する防御の進歩に寄与する。
Adversarial attacks against deep learning models represent a major threat to the security and reliability of natural language processing (NLP) systems. In this paper, we propose a modification to the BERT-Attack framework, integrating Projected Gradient Descent (PGD) to enhance its effectiveness and robustness. The original BERT-Attack, designed for generating adversarial examples against BERT-based models, suffers from limitations such as a fixed perturbation budget and a lack of consideration for semantic similarity. The proposed approach in this work, PGD-BERT-Attack, addresses these limitations by leveraging PGD to iteratively generate adversarial examples while ensuring both imperceptibility and semantic similarity to the original input. Extensive experiments are conducted to evaluate the performance of PGD-BERT-Attack compared to the original BERT-Attack and other baseline methods. The results demonstrate that PGD-BERT-Attack achieves higher success rates in causing misclassification while maintaining low perceptual changes. Furthermore, PGD-BERT-Attack produces adversarial instances that exhibit greater semantic resemblance to the initial input, enhancing their applicability in real-world scenarios. Overall, the proposed modification offers a more effective and robust approach to adversarial attacks on BERT-based models, thus contributing to the advancement of defense against attacks on NLP systems. | 翻訳日:2024-08-01 19:35:32 公開日:2024-07-29 |
# Appleのインテリジェンス基礎言語モデル
Apple Intelligence Foundation Language Models ( http://arxiv.org/abs/2407.21075v1 ) ライセンス: Link先を確認 | Tom Gunter, Zirui Wang, Chong Wang, Ruoming Pang, Andy Narayanan, Aonan Zhang, Bowen Zhang, Chen Chen, Chung-Cheng Chiu, David Qiu, Deepak Gopinath, Dian Ang Yap, Dong Yin, Feng Nan, Floris Weers, Guoli Yin, Haoshuo Huang, Jianyu Wang, Jiarui Lu, John Peebles, Ke Ye, Mark Lee, Nan Du, Qibin Chen, Quentin Keunebroek, Sam Wiseman, Syd Evans, Tao Lei, Vivek Rathod, Xiang Kong, Xianzhi Du, Yanghao Li, Yongqiang Wang, Yuan Gao, Zaid Ahmed, Zhaoyang Xu, Zhiyun Lu, Al Rashid, Albin Madappally Jose, Alec Doane, Alfredo Bencomo, Allison Vanderby, Andrew Hansen, Ankur Jain, Anupama Mann Anupama, Areeba Kamal, Bugu Wu, Carolina Brum, Charlie Maalouf, Chinguun Erdenebileg, Chris Dulhanty, Dominik Moritz, Doug Kang, Eduardo Jimenez, Evan Ladd, Fangping Shi, Felix Bai, Frank Chu, Fred Hohman, Hadas Kotek, Hannah Gillis Coleman, Jane Li, Jeffrey Bigham, Jeffery Cao, Jeff Lai, Jessica Cheung, Jiulong Shan, Joe Zhou, John Li, Jun Qin, Karanjeet Singh, Karla Vega, Kelvin Zou, Laura Heckman, Lauren Gardiner, Margit Bowler, Maria Cordell, Meng Cao, Nicole Hay, Nilesh Shahdadpuri, Otto Godwin, Pranay Dighe, Pushyami Rachapudi, Ramsey Tantawi, Roman Frigg, Sam Davarnia, Sanskruti Shah, Saptarshi Guha, Sasha Sirovica, Shen Ma, Shuang Ma, Simon Wang, Sulgi Kim, Suma Jayaram, Vaishaal Shankar, Varsha Paidi, Vivek Kumar, Xin Wang, Xin Zheng, Walker Cheng, Yael Shrager, Yang Ye, Yasu Tanaka, Yihao Guo, Yunsong Meng, Zhao Tang Luo, Zhi Ouyang, Alp Aygar, Alvin Wan, Andrew Walkingshaw, Andy Narayanan, Antonie Lin, Arsalan Farooq, Brent Ramerth, Colorado Reed, Chris Bartels, Chris Chaney, David Riazati, Eric Liang Yang, Erin Feldman, Gabriel Hochstrasser, Guillaume Seguin, Irina Belousova, Joris Pelemans, Karen Yang, Keivan Alizadeh Vahid, Liangliang Cao, Mahyar Najibi, Marco Zuliani, Max Horton, Minsik Cho, Nikhil Bhendawade, Patrick Dong, Piotr Maj, Pulkit Agrawal, Qi Shan, Qichen Fu, Regan Poston, Sam Xu, Shuangning Liu, Sushma Rao, Tashweena Heeramun, Thomas Merth, Uday Rayala, Victor Cui, Vivek Rangarajan Sridhar, Wencong Zhang, Wenqi Zhang, Wentao Wu, Xingyu Zhou, Xinwen Liu, Yang Zhao, Yin Xia, Zhile Ren, Zhongzheng Ren, | (参考訳) これには,デバイス上で効率的に動作するように設計された30億のパラメータモデルと,Private Cloud Compute用に設計された大規模サーバベース言語モデルが含まれる。
これらのモデルは、広範囲のタスクを効率的に、正確に、責任を持って実行するように設計されている。
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、モデルがどのように推論に最適化されているか、評価結果について述べる。
私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
We present foundation language models developed to power Apple Intelligence features, including a ~3 billion parameter model designed to run efficiently on devices and a large server-based language model designed for Private Cloud Compute. These models are designed to perform a wide range of tasks efficiently, accurately, and responsibly. This report describes the model architecture, the data used to train the model, the training process, how the models are optimized for inference, and the evaluation results. We highlight our focus on Responsible AI and how the principles are applied throughout the model development. | 翻訳日:2024-08-01 19:35:32 公開日:2024-07-29 |
# 遺伝的命令:大規模言語モデルのための符号化命令の合成生成のスケールアップ
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models ( http://arxiv.org/abs/2407.21077v1 ) ライセンス: Link先を確認 | Somshubra Majumdar, Vahid Noroozi, Sean Narenthiran, Aleksander Ficek, Jagadeesh Balam, Boris Ginsburg, | (参考訳) 大規模言語モデル(LLM)は、アライメントのための命令サンプルに依存するが、これらのデータセットを作成することは、特にコストを抑えることができるコーディングのような専門家に依存したタスクにおいて、課題を引き起こす。
これらの課題を緩和するための1つのアプローチは、別のLCMを使ってデータを合成することである。
本稿では,LLMのコード生成能力を高めるために,合成命令を生成するスケーラブルな手法を提案する。
提案したアルゴリズムは進化過程を模倣し、自己インストラクションを利用して限られた数の種子から多数の合成サンプルを生成する。
遺伝的インストラクトは、生成プロセスの効率的なスケーリングのために設計されている。
合成サンプルを用いた微調整多重符号化LLMは,ベースラインに比べてコード生成精度が大幅に向上したことを示す。
Large Language Models (LLMs) rely on instruction samples for alignment, but creating these datasets poses challenges, particularly in expert-dependent tasks like coding, which can be cost-prohibitive. One approach to mitigate these challenges is synthesizing data using another LLM. In this paper, we introduce a scalable method for generating synthetic instructions to enhance the code generation capability of LLMs. The proposed algorithm, Genetic-Instruct, mimics evolutionary processes, utilizing self-instruction to create numerous synthetic samples from a limited number of seeds. Genetic-Instruct is designed for efficient scaling of the generation process. Fine-tuning multiple coding LLMs with the synthetic samples demonstrates a significant improvement in their code generation accuracy compared to the baselines. | 翻訳日:2024-08-01 19:35:32 公開日:2024-07-29 |
# アダムオプティマイザの収束率
Convergence rates for the Adam optimizer ( http://arxiv.org/abs/2407.21078v1 ) ライセンス: Link先を確認 | Steffen Dereich, Arnulf Jentzen, | (参考訳) 確率勾配勾配(SGD)最適化法は、人工知能システムにおけるディープニューラルネットワーク(DNN)の訓練方法として、現在では選択されている。
実際に関係のあるトレーニング問題では、通常、普通のバニラ標準SGD法ではなく、最適化方式を採用するが、代わりに適切な加速と適応SGD最適化法を適用する。
今日現在、そのような加速および適応SGD最適化手法の最も一般的な変種は、2014年にKingma & Baによって提案された有名なアダム最適化である。
実装におけるアダム最適化器の人気にもかかわらず、目的関数(最小化を意図する関数)が強い凸であるような単純な2次確率最適化問題においても、アダム最適化器の収束解析を提供することは研究のオープンな問題であった。
本研究では,Adamオプティマイザに対して,大規模な確率最適化問題,特に単純な2次確率最適化問題に対する最適収束率を確立することで,この問題を解決する。
収束解析の鍵となる要素は、アダムベクトル場と呼ぶ新しいベクトル場関数である。
このアダムベクトル場は、アダム最適化過程のマクロ的挙動を正確に記述するが、対象関数(最小化しようとする関数)の負の勾配とは異なる。
特に、収束解析により、アダム最適化は一般に最適化問題の目的関数(目的関数の勾配の零点)の臨界点に収束しないが、このアダムベクトル場の零点に収束する。
Stochastic gradient descent (SGD) optimization methods are nowadays the method of choice for the training of deep neural networks (DNNs) in artificial intelligence systems. In practically relevant training problems, usually not the plain vanilla standard SGD method is the employed optimization scheme but instead suitably accelerated and adaptive SGD optimization methods are applied. As of today, maybe the most popular variant of such accelerated and adaptive SGD optimization methods is the famous Adam optimizer proposed by Kingma & Ba in 2014. Despite the popularity of the Adam optimizer in implementations, it remained an open problem of research to provide a convergence analysis for the Adam optimizer even in the situation of simple quadratic stochastic optimization problems where the objective function (the function one intends to minimize) is strongly convex. In this work we solve this problem by establishing optimal convergence rates for the Adam optimizer for a large class of stochastic optimization problems, in particular, covering simple quadratic stochastic optimization problems. The key ingredient of our convergence analysis is a new vector field function which we propose to refer to as the Adam vector field. This Adam vector field accurately describes the macroscopic behaviour of the Adam optimization process but differs from the negative gradient of the objective function (the function we intend to minimize) of the considered stochastic optimization problem. In particular, our convergence analysis reveals that the Adam optimizer does typically not converge to critical points of the objective function (zeros of the gradient of the objective function) of the considered optimization problem but converges with rates to zeros of this Adam vector field. | 翻訳日:2024-08-01 19:35:32 公開日:2024-07-29 |
# 閉塞帯
Blocking Bandits ( http://arxiv.org/abs/1907.11975v2 ) ライセンス: Link先を確認 | Soumya Basu, Rajat Sen, Sujay Sanghavi, Sanjay Shakkottai, | (参考訳) そこで本研究では,腕の演奏によって固定時間帯では使用できない,確率的マルチアームバンディットの設定について考察する。
このモデルでは、腕を頻繁に再利用するのは望ましくない(例:繰り返し同じ製品を推奨する)、あるいは不可能(例:マシンでのジョブスケジューリングの計算)といった状況がモデル化されます。
PINWHEELスケジューリング問題にマッピングすることで、すべてのアームの報酬と遅延に関する事前の知識により、ランダム化された指数時間仮説が偽でない限り、累積報酬を最適化する問題は擬似多項式時間アルゴリズム(アーム数)を含まないことを示した。
その後、利用可能なアームを最も高い報酬で演奏する単純な欲求アルゴリズムは、漸近的に$(1-1/e)$Optimicalであることを示す。
報酬が不明な場合、この不適切性による武器の自由探索を生かし、greedyアルゴリズムに対して$c \log T + o(\log T)$累積後悔を持つ UCB ベースのアルゴリズムを設計する。
最後に、全ての遅延が等しくなると、問題は、$c' \log T+ \omega(\log T)$の低い境界を持つ Combinatorial Semi-banditsに還元される。
We consider a novel stochastic multi-armed bandit setting, where playing an arm makes it unavailable for a fixed number of time slots thereafter. This models situations where reusing an arm too often is undesirable (e.g. making the same product recommendation repeatedly) or infeasible (e.g. compute job scheduling on machines). We show that with prior knowledge of the rewards and delays of all the arms, the problem of optimizing cumulative reward does not admit any pseudo-polynomial time algorithm (in the number of arms) unless randomized exponential time hypothesis is false, by mapping to the PINWHEEL scheduling problem. Subsequently, we show that a simple greedy algorithm that plays the available arm with the highest reward is asymptotically $(1-1/e)$ optimal. When the rewards are unknown, we design a UCB based algorithm which is shown to have $c \log T + o(\log T)$ cumulative regret against the greedy algorithm, leveraging the free exploration of arms due to the unavailability. Finally, when all the delays are equal the problem reduces to Combinatorial Semi-bandits providing us with a lower bound of $c' \log T+ \omega(\log T)$. | 翻訳日:2024-07-31 23:24:35 公開日:2024-07-29 |
# マルチクレームファクトチェックのための知識強化学習と意味構成モデル
A Knowledge Enhanced Learning and Semantic Composition Model for Multi-Claim Fact Checking ( http://arxiv.org/abs/2104.13046v2 ) ライセンス: Link先を確認 | Shuai Wang, Penghui Wei, Qingchao Kong, Wenji Mao, | (参考訳) 噂情報の拡散とその重大な結果を抑制するため、従来の事実検査は、関連する証拠を回収して、所定のクレームの正確性を検証することを目的としている。
ファクトチェック手法は通常、知識グラフ(KG)を外部リポジトリとして使用し、3つのクレームを検証するための証拠を取得するための推論メカニズムを開発する。
しかし、既存の手法は1つのクレームの検証のみに焦点を当てている。
現実の噂情報はより複雑であり、テキストのステートメントは複数の節(つまり1つではなく複数のクレームとして表される)から構成されることが多いため、多文の事実チェックは実用アプリケーションにとって必要であるだけでなく、より重要である。
1つの三重項を検証するための従来の手法は、複数の三重項を1つずつ検証するために繰り返し適用できるが、多項文に暗示される文脈情報を無視し、文全体のリッチな意味情報を学べない。
本稿では,多条件事実チェックのためのエンド・ツー・エンドの知識強化学習と検証手法を提案する。
提案手法は,KGに基づく学習強化と多文意味合成という2つのモジュールから構成される。
コンテキスト情報を完全に活用するために、KGベースの学習拡張モジュールは、エンティティの関連属性を選択的に集約することで、動的コンテキスト固有表現を学習する。
複数の三重項の合成意味を捉えるため、マルチステート・セマンティック・コンポジション・モジュールは、クレームレベルの相互作用をモデル化するためのグラフ構造を構築し、グローバルおよび健全な局所意味論とマルチヘッドアテンションを統合する。
実世界のデータセットと2つのベンチマークデータセットによる実験結果から,KG上での多条件ファクトチェックの有効性が示された。
To inhibit the spread of rumorous information and its severe consequences, traditional fact checking aims at retrieving relevant evidence to verify the veracity of a given claim. Fact checking methods typically use knowledge graphs (KGs) as external repositories and develop reasoning mechanism to retrieve evidence for verifying the triple claim. However, existing methods only focus on verifying a single claim. As real-world rumorous information is more complex and a textual statement is often composed of multiple clauses (i.e. represented as multiple claims instead of a single one), multiclaim fact checking is not only necessary but more important for practical applications. Although previous methods for verifying a single triple can be applied repeatedly to verify multiple triples one by one, they ignore the contextual information implied in a multi-claim statement and could not learn the rich semantic information in the statement as a whole. In this paper, we propose an end-to-end knowledge enhanced learning and verification method for multi-claim fact checking. Our method consists of two modules, KG-based learning enhancement and multi-claim semantic composition. To fully utilize the contextual information, the KG-based learning enhancement module learns the dynamic context-specific representations via selectively aggregating relevant attributes of entities. To capture the compositional semantics of multiple triples, the multi-claim semantic composition module constructs the graph structure to model claim-level interactions, and integrates global and salient local semantics with multi-head attention. Experimental results on a real-world dataset and two benchmark datasets show the effectiveness of our method for multi-claim fact checking over KG. | 翻訳日:2024-07-31 23:24:35 公開日:2024-07-29 |
# 反復エンゲージメントのための公正なインセンティブ
Fair Incentives for Repeated Engagement ( http://arxiv.org/abs/2111.00002v3 ) ライセンス: Link先を確認 | Daniel Freund, Chamsi Hssaine, | (参考訳) 本研究では、参加決定を(理論的に)受けるインセンティブに依存するエージェントに直面する場合、保持のための最適な金融インセンティブスキームを見つけるという意思決定者の課題について検討する。
我々の焦点は、エージェントの異なるグループが平均的に異なる治療を受ける結果を妨げる2つの公平性の性質を満たすために制約されたポリシーに焦点を当てている。
この問題を高次元確率最適化問題として定式化し、密接に関連する決定論的変種を用いて検討する。
この決定論的不変量に対する最適静的解は、公正性制約の下での動的問題に対して漸近的に最適であることを示す。
最適静的解の解法は非凸最適化の問題を生じさせるが、抽出可能な高速収束ヒューリスティックなポリシーを設計できる構造的特性を明らかにする。
保守のための伝統的なスキームは、公正さの制約を無視している; 実際、これらのゴールは、分化を使用してシステムとの繰り返しの関わりを動機付けることである。
作品
一) 明示的差別がない場合でも、システムの種類構成を変化させることで、動的政策が故意に異なる種類のエージェントを区別することを示し、
(二)このような差別的な結果を避けるため、漸近的に最適な政策を提示する。
We study a decision-maker's problem of finding optimal monetary incentive schemes for retention when faced with agents whose participation decisions (stochastically) depend on the incentive they receive. Our focus is on policies constrained to fulfill two fairness properties that preclude outcomes wherein different groups of agents experience different treatment on average. We formulate the problem as a high-dimensional stochastic optimization problem, and study it through the use of a closely related deterministic variant. We show that the optimal static solution to this deterministic variant is asymptotically optimal for the dynamic problem under fairness constraints. Though solving for the optimal static solution gives rise to a non-convex optimization problem, we uncover a structural property that allows us to design a tractable, fast-converging heuristic policy. Traditional schemes for retention ignore fairness constraints; indeed, the goal in these is to use differentiation to incentivize repeated engagement with the system. Our work (i) shows that even in the absence of explicit discrimination, dynamic policies may unintentionally discriminate between agents of different types by varying the type composition of the system, and (ii) presents an asymptotically optimal policy to avoid such discriminatory outcomes. | 翻訳日:2024-07-31 23:24:35 公開日:2024-07-29 |
# 深部生成モデルによる逆問題に対する微分ガウス化層
Differentiable Gaussianization Layers for Inverse Problems Regularized by Deep Generative Models ( http://arxiv.org/abs/2112.03860v5 ) ライセンス: Link先を確認 | Dongzhuo Li, | (参考訳) GAN、正規化フロー、拡散モデルといった深い生成モデルは、逆問題に対する強力な正規化器である。
彼らは不備を減らし、高品質な結果を得るのに大いに役立つ可能性がある。
しかし、このような深部生成モデルの潜時テンソルは、インバージョンの間、特にデータノイズや不正確な前方モデルの存在下で、所望の高次元標準ガウス分布から脱落し、低忠実性解をもたらす。
この問題に対処するために、我々は、最適化問題を解くことでカスタム演算子が定義される新しい微分可能なデータ依存層を用いて、潜時テンソルを再パラメータ化し、ガウス化することを提案する。
これらの層は、高忠実度分散解を得るために逆問題に制約を与える。
提案手法は, 圧縮センシングMRI, 画像デブロアリング, エイコナルトモグラフィー(非線形PDE制約逆問題) の3つの逆問題に対して, 代表的な2つの深部生成モデルであるStyleGAN2とGlowを用いて検証した。
提案手法は精度と整合性の観点から最先端の性能を実現する。
Deep generative models such as GANs, normalizing flows, and diffusion models are powerful regularizers for inverse problems. They exhibit great potential for helping reduce ill-posedness and attain high-quality results. However, the latent tensors of such deep generative models can fall out of the desired high-dimensional standard Gaussian distribution during inversion, particularly in the presence of data noise and inaccurate forward models, leading to low-fidelity solutions. To address this issue, we propose to reparameterize and Gaussianize the latent tensors using novel differentiable data-dependent layers wherein custom operators are defined by solving optimization problems. These proposed layers constrain inverse problems to obtain high-fidelity in-distribution solutions. We validate our technique on three inversion tasks: compressive-sensing MRI, image deblurring, and eikonal tomography (a nonlinear PDE-constrained inverse problem) using two representative deep generative models: StyleGAN2 and Glow. Our approach achieves state-of-the-art performance in terms of accuracy and consistency. | 翻訳日:2024-07-31 23:19:20 公開日:2024-07-29 |
# 組込み型ニューラルセルオートマタ
Empowered Neural Cellular Automata ( http://arxiv.org/abs/2205.06771v2 ) ライセンス: Link先を確認 | Caitlin Grasso, Josh Bongard, | (参考訳) 情報理論の適合関数は、一般的に有用なタスク非依存の振る舞いを生み出すために人気が高まっている。
エンパワーメントと呼ばれるそのような普遍的な機能の一つは、エージェントがその感覚運動器システムを通して環境に作用するコントロールの量を計測する。
具体的には、エージェントの動作と受信したセンサー状態の間の相互情報の最大化を試みる。
従来、ロボットのような従来の感覚運動装置にエンパワーメントが適用されてきた。
そこで我々は,ニューラルセルオートマトン(NCA)を具現化した分散型マルチエージェント・センサモレータシステムへのアプローチを拡大する。
形態形成, 成長, 維持を行うため, NCAの進化における二次的な目的としてのエンパワーメントの追加は, 形態形成単独の進化よりも高い適合性をもたらすことを示した。
結果は、形態形成とエンパワーメントの間に相乗的関係があることを示唆している。
すなわち、開発期間中に隣接する細胞間の協調を間接的に選択することは、発達過程自体に有益である。
このような発見は、単一細胞から多細胞標的形態への成長中の細胞間通信の潜在的なメカニズムを提供することによって、発達生物学に応用できるかもしれない。
実験のソースコードは以下の通りである。
Information-theoretic fitness functions are becoming increasingly popular to produce generally useful, task-independent behaviors. One such universal function, dubbed empowerment, measures the amount of control an agent exerts on its environment via its sensorimotor system. Specifically, empowerment attempts to maximize the mutual information between an agent's actions and its received sensor states at a later point in time. Traditionally, empowerment has been applied to a conventional sensorimotor apparatus, such as a robot. Here, we expand the approach to a distributed, multi-agent sensorimotor system embodied by a neural cellular automaton (NCA). We show that the addition of empowerment as a secondary objective in the evolution of NCA to perform the task of morphogenesis, growing and maintaining a pre-specified shape, results in higher fitness compared to evolving for morphogenesis alone. Results suggest there may be a synergistic relationship between morphogenesis and empowerment. That is, indirectly selecting for coordination between neighboring cells over the duration of development is beneficial to the developmental process itself. Such a finding may have applications in developmental biology by providing potential mechanisms of communication between cells during growth from a single cell to a multicellular, target morphology. Source code for the experiments in this paper can be found at: \url{https://github.com/caitlingrasso/empowered-nca}. | 翻訳日:2024-07-31 23:19:20 公開日:2024-07-29 |
# 絡み合いくさびからの非定型ブラックホールミクロ状態の計数
Counting atypical black hole microstates from entanglement wedges ( http://arxiv.org/abs/2211.11787v3 ) ライセンス: Link先を確認 | Zixia Wei, Yasushi Yoneta, | (参考訳) 遠方性ブラックホールマイクロステート(disentangled black hole microstates)は、重力双対が滑らかな地平線を持たないホログラフィック CFT における非定型状態である。
ブラックホールのエントロピー全体を説明するために十分に多くの非絡み合ったマイクロステートが存在する場合、どんなブラックホールのマイクロステートも滑らかな地平線のない状態の重畳として記述することができる。
我々は、半古典的極限$G_N\rightarrow 0$で、大きなAdSブラックホールのほぼ全ブラックホールエントロピーを考慮に入れた、十分に多くの非絡み合いマイクロステートが存在することを示した。
さらに、短距離相互作用を持つ一般量子多体系では、標準熱力学極限における熱力学的エントロピーのほぼ全てを考慮に入れられるように、マイクロカノニカル部分空間に十分多くの領域法則が存在することを論じる。
地域法状態は典型的には非典型的であり、典型的状態は体積法の絡み合いを含むべきである。
さらに、そのような領域法則状態の集合を構築するための明示的な方法も提示し、同じ構成が非絡み合い状態を構成するためにも使用できると主張している。
Disentangled black hole microstates are atypical states in holographic CFTs whose gravity duals do not have smooth horizons. If there exist sufficiently many disentangled microstates to account for the entire black hole entropy, then any black hole microstate can be written as a superposition of states without smooth horizons. We show that there exist sufficiently many disentangled microstates to account for almost the entire black hole entropy of a large AdS black hole at the semiclassical limit $G_N\rightarrow 0$. In addition, we also argue that in generic quantum many-body systems with short-ranged interactions, there exist sufficiently many area law states in the microcanonical subspace to account for almost the entire thermodynamic entropy in the standard thermodynamic limit. Area law states are atypical since a typical state should contain volume law entanglement. Furthermore, we also present an explicit way to construct such a set of area law states, and argue that the same construction may also be used to construct disentangled states. | 翻訳日:2024-07-31 23:09:12 公開日:2024-07-29 |
# ダイヤモンド距離における一元チャネルのクエリ-最適推定
Query-optimal estimation of unitary channels in diamond distance ( http://arxiv.org/abs/2302.14066v2 ) ライセンス: Link先を確認 | Jeongwan Haah, Robin Kothari, Ryan O'Donnell, Ewin Tang, | (参考訳) 単一量子チャネルのプロセストモグラフィーについて考察する。
未知のユニタリチャネルが$\textsf{d}$-dimensional quditに作用することを考えると、ダイヤモンドノルムの未知ユニタリに$\varepsilon$-closeのユニタリの古典的な記述を出力することを目指している。
我々は、未知のチャネルと1つのquditしか適用しない$O(\textsf{d}^2/\varepsilon)$を使ってエラーを発生させるアルゴリズムを設計する。
これは以前の結果よりも改善され、$O(\textsf{d}^3/\varepsilon^2)$[標準プロセストモグラフィ]または$O(\textsf{d}^{2.5}/\varepsilon)$[Yang, Renner, Chiribella, PRL 2020]アプリケーションを使用する。
この結果を示すために、Heisenbergスケールで$\varepsilon$-error推定を生成できるアルゴリズムを「ブートストラップ」する簡単な手法を導入する。
最後に、未知のユニタリの逆あるいは制御されたバージョンにアクセスしても、推定に$\Omega(\textsf{d}^2/\varepsilon)$アプリケーションが必要であることを示す補完的な下界を証明する。
このことから,本アルゴリズムは問合せの複雑さと空間の複雑さの両立を図っている。
We consider process tomography for unitary quantum channels. Given access to an unknown unitary channel acting on a $\textsf{d}$-dimensional qudit, we aim to output a classical description of a unitary that is $\varepsilon$-close to the unknown unitary in diamond norm. We design an algorithm achieving error $\varepsilon$ using $O(\textsf{d}^2/\varepsilon)$ applications of the unknown channel and only one qudit. This improves over prior results, which use $O(\textsf{d}^3/\varepsilon^2)$ [via standard process tomography] or $O(\textsf{d}^{2.5}/\varepsilon)$ [Yang, Renner, and Chiribella, PRL 2020] applications. To show this result, we introduce a simple technique to "bootstrap" an algorithm that can produce constant-error estimates to one that can produce $\varepsilon$-error estimates with the Heisenberg scaling. Finally, we prove a complementary lower bound showing that estimation requires $\Omega(\textsf{d}^2/\varepsilon)$ applications, even with access to the inverse or controlled versions of the unknown unitary. This shows that our algorithm has both optimal query complexity and optimal space complexity. | 翻訳日:2024-07-31 23:09:12 公開日:2024-07-29 |
# 分散対称鍵設定プロトコルの構成可能なセキュリティ
Composable Security of Distributed Symmetric Key Establishment Protocol ( http://arxiv.org/abs/2304.13789v2 ) ライセンス: Link先を確認 | Jie Lin, Manfred von Willich, Hoi-Kwong Lo, | (参考訳) 分散対称鍵確立(DSKE)プロトコルは、事前の接触を必要としない2つの正直な当事者間のセキュアな秘密交換(例えば、鍵交換)を提供し、それぞれが秘密データを安全に共有する仲介者を使用する。
Maurer のコンストラクティブ暗号フレームワークにおいて,DSKE プロトコルの構成可能なセキュリティについて述べる。
具体的には、このプロトコルのセキュリティ(正確性と機密性)と堅牢性を、計算不能な敵に対して証明する。
DSKEは、距離制限のないネットワーク環境で高度にスケーラブルであるため、量子コンピュータの脅威に対してネットワークセキュリティを保護するための費用対効果の高い量子セーフ暗号ソリューションであると期待されている。
The Distributed Symmetric Key Establishment (DSKE) protocol provides secure secret exchange (e.g., for key exchange) between two honest parties that need not have had prior contact, and use intermediaries with whom they each securely share confidential data. We show the composable security of the DSKE protocol in the constructive cryptography framework of Maurer. Specifically, we prove the security (correctness and confidentiality) and robustness of this protocol against any computationally unbounded adversary, who additionally may have fully compromised a bounded number of the intermediaries and can eavesdrop on all communication. As DSKE is highly scalable in a network setting with no distance limit, it is expected to be a cost-effective quantum-safe cryptographic solution to safeguarding the network security against the threat of quantum computers. | 翻訳日:2024-07-31 23:09:12 公開日:2024-07-29 |
# 直接参照最適化:あなたの言語モデルは秘密裏にリワードモデルである
Direct Preference Optimization: Your Language Model is Secretly a Reward Model ( http://arxiv.org/abs/2305.18290v3 ) ライセンス: Link先を確認 | Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn, | (参考訳) 大規模な教師なし言語モデル(LM)は、幅広い世界の知識とある程度の推論スキルを学習するが、教師なしの訓練の性質が全くないため、その行動の正確な制御は困難である。
このようなステアビリティを得るための既存の方法は、モデル世代における相対的な品質の人間ラベルを収集し、教師なしLMを微調整してこれらの嗜好に適合させ、しばしば人間からのフィードバックからの強化学習(RLHF)と共に行う。
しかし、RLHFは複雑で不安定な手順であり、まず人間の好みを反映した報酬モデルに適合し、次に強化学習を用いて大規模な教師なしLMを微調整し、この推定報酬を元のモデルから遠ざかることなく最大化する。
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。これにより,対応する最適ポリシーをクローズド形式で抽出し,単純な分類損失のみで標準RLHF問題を解くことができる。
私たちがDPO(Direct Preference Optimization)と呼ぶこのアルゴリズムは安定的で、性能が高く、計算量も軽量であり、微調整や重要なハイパーパラメータチューニングを行う際に、LMからサンプリングする必要がなくなる。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
特に、DPOによる微調整は、世代ごとの感情を制御できるPPOベースのRLHFを超え、要約やシングルターン対話における応答品質にマッチまたは改善すると同時に、実装とトレーニングが大幅に簡単になる。
While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining such steerability collect human labels of the relative quality of model generations and fine-tune the unsupervised LM to align with these preferences, often with reinforcement learning from human feedback (RLHF). However, RLHF is a complex and often unstable procedure, first fitting a reward model that reflects the human preferences, and then fine-tuning the large unsupervised LM using reinforcement learning to maximize this estimated reward without drifting too far from the original model. In this paper we introduce a new parameterization of the reward model in RLHF that enables extraction of the corresponding optimal policy in closed form, allowing us to solve the standard RLHF problem with only a simple classification loss. The resulting algorithm, which we call Direct Preference Optimization (DPO), is stable, performant, and computationally lightweight, eliminating the need for sampling from the LM during fine-tuning or performing significant hyperparameter tuning. Our experiments show that DPO can fine-tune LMs to align with human preferences as well as or better than existing methods. Notably, fine-tuning with DPO exceeds PPO-based RLHF in ability to control sentiment of generations, and matches or improves response quality in summarization and single-turn dialogue while being substantially simpler to implement and train. | 翻訳日:2024-07-31 22:59:28 公開日:2024-07-29 |
# 目を見渡すよりもグラフの方が多い:自己超越で普遍的な特徴を学ぶ
There is more to graphs than meets the eye: Learning universal features with self-supervision ( http://arxiv.org/abs/2305.19871v2 ) ライセンス: Link先を確認 | Laya Das, Sai Munikoti, Nrushad Joshi, Mahantesh Halappanavar, | (参考訳) 本稿では,複数のグラフに一般化可能な自己スーパービジョンによる特徴学習の課題について検討する。
State-of-the-art graph self-supervisionはトレーニングを1つのグラフに制限し、結果としてグラフ固有のモデルは異なるが関連するグラフと互換性がない。
我々は、同じ家族に属する複数のグラフによるトレーニングは、学習した表現の質を向上させることができると仮定する。
しかし、異なるグラフで異なるノード/エッジ機能から普遍的な特徴を学ぶことは簡単ではない。
この課題に対処するために、まず、異なる特徴をグラフ固有のエンコーダで均質化し、特徴を共通の空間に変換する。
普遍表現学習モジュールは、この共通空間上の一般化可能な特徴を学習する。
その結果,(1)下流ノード分類の性能向上,(2)同じ家系の未確認グラフに再利用可能な学習機能,(3)より効率的な学習,(4)コンパクトで一般化可能なモデルが得られた。
また、提案したフレームワークが比較的大きなグラフに対してこれらの利点を提供できることを示す。
本稿では,複数のグラフからエンド・ツー・エンドの方法で学習する基礎グラフモデルを設計する上で,自己監督と教師付きパフォーマンスのギャップを埋める方法を提案する。
We study the problem of learning features through self-supervision that are generalisable to multiple graphs. State-of-the-art graph self-supervision restricts training to only one graph, resulting in graph-specific models that are incompatible with different but related graphs. We hypothesize that training with more than one graph that belong to the same family can improve the quality of the learnt representations. However, learning universal features from disparate node/edge features in different graphs is non-trivial. To address this challenge, we first homogenise the disparate features with graph-specific encoders that transform the features into a common space. A universal representation learning module then learns generalisable features on this common space. We show that compared to traditional self-supervision with one graph, our approach results in (1) better performance on downstream node classification, (2) learning features that can be re-used for unseen graphs of the same family, (3) more efficient training and (4) compact yet generalisable models. We also show ability of the proposed framework to deliver these benefits for relatively larger graphs. In this paper, we present a principled way to design foundation graph models that learn from more than one graph in an end-to-end manner, while bridging the gap between self-supervised and supervised performance. | 翻訳日:2024-07-31 22:59:28 公開日:2024-07-29 |
# 半パラメトリックベイズ回帰に対するモンテカルロ推論
Monte Carlo inference for semiparametric Bayesian regression ( http://arxiv.org/abs/2306.05498v2 ) ライセンス: Link先を確認 | Daniel R. Kowal, Bohan Wu, | (参考訳) データ変換はパラメトリック回帰モデルの適用性に不可欠である。
しかし、ベイズ解析では、変換とモデルパラメータの合同推論は通常、計算的に非効率で実装や理論解析に不都合な制限的なパラメトリック変換や非パラメトリック表現を伴い、実際は使用性を制限する。
本稿では、未知の変換とすべての回帰モデルパラメータの結合後部推論のための単純で汎用的で効率的な戦略を提案する。
提案手法は独立変数と依存変数の辺り分布とをリンクすることで変換の後方分布を直接ターゲットとし、ベイズ非パラメトリックモデルをベイズブートストラップを介して展開する。
重要なことに、このアプローチは(1)複数のモデル不特定性を含む一般的な条件下での合同後続一貫性を提供し、(2)変換に対する効率的なモンテカルロ(マルコフ連鎖モンテカルロではない)の推論と重要な特殊ケースに対する全てのパラメータを提供する。
これらのツールは、実価値、ポジティブ、コンパクトにサポートされたデータを含む、さまざまなデータドメインに適用される。
シミュレーション研究と経験的応用は、線形モデル、量子レグレッション、ガウス過程を用いた半パラメトリックベイズ解析におけるこの戦略の有効性と効率を実証する。
RパッケージのSeBRはCRANで利用可能である。
Data transformations are essential for broad applicability of parametric regression models. However, for Bayesian analysis, joint inference of the transformation and model parameters typically involves restrictive parametric transformations or nonparametric representations that are computationally inefficient and cumbersome for implementation and theoretical analysis, which limits their usability in practice. This paper introduces a simple, general, and efficient strategy for joint posterior inference of an unknown transformation and all regression model parameters. The proposed approach directly targets the posterior distribution of the transformation by linking it with the marginal distributions of the independent and dependent variables, and then deploys a Bayesian nonparametric model via the Bayesian bootstrap. Crucially, this approach delivers (1) joint posterior consistency under general conditions, including multiple model misspecifications, and (2) efficient Monte Carlo (not Markov chain Monte Carlo) inference for the transformation and all parameters for important special cases. These tools apply across a variety of data domains, including real-valued, positive, and compactly-supported data. Simulation studies and an empirical application demonstrate the effectiveness and efficiency of this strategy for semiparametric Bayesian analysis with linear models, quantile regression, and Gaussian processes. The R package SeBR is available on CRAN. | 翻訳日:2024-07-31 22:59:28 公開日:2024-07-29 |
# SMARLA:深部強化学習エージェントの安全モニタリングアプローチ
SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2308.02594v3 ) ライセンス: Link先を確認 | Amirhossein Zolfagharian, Manel Abdellatif, Lionel C. Briand, Ramesh S, | (参考訳) 深部強化学習アルゴリズム(DRL)は、安全クリティカルなシステムでますます利用されている。
DRLエージェントの安全性を確保することは、このような文脈において重要な関心事である。
しかしながら、テストのみに依存するだけでは、保証を提供していないため、安全性を確保するには不十分です。
安全モニターの構築は、この課題を緩和するためのソリューションのひとつだ。
本稿では,DRLエージェントを対象とした機械学習による安全監視手法SMARLAを提案する。
実際の理由から、SMARLAはDRLエージェントの入力の種類に依存しない。
さらに、状態空間を縮小した状態空間を用いてエージェントの状態から安全違反予測モデルの学習を容易にするために、状態抽象化を活用することにより、ブラックボックス(エージェントの内部や訓練データへのアクセスを必要としないため)として設計されている。
SMARLAを3つのよく知られたRL症例で定量的に定性的に検証した。
その結果、SMARLAは偽陽性率の低い正確な違反予測を達成し、違反が起こる前に、エージェントの実行のほぼ途中で、早期に安全違反を予測できることが判明した。
Deep reinforcement learning algorithms (DRL) are increasingly being used in safety-critical systems. Ensuring the safety of DRL agents is a critical concern in such contexts. However, relying solely on testing is not sufficient to ensure safety as it does not offer guarantees. Building safety monitors is one solution to alleviate this challenge. This paper proposes SMARLA, a machine learning-based safety monitoring approach designed for DRL agents. For practical reasons, SMARLA is agnostic to the type of DRL agent's inputs. Further, it is designed to be black-box (as it does not require access to the internals or training data of the agent) by leveraging state abstraction to facilitate the learning of safety violation prediction models from the agent's states using a reduced state space. We quantitatively and qualitatively validated SMARLA on three well-known RL case studies. Empirical results reveal that SMARLA achieves accurate violation prediction with a low false positive rate and can predict safety violations at an early stage, approximately halfway through the execution of the agent, before violations occur. | 翻訳日:2024-07-31 22:59:28 公開日:2024-07-29 |
# 一次元ギャップレス系における低温物理の効率的なシミュレーション
Efficient Simulation of Low Temperature Physics in One-Dimensional Gapless Systems ( http://arxiv.org/abs/2309.02519v2 ) ライセンス: Link先を確認 | Yuya Kusuki, Kotaro Tamaoka, Zixia Wei, Yasushi Yoneta, | (参考訳) 有限温度シミュレーションの計算効率を,最小絡み合った典型的な熱状態(METTS)を用いて論じる。
METTS を行列積状態として効率的に表現できると主張するためには、Renyi index $0<q\leq 1$ に対する METTS の平均エンタングルメント Renyi エントロピーを解析上界として提示する。
特に、CFTによって記述された1Dギャップレス系の場合、上界スケールは$\mathcal{O}(c N^0 \log \beta)$、$c$は中心電荷、$N$はシステムサイズである。
さらに、平均レニイエントロピーは中心電荷によって特徴づけられる普遍的な振舞いを示し、解析上界のおよそ半分で与えられることを数値的に見出した。
これらの結果から,METTSは1次元空隙系における低温熱平衡状態の解析に精製法を用いることに比べ,大きな速度向上をもたらすことが示された。
We discuss the computational efficiency of the finite temperature simulation with the minimally entangled typical thermal states (METTS). To argue that METTS can be efficiently represented as matrix product states, we present an analytic upper bound for the average entanglement Renyi entropy of METTS for Renyi index $0<q\leq 1$. In particular, for 1D gapless systems described by CFTs, the upper bound scales as $\mathcal{O}(c N^0 \log \beta)$ where $c$ is the central charge and $N$ is the system size. Furthermore, we numerically find that the average Renyi entropy exhibits a universal behavior characterized by the central charge and is roughly given by half of the analytic upper bound. Based on these results, we show that METTS provide a significant speedup compared to employing the purification method to analyze thermal equilibrium states at low temperatures in 1D gapless systems. | 翻訳日:2024-07-31 22:49:41 公開日:2024-07-29 |
# 自己回帰型次世代予測器はユニバーサルラーナーである
Auto-Regressive Next-Token Predictors are Universal Learners ( http://arxiv.org/abs/2309.06979v3 ) ライセンス: Link先を確認 | Eran Malach, | (参考訳) 大規模言語モデルは論理的および数学的推論において顕著な能力を示し、複雑なタスクを解くことができる。
興味深いことに、これらの能力は次世代の予測という単純なタスクに基づいて訓練されたネットワークに現れる。
本研究では,自動回帰型次世代予測器の理論的枠組みを提案する。
チェイン・オブ・ソート(CoT)データに基づいて訓練された線形次トーケン予測器のような単純なモデルでさえ、チューリングマシンによって効率的に計算される任意の関数を近似できることを示した。
対象関数を近似するために必要なCoTシーケンスの中間トークン数を測定し、長さ複雑性と他の複雑性の概念との相互作用を分析する。
最後に、線形ネットワークや浅層多層パーセプトロン(MLP)のような単純な次世代予測器が、テキスト生成や算術タスクにおいて非自明な性能を示すことを示す。
我々の結果は、今日のLLMのパワーは、自動回帰的な次世代のトレーニングスキームに大きく寄与し、必ずしも特定のアーキテクチャの選択に寄与するわけではないことを証明している。
Large language models display remarkable capabilities in logical and mathematical reasoning, allowing them to solve complex tasks. Interestingly, these abilities emerge in networks trained on the simple task of next-token prediction. In this work, we present a theoretical framework for studying auto-regressive next-token predictors. We demonstrate that even simple models such as linear next-token predictors, trained on Chain-of-Thought (CoT) data, can approximate any function efficiently computed by a Turing machine. We introduce a new complexity measure -- length complexity -- which measures the number of intermediate tokens in a CoT sequence required to approximate some target function, and analyze the interplay between length complexity and other notions of complexity. Finally, we show experimentally that simple next-token predictors, such as linear networks and shallow Multi-Layer Perceptrons (MLPs), display non-trivial performance on text generation and arithmetic tasks. Our results demonstrate that the power of today's LLMs can be attributed, to a great extent, to the auto-regressive next-token training scheme, and not necessarily to a particular choice of architecture. | 翻訳日:2024-07-31 22:49:41 公開日:2024-07-29 |
# 2モード励起光を用いた光干渉計によるチップ集積量子メトロジーの強化
Optical interferometer using two-mode squeezed light for enhanced chip-integrated quantum metrology ( http://arxiv.org/abs/2309.10602v3 ) ライセンス: Link先を確認 | Patrick Tritschler, Torsten Ohms, André Zimmermann, Fabian Zschocke, Thomas Strohm, Peter Degenfeld-Schonburg, | (参考訳) 本研究は, 現実的な損失下での小型化に焦点をあて, 既存のセンサ技術の性能向上を図るために2モード圧縮光を用いる可能性について論じる。
そこで本研究では,2モード圧縮光発生部分,センサ領域,検出段階からなるシステムを分析する。
第3次感受性によって生じる一般4波混合(FWM)ハミルトニアンに基づいて、しきい値以下でFWM過程を記述する線形化方程式を定式化し、生成した光信号とアイドラーモード間のスクイーズ品質を解析する。
実現可能なためには、マイクロリング共振器を用いたチップ統合生成に焦点をあてる。
そのため、導出方程式には設計とポンプ光の影響が考慮されている。
これらの方程式は量子気象学における2モードの励起光の使用と、マッハ・ツェンダー干渉計(MZI)への応用を分析するために用いられる。
現実的なユースケースにおける損失の影響から,小型でコンパクトなデバイスが主な用途であり,コヒーレント光のみを使用する場合と比較して10倍の量子的改善につながる可能性が示唆された。
これにより、より大型の古典的なセンサーに匹敵する性能を持つ小型のスクイージング型センサーを使用することができる。
This work discusses the possibility of using two-mode squeezed light to improve the performance of existing sensor technology with the focus on its miniaturization under realistic losses. Therefore, we analyze a system consisting of a part for the two-mode squeezed light generation, a sensor region and a detection stage. Based on a general four-wave mixing (FWM) Hamiltonian caused by the third order susceptibility, we formulate linearized equations that describe the FWM process below the threshold and are used to analyze the squeezing quality between the generated optical signal and idler modes. For a possible realization, the focus is set on the chip-integrated generation using micro-ring resonators. To do so, the impact of the design and the pump light are considered in the derived equations. These equations are used to analyze the usage of two-mode squeezed light in quantum metrology and the application in a Mach-Zehnder interferometer (MZI). Due to the impact of losses in realistic use cases, we show that the main usage is for small and compact devices, which can lead to a quantum improvement up to a factor of ten in comparison of using coherent light only. This enables the use of small squeezing-enhanced sensors with a performance comparable to larger classical sensors. | 翻訳日:2024-07-31 22:49:41 公開日:2024-07-29 |
# MoVideo:拡散モデルを用いたモーション対応ビデオ生成
MoVideo: Motion-Aware Video Generation with Diffusion Models ( http://arxiv.org/abs/2311.11325v2 ) ライセンス: Link先を確認 | Jingyun Liang, Yuchen Fan, Kai Zhang, Radu Timofte, Luc Van Gool, Rakesh Ranjan, | (参考訳) 近年、ビデオ生成に拡散モデルを用いることで大きな進歩が見られるが、そのほとんどは画像生成フレームワークの単純な拡張であり、ビデオと画像の主な違いの一つ、すなわちモーションを明示的に考慮することができない。
本稿では,映像深度と光フローの2つの側面から動きを考慮したモーション対応動画生成(MoVideo)フレームワークを提案する。
前者はフレーム単位の物体距離と空間配置による動きを規制し、後者はフレーム間の対応による動きを記述し、細部を保存し時間的整合性を改善する。
より具体的には、テキストプロンプトから生成されるキーフレームを前提として、ビデオ深度と対応する光フローを生成するために、時空間モジュールを用いた拡散モデルを最初に設計する。
そして、この映像は、奥行き、光流に基づくワープされた潜伏映像、計算された閉塞マスクの誘導の下で、別の時空間拡散モデルにより潜伏空間に生成される。
最後に、我々は再び光学フローを使用して異なるフレームを整列し、精細化し、潜在空間から画素空間へのより良いビデオデコーディングを行う。
実験では、MoVideoはテキスト・トゥ・ビデオと画像・トゥ・ビデオの両方で最先端の結果を達成し、有望な即時一貫性、フレームの一貫性、視覚的品質を示す。
While recent years have witnessed great progress on using diffusion models for video generation, most of them are simple extensions of image generation frameworks, which fail to explicitly consider one of the key differences between videos and images, i.e., motion. In this paper, we propose a novel motion-aware video generation (MoVideo) framework that takes motion into consideration from two aspects: video depth and optical flow. The former regulates motion by per-frame object distances and spatial layouts, while the later describes motion by cross-frame correspondences that help in preserving fine details and improving temporal consistency. More specifically, given a key frame that exists or generated from text prompts, we first design a diffusion model with spatio-temporal modules to generate the video depth and the corresponding optical flows. Then, the video is generated in the latent space by another spatio-temporal diffusion model under the guidance of depth, optical flow-based warped latent video and the calculated occlusion mask. Lastly, we use optical flows again to align and refine different frames for better video decoding from the latent space to the pixel space. In experiments, MoVideo achieves state-of-the-art results in both text-to-video and image-to-video generation, showing promising prompt consistency, frame consistency and visual quality. | 翻訳日:2024-07-31 22:39:45 公開日:2024-07-29 |
# DatasetNeRF: 生成放射場を持つ効率的な3D認識データファクトリ
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields ( http://arxiv.org/abs/2311.12063v2 ) ライセンス: Link先を確認 | Yu Chi, Fangneng Zhan, Sibo Wu, Christian Theobalt, Adam Kortylewski, | (参考訳) 3Dコンピュータビジョンタスクの進歩は、膨大な量のデータを必要とするが、3D一貫性のあるアノテーションによるマルチビューイメージの注釈付けや、パートセグメンテーションを備えたポイントクラウドは、時間がかかり、困難である。
本稿では, 最小限の2次元ラベル付きアノテーションを用いて, 3次元ポイントクラウドセグメンテーションと並行して, 無限で高品質な2次元アノテーションを生成可能な新しいアプローチであるDatasetNeRFを提案する。
具体的には、3D生成モデルに先行する強力なセマンティクスを活用してセマンティクスデコーダをトレーニングする。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
生成されたデータは、ビデオセグメンテーションや3Dポイントクラウドセグメンテーションなど、さまざまなコンピュータビジョンタスクに適用できる。
提案手法は, セグメンテーション品質のベースラインモデルを超え, 個々の画像に対して優れた3次元一貫性とセグメンテーション精度を実現するだけでなく, 調音および非調音生成モデルにも適用可能であることを示す。
さらに,3D対応セマンティック編集や3Dインバージョンなど,我々のアプローチに起因したアプリケーションについても検討する。
Progress in 3D computer vision tasks demands a huge amount of data, yet annotating multi-view images with 3D-consistent annotations, or point clouds with part segmentation is both time-consuming and challenging. This paper introduces DatasetNeRF, a novel approach capable of generating infinite, high-quality 3D-consistent 2D annotations alongside 3D point cloud segmentations, while utilizing minimal 2D human-labeled annotations. Specifically, we leverage the strong semantic prior within a 3D generative model to train a semantic decoder, requiring only a handful of fine-grained labeled samples. Once trained, the decoder efficiently generalizes across the latent space, enabling the generation of infinite data. The generated data is applicable across various computer vision tasks, including video segmentation and 3D point cloud segmentation. Our approach not only surpasses baseline models in segmentation quality, achieving superior 3D consistency and segmentation precision on individual images, but also demonstrates versatility by being applicable to both articulated and non-articulated generative models. Furthermore, we explore applications stemming from our approach, such as 3D-aware semantic editing and 3D inversion. | 翻訳日:2024-07-31 22:39:45 公開日:2024-07-29 |
# コードの連鎖: 言語モデルの拡張されたコードエミュレータによる推論
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator ( http://arxiv.org/abs/2312.04474v4 ) ライセンス: Link先を確認 | Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter, | (参考訳) Codeは、複雑なプログラムを構築し、コードインタプリタとペアになったときに正確な計算を行うための一般的な構文構造を提供します。
LMはインタプリタで実行できる"detect_sarcasm(string)"の実装を書くのに苦労するかもしれません(エッジケースの処理は不要でしょう)。
しかし、LMはコードを記述するだけでなく、「detect_sarcasm(string)」の出力を生成することでインタプリタを選択的に"エミュレート"する。
本研究では,LMコード駆動推論を改善するシンプルな,驚くほど効果的な拡張であるChain of Code (CoC)を提案する。
キーとなる考え方は、LMがプログラム内のセマンティックサブタスクをフレキシブルな擬似コードとしてフォーマットすることを奨励し、インタープリタが明示的に定義されていない振る舞いをキャッチし、LMでシミュレートする("LMulator")ことである。
さまざまなベンチマークにおいて、Chain of CodeがChain of Thoughtやその他のベースラインよりも優れており、BIG-Bench Hardでは、Chain of Codeが84%、Chain of Thoughtよりも12%向上している。
簡単に言うと、CoCはLMが"コードで考える"ことで答えられるような推論の問題の範囲を広げている。
Code provides a general syntactic structure to build complex programs and perform precise computations when paired with a code interpreter - we hypothesize that language models (LMs) can leverage code-writing to improve Chain of Thought reasoning not only for logic and arithmetic tasks, but also for semantic ones (and in particular, those that are a mix of both). For example, consider prompting an LM to write code that counts the number of times it detects sarcasm in an essay: the LM may struggle to write an implementation for "detect_sarcasm(string)" that can be executed by the interpreter (handling the edge cases would be insurmountable). However, LMs may still produce a valid solution if they not only write code, but also selectively "emulate" the interpreter by generating the expected output of "detect_sarcasm(string)". In this work, we propose Chain of Code (CoC), a simple yet surprisingly effective extension that improves LM code-driven reasoning. The key idea is to encourage LMs to format semantic sub-tasks in a program as flexible pseudocode that the interpreter can explicitly catch undefined behaviors and hand off to simulate with an LM (as an "LMulator"). Experiments demonstrate that Chain of Code outperforms Chain of Thought and other baselines across a variety of benchmarks; on BIG-Bench Hard, Chain of Code achieves 84%, a gain of 12% over Chain of Thought. In a nutshell, CoC broadens the scope of reasoning questions that LMs can answer by "thinking in code". | 翻訳日:2024-07-31 22:39:45 公開日:2024-07-29 |
# Dream2Real:ビジョンランゲージモデルによるゼロショット3Dオブジェクト再構成
Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language Models ( http://arxiv.org/abs/2312.04533v2 ) ライセンス: Link先を確認 | Ivan Kapelyukh, Yifei Ren, Ignacio Alzugaray, Edward Johns, | (参考訳) 本稿では、2Dデータに基づいてトレーニングされた視覚言語モデル(VLM)を3Dオブジェクト再構成パイプラインに統合するロボットフレームワークであるDream2Realを紹介する。
これは、ロボットがシーンの3D表現を自律的に構築し、オブジェクトを仮想的に再配置し、その結果の配置の画像を描画することで実現される。
これらのレンダリングはVLMによって評価され、ユーザの指示に最も適した配列が選択され、ピック・アンド・プレイスで現実世界で再現される。
これにより、サンプルアレンジのトレーニングデータセットを収集することなく、言語条件のアレンジメントをゼロショットで実行できる。
実世界のタスクの一連の結果は、このフレームワークが邪魔者に対して堅牢であり、言語によって制御可能であり、複雑な多目的関係を理解でき、テーブルトップと6-DoFの並べ替えタスクにも容易に適用可能であることを示している。
We introduce Dream2Real, a robotics framework which integrates vision-language models (VLMs) trained on 2D data into a 3D object rearrangement pipeline. This is achieved by the robot autonomously constructing a 3D representation of the scene, where objects can be rearranged virtually and an image of the resulting arrangement rendered. These renders are evaluated by a VLM, so that the arrangement which best satisfies the user instruction is selected and recreated in the real world with pick-and-place. This enables language-conditioned rearrangement to be performed zero-shot, without needing to collect a training dataset of example arrangements. Results on a series of real-world tasks show that this framework is robust to distractors, controllable by language, capable of understanding complex multi-object relations, and readily applicable to both tabletop and 6-DoF rearrangement tasks. | 翻訳日:2024-07-31 22:29:35 公開日:2024-07-29 |
# AUGCAL:Augmented Synthetic Imagesにおける不確かさ校正によるSim2Real Adaptationの改善
AUGCAL: Improving Sim2Real Adaptation by Uncertainty Calibration on Augmented Synthetic Images ( http://arxiv.org/abs/2312.06106v3 ) ライセンス: Link先を確認 | Prithvijit Chattopadhyay, Bharat Goyal, Boglarka Ecsedi, Viraj Prabhu, Judy Hoffman, | (参考訳) シミュレータから抽出した合成データ(SIM)は,アノテートされた実世界の画像の取得が困難なトレーニングモデルの代替として人気がある。
しかし, 合成画像上で訓練されたモデルを実世界のアプリケーションに転送することは, 外観の相違により困難である。
このSIM2REALギャップに対処するための一般的な解決策は、ラベル付きSIMデータとラベルなしREALデータを使用してモデルをトレーニングする、教師なしのドメイン適応である。
このようなSIM2REAL適応モデルによる誤予測は、しばしば誤判定と関連付けられ、これは実際のデータに対する過信的な予測から生じる。
本稿では, SIM2REAL適応モデルを改善するための簡易な訓練時間パッチであるAUGCALについて紹介する。(1) 全体的な誤判定の低減, (2) 誤予測の過度さの低減,(3) 誤分類検出の改善による信頼性スコアの信頼性の向上など, SIM2REAL性能の維持・改善を図りつつ, SIM2REAL適応モデルの改良を行う。
ベースSIM2REAL適応アルゴリズムが与えられた場合、トレーニング時に、AUGCALは、バニラSIMイメージを強力な拡張ビュー(AUG介入)に置き換え、拡張SIM予測(CAL介入)のトレーニング時間校正損失を最適化する。
我々は,未ラベルREALデータの誤校正方法の簡単な解析的正当性を用いて,AUGCALを動機付けている。
実験により、複数の適応方法、バックボーン、タスク、シフトにまたがるAUGCALの有効性を実証的に示す。
Synthetic data (SIM) drawn from simulators have emerged as a popular alternative for training models where acquiring annotated real-world images is difficult. However, transferring models trained on synthetic images to real-world applications can be challenging due to appearance disparities. A commonly employed solution to counter this SIM2REAL gap is unsupervised domain adaptation, where models are trained using labeled SIM data and unlabeled REAL data. Mispredictions made by such SIM2REAL adapted models are often associated with miscalibration - stemming from overconfident predictions on real data. In this paper, we introduce AUGCAL, a simple training-time patch for unsupervised adaptation that improves SIM2REAL adapted models by - (1) reducing overall miscalibration, (2) reducing overconfidence in incorrect predictions and (3) improving confidence score reliability by better guiding misclassification detection - all while retaining or improving SIM2REAL performance. Given a base SIM2REAL adaptation algorithm, at training time, AUGCAL involves replacing vanilla SIM images with strongly augmented views (AUG intervention) and additionally optimizing for a training time calibration loss on augmented SIM predictions (CAL intervention). We motivate AUGCAL using a brief analytical justification of how to reduce miscalibration on unlabeled REAL data. Through our experiments, we empirically show the efficacy of AUGCAL across multiple adaptation methods, backbones, tasks and shifts. | 翻訳日:2024-07-31 22:29:35 公開日:2024-07-29 |
# 無限dSprites for Disentangled Continual Learning:Separating Memory Edits from Generalization
Infinite dSprites for Disentangled Continual Learning: Separating Memory Edits from Generalization ( http://arxiv.org/abs/2312.16731v3 ) ライセンス: Link先を確認 | Sebastian Dziadzio, Çağatay Yıldız, Gido M. van de Ven, Tomasz Trzciński, Tinne Tuytelaars, Matthias Bethge, | (参考訳) 機械学習システムが継続的に学習する能力は、ニューラルネットワークが新しいタスクを学ぶ際に獲得した知識を上書きする傾向にある破滅的な忘れ込みによって妨げられている。
既存の手法は正規化、パラメータ分離、リハーサルを通じてこの問題を軽減するが、通常は少数のタスクからなるベンチマークで評価される。
対照的に、人間はダイナミックでオープンな環境で長い時間をかけて地平線を学べます。
Infinite dSpritesは任意の長さの連続的な分類と非絡み合いのベンチマークを作成するための擬似ツールであり、生成因子を完全に制御する。
この単純なベンチマークでは、十分に長い時間をかけて、全ての主要な連続学習手法の性能が低下していることが示される。
有限なモデリング能力と任意に長い学習の地平線が与えられた場合、効率的な学習はクラス固有の情報を記憶し、一般的なメカニズムに関する知識を蓄積する必要がある。
生成因子を直接監督した簡単な設定では、学習クラスに依存しない変換が破滅的な忘れを回避し、時間の経過とともに分類精度を向上させる方法を示す。
提案手法は,記憶と忘れを明示的に制御し,オープンセットの分類とワンショットの一般化を重視した,何百ものタスクを連続的に学習する段階を定めている。
The ability of machine learning systems to learn continually is hindered by catastrophic forgetting, the tendency of neural networks to overwrite previously acquired knowledge when learning a new task. Existing methods mitigate this problem through regularization, parameter isolation, or rehearsal, but they are typically evaluated on benchmarks comprising only a handful of tasks. In contrast, humans are able to learn over long time horizons in dynamic, open-world environments, effortlessly memorizing unfamiliar objects and reliably recognizing them under various transformations. To make progress towards closing this gap, we introduce Infinite dSprites, a parsimonious tool for creating continual classification and disentanglement benchmarks of arbitrary length and with full control over generative factors. We show that over a sufficiently long time horizon, the performance of all major types of continual learning methods deteriorates on this simple benchmark. This result highlights an important and previously overlooked aspect of continual learning: given a finite modelling capacity and an arbitrarily long learning horizon, efficient learning requires memorizing class-specific information and accumulating knowledge about general mechanisms. In a simple setting with direct supervision on the generative factors, we show how learning class-agnostic transformations offers a way to circumvent catastrophic forgetting and improve classification accuracy over time. Our approach sets the stage for continual learning over hundreds of tasks with explicit control over memorization and forgetting, emphasizing open-set classification and one-shot generalization. | 翻訳日:2024-07-31 22:29:35 公開日:2024-07-29 |
# 近似ベイズ最適予測による情報漏洩検出
Information Leakage Detection through Approximate Bayes-optimal Prediction ( http://arxiv.org/abs/2401.14283v2 ) ライセンス: Link先を確認 | Pritha Gupta, Marcel Wever, Eyke Hüllermeier, | (参考訳) 今日のデータ駆動の世界では、公開情報の普及は、情報漏洩(IL)問題によるセキュリティ上の懸念を引き起こす。
ILは、監視可能なシステム情報を介して、意図せず機密情報を無許可の当事者に暴露する。
従来の統計手法では、観測可能情報と秘密情報の間の相互情報(MI)をILを検出すること、次元性、収束性、計算複雑性、MI誤推定の呪いに直面している。
有効ではあるが、ILを検出するための教師付き機械学習ベースのアプローチは、バイナリシステムの機密情報に限られており、包括的なフレームワークが欠如している。
これらの制約に対処するため,統計的学習理論と情報理論を用いてILの定量化と検出を行う理論的枠組みを構築した。
自動機械学習を用いて、通常未知のベイズ予測器のログロスと精度を近似することにより、MIを正確に推定できることを実証する。
そこで本研究では, ILを検出するためにMIを効果的に推定する方法を示す。
提案手法は,人工的で実世界のOpenSSL TLSサーバデータセットを考慮した実証的研究において,最先端のベースラインよりも優れている。
In today's data-driven world, the proliferation of publicly available information raises security concerns due to the information leakage (IL) problem. IL involves unintentionally exposing sensitive information to unauthorized parties via observable system information. Conventional statistical approaches rely on estimating mutual information (MI) between observable and secret information for detecting ILs, face challenges of the curse of dimensionality, convergence, computational complexity, and MI misestimation. Though effective, emerging supervised machine learning based approaches to detect ILs are limited to binary system sensitive information and lack a comprehensive framework. To address these limitations, we establish a theoretical framework using statistical learning theory and information theory to quantify and detect IL accurately. Using automated machine learning, we demonstrate that MI can be accurately estimated by approximating the typically unknown Bayes predictor's log-loss and accuracy. Based on this, we show how MI can effectively be estimated to detect ILs. Our method performs superior to state-of-the-art baselines in an empirical study considering synthetic and real-world OpenSSL TLS server datasets. | 翻訳日:2024-07-31 22:29:35 公開日:2024-07-29 |
# to the Max: Reinventing Reinventing Reinventing Reinforcement Learning
To the Max: Reinventing Reward in Reinforcement Learning ( http://arxiv.org/abs/2402.01361v2 ) ライセンス: Link先を確認 | Grigorii Veviurko, Wendelin Böhmer, Mathijs de Weerdt, | (参考訳) 強化学習(RL)では、異なる報酬関数が同じ最適ポリシーを定義することができるが、結果として学習性能は大きく異なる。
ある場合には、エージェントは最適以下の行動に悩まされ、ある場合には、そのタスクを効率的に解決する。
優れた報酬関数を選択することは、非常に重要で難しい問題である。
本稿では,報奨を学習に活用するための代替手法について検討する。
本稿では、エージェントが累積報酬ではなく最大値を最適化する「textit{max-reward RL}」を紹介する。
従来の手法とは異なり,本手法は決定論的・確率的環境に対して有効であり,最先端のRLアルゴリズムと容易に組み合わせることができる。
実験では,Gymnasium-Robotics の2つの目標達成環境における最大回帰RLアルゴリズムの性能について検討し,標準RLよりもその利点を実証した。
コードはhttps://github.com/veviurko/To-the-Maxで入手できる。
In reinforcement learning (RL), different reward functions can define the same optimal policy but result in drastically different learning performance. For some, the agent gets stuck with a suboptimal behavior, and for others, it solves the task efficiently. Choosing a good reward function is hence an extremely important yet challenging problem. In this paper, we explore an alternative approach for using rewards for learning. We introduce \textit{max-reward RL}, where an agent optimizes the maximum rather than the cumulative reward. Unlike earlier works, our approach works for deterministic and stochastic environments and can be easily combined with state-of-the-art RL algorithms. In the experiments, we study the performance of max-reward RL algorithms in two goal-reaching environments from Gymnasium-Robotics and demonstrate its benefits over standard RL. The code is available at https://github.com/veviurko/To-the-Max. | 翻訳日:2024-07-31 22:15:57 公開日:2024-07-29 |
# Nyström近似を用いたスケーラブルカーネルロジスティック回帰:理論的解析と離散的選択モデルへの応用
Scalable Kernel Logistic Regression with Nyström Approximation: Theoretical Analysis and Application to Discrete Choice Modelling ( http://arxiv.org/abs/2402.06763v2 ) ライセンス: Link先を確認 | José Ángel Martín-Baos, Ricardo García-Ródenas, Luis Rodriguez-Benitez, Michel Bierlaire, | (参考訳) カーネルベースの機械学習(ML)技術の大規模なデータセットを使用した個別の選択モデリングへの適用は、メモリ要求とこれらのモデルに関わるかなりの数のパラメータによる課題に直面していることが多い。
この複雑さは、大規模モデルの効率的なトレーニングを妨げます。
本稿では,大規模なデータセット上でのカーネルロジスティック回帰(KLR)に対するNystr\"om approximationを導入することで,スケーラビリティの問題に対処する。
この研究は、以下の理論的な分析から始まる。
一 一連のKLR解が特徴づけられること。
二 Nystr\"om近似によるKLRの解に上界を設け、最後に
三 最適化アルゴリズムのNystr\"om KLRへの特殊化について述べる。
その後、Nystr\"om KLRが計算的に検証される。
基本的一様サンプリング,k平均サンプリング戦略,およびレバレッジスコアを基礎とした2つの非一様抽出方法を含む,4つのランドマーク選択法が試験された。
これらの戦略の性能は、大規模トランスポートモード選択データセットを用いて評価され、MNL(Multinomial Logit)や現代ML技術といった従来の手法と比較される。
また、提案したNystr\"om KLRモデルに対して、様々な最適化手法の効率性を評価する。
これらのデータセットについて,勾配降下法,Momentum,AdamおよびL-BFGS-B最適化法の性能について検討した。
これらの戦略の中で、k-means Nystr\"om KLRアプローチは、特にL-BFGS-BおよびAdam最適化手法と組み合わせた場合、大規模なデータセットにKLRを適用するための成功例として現れる。
結果は、堅牢なパフォーマンスを維持しながら、20万以上の観測データを扱うこの戦略の能力を強調している。
The application of kernel-based Machine Learning (ML) techniques to discrete choice modelling using large datasets often faces challenges due to memory requirements and the considerable number of parameters involved in these models. This complexity hampers the efficient training of large-scale models. This paper addresses these problems of scalability by introducing the Nystr\"om approximation for Kernel Logistic Regression (KLR) on large datasets. The study begins by presenting a theoretical analysis in which: i) the set of KLR solutions is characterised, ii) an upper bound to the solution of KLR with Nystr\"om approximation is provided, and finally iii) a specialisation of the optimisation algorithms to Nystr\"om KLR is described. After this, the Nystr\"om KLR is computationally validated. Four landmark selection methods are tested, including basic uniform sampling, a k-means sampling strategy, and two non-uniform methods grounded in leverage scores. The performance of these strategies is evaluated using large-scale transport mode choice datasets and is compared with traditional methods such as Multinomial Logit (MNL) and contemporary ML techniques. The study also assesses the efficiency of various optimisation techniques for the proposed Nystr\"om KLR model. The performance of gradient descent, Momentum, Adam, and L-BFGS-B optimisation methods is examined on these datasets. Among these strategies, the k-means Nystr\"om KLR approach emerges as a successful solution for applying KLR to large datasets, particularly when combined with the L-BFGS-B and Adam optimisation methods. The results highlight the ability of this strategy to handle datasets exceeding 200,000 observations while maintaining robust performance. | 翻訳日:2024-07-31 22:15:57 公開日:2024-07-29 |
# VANP:自己監督型ビジョンアクション事前学習によるナビゲーションの見方を学ぶ
VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training ( http://arxiv.org/abs/2403.08109v2 ) ライセンス: Link先を確認 | Mohammad Nazeri, Junzhe Wang, Amirreza Payandeh, Xuesu Xiao, | (参考訳) 人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
しかし、ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存している。
別のアプローチでは、特別なナビゲーションモデルをスクラッチからトレーニングし、かなりの計算を必要とする。
一方、自己教師型学習はコンピュータビジョンと自然言語処理に革命をもたらしたが、効果的な自己スーパービジョン信号の定義が困難であるため、ロボットナビゲーションへの応用はいまだに未熟である。
そこで本研究では,視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
分類や検出などのタスクに有用な有能なオブジェクトを検出する代わりに、VANPはナビゲーションタスクに関連する特定の視覚領域のみに焦点を当てることを学ぶ。
これを実現するため、VANPは視覚的観察の歴史、将来の行動、自己監督のためのゴールイメージを使用し、2つの小さなトランスフォーマーエンコーダを使用してそれらを埋め込む。
そして、VANPは、相互情報最大化目的関数を用いて埋め込み間の情報を最大化する。
VANP抽出したほとんどの特徴が人間のナビゲーションの直感と一致していることを示す。
VANPは、大規模で完全な教師付きデータセットであるImageNetでトレーニングされたトレーニング時間の半分とモデル、すなわち0.08%のデータで、エンドツーエンドで学習したモデルと同等のパフォーマンスを達成している。
Humans excel at efficiently navigating through crowds without collision by focusing on specific visual regions relevant to navigation. However, most robotic visual navigation methods rely on deep learning models pre-trained on vision tasks, which prioritize salient objects -- not necessarily relevant to navigation and potentially misleading. Alternative approaches train specialized navigation models from scratch, requiring significant computation. On the other hand, self-supervised learning has revolutionized computer vision and natural language processing, but its application to robotic navigation remains underexplored due to the difficulty of defining effective self-supervision signals. Motivated by these observations, in this work, we propose a Self-Supervised Vision-Action Model for Visual Navigation Pre-Training (VANP). Instead of detecting salient objects that are beneficial for tasks such as classification or detection, VANP learns to focus only on specific visual regions that are relevant to the navigation task. To achieve this, VANP uses a history of visual observations, future actions, and a goal image for self-supervision, and embeds them using two small Transformer Encoders. Then, VANP maximizes the information between the embeddings by using a mutual information maximization objective function. We demonstrate that most VANP-extracted features match with human navigation intuition. VANP achieves comparable performance as models learned end-to-end with half the training time and models trained on a large-scale, fully supervised dataset, i.e., ImageNet, with only 0.08% data. | 翻訳日:2024-07-31 22:06:02 公開日:2024-07-29 |
# キャサリンの欠点:ベビーネーミングのゲーム理論
An Abundance of Katherines: The Game Theory of Baby Naming ( http://arxiv.org/abs/2404.00732v3 ) ライセンス: Link先を確認 | Katy Blumer, Kate Donahue, Katie Fritz, Kate Ivanovich, Katherine Lee, Katie Luo, Cathy Meng, Katie Van Koevering, | (参考訳) 本稿では,乳児命名の競争力が高い分野について考察する。
いくつかの極端に理性的な仮定(つまり、親は、その独特性にのみ基いて名前を選ぶ、ミオピックで、完全に知識のあるエージェントである)をすることで、私たちは、取り外し可能でクリーンなだけでなく、現実世界を完璧に捉えたモデルを作成します。
次に、数値実験と大規模言語モデルツールの分析により調査を拡大する。
今後の研究の道筋について論じる。
In this paper, we study the highly competitive arena of baby naming. Through making several Extremely Reasonable Assumptions (namely, that parents are myopic, perfectly knowledgeable agents who pick a name based solely on its uniqueness), we create a model which is not only tractable and clean, but also perfectly captures the real world. We then extend our investigation with numerical experiments, as well as analysis of large language model tools. We conclude by discussing avenues for future research. | 翻訳日:2024-07-31 21:55:07 公開日:2024-07-29 |
# MIPにおける2つの証明者完全ゼロ知識*
Two prover perfect zero knowledge for MIP* ( http://arxiv.org/abs/2404.00926v2 ) ライセンス: Link先を確認 | Kieran Mastel, William Slofstra, | (参考訳) Ji, Natarajan, Vidick, Wright, and Yuen の最近の MIP*=RE 定理は、絡み合った証明系における複雑性クラス MIP* がすべての帰納的可算言語を含んでいることを示している。
Grilo, Slofstra, Yuen [FOCS '19] の以前の研究は、MIP* のすべての言語が完全なゼロ知識 (PZK) MIP* プロトコルを持っていることを(シミュラタブルコードと呼ばれる技術を介して)示していた。
MIP*=RE定理は、2プロの1ラウンドの証明系を使い、したがって、そのような系は MIP* に対して完備である。
しかし、Grilo, Slofstra, and Yuen における構成は6つのプローバーを用いており、シミュラブル符号を通じて2つのプローバーで完全なゼロ知識を得る明確な方法はない。
2つのプロプライエタリなPZK-MIP*プロトコルは、すべてのMIP*に対して存在するか?
本稿では,MIP*のすべての言語が2ラウンドのPZK-MIP*プロトコルを持ち,肯定的な疑問に答えることを示す。
この証明には、MIP*=RE定理の鍵となる結果に基づく新しい手法を用いる。すなわち、全てのMIP*プロトコルをブール制約系(BCS)非局所ゲーム群に変換することができる。
これにより、MIP*プロトコルをブール制約システムとして扱うことができ、特にDwork, Feige, Kilian, Naor, Safra [Crypto '92] による構成の変種を使用できます。
この古典的な構成の量子音響性を示すために、BCSゲーム間の縮小の量子音響性を分析するツールキットを開発した。
このツールキットは演算子戦略にも適用され、演算子BCSプロトコルを持つ全ての言語が2つの証明子PZK演算子プロトコルを持つことを示す。
The recent MIP*=RE theorem of Ji, Natarajan, Vidick, Wright, and Yuen shows that the complexity class MIP* of multiprover proof systems with entangled provers contains all recursively enumerable languages. Prior work of Grilo, Slofstra, and Yuen [FOCS '19] further shows (via a technique called simulatable codes) that every language in MIP* has a perfect zero knowledge (PZK) MIP* protocol. The MIP*=RE theorem uses two-prover one-round proof systems, and hence such systems are complete for MIP*. However, the construction in Grilo, Slofstra, and Yuen uses six provers, and there is no obvious way to get perfect zero knowledge with two provers via simulatable codes. This leads to a natural question: are there two-prover PZK-MIP* protocols for all of MIP*? In this paper, we show that every language in MIP* has a two-prover one-round PZK-MIP* protocol, answering the question in the affirmative. For the proof, we use a new method based on a key consequence of the MIP*=RE theorem, which is that every MIP* protocol can be turned into a family of boolean constraint system (BCS) nonlocal games. This makes it possible to work with MIP* protocols as boolean constraint systems, and in particular allows us to use a variant of a construction due to Dwork, Feige, Kilian, Naor, and Safra [Crypto '92] which gives a classical MIP protocol for 3SAT with perfect zero knowledge. To show quantum soundness of this classical construction, we develop a toolkit for analyzing quantum soundness of reductions between BCS games, which we expect to be useful more broadly. This toolkit also applies to commuting operator strategies, and our argument shows that every language with a commuting operator BCS protocol has a two prover PZK commuting operator protocol. | 翻訳日:2024-07-31 21:55:07 公開日:2024-07-29 |
# 補助的なタスク要求は、より小さな言語モデルの能力を隠蔽する
Auxiliary task demands mask the capabilities of smaller language models ( http://arxiv.org/abs/2404.02418v2 ) ライセンス: Link先を確認 | Jennifer Hu, Michael C. Frank, | (参考訳) 発達心理学者は、言語理解や心の理論のような認知能力がいつ出現するかを論じてきた。
これらの議論は、子供の根底にある能力を隠蔽する「タスク要求」(特定の評価を行う際の補助的な課題)という概念にしばしば根ざしている。
言語モデル(LM)の能力を測定する際にも同様の問題が発生する: タスクのパフォーマンスはモデルの基本的知識の関数であり、モデルが利用可能なリソースからタスクを解釈し実行することができる能力と組み合わせられる。
ここでは, 類似推論, 反射的推論, 単語予測, 文法的判断に対して, タスク要求が大きい評価手法は, 要求の少ない評価よりも性能が低いことを示す。
この"オンデマンドギャップ"は、パラメータが少なく、トレーニングデータが少ないモデルでは最も顕著です。
この結果から,LM性能はインテリジェンスの直接的な表示(あるいは欠如)ではなく,研究者の設計選択のレンズを通して見る能力の反映として解釈されるべきであることが示唆された。
Developmental psychologists have argued about when cognitive capacities such as language understanding or theory of mind emerge. These debates often hinge on the concept of "task demands" -- the auxiliary challenges associated with performing a particular evaluation -- that may mask the child's underlying ability. The same issues arise when measuring the capacities of language models (LMs): performance on a task is a function of the model's underlying knowledge, combined with the model's ability to interpret and perform the task given its available resources. Here, we show that for analogical reasoning, reflective reasoning, word prediction, and grammaticality judgments, evaluation methods with greater task demands yield lower performance than evaluations with reduced demands. This "demand gap" is most pronounced for models with fewer parameters and less training data. Our results illustrate that LM performance should not be interpreted as a direct indication of intelligence (or lack thereof), but as a reflection of capacities seen through the lens of researchers' design choices. | 翻訳日:2024-07-31 21:55:07 公開日:2024-07-29 |
# 一般化されたカイ二乗分布の新しい計算法
New methods to compute the generalized chi-square distribution ( http://arxiv.org/abs/2404.05062v2 ) ライセンス: Link先を確認 | Abhranil Das, | (参考訳) 一般化されたカイ二乗分布のcdf,pdf,逆cdfを計算するために,いくつかの新しい数学的手法(レイトレース,逆フーリエ変換,楕円)とオープンソースソフトウェアを提案する。
いくつかの手法は速度を測るが、他の手法は尾部から遠くまで正確に設計されており、多元数間の識別可能性指数 d' の大きい値も測定できる。
これらのメソッドとそれ以前のメソッドのパフォーマンスと制限を特徴付け、各タイプの分散の各部分に最適なメソッドを推奨します。
また, 従来手法に対する新しい手法の高速化と精度を, 分布の広い範囲で示す。
We present several new mathematical methods (ray-trace, inverse Fourier transform and ellipse) and open-source software to compute the cdf, pdf and inverse cdf of the generalized chi-square distribution. Some methods are geared for speed, while others are designed to be accurate far into the tails, using which we can also measure large values of the discriminability index d' between multinormals. We characterize the performance and limitations of these and previous methods, and recommend the best methods to use for each part of each type of distribution. We also demonstrate the speed and accuracy of our new methods against previous methods across a wide sample of distributions. | 翻訳日:2024-07-31 21:55:07 公開日:2024-07-29 |
# 失敗から学ぶ:直観論的命題論理証明のための試行錯誤データを用いた微調整LDM
Learn from Failure: Fine-Tuning LLMs with Trial-and-Error Data for Intuitionistic Propositional Logic Proving ( http://arxiv.org/abs/2404.07382v3 ) ライセンス: Link先を確認 | Chenyang An, Zhibo Chen, Qihao Ye, Emily First, Letian Peng, Jiayun Zhang, Zihan Wang, Sorin Lerner, Jingbo Shang, | (参考訳) 自動定理証明の最近の進歩は、証明状態の探索に戦術(すなわち証明ステップ)を生成する(より大きな)言語モデルを活用することの有効性を示している。
現在のモデルは、成功した証明パスのみに基づいて訓練されているが、試行錯誤の段階では、失敗からの学習を取り入れないトレーニングとは異なり、成功を見つけるまで、各証明状態で様々な戦術をサンプリングして試さなければならないため、不一致に直面している。
直感的には、探索経路の失敗につながる戦術は、同様の戦術が次の試験においてより少ない注意を払わなければならないことを示している。
本稿では,探索経路の失敗から学習する学習モデルの利点を実証する。
既存のオープンソース定理証明データセットにそのような試行錯誤データが欠如しているにもかかわらず、直観主義的な命題論理定理のデータセットをキュレートし、リーンでそれを形式化し、証明の正しさを確実にチェックできるようにします。
比較的短いトライアル・アンド・エラー情報(TrialMaster)で訓練されたモデルと、正しい経路でのみ訓練されたモデルを比較し、前者が低いトライアル探索でより目に見えない定理を解くことを発見した。
Recent advances in Automated Theorem Proving have shown the effectiveness of leveraging a (large) language model that generates tactics (i.e. proof steps) to search through proof states. The current model, while trained solely on successful proof paths, faces a discrepancy at the inference stage, as it must sample and try various tactics at each proof state until finding success, unlike its training which does not incorporate learning from failed attempts. Intuitively, a tactic that leads to a failed search path would indicate that similar tactics should receive less attention during the following trials. In this paper, we demonstrate the benefit of training models that additionally learn from failed search paths. Facing the lack of such trial-and-error data in existing open-source theorem-proving datasets, we curate a dataset on intuitionistic propositional logic theorems and formalize it in Lean, such that we can reliably check the correctness of proofs. We compare our model trained on relatively short trial-and-error information (TrialMaster) with models trained only on the correct paths and discover that the former solves more unseen theorems with lower trial searches. | 翻訳日:2024-07-31 21:55:07 公開日:2024-07-29 |
# 物理インフォームド離散化独立Deep compositional Operator Network
Physics-informed Discretization-independent Deep Compositional Operator Network ( http://arxiv.org/abs/2404.13646v2 ) ライセンス: Link先を確認 | Weiheng Zhong, Hadi Meidani, | (参考訳) 幅広いパラメータに対してパラメトリック部分微分方程式(PDE)を解くことは、科学計算において重要な課題である。
この目的のために、可変PDEパラメータ入力でPDE解を予測する演算子(textcolor{black}{predicts PDE solution)が成功した。
しかし、ニューラル演算子のトレーニングは通常、大規模なトレーニングデータセットを必要とする。
この課題に対処するために、物理インフォームドトレーニングはコスト効率の良い戦略を提供することができる。
しかし、現在の物理学インフォームドニューラルネットワークは、不規則な領域形状を扱う場合や、PDEパラメータの様々な離散表現に一般化する場合に制限に直面している。
本研究では,PDEパラメータと不規則領域形状の様々な離散表現を一般化する物理インフォームドモデルアーキテクチャを提案する。
特に、ディープ・オペレーター・ニューラルネットワークにインスパイアされた我々のモデルは、パラメータの繰り返し埋め込みを離散化独立に学習することを含み、このパラメータ埋め込みは、より表現力を高めるために、複数の合成層を通して応答埋め込みと統合される。
提案手法の精度と効率を数値計算により検証した。
Solving parametric Partial Differential Equations (PDEs) for a broad range of parameters is a critical challenge in scientific computing. To this end, neural operators, which \textcolor{black}{predicts the PDE solution with variable PDE parameter inputs}, have been successfully used. However, the training of neural operators typically demands large training datasets, the acquisition of which can be prohibitively expensive. To address this challenge, physics-informed training can offer a cost-effective strategy. However, current physics-informed neural operators face limitations, either in handling irregular domain shapes or in in generalizing to various discrete representations of PDE parameters. In this research, we introduce a novel physics-informed model architecture which can generalize to various discrete representations of PDE parameters and irregular domain shapes. Particularly, inspired by deep operator neural networks, our model involves a discretization-independent learning of parameter embedding repeatedly, and this parameter embedding is integrated with the response embeddings through multiple compositional layers, for more expressivity. Numerical results demonstrate the accuracy and efficiency of the proposed method. | 翻訳日:2024-07-31 21:55:07 公開日:2024-07-29 |
# FloorSet - 実世界のSoCの設計制約付きVLSIフロアプランニングデータセット
FloorSet -- a VLSI Floorplanning Dataset with Design Constraints of Real-World SoCs ( http://arxiv.org/abs/2405.05480v3 ) ライセンス: Link先を確認 | Uday Mallappa, Hesham Mostafa, Mikhail Galkin, Mariano Phielipp, Somdeb Majumdar, | (参考訳) システム・オン・ア・チップ(SoC)とそのサブシステムのフロアプランニングは、物理的設計フローの重要かつ非自明なステップである。
これは組合せ最適化の難しさを表している。
120個のパーティションを持つ典型的な大規模SoCは、約10E250の検索空間を生成する。
このような問題に対処するために、新しい機械学習(ML)アプローチが出現するにつれて、既存のベンチマークと比較して現実の制約や目的をよりよく反映する大規模なトレーニングデータセットとパフォーマンスメトリクスを含む、現代的なベンチマークの必要性が高まっている。
このニーズに対処するために、FloorSet -- 実際のSoCの分布を反映した、合成固定アウトラインのフロアプランレイアウトの2つの包括的なデータセットを提供する。
各データセットは100万のトレーニングサンプルと100のテストサンプルを持ち、各サンプルは合成フロアプランである。
FloorSet-Primeは、完全結合された直線分割と、ほぼ最適のワイヤ長からなる。
初期の設計フェーズを反映した単純化されたデータセットであるFloorSet-Liteは、長方形のパーティションで構成され、5%以下のホワイトスペースとほぼ最適ワイヤ長を持つ。
どちらのデータセットも、形状制約、エッジ親和性、グループ化制約、配置前制約など、現代的なデザインフローで見られる厳しい制約を定義している。
FloorSetは、大規模制約付き最適化問題の基礎研究を促進することを目的としている。
重要なことに、FloorSetは、このような問題に対する現代のML駆動ソリューションにおける再現性の中心的な問題を緩和している。
FloorSetは研究コミュニティのためのオープンソースリポジトリとして利用できる。
Floorplanning for systems-on-a-chip (SoCs) and its sub-systems is a crucial and non-trivial step of the physical design flow. It represents a difficult combinatorial optimization problem. A typical large scale SoC with 120 partitions generates a search-space of nearly 10E250. As novel machine learning (ML) approaches emerge to tackle such problems, there is a growing need for a modern benchmark that comprises a large training dataset and performance metrics that better reflect real-world constraints and objectives compared to existing benchmarks. To address this need, we present FloorSet -- two comprehensive datasets of synthetic fixed-outline floorplan layouts that reflect the distribution of real SoCs. Each dataset has 1M training samples and 100 test samples where each sample is a synthetic floor-plan. FloorSet-Prime comprises fully-abutted rectilinear partitions and near-optimal wire-length. A simplified dataset that reflects early design phases, FloorSet-Lite comprises rectangular partitions, with under 5 percent white-space and near-optimal wire-length. Both datasets define hard constraints seen in modern design flows such as shape constraints, edge-affinity, grouping constraints, and pre-placement constraints. FloorSet is intended to spur fundamental research on large-scale constrained optimization problems. Crucially, FloorSet alleviates the core issue of reproducibility in modern ML driven solutions to such problems. FloorSet is available as an open-source repository for the research community. | 翻訳日:2024-07-31 21:43:34 公開日:2024-07-29 |
# 大規模言語モデルのパーソナライズされたステアリング:双方向選好最適化によるヴァーサタイルステアリングベクトル
Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization ( http://arxiv.org/abs/2406.00045v2 ) ライセンス: Link先を確認 | Yuanpu Cao, Tianrong Zhang, Bochuan Cao, Ziyi Yin, Lu Lin, Fenglong Ma, Jinghui Chen, | (参考訳) 研究者は、Large Language Models(LLM)の振る舞いを制御し、様々なアプリケーションに適したパーソナライズされたLLMを構築するためのアプローチを研究してきた。
微調整は直接的な解決策であるように見えるが、かなりの計算資源が必要であり、元のLLMの実用性に大きな影響を及ぼす可能性がある。
最近の取り組みはより軽量な戦略を導入し、LLMのトランスフォーマーアーキテクチャの特定の層内でのアクティベーションを調整することで、モデル出力を望ましい振る舞いに導く「ステアリングベクトル」の抽出に重点を置いている。
しかし、そのようなステアリングベクトルは人間の嗜好データのアクティベートから直接抽出され、特にアライメントに関連するシナリオにおいて、しばしば最適以下の結果と時折失敗につながる。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響し, 対象行動のより正確に表現できるように設計されている。
ステアリングベクトルの方向と大きさを慎重に調整することにより、所望の動作を様々な強度でパーソナライズした制御を可能にした。
様々なオープンエンド世代タスク、特にAIペルソナのステアリングに焦点を当てた大規模な実験が、我々のアプローチの有効性を検証した。
さらに、真理性の管理、幻覚の緩和、脱獄攻撃への対処など、重要なアライメントのシナリオを包括的に調査する。
興味深いことに,本手法はこれらのシナリオにおいて優れたステアリング効果を示すことができる。
さらに、異なるモデル/LoRA間のステアリングベクトルの転送可能性を示し、同時に複数のベクトルを適用することの相乗効果を強調した。
Researchers have been studying approaches to steer the behavior of Large Language Models (LLMs) and build personalized LLMs tailored for various applications. While fine-tuning seems to be a direct solution, it requires substantial computational resources and may significantly affect the utility of the original LLM. Recent endeavors have introduced more lightweight strategies, focusing on extracting "steering vectors" to guide the model's output toward desired behaviors by adjusting activations within specific layers of the LLM's transformer architecture. However, such steering vectors are directly extracted from the activations of human preference data and thus often lead to suboptimal results and occasional failures, especially in alignment-related scenarios. This work proposes an innovative approach that could produce more effective steering vectors through bi-directional preference optimization. Our method is designed to allow steering vectors to directly influence the generation probability of contrastive human preference data pairs, thereby offering a more precise representation of the target behavior. By carefully adjusting the direction and magnitude of the steering vector, we enabled personalized control over the desired behavior across a spectrum of intensities. Extensive experimentation across various open-ended generation tasks, particularly focusing on steering AI personas, has validated the efficacy of our approach. Moreover, we comprehensively investigate critical alignment-concerning scenarios, such as managing truthfulness, mitigating hallucination, and addressing jailbreaking attacks. Remarkably, our method can still demonstrate outstanding steering effectiveness across these scenarios. Furthermore, we showcase the transferability of our steering vectors across different models/LoRAs and highlight the synergistic benefits of applying multiple vectors simultaneously. | 翻訳日:2024-07-31 21:43:34 公開日:2024-07-29 |
# GATE: 隣人の侵入を抑える方法
GATE: How to Keep Out Intrusive Neighbors ( http://arxiv.org/abs/2406.00418v2 ) ライセンス: Link先を確認 | Nimrah Mustafa, Rebekka Burkholz, | (参考訳) グラフ注意ネットワーク(GAT)は、その重要性に応じて隣人に重みを割り当てるフレキシブルな近隣アグリゲーションを提供するように設計されている。
しかし, 実例では, GATは, 実験的, 解析的に, タスク非関連近傍集約をオフにできないことが多い。
この課題に対処するために、GATEという3つの大きな利点を持つGAT拡張を提案する。
一 不要地区集積の根本原因に対処することにより過密を緩和すること。
二 パーセプトロンと同様に、(ほぼ)切替された近傍集合の場合、(非)線形特徴変換のために追加の層を利用することができるので、より深い深さの恩恵を受けることができる。
三 関係のない隣人との低重み付けにより、実世界の異種性データセットにおいて、GATを上回ります。
この主張をさらに検証するため、我々は、モデルが独立した関心を持つ可能性のある適切な量の近傍集約を利用する能力を分析するために、合成テストベッドを構築した。
Graph Attention Networks (GATs) are designed to provide flexible neighborhood aggregation that assigns weights to neighbors according to their importance. In practice, however, GATs are often unable to switch off task-irrelevant neighborhood aggregation, as we show experimentally and analytically. To address this challenge, we propose GATE, a GAT extension that holds three major advantages: i) It alleviates over-smoothing by addressing its root cause of unnecessary neighborhood aggregation. ii) Similarly to perceptrons, it benefits from higher depth as it can still utilize additional layers for (non-)linear feature transformations in case of (nearly) switched-off neighborhood aggregation. iii) By down-weighting connections to unrelated neighbors, it often outperforms GATs on real-world heterophilic datasets. To further validate our claims, we construct a synthetic test bed to analyze a model's ability to utilize the appropriate amount of neighborhood aggregation, which could be of independent interest. | 翻訳日:2024-07-31 21:43:34 公開日:2024-07-29 |
# 有限ミンコフスキー時空相関関数からの包含反応
Inclusive reactions from finite Minkowski spacetime correlation functions ( http://arxiv.org/abs/2406.06877v2 ) ライセンス: Link先を確認 | Marco A. Carrillo, Raúl A. Briceño, Alexandru M. Sturzu, | (参考訳) 任意のキネマティックスのための少数のハドロン系の散乱振幅を決定する必要性は、現代の原子核とハドロン物理学の幅広いサブフィールドを拡張する。
本研究では,量子コンピューティングやテンソルネットワークなどのリアルタイム手法による散乱振幅の最小値の決定について,これまでの研究をさらに進める。
このような計算は、散乱振幅が十分に定義されていない有限ミンコフスキー時空で行う必要がある。
前報では,有限体積相関関数から構築した散乱振幅の系統的即効性推定器の推算を行った。
ここでは、この処方薬が以前検討したよりも大きな運動領域に作用することを示すとともに、より広範な散乱振幅のクラスを示す。
最後に、そのような計算に必要な有限時間分離に伴う誤差の大きさの順序を推定する新しい手法を考案する。
理論の最も軽い質量の単位において、$\mathcal{O}(10\%)$内の実時間法を用いて振幅を制約するためには、時空体積は$mL \sim \mathcal{O}(10-10^2)$および$mT\sim \mathcal{O}(10^2-10^4)$を満たす必要がある。
The need to determine scattering amplitudes of few-hadron systems for arbitrary kinematics expands a broad set of subfields of modern-day nuclear and hadronic physics. In this work, we expand upon previous explorations on the use of real-time methods, like quantum computing or tensor networks, to determine few-body scattering amplitudes. Such calculations must be performed in a finite Minkowski spacetime, where scattering amplitudes are not well defined. Our previous work presented a conjecture of a systematically improvable estimator for scattering amplitudes constructed from finite-volume correlation functions. Here we provide further evidence that the prescription works for larger kinematic regions than previously explored as well as a broader class of scattering amplitudes. Finally, we devise a new method for estimating the order of magnitude of the error associated with finite time separations needed for such calculations. In units of the lightest mass of the theory, we find that to constrain amplitudes using real-time methods within $\mathcal{O}(10\%)$, the spacetime volumes must satisfy $mL \sim \mathcal{O}(10-10^2)$ and $ mT\sim \mathcal{O}(10^2-10^4)$. | 翻訳日:2024-07-31 21:43:34 公開日:2024-07-29 |
# MAMA-MIA: エキスパートセグメンテーションを用いた大規模マルチセンター乳癌DCE-MRIベンチマークデータセット
MAMA-MIA: A Large-Scale Multi-Center Breast Cancer DCE-MRI Benchmark Dataset with Expert Segmentations ( http://arxiv.org/abs/2406.13844v2 ) ライセンス: Link先を確認 | Lidia Garrucho, Claire-Anne Reidel, Kaisar Kushibar, Smriti Joshi, Richard Osuala, Apostolia Tsirikoglou, Maciej Bobowicz, Javier del Riego, Alessandro Catanese, Katarzyna Gwoździewicz, Maria-Laura Cosaka, Pasant M. Abo-Elhoda, Sara W. Tantawy, Shorouq S. Sakrana, Norhan O. Shawky-Abdelfatah, Amr Muhammad Abdo-Salem, Androniki Kozana, Eugen Divjak, Gordana Ivanac, Katerina Nikiforaki, Michail E. Klontzas, Rosa García-Dosdá, Meltem Gulsun-Akpinar, Oğuz Lafcı, Ritse Mann, Carlos Martín-Isla, Fred Prior, Kostas Marias, Martijn P. A. Starmans, Fredrik Strand, Oliver Díaz, Laura Igual, Karim Lekadir, | (参考訳) 最近の乳がん磁気共鳴イメージング(MRI)、特に人工知能(AI)の研究は、専門家のセグメンテーションが欠如しているため、課題に直面している。
この問題を解決するために,原発腫瘍と非質量増強領域を専門に区分したマルチセンターダイナミックコントラスト強調MRI症例1506例からなるMAMA-MIAデータセットを導入した。
これらの症例は、The Cancer Imaging Archive (TCIA)で公開されている4つのコレクションから得られた。
最初は、ケースを自動的にセグメンテーションするためにディープラーニングモデルを訓練し、専門家のセグメンテーション時間を著しく短縮する予備セグメンテーションを生成しました。
乳がんで平均9年の経験を持つ16人の専門家が、これらのセグメンテーションを修正し、最終的なセグメンテーションとなった。
さらに、2人の放射線学者が将来の品質管理研究を支援するために自動セグメンテーションの視覚検査を行った。
専門的セグメンテーションの他に、49の調和した人口統計学的および臨床変数と、DCE-MRIフルイメージとエキスパートセグメンテーションを用いて訓練されたよく知られたnnUNetアーキテクチャの事前訓練重量を提供する。
このデータセットは、ディープラーニングモデルの開発とベンチマークを加速し、乳癌の診断と治療計画の革新を促進することを目的としている。
Current research in breast cancer Magnetic Resonance Imaging (MRI), especially with Artificial Intelligence (AI), faces challenges due to the lack of expert segmentations. To address this, we introduce the MAMA-MIA dataset, comprising 1506 multi-center dynamic contrast-enhanced MRI cases with expert segmentations of primary tumors and non-mass enhancement areas. These cases were sourced from four publicly available collections in The Cancer Imaging Archive (TCIA). Initially, we trained a deep learning model to automatically segment the cases, generating preliminary segmentations that significantly reduced expert segmentation time. Sixteen experts, averaging 9 years of experience in breast cancer, then corrected these segmentations, resulting in the final expert segmentations. Additionally, two radiologists conducted a visual inspection of the automatic segmentations to support future quality control studies. Alongside the expert segmentations, we provide 49 harmonized demographic and clinical variables and the pretrained weights of the well-known nnUNet architecture trained using the DCE-MRI full-images and expert segmentations. This dataset aims to accelerate the development and benchmarking of deep learning models and foster innovation in breast cancer diagnostics and treatment planning. | 翻訳日:2024-07-31 21:33:36 公開日:2024-07-29 |
# 自動ビデオコンテンツ分析のためのLLMのハーネス化:抑うつに関する短いビデオの探索的ワークフロー
Harnessing LLMs for Automated Video Content Analysis: An Exploratory Workflow of Short Videos on Depression ( http://arxiv.org/abs/2406.19528v3 ) ライセンス: Link先を確認 | Jiaying Lizzy Liu, Yunlong Wang, Yao Lyu, Yiheng Su, Shuo Niu, Xuhai Orson Xu, Yan Zhang, | (参考訳) コンテンツ分析にLLM(Large Language Models)を活用することへの関心が高まっているが、近年の研究は主にテキストベースのコンテンツに焦点を当てている。
本研究は,LLMを用いたマルチモーダルコンテンツ分析の新たなワークフローに続く事例研究を行い,映像コンテンツ分析を支援するLLMの可能性を探るものである。
このワークフローには、コードブックの設計、プロンプトエンジニアリング、LLM処理、人的評価が含まれる。
我々は,LLMアノテーションを構造化した形で作成し,LLM推論と透明性をよりよく理解するために,LLM記述を生成するための説明プロンプトを戦略的に構築した。
LLMのビデオアノテーション機能をテストするために,25本のYouTubeショートビデオから抽出した203個のキーフレームを分析した。
LLMアノテーションを2人の人間コーダのアノテーションと比較したところ、LLMアノテーションは感情やジャンルのアノテーションよりもオブジェクトやアクティビティのアノテーションの方が精度が高いことがわかった。
さらに,ビデオアノテートにおけるLDMの機能の可能性と限界を明らかにした。
この結果に基づき、今後の研究の機会と課題、ワークフローの改善について検討する。
また,LLM支援映像解析に基づく今後の研究に関する倫理的懸念についても論じる。
Despite the growing interest in leveraging Large Language Models (LLMs) for content analysis, current studies have primarily focused on text-based content. In the present work, we explored the potential of LLMs in assisting video content analysis by conducting a case study that followed a new workflow of LLM-assisted multimodal content analysis. The workflow encompasses codebook design, prompt engineering, LLM processing, and human evaluation. We strategically crafted annotation prompts to get LLM Annotations in structured form and explanation prompts to generate LLM Explanations for a better understanding of LLM reasoning and transparency. To test LLM's video annotation capabilities, we analyzed 203 keyframes extracted from 25 YouTube short videos about depression. We compared the LLM Annotations with those of two human coders and found that LLM has higher accuracy in object and activity Annotations than emotion and genre Annotations. Moreover, we identified the potential and limitations of LLM's capabilities in annotating videos. Based on the findings, we explore opportunities and challenges for future research and improvements to the workflow. We also discuss ethical concerns surrounding future studies based on LLM-assisted video analysis. | 翻訳日:2024-07-31 21:33:36 公開日:2024-07-29 |
# Spotless Splats:3Dガウスめっきにおけるディトラクタの無視
SpotlessSplats: Ignoring Distractors in 3D Gaussian Splatting ( http://arxiv.org/abs/2406.20055v2 ) ライセンス: Link先を確認 | Sara Sabour, Lily Goli, George Kopanas, Mark Matthews, Dmitry Lagun, Leonidas Guibas, Alec Jacobson, David J. Fleet, Andrea Tagliasacchi, | (参考訳) 3D Gaussian Splatting(3DGS)は,3DGSの視点間整合性仮定を満たすために,高度に制御された環境(人や風色要素や一貫した照明など)を必要とする。
これにより、現実世界の映像の復元が問題となる。
SpotLessSplatsは、トレーニング済みと汎用の機能と頑健な最適化を併用して、過渡的障害を効果的に無視するアプローチである。
本手法は, カジュアルキャプチャーを用いて, 視覚的, 定量的に, 最先端の復元品質を実現する。
追加の結果は、https://spotlesssplats.github.ioで確認できる。
3D Gaussian Splatting (3DGS) is a promising technique for 3D reconstruction, offering efficient training and rendering speeds, making it suitable for real-time applications.However, current methods require highly controlled environments (no moving people or wind-blown elements, and consistent lighting) to meet the inter-view consistency assumption of 3DGS. This makes reconstruction of real-world captures problematic. We present SpotLessSplats, an approach that leverages pre-trained and general-purpose features coupled with robust optimization to effectively ignore transient distractors. Our method achieves state-of-the-art reconstruction quality both visually and quantitatively, on casual captures. Additional results available at: https://spotlesssplats.github.io | 翻訳日:2024-07-31 21:33:36 公開日:2024-07-29 |
# MagMax: シームレスな継続的学習のためのモデルマージの活用
MagMax: Leveraging Model Merging for Seamless Continual Learning ( http://arxiv.org/abs/2407.06322v2 ) ライセンス: Link先を確認 | Daniel Marczak, Bartłomiej Twardowski, Tomasz Trzciński, Sebastian Cygert, | (参考訳) 本稿では,MagMaxというモデルマージを利用した連続学習手法を提案する。この手法は,既存の知識を忘れずに,大規模な事前学習モデルで新しいデータから連続的に学習することを可能にする。
MagMaxは、タスクトレーニング中の忘れを減らすことを目的とした従来の連続学習方法とは違い、シーケンシャルな微調整と最大等級の重み選択を組み合わせることで、タスク間の効果的な知識統合を実現する。
最初のコントリビューションはモデルマージ手法の広範な検証であり、平均ウェイトやランダムウェイト選択といった単純なアプローチが、様々な連続的な学習コンテキストにおいて驚くほどうまく機能することを示した。
より重要なことは、連続タスクのための大規模な事前学習モデルの継続的な学習を可能にする新しいモデル統合戦略であるMagMaxを提案することである。
我々は,MagMaxのクラスおよびドメイン増分学習設定など,様々なシナリオにおける優位性を徹底的に評価した。
このURLはhttps://github.com/danielm1405/magmax.com/で公開されている。
This paper introduces a continual learning approach named MagMax, which utilizes model merging to enable large pre-trained models to continuously learn from new data without forgetting previously acquired knowledge. Distinct from traditional continual learning methods that aim to reduce forgetting during task training, MagMax combines sequential fine-tuning with a maximum magnitude weight selection for effective knowledge integration across tasks. Our initial contribution is an extensive examination of model merging techniques, revealing that simple approaches like weight averaging and random weight selection surprisingly hold up well in various continual learning contexts. More importantly, we present MagMax, a novel model-merging strategy that enables continual learning of large pre-trained models for successive tasks. Our thorough evaluation demonstrates the superiority of MagMax in various scenarios, including class- and domain-incremental learning settings. The code is available at this URL: https://github.com/danielm1405/magmax. | 翻訳日:2024-07-31 21:23:40 公開日:2024-07-29 |
# CourseAssist:コンピュータサイエンス教育のためのAIチューター
CourseAssist: Pedagogically Appropriate AI Tutor for Computer Science Education ( http://arxiv.org/abs/2407.10246v3 ) ライセンス: Link先を確認 | Ty Feng, Sa Liu, Dipak Ghosal, | (参考訳) コンピュータサイエンスコースへの入学の増加とクラスサイズの増大は、学生の学習を適切に支援するために、スケーラブルで自動化されたチューリングソリューションを必要とする。
GPT-4のようなLarge Language Models(LLMs)は、質問回答を通じて学生を支援する可能性を示しているが、教育者は、学生の過信、生成されたコードの誤理解、そして不正確な回答のリスクについて懸念を表明している。
これらのツールを全面的に禁止するのではなく、潜在的なリスクを軽減しつつ、AIの能力を活用する建設的なアプローチを提唱します。
このポスターでは、コンピュータサイエンス教育用に作られた新しいLLMベースのチューターシステムであるCourseAssistを紹介している。
一般的なLLMシステムとは異なり、CourseAssistは検索強化生成、ユーザ意図分類、質問分解を使用して、AI応答を特定のコース材料や学習目的と整合させ、教育環境におけるLLMの教育的適切性を確保する。
GPT-4のベースラインに対するCourseAssistの評価を,50組の質問応答対のデータセットを用いて行い,有用性,正確性,教育的適切性の基準に焦点をあてた。
評価の結果,CourseAssistはベースラインを著しく上回り,効果的な学習アシスタントとして機能する可能性が示された。
我々はまた、500人以上の学生にリーチする大公立R1研究大学のコンピュータサイエンス講座にCourseAssistを6つのコンピュータサイエンス講座に展開した。
20人の学生を対象に行ったインタビューでは、コース固有の授業のアクセシビリティを高め、プログラミングの課題に対するフィードバックループを短くすることで、CourseAssistがコンピュータサイエンスの授業を改善することが示されている。
今後の研究には、多くの大学での広範なパイロットテストや、コンピュータサイエンスの学習体験を改善するための学生、教育者、AIとのより良いコラボレーティブな関係の探求が含まれる。
The growing enrollments in computer science courses and increase in class sizes necessitate scalable, automated tutoring solutions to adequately support student learning. While Large Language Models (LLMs) like GPT-4 have demonstrated potential in assisting students through question-answering, educators express concerns over student overreliance, miscomprehension of generated code, and the risk of inaccurate answers. Rather than banning these tools outright, we advocate for a constructive approach that harnesses the capabilities of AI while mitigating potential risks. This poster introduces CourseAssist, a novel LLM-based tutoring system tailored for computer science education. Unlike generic LLM systems, CourseAssist uses retrieval-augmented generation, user intent classification, and question decomposition to align AI responses with specific course materials and learning objectives, thereby ensuring pedagogical appropriateness of LLMs in educational settings. We evaluated CourseAssist against a baseline of GPT-4 using a dataset of 50 question-answer pairs from a programming languages course, focusing on the criteria of usefulness, accuracy, and pedagogical appropriateness. Evaluation results show that CourseAssist significantly outperforms the baseline, demonstrating its potential to serve as an effective learning assistant. We have also deployed CourseAssist in 6 computer science courses at a large public R1 research university reaching over 500 students. Interviews with 20 student users show that CourseAssist improves computer science instruction by increasing the accessibility of course-specific tutoring help and shortening the feedback loop on their programming assignments. Future work will include extensive pilot testing at more universities and exploring better collaborative relationships between students, educators, and AI that improve computer science learning experiences. | 翻訳日:2024-07-31 21:23:40 公開日:2024-07-29 |
# ターゲット会話抽出:ターンテイクダイナミクスを用いた音源分離
Target conversation extraction: Source separation using turn-taking dynamics ( http://arxiv.org/abs/2407.11277v2 ) ライセンス: Link先を確認 | Tuochao Chen, Qirui Wang, Bohan Wu, Malek Itani, Sefik Emre Eskimez, Takuya Yoshioka, Shyamnath Gollakota, | (参考訳) 話者と騒音の干渉による会話における参加者の発言の抽出は,課題となる。
本稿では,ターゲット会話抽出の新たな課題について紹介する。その目的は,参加者の1人の話者埋め込みに基づいて,対象会話の音声を抽出することである。
そこで本研究では,人間の会話に固有の時間的パターン,特にターンテイクのダイナミクスを活用することを提案する。
ニューラルネットワークを用いて、英語とマンダリンの会話データセットに対する我々のアプローチの有効性を示す。
干渉話者の存在下では,2対4対4対4対4対4対4対4対7.92対2対1対1対1対1対1対1対8.19対1対1対1対1対4対4対4対4対2対2対2対2対1対1対2対2対1対1対1対1対1対1対1対1対1対1対1対1対1対1対2対2対2対2対4対1対2対2対2対2対2対2対2対2対2対1対1対1対1対1対1対1対1
Code、データセットはhttps://github.com/chentuochao/Target-Conversation-Extractionで入手できる。
Extracting the speech of participants in a conversation amidst interfering speakers and noise presents a challenging problem. In this paper, we introduce the novel task of target conversation extraction, where the goal is to extract the audio of a target conversation based on the speaker embedding of one of its participants. To accomplish this, we propose leveraging temporal patterns inherent in human conversations, particularly turn-taking dynamics, which uniquely characterize speakers engaged in conversation and distinguish them from interfering speakers and noise. Using neural networks, we show the feasibility of our approach on English and Mandarin conversation datasets. In the presence of interfering speakers, our results show an 8.19 dB improvement in signal-to-noise ratio for 2-speaker conversations and a 7.92 dB improvement for 2-4-speaker conversations. Code, dataset available at https://github.com/chentuochao/Target-Conversation-Extraction. | 翻訳日:2024-07-31 21:23:40 公開日:2024-07-29 |
# YOLOによるひび割れ検出の高速化
Enhancing Wrist Fracture Detection with YOLO ( http://arxiv.org/abs/2407.12597v2 ) ライセンス: Link先を確認 | Ammar Ahmed, Ali Shariq Imran, Abdul Manaf, Zenun Kastrati, Sher Muhammad Daudpota, | (参考訳) 手首、特に遠位端骨折、尺骨骨折の診断と治療は、思春期において高い頻度で小児、青年、若年者の間で重要な関心事である。
しかし、放射線技師の不足と専門医の専門訓練の欠如は、患者の治療に重大なリスクをもたらす。
この問題は、画像研究の増加と、特定の地域での専門報告へのアクセス制限によってさらに悪化している。
このことは、手首異常の診断と治療を改善する革新的な解決策の必要性を強調している。
対象物検出を用いた手首骨折の自動検出は可能性を示しているが、最近の研究では主に2段階検出法を用いており、単一の段階の有効性を示す証拠が限られている。
この研究では、最先端の単一ステージのディープニューラルネットワークに基づく検出モデルYOLOv5、YOLOv6、YOLOv7、YOLOv8を用いて、手首の異常を検出する。
広範囲な実験により,これらのYOLOモデルはフラクチャー検出においてよく用いられる2段検出アルゴリズムであるFaster R-CNNよりも優れていることがわかった。
さらに, 各YOLOモデルの複合スケール変種を比較し, YOLOv8mの破壊検出感度は0.92, 平均精度は0.95であった。
一方, YOLOv6mの感度は0.83。
一方、YOLOv8xは、GRAZPEDWRI-DXの小児手首データセットで、全クラスの0.77のmAPを記録し、小児手首画像の強化のためのシングルステージモデルの可能性を強調した。
Diagnosing and treating abnormalities in the wrist, specifically distal radius, and ulna fractures, is a crucial concern among children, adolescents, and young adults, with a higher incidence rate during puberty. However, the scarcity of radiologists and the lack of specialized training among medical professionals pose a significant risk to patient care. This problem is further exacerbated by the rising number of imaging studies and limited access to specialist reporting in certain regions. This highlights the need for innovative solutions to improve the diagnosis and treatment of wrist abnormalities. Automated wrist fracture detection using object detection has shown potential, but current studies mainly use two-stage detection methods with limited evidence for single-stage effectiveness. This study employs state-of-the-art single-stage deep neural network-based detection models YOLOv5, YOLOv6, YOLOv7, and YOLOv8 to detect wrist abnormalities. Through extensive experimentation, we found that these YOLO models outperform the commonly used two-stage detection algorithm, Faster R-CNN, in fracture detection. Additionally, compound-scaled variants of each YOLO model were compared, with YOLOv8m demonstrating a highest fracture detection sensitivity of 0.92 and mean average precision (mAP) of 0.95. On the other hand, YOLOv6m achieved the highest sensitivity across all classes at 0.83. Meanwhile, YOLOv8x recorded the highest mAP of 0.77 for all classes on the GRAZPEDWRI-DX pediatric wrist dataset, highlighting the potential of single-stage models for enhancing pediatric wrist imaging. | 翻訳日:2024-07-31 21:23:40 公開日:2024-07-29 |
# 合成対物顔
Synthetic Counterfactual Faces ( http://arxiv.org/abs/2407.13922v2 ) ライセンス: Link先を確認 | Guruprasad V Ramesh, Harrison Rosenberg, Ashish Hooda, Shimaa Ahmed Kassem Fawaz, | (参考訳) コンピュータビジョンシステムは、人間の顔のようなバイオメトリックスを含む様々なアプリケーションにデプロイされている。
これらのシステムは、ソーシャルメディアのユーザーを特定し、行方不明者を検索し、個人のアイデンティティを検証できる。
コンピュータビジョンモデルは、利用可能なベンチマークの精度で評価されることが多いが、特に顔データにおいて、入力データのセマンティックな分布シフトに対して、その堅牢性と公平性について学ぶには、より注釈付きデータが必要である。
注釈付きデータの中で、反実例は強い説明可能性特性を与える。
自然の顔データ収集は違法にコストがかかるため、ターゲットとした、対実的で高品質な合成顔データを構築するために、生成可能なAIベースのフレームワークを配置する。
我々の合成データパイプラインには、顔認識システム感度評価や画像理解システムプローブなど、多くのユースケースがあります。
パイプラインは複数のユーザスタディで検証されている。
商用ビジョンモデルにおける顔生成パイプラインの有効性を示す。
視覚系が故障する原因となる顔の特徴を同定する。
Computer vision systems have been deployed in various applications involving biometrics like human faces. These systems can identify social media users, search for missing persons, and verify identity of individuals. While computer vision models are often evaluated for accuracy on available benchmarks, more annotated data is necessary to learn about their robustness and fairness against semantic distributional shifts in input data, especially in face data. Among annotated data, counterfactual examples grant strong explainability characteristics. Because collecting natural face data is prohibitively expensive, we put forth a generative AI-based framework to construct targeted, counterfactual, high-quality synthetic face data. Our synthetic data pipeline has many use cases, including face recognition systems sensitivity evaluations and image understanding system probes. The pipeline is validated with multiple user studies. We showcase the efficacy of our face generation pipeline on a leading commercial vision model. We identify facial attributes that cause vision systems to fail. | 翻訳日:2024-07-31 21:23:40 公開日:2024-07-29 |
# 大規模最適化のための統合高性能コンピューティングと量子コンピューティングシステムのための分散量子近似最適化アルゴリズム
Distributed Quantum Approximate Optimization Algorithm on Integrated High-Performance Computing and Quantum Computing Systems for Large-Scale Optimization ( http://arxiv.org/abs/2407.20212v1 ) ライセンス: Link先を確認 | Seongmin Kim, Tengfei Luo, Eungkyu Lee, In-Saeng Suh, | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、短期ゲートベースの量子コンピューティングシステムに量子スピードアップを提供することで、組合せ最適化問題を解決することを約束している。
しかし、QAOAは、大量の量子ビットが必要であり、深層回路の複雑さのため、高次元問題に対する変動パラメータを最適化する際の課題に直面している。
本研究では,高性能計算量子コンピューティング(HPC-QC)統合システムを活用した分散QAOA(DQAOA)を提案する。
DQAOAは分散コンピューティング戦略を利用して、大規模なジョブを小さなタスクに分解し、HPC-QCシステムで処理する。
グローバルソリューションは、DQAOAから得られたサブソリューションを集約することで反復的に更新され、最適ソリューションへの収束を可能にする。
我々は,DQAOAが高精度(約99%)かつ短時間(約276秒)な大規模最適化問題(例えば1,000ビット問題)に対処できることを実証した。
このアルゴリズムを物質科学に適用するために、我々は、機械学習、DQAOA、および反復ループにおけるアクティブデータ生成を含むDQAOA(AL-DQAOA)と統合されたアクティブラーニングアルゴリズムをさらに開発する。
我々はAL-DQAOAを用いてフォトニック構造を最適化することに成功し、ゲートベースの量子コンピューティングを用いた実世界の最適化問題を解くことは我々の戦略で実現可能であることを示唆した。
提案したDQAOAは、幅広い最適化問題に適用され、AL-DQAOAは材料設計における幅広い応用を見出すことができると期待する。
Quantum approximated optimization algorithm (QAOA) has shown promise for solving combinatorial optimization problems by providing quantum speedup on near-term gate-based quantum computing systems. However, QAOA faces challenges in optimizing variational parameters for high-dimensional problems due to the large number of qubits required and the complexity of deep circuits, which limit its scalability for real-world applications. In this study, we propose a distributed QAOA (DQAOA), which leverages a high-performance computing-quantum computing (HPC-QC) integrated system. DQAOA leverages distributed computing strategies to decompose a large job into smaller tasks, which are then processed on the HPC-QC system. The global solution is iteratively updated by aggregating sub-solutions obtained from DQAOA, allowing convergence toward the optimal solution. We demonstrate that DQAOA can handle considerably large-scale optimization problems (e.g., 1,000-bit problem) achieving high accuracy (~99%) and short time-to-solution (~276 s). To apply this algorithm to material science, we further develop an active learning algorithm integrated with our DQAOA (AL-DQAOA), which involves machine learning, DQAOA, and active data production in an iterative loop. We successfully optimize photonic structures using AL-DQAOA, indicating that solving real-world optimization problems using gate-based quantum computing is feasible with our strategies. We expect the proposed DQAOA to be applicable to a wide range of optimization problems and AL-DQAOA to find broader applications in material design. | 翻訳日:2024-07-31 19:27:58 公開日:2024-07-29 |
# スパースエントリー最適化による効率的な回路ベース量子状態トモグラフィ
Efficient Circuit-Based Quantum State Tomography via Sparse Entry Optimization ( http://arxiv.org/abs/2407.20298v1 ) ライセンス: Link先を確認 | Chi-Kwong Li, Kevin Yipu Wu, Zherui Zhang, | (参考訳) 回路ベースの効率的な量子状態トモグラフィー(QST)手法を提案し、$m \le k$に対して$|\psi\rangle$および$U_1|\psi\rangle, \dots, U_{2m}|\psi\rangle$の測定値を用いて、$k$非ゼロエントリで$n$-qubit状態の再構成を行う。
それぞれの$U_j$ は CNOT ゲートに続き、Adamard $H$ または $HD$ のいずれかの単一キュービットゲートで、$D = {\rm diag}(1,i)$ は特定のキュービットをターゲットにしている。
我々は、$|\psi\rangle$ の 0 でないエントリの位置に基づいて、CNOT ゲートの数に上限を与える。
このアプローチは状態とプロセストモグラフィの両方に適用され、Qiskitシミュレータを用いてテストされた。
We propose an efficient circuit-based quantum state tomography (QST) scheme to reconstruct $n$-qubit states with $k$ nonzero entries using measurements of $|\psi\rangle$ and $U_1|\psi\rangle, \dots, U_{2m}|\psi\rangle$, where $m \le k$. Each $U_j$ involves CNOT gates followed by a single-qubit gate, either Hadamard $H$ or $HD$, where $D = {\rm diag}(1,i)$, targeting a specific qubit. We provide an upper limit on the number of CNOT gates based on the nonzero entries' positions in $|\psi\rangle$. This approach, applied to both state and process tomography, was tested using the Qiskit simulator. | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-29 |
# オフライン強化学習のためのデータセット蒸留
Dataset Distillation for Offline Reinforcement Learning ( http://arxiv.org/abs/2407.20299v1 ) ライセンス: Link先を確認 | Jonathan Light, Yuanzhe Liu, Ziniu Hu, | (参考訳) オフライン強化学習は、ポリシーをトレーニングできる品質データセットを必要とすることが多い。
しかし、多くの状況では、そのようなデータセットを入手することは不可能であり、オフラインデータから実際の環境でうまく動作するようにポリシーを訓練することも容易ではない。
我々は、データ蒸留を用いてより良いデータセットを訓練し、それからより良いポリシーモデルをトレーニングするために使用できることを提案する。
提案手法は,トレーニングしたモデルが,全データセットでトレーニングしたモデルやパーセンタイルの行動クローンを用いてトレーニングしたモデルと同じような性能を達成できるようなデータセットを合成可能であることを示す。
プロジェクトのサイトはhttps://datasetdistillation4rl.github.io.comで公開されている。
私たちはまた、このGitHubリポジトリで実装も提供しています。
Offline reinforcement learning often requires a quality dataset that we can train a policy on. However, in many situations, it is not possible to get such a dataset, nor is it easy to train a policy to perform well in the actual environment given the offline data. We propose using data distillation to train and distill a better dataset which can then be used for training a better policy model. We show that our method is able to synthesize a dataset where a model trained on it achieves similar performance to a model trained on the full dataset or a model trained using percentile behavioral cloning. Our project site is available at https://datasetdistillation4rl.github.io. We also provide our implementation at this GitHub repository: https://github.com/ggflow123/DDRL. | 翻訳日:2024-07-31 19:18:14 公開日:2024-07-29 |
# デジタルヘルスケア革命のマッピング
Mapping the Digital Healthcare Revolution ( http://arxiv.org/abs/2407.20300v1 ) ライセンス: Link先を確認 | Marcelo Corrales Compagnucci, Mark Fenwick, Michael Lowery Wilson, Nikolaus Forgo, Till Baernighausen, | (参考訳) この入門章では、この巻の主なテーマ、すなわち、様々な学際的な視点からデジタルヘルスケアの新たな機会とリスクを概説する。
これらの視点には、法律、公共政策、組織研究、応用倫理が含まれる。
この学際的アプローチに基づいて、この進行中の革命の利益が責任と持続可能な方法で展開されることを保証する効果的な戦略が生まれることを期待します。
第2部では、この巻を構成する4部と14の実質的な章を概観する。
This introductory chapter briefly outlines the main theme of this volume, namely, to review the new opportunities and risks of digital healthcare from various disciplinary perspectives. These perspectives include law, public policy, organisational studies, and applied ethics. Based on this interdisciplinary approach, we hope that effective strategies may arise to ensure that benefits of this on-going revolution are deployed in a responsible and sustainable manner. The second part of the chapter comprises a brief review of the four parts and fourteen substantive chapters that comprise this volume. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# 分散型およびプラットフォーム駆動型エコノミーの法的側面
Legal Aspects of Decentralized and Platform-Driven Economies ( http://arxiv.org/abs/2407.20301v1 ) ライセンス: Link先を確認 | Marcelo Corrales Compagnucci, Toshiyuki Kono, Shinto Teramoto, | (参考訳) シェアリング・エコノミーは世界のほぼすべての分野や活動に波及している。
約10年前、このマーケットで運用されているプラットフォーム駆動の企業はほんのわずかだった。
Zipcar、BlaBlaCar、Couchsurfingもその一つだ。
その後AirbnbとUberは、ほぼすべての主要都市で交通産業とホスピタリティ産業に革命を起こした。
オーナーシップを超越したアクセスは、個人が購入する必要なしに製品やサービスの使用を許可する従来のビジネスモデルからのパラダイムシフトである。
デジタルプラットフォーム、データ、アルゴリズム駆動型企業、および分散型ブロックチェーン技術は、大きな可能性を秘めている。
しかし、ゲームのルールも変更している。
法的システムに挑戦する技術のひとつがAIシステムであり、オペレータやユーザ、製造業者の責任に関する現在の法的枠組みを再構築する。
したがって、この序章は、これらの破壊的な技術の法的な問題の説明と説明を扱っている。
この章は、より先進的で柔軟な規制構造を主張する。
The sharing economy is sprawling across almost every sector and activity around the world. About a decade ago, there were only a handful of platform driven companies operating on the market. Zipcar, BlaBlaCar and Couchsurfing among them. Then Airbnb and Uber revolutionized the transportation and hospitality industries with a presence in virtually every major city. Access over ownership is the paradigm shift from the traditional business model that grants individuals the use of products or services without the necessity of buying them. Digital platforms, data and algorithm-driven companies as well as decentralized blockchain technologies have tremendous potential. But they are also changing the rules of the game. One of such technologies challenging the legal system are AI systems that will also reshape the current legal framework concerning the liability of operators, users and manufacturers. Therefore, this introductory chapter deals with explaining and describing the legal issues of some of these disruptive technologies. The chapter argues for a more forward-thinking and flexible regulatory structure. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# 離散変調連続可変量子鍵分布の信頼音源ノイズモデル
Trusted source noise model of discrete-modulated continuous-variable quantum key distribution ( http://arxiv.org/abs/2407.20302v1 ) ライセンス: Link先を確認 | Mingze Wu, Junhui Li, Bingjie Xu, Song Yu, Yichen Zhang, | (参考訳) 離散変調連続可変量子鍵分布は、古典的光通信との堅牢な統合を維持しながら、実験手順を大幅に単純化し、実用的な解を提供する。
理論的分析は、このプロトコルの包括的なセキュリティを徐々に検証し、実用的な実験の道を開いた。
しかし、実演における不完全源はノイズをもたらす。
従来のアプローチでは、盗聴者がすべての音源ノイズを制御できると仮定し、盗聴者の能力を過大評価し、秘密鍵レートを過小評価する。
実際、ソースノイズのいくつかの部分は本質的であり、盗聴器では操作できないため、信頼できるノイズと見なすことができる。
我々は、離散変調プロトコルに特化して信頼できるモデルを調整し、それに従ってセキュリティ解析をアップグレードする。
シミュレーションの結果,プロトコルのセキュリティを維持しつつ,不完全なソースがシステム性能に負の影響を和らげることに成功した。
さらに,提案手法は信頼検知ノイズモデルと併用して使用することができ,実験装置における音源および検出器ノイズの影響を効果的に低減することができる。
これは離散変調連続可変量子鍵分布系の実用的展開に有意義な貢献である。
Discrete-modulated continuous-variable quantum key distribution offers a pragmatic solution, greatly simplifying experimental procedures while retaining robust integration with classical optical communication. Theoretical analyses have progressively validated the comprehensive security of this protocol, paving the way for practical experimentation. However, imperfect source in practical implementations introduce noise. The traditional approach is to assume that eavesdroppers can control all of the source noise, which overestimates the ability of eavesdroppers and underestimates secret key rate. In fact, some parts of source noise are intrinsic and cannot be manipulated by eavesdropper, so they can be seen as trusted noise. We tailor a trusted model specifically for the discrete-modulated protocol and upgrade the security analysis accordingly. Simulation results demonstrate that this approach successfully mitigates negative impact of imperfect source on system performance while maintaining security of the protocol. Furthermore, our method can be used in conjunction with trusted detector noise model, effectively reducing the influence of both source and detector noise in experimental setup. This is a meaningful contribution to the practical deployment of discrete-modulated continuous-variable quantum key distribution systems. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# 言語モデルの物理:その2.1, 小学校数学と隠れ推論過程
Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process ( http://arxiv.org/abs/2407.20311v1 ) ライセンス: Link先を確認 | Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu, | (参考訳) 言語モデルの最近の進歩は、GSM8Kのような小学校レベルの数学ベンチマークにおいて、数学的推論の問題を解く能力を示し、ほぼ完璧な精度を実現している。
本稿では,言語モデルがこれらの問題を解決する方法について,正式に研究する。
1)言語モデルは推論スキルを本当に開発できるか、それとも単にテンプレートを記憶しているか?
(2)モデルの隠れ(メンタル)推論プロセスとは何でしょうか?
(3)モデルでは,人間と同じような,あるいは異なるスキルを用いて数学の問題を解くことができるか?
(4) GSM8Kライクなデータセットでトレーニングされたモデルは、GSM8K問題解決に必要なもの以上の推論スキルを発達させるか?
(5) モデルが推論ミスを犯す原因は何か。
(6)GSM8Kレベルの数学問題を効果的に解くためには,モデルのサイズや深さがどの程度必要か?
本研究は,言語モデルが数学的な問題を解くための多くの隠されたメカニズムを明らかにし,LLMの現在の理解を超えた洞察を提供する。
Recent advances in language models have demonstrated their capability to solve mathematical reasoning problems, achieving near-perfect accuracy on grade-school level math benchmarks like GSM8K. In this paper, we formally study how language models solve these problems. We design a series of controlled experiments to address several fundamental questions: (1) Can language models truly develop reasoning skills, or do they simply memorize templates? (2) What is the model's hidden (mental) reasoning process? (3) Do models solve math questions using skills similar to or different from humans? (4) Do models trained on GSM8K-like datasets develop reasoning skills beyond those necessary for solving GSM8K problems? (5) What mental process causes models to make reasoning mistakes? (6) How large or deep must a model be to effectively solve GSM8K-level math questions? Our study uncovers many hidden mechanisms by which language models solve mathematical questions, providing insights that extend beyond current understandings of LLMs. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# モニターされたリプキン・メシュコフ・グリックモデルにおける半古典的量子軌道
Semiclassical Quantum Trajectories in the Monitored Lipkin-Meshkov-Glick Model ( http://arxiv.org/abs/2407.20314v1 ) ライセンス: Link先を確認 | Alessandro Santini, Luca Lumia, Mario Collura, Guido Giachetti, | (参考訳) モニタリングされた量子系は、測定結果の異なる量子軌道のフルカウント統計において、測定誘起相転移(MIPT)を観測する可能性から、近年大きな関心を集めている。
ここでは,Lipkin-Meshkov-Glickモデルのダイナミクスについて検討する。
熱力学極限において正確となる大域スピン観測可能量の期待値の進化を記述する半古典的確率方程式の集合を導出する。
我々の結果は、N\to\infty$ の極限は長時間の極限に換算しないことを示している: どんな有限$N$ のときでも、雑音上のエンサンブル平均は自明な定常状態へ収束することが期待されるが、MIPT の温度力学的極限は現れる。
移行は選択後の問題の影響を受けず、既にアンサンブル平均値のレベルで見ることができるため、実験的な観察の道を開くことができる。
半古典的図形における遷移の性質を説明する定量的な理論的図形を導出し、数値学との優れた一致を見出した。
Monitored quantum system have sparked great interest in recent years due to the possibility of observing measurement-induced phase transitions (MIPTs) in the full-counting statistics of the quantum trajectories associated with different measurement outcomes. Here, we investigate the dynamics of the Lipkin-Meshkov-Glick model, composed of $N$ all-to-all interacting spins $1/2$, under a weak external monitoring. We derive a set of semiclassical stochastic equations describing the evolution of the expectation values of global spin observables, which become exact in the thermodynamic limit. Our results shows that the limit $N\to\infty$ does not commute with the long-time limit: while for any finite $N$ the esamble average over the noise is expected to converge towards a trivial steady state, in the thermodynamic limit a MIPT appears. The transition is not affected by post-selection issues, as it is already visible at the level of ensemble averages, thus paving the way for experimental observations. We derive a quantitative theoretical picture explaining the nature of the transition within our semiclassical picture, finding an excellent agreement with the numerics. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# 普遍的な新しい物理ラテント空間
Universal New Physics Latent Space ( http://arxiv.org/abs/2407.20315v1 ) ライセンス: Link先を確認 | Anna Hallin, Gregor Kasieczka, Sabine Kraml, André Lessa, Louis Moureaux, Tore von Schwartz, David Shih, | (参考訳) 我々は,標準モデルプロセスと標準モデル以外の諸理論から派生したデータを,基礎となる理論間の関係を保存しつつ,統一された表現(ラテント)空間にマッピングする機械学習手法を開発した。
我々は, LHCにおける新しい物理の3つの例に適用し, LHCの現象学に基づいてモデルをクラスタ化できることを示し, 異なるモデルが潜在空間の異なる領域にマップされ, 識別不可能なモデルは同一領域にマップされることを示した。
これは、モデルの識別、代表的なベンチマークシナリオの選択、モデル空間のカバレッジにおけるギャップの特定など、いくつかの面で興味深い新しい道を開く。
We develop a machine learning method for mapping data originating from both Standard Model processes and various theories beyond the Standard Model into a unified representation (latent) space while conserving information about the relationship between the underlying theories. We apply our method to three examples of new physics at the LHC of increasing complexity, showing that models can be clustered according to their LHC phenomenology: different models are mapped to distinct regions in latent space, while indistinguishable models are mapped to the same region. This opens interesting new avenues on several fronts, such as model discrimination, selection of representative benchmark scenarios, and identifying gaps in the coverage of model space. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# 講義ノート:MCTDH-Xを用いた多体量子力学
Lecture Notes: many-body quantum dynamics with MCTDH-X ( http://arxiv.org/abs/2407.20317v1 ) ライセンス: Link先を確認 | Paolo Molignini, Sunayana Dutta, Elke Fasshauer, | (参考訳) 2023年ハイデルベルク MCTDH Summer School に適合した「MCTDH-Xを用いた多体量子力学」の講義ノートは、不明瞭な粒子に対する多重構成時間依存ハートリー法を詳細に探求している。
これらはMCTDH-Xソフトウェアをボゾン系とフェルミオン系の両方で理解し活用するための包括的なガイドとして機能する。
チュートリアルは、MCTDH-Xソフトウェアの導入から始まり、内部自由度や長距離相互作用を含む様々な量子システムを扱う能力を強調した。
理論の基礎は、多体系に対する時間依存および時間非依存のシュリンガー方程式の解法を定めている。
ワークフローセクションは、MCTDH-Xを使用してシミュレーションのセットアップと実行の実践的な指示を提供する。
正確な解に対する詳細なベンチマークが提示され、基底状態および動的シミュレーションにおけるソフトウェアの正確性と信頼性を示す。
音符は量子系の力学を掘り下げ、緩和過程、時間進化、ボゾン粒子とフェルミオン粒子の伝播の解析を網羅する。
この議論には、エネルギー、密度分布、軌道占有などの様々な物理量の解釈が含まれる。
MCTDH-Xの高度な特徴としては、相関関数の計算やビデオチュートリアルによる可視化の作成などが挙げられる。
ノートは、Linux/UNIXコマンドの不正なシートで締めくくっている。
これらの講義ノートは、量子力学の分野の研究者や学生にとって貴重な資料であり、複雑な多体システムの研究にMCTDH-Xを用いることに関する理論的洞察と実践的なガイダンスを提供する。
The lecture notes on "Many-body Quantum Dynamics with MCTDH-X," adapted from the 2023 Heidelberg MCTDH Summer School, provide an in-depth exploration of the Multiconfigurational Time-Dependent Hartree approach for indistinguishable particles. They serve as a comprehensive guide for understanding and utilizing the MCTDH-X software for both bosonic and fermionic systems. The tutorial begins with an introduction to the MCTDH-X software, highlighting its capability to handle various quantum systems, including those with internal degrees of freedom and long-range interactions. The theoretical foundation is then laid out on how to solve the time-dependent and time-independent Schr\"odinger equations for many-body systems. The workflow section provides practical instructions on setting up and executing simulations using MCTDH-X. Detailed benchmarks against exact solutions are presented, showcasing the accuracy and reliability of the software in ground-state and dynamic simulations. The notes then delve into the dynamics of quantum systems, covering relaxation processes, time evolution, and the analysis of propagation for both bosonic and fermionic particles. The discussion includes the interpretation of various physical quantities such as energy, density distributions, and orbital occupations. Advanced features of MCTDH-X are also explored in the last section, including the calculation of correlation functions and the creation of visualizations through video tutorials. The notes conclude with a Linux/UNIX command cheat sheet, facilitating ease of use for users operating the software on different systems. Overall, these lecture notes provide a valuable resource for researchers and students in the field of quantum dynamics, offering both theoretical insights and practical guidance on the use of MCTDH-X for studying complex many-body systems. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# 近端ブラックホールのエントロピーとスペクトル:非摂動問題に対する半古典的ブレーン解
Entropy and Spectrum of Near-Extremal Black Holes: semiclassical brane solutions to non-perturbative problems ( http://arxiv.org/abs/2407.20321v1 ) ライセンス: Link先を確認 | Sergio Hernández-Cuenca, | (参考訳) ブラックホールのエントロピーは指数的に低い温度で負の転回を観測され、極端にベケンシュタイン・ホーキングエントロピーである$S_0$は、しばしば非摂動効果の欠如に起因すると思われる。
実際、この負性性は、量子重力の効果的な理論をアンサンブル記述で表わさなければならない。
そのため、通常の重力エントロピーをアニールエントロピー$S_a$と同定し、基底状態エネルギーが超対称性で保護されている場合に限り、この値が極値でS_0$であることを証明する。
実際の熱力学的振る舞い量は平均または焼成エントロピー$S_q$であり、その計算は重力では理解されていない。
行列積分を用いて、重力相関器を支配する新しいインスタントンサドルを$T\sim e^{-S_0}$で見つけ、動的ブレーンを含む半古典的なワームホールに双対である。
これらのブレイン解は、極端に近いブラックホールに主要な寄与を与え、行列のアンサンブルとの双対性はそれらなしでは意味をなさない。
非BPSの場合、それらは$S_q$を非負にし、さらに$S_a$の負性を高めることが要求される。
我々は,D3-branes双対のWilsonループを$\mathcal{N}=4$ Super-YMで乗算するオンシェル作用に対して実測を行い,正確な一致を見いだした。
低エネルギーランダムマトリクススペクトルの解析は、超対称性理論におけるスペクトルギャップの起源も説明しており、BPS状態がゼロエネルギーで存在するだけでなく、純粋に非BPSスーパーマルチプレットに対しても説明できる。
前者では、BPS状態の縮退によるギャップの予測は、$\mathcal{N}=2$ Super-JT重みのギャップ付き多重項におけるR電荷のスケーリングと一致する。
The black hole entropy has been observed to generically turn negative at exponentially low temperatures $T\sim e^{-S_0}$ in the extremal Bekenstein-Hawking entropy $S_0$, a seeming pathology often attributed to missing non-perturbative effects. In fact, we show that this negativity must happen for any effective theory of quantum gravity with an ensemble description. To do so, we identify the usual gravitational entropy as an annealed entropy $S_a$, and prove that this quantity gives $S_0$ at extremality if and only if the ground-state energy is protected by supersymmetry, and diverges negatively otherwise. The actual thermodynamically-behaved quantity is the average or quenched entropy $S_q$, whose calculation is poorly understood in gravity: it involves replica wormholes in a regime where the topological expansion breaks down. Using matrix integrals we find new instanton saddles that dominate gravitational correlators at $T\sim e^{-S_0}$ and are dual to semiclassical wormholes involving dynamical branes. These brane solutions give the leading contribution to any black hole very near extremality, and a duality with matrix ensembles would not make sense without them. In the non-BPS case, they are required to make $S_q$ non-negative and also enhance the negativity of $S_a$, both effects consistent with matrix integrals evaluated exactly. Our instanton results are tested against the on-shell action of D3-branes dual to multiply wrapped Wilson loops in $\mathcal{N}=4$ super-YM, and a precise match is found. Our analysis of low-energy random matrix spectra also explains the origin of spectral gaps in supersymmetric theories, not only when there are BPS states at zero energy, but also for purely non-BPS supermultiplets. In the former, our prediction for the gap in terms of the degeneracy of BPS states agrees with the R-charge scaling in gapped multiplets of $\mathcal{N}=2$ super-JT gravity. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# 太陽が降りて、光が光る:ロバストなセマンティック知覚のためのフォトリアリスティックな単眼夜間シミュレーション
Sun Off, Lights On: Photorealistic Monocular Nighttime Simulation for Robust Semantic Perception ( http://arxiv.org/abs/2407.20336v1 ) ライセンス: Link先を確認 | Konstantinos Tzevelekakis, Shutong Zhang, Luc Van Gool, Christos Sakaridis, | (参考訳) 夜間のシーンは、学習したモデルで意味的に知覚し、人間に注釈を付けるのは難しい。
このように、現実的な合成夜間データは、正確で安価なセマンティックアノテーションのおかげで、夜間に堅牢なセマンティック認識を学習する上で、より重要になる。
しかし、昼間から夜間画像を生成する既存のデータ駆動技術や手作り技術は、現実主義の悪さに悩まされている。
理由は、高度に空間的に変化する夜間照明の複雑な相互作用が、昼間のそれとは大きく異なり、空間的に変化する素材の物体が3Dで発生し、そのような2Dアプローチで捉えるのが非常に困難であるからである。
上述の3次元相互作用と照明シフトは、霧や雨などの他の条件とは対照的に、文献でも同様にモデル化が困難であることが証明されている。
本手法は,1枚の画像の夜間シミュレーションを3Dで行う方法として,サンオフ,ライトオン (SOLO) と命名された。
まず、入力された昼間画像からシーンの3D形状、材料、光源の位置を明示的に推定し、それらの意味を考慮し標準の光線追跡を実行する方法で、確率的に光源をインスタンス化することでシーンをリライトする。
夜間画像の視覚的品質と光リアリズムは,拡散モデルを含む競合するアプローチよりも優れているだけでなく,従来の画像は,昼夜適応における意味的夜間セグメンテーションにも有用であることが証明されている。
コードとデータは公開されます。
Nighttime scenes are hard to semantically perceive with learned models and annotate for humans. Thus, realistic synthetic nighttime data become all the more important for learning robust semantic perception at night, thanks to their accurate and cheap semantic annotations. However, existing data-driven or hand-crafted techniques for generating nighttime images from daytime counterparts suffer from poor realism. The reason is the complex interaction of highly spatially varying nighttime illumination, which differs drastically from its daytime counterpart, with objects of spatially varying materials in the scene, happening in 3D and being very hard to capture with such 2D approaches. The above 3D interaction and illumination shift have proven equally hard to model in the literature, as opposed to other conditions such as fog or rain. Our method, named Sun Off, Lights On (SOLO), is the first to perform nighttime simulation on single images in a photorealistic fashion by operating in 3D. It first explicitly estimates the 3D geometry, the materials and the locations of light sources of the scene from the input daytime image and relights the scene by probabilistically instantiating light sources in a way that accounts for their semantics and then running standard ray tracing. Not only is the visual quality and photorealism of our nighttime images superior to competing approaches including diffusion models, but the former images are also proven more beneficial for semantic nighttime segmentation in day-to-night adaptation. Code and data will be made publicly available. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# コントラスト学習とグローバルローカル類似性によるディープフェイク拡散の対比
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities ( http://arxiv.org/abs/2407.20337v1 ) ライセンス: Link先を確認 | Lorenzo Baraldi, Federico Cocchi, Marcella Cornia, Lorenzo Baraldi, Alessandro Nicolosi, Rita Cucchiara, | (参考訳) 真のコンテンツと高度なAIメソッドが生成するコンテンツの識別は、ますます困難になっている。
これまでの研究は、主に偽の顔の検出に対処してきたが、生成した自然画像の識別は、最近やっと表面化している。
これはCLIPのような基礎的なビジョン・アンド・ランゲージモデルを採用するソリューションを最近探究するきっかけとなった。
しかし、CLIPの埋め込みスペースは、グローバルな画像とテキストのアライメントに最適化されており、本質的にディープフェイク検出のために設計されていない。
本研究では, ディープフェイク検出に特化した新しい埋め込み空間であるCoDE(Contrastive Deepfake Embeddings)を提案する。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
モデルのトレーニングを継続するために、拡散モデルによって生成された画像に焦点をあてた包括的なデータセットを生成し、4つの異なるジェネレータを用いて生成された920万画像のコレクションを包含する。
実験結果から,CoDEは新たに収集したデータセットに対して最先端の精度を実現し,画像生成装置に優れた一般化能力を示すことがわかった。
私たちのソースコード、トレーニングされたモデル、収集されたデータセットは、https://github.com/aimagelab/CoDE.comで公開されています。
Discerning between authentic content and that generated by advanced AI methods has become increasingly challenging. While previous research primarily addresses the detection of fake faces, the identification of generated natural images has only recently surfaced. This prompted the recent exploration of solutions that employ foundation vision-and-language models, like CLIP. However, the CLIP embedding space is optimized for global image-to-text alignment and is not inherently designed for deepfake detection, neglecting the potential benefits of tailored training and local image features. In this study, we propose CoDE (Contrastive Deepfake Embeddings), a novel embedding space specifically designed for deepfake detection. CoDE is trained via contrastive learning by additionally enforcing global-local similarities. To sustain the training of our model, we generate a comprehensive dataset that focuses on images generated by diffusion models and encompasses a collection of 9.2 million images produced by using four different generators. Experimental results demonstrate that CoDE achieves state-of-the-art accuracy on the newly collected dataset, while also showing excellent generalization capabilities to unseen image generators. Our source code, trained models, and collected dataset are publicly available at: https://github.com/aimagelab/CoDE. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# リモート超伝導量子プロセッサ間の高忠実完全エンタングルのRelizaiton
Realizaiton of high-fidelity perfect entangler between remote superconducting quantum processors ( http://arxiv.org/abs/2407.20338v1 ) ライセンス: Link先を確認 | Juan Song, Shuang Yang, Pei Liu, Guang-Ming Xue, Zhen-Yu Mi, Wen-Gang Zhang, Fei Yan, Yi-Rong Jin, Hai-Feng Yu, | (参考訳) より小さなモジュールから大規模な量子コンピュータを構築することは、多くの科学と工学の課題に対する解決策となる。
それでも、モジュール間の工学的な高忠実な相互接続は依然として困難である。
近年、量子状態移動(QST)は、2つの別々にパッケージされた量子デバイス間の絡み合いを確立する手段を提供している。
しかし、QSTはユニタリゲートではないため、量子回路に直接挿入することはできない。
本稿では、マイクロ波ケーブルで接続された2つのリモートパッケージ量子デバイス間の相互共振(CR)効果によって実現された直接CNOTゲートのデモンストレーションを報告する。
我々は99.15 \pm 0.02\%$の忠実度を持つCNOTゲートを達成する。
CNOTゲートの品質はクロスエントロピーベンチマーク(XEB)によって検証され、ベル不品質違反の証明によりさらに確認される。
本研究は,遠隔2ビットゲートを実現するための新しい手法を提供する。
提案手法は, 分散量子コンピューティングを実現するだけでなく, 距離量子ビットを接続するジャンパー線を持つ超伝導量子チップのトポロジーの強化にも有効である。
この進歩は、量子コンピューティングと量子シミュレーションの分野において、超伝導量子ビットの幅広い応用可能性を与える。
Building large-scale quantum computers from smaller modules offers a solution to many formidable scientific and engineering challenges. Nevertheless, engineering high-fidelity interconnects between modules remains challenging. In recent years, quantum state transfer (QST) has provided a way to establish entanglement between two separately packaged quantum devices. However, QST is not a unitary gate, thus cannot be directly inserted into a quantum circuit, which is widely used in recent quantum computation studies. Here we report a demonstration of a direct CNOT gate realized by the cross resonance (CR) effect between two remotely packaged quantum devices connected by a microwave cable. We achieve a CNOT gate with fidelity as high as $99.15 \pm 0.02\%$. The quality of the CNOT gate is verified by cross-entropy benchmarking (XEB) and further confirmed by demonstrating Bell-inequality violation. This work provides a new method to realize remote two-qubit gates. Our method can be used not only to achieve distributed quantum computing but also to enrich the topology of superconducting quantum chips with jumper lines connecting distant qubits. This advancement gives superconducting qubits broader application prospects in the fields of quantum computing and quantum simulation. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# BRIDGE:より強力なビジュアルクイズによる画像キャプション評価におけるギャップを埋める
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues ( http://arxiv.org/abs/2407.20341v1 ) ライセンス: Link先を確認 | Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, | (参考訳) 機械生成画像キャプションの評価において、人間の判断と効果的に一致させることは、複雑だが興味深い課題である。
CIDErやCLIP-Scoreのような既存の評価指標は、対応するイメージを考慮していないか、細かい詳細をエンコードしたり幻覚を罰する能力が欠けているため、この点では不足している。
本稿では,視覚的特徴を高密度ベクトルにマッピングし,評価プロセス中に構築されたマルチモーダル擬似キャプションに統合する新しいモジュールを用いた,学習可能で参照不要な画像キャプションメトリックBRIDGEを提案する。
このアプローチにより,入力画像からの情報を参照キャプションに頼らずに適切に組み込んだマルチモーダルメトリックが実現され,人間の判断と機械生成画像キャプションのギャップを埋める。
いくつかのデータセットにまたがる実験により,提案手法は既存の基準のない評価結果と比較して最先端の結果が得られることが示された。
私たちのソースコードとトレーニングされたモデルは、https://github.com/aimagelab/bridge-score.comで公開されています。
Effectively aligning with human judgment when evaluating machine-generated image captions represents a complex yet intriguing challenge. Existing evaluation metrics like CIDEr or CLIP-Score fall short in this regard as they do not take into account the corresponding image or lack the capability of encoding fine-grained details and penalizing hallucinations. To overcome these issues, in this paper, we propose BRIDGE, a new learnable and reference-free image captioning metric that employs a novel module to map visual features into dense vectors and integrates them into multi-modal pseudo-captions which are built during the evaluation process. This approach results in a multimodal metric that properly incorporates information from the input image without relying on reference captions, bridging the gap between human judgment and machine-generated image captions. Experiments spanning several datasets demonstrate that our proposal achieves state-of-the-art results compared to existing reference-free evaluation scores. Our source code and trained models are publicly available at: https://github.com/aimagelab/bridge-score. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# 量子リセットによるボソンの動的創発相関
Dynamically emergent correlations in bosons via quantum resetting ( http://arxiv.org/abs/2407.20342v1 ) ライセンス: Link先を確認 | Manas Kulkarni, Satya N. Majumdar, Sanjib Sabhapandit, | (参考訳) 調和トラップ中のN$非相互作用ボソン系の量子リセットにより誘導される非平衡定常状態(NESS)について検討する。
提案プロトコルは,まず,まず高調波発振器を$+a$に設定し,次に,中心を$-a$にシフトし,ランダムなポアソニアン時間$\tau$を$r\, e^{-r\, \tau}$に分散する急激なクエンチで構成する。
そして、トラップセンタを再び$+a$にリセットし、システムが初期基底状態に瞬時に冷却されると仮定する。
システムが再び、ランダム時間まで$-a$中心のトラップで一元的に進化することを許され、手順が繰り返される。
リセットを繰り返すと、システムはNESSに到達し、ボソンの位置はトラップによって誘導される同時リセットによって$\rm{\textit{strongly correlation}}$を得る。
我々は、平均密度、極値統計、秩序とギャップ統計、および全カウント統計(FCS)として知られる領域$[-L,L]$における粒子数の分布など、いくつかの物理観測変数を解析的に計算することで、定常状態を完全に特徴づける。
特に、大きな$N$の極限において、FCSを記述するスケーリング関数は、非自明な有限区間でサポートされ、さらに、サポートの内部点で不連続であることを示す。
我々の結果は数値シミュレーションによって支えられている。
これは、様々な観測可能なものを正確に計算できる強い相関の量子多体NESSの稀な例である。
We study the nonequilibrium stationary state (NESS) induced by quantum resetting of a system of $N$ noninteracting bosons in a harmonic trap. Our protocol consists of preparing initially the system in the ground state of a harmonic oscillator centered at $+a$, followed by a rapid quench where the center is shifted to $-a$ and the system is allowed to evolve unitarily up to a random Poissonian time $\tau$ distributed via $r\, e^{-r\, \tau}$. Then the trap center is reset to $+a$ again and the system is assumed to cool instantaneously to the initial ground state. The system is again allowed to evolve unitarily in the trap centered at $-a$ up to a random time, and the procedure is repeated. Under repeated resetting, the system reaches a NESS where the positions of bosons get $\rm{\textit{strongly correlated}}$ due to simultaneous resetting induced by the trap. We fully characterize the steady state by analytically computing several physical observables such as the average density, extreme value statistics, order and gap statistics, and also the distribution of the number of particles in a region $[-L,L]$, known as the full counting statistics (FCS). In particular, we show that in the large $N$ limit, the scaling function describing the FCS exhibits a striking feature: it is supported over a nontrivial finite interval, and moreover is discontinuous at an interior point of the support. Our results are supported by numerical simulations. This is a rare example of a strongly correlated quantum many-body NESS where various observables can be exactly computed. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# マルチパーティシナリオにおけるローカルフレンドリーなポリトープ
Local Friendliness Polytopes In Multipartite Scenarios ( http://arxiv.org/abs/2407.20346v1 ) ライセンス: Link先を確認 | Marwan Haddara, Eric G. Cavalcanti, | (参考訳) 最近では、その深い基礎的な意味から、ローカルフレンドリネス(LF)のノーゴー定理が注目されている。
このノーゴー定理は、ベル実験とウィグナーの友人型セットアップを組み合わせ、空間のような分離されたスーパーオブザーバーを含むシナリオに適用される。
ベルのシナリオにおける局所隠れ変数の仮説に類似して、「局所親和性」(Local Friendliness)と呼ばれる仮定の集合は、超オブザーバーにアクセスできる確率的振る舞いの空間を制約し、そのようなシナリオにおけるノーシグナリングポリトープの特定の部分集合となる。
さらに、ローカルなフレンドラインと互換性のある振る舞いの集合がベル局所ポリトープよりも厳密に大きい場合があり、いくつかのシナリオではそれらの集合が等しいことが示されている。
本研究は、任意の数のスーパーオブザーバー、友人、測定と結果、LF相関の集合が局所的に隠れた変数モデルを受け入れている場所、そしてそれらができない場所で、標準的なローカルフレンドリーシナリオを識別することによって、図を完成させる。
我々の証明は、適切なシナリオにおいてLFと互換性のある振る舞いを前提として、ローカルな隠れ変数モデルをどのように構築できるかを示すという意味で構成的である。
我々の主な動機は、局所的親和性からの制約をよりよく理解することにあるが、LFポリトープを制約する同じ不等式は、デバイスに依存しない情報処理の非関係な文脈で生じることが示されている。
この結果から,これらの研究領域にも活用できる可能性が示唆された。
Recently the Local Friendliness (LF) no-go theorem has gained a lot of attention, owing to its deep foundational implications. This no-go theorem applies to scenarios which combine Bell experiments with Wigner's friend-type set ups, containing space-like separated superobservers who are assumed to be capable of performing quantum operations on a local observer, also known as their "friend". Analogously to the hypothesis of local hidden variables in Bell scenarios, a set of assumptions termed "Local Friendliness" constrains the space of probabilistic behaviours accessible to the superobservers to be a particular subset of the no-signalling polytope in such scenarios. It has additionally been shown, that there are scenarios where the set of behaviours compatible with Local Friendliness is strictly larger than the Bell-local polytope, while in some scenarios those sets are equal. In this work, we complete the picture by identifying all the canonical Local Friendliness scenarios, with arbitrary but finite numbers of superobservers, friends, measurements and outcomes, where the set of LF correlations admits a local hidden variable model, and where they do not. Our proof is constructive in the sense that we also demonstrate how a local hidden variable model can be constructed, given a behaviour compatible with LF in the appropriate scenarios. While our principal motivation is the foundational question of better understanding the constraints from Local Friendliness, the same inequalities constraining LF polytopes have been shown to arise in a priori unrelated contexts of device-independent information processing. Our results may thus find use in those research areas as well. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# LiteEFG: 大規模なゲーム問題を解決するための効率的なPythonライブラリ
LiteEFG: An Efficient Python Library for Solving Extensive-form Games ( http://arxiv.org/abs/2407.20351v1 ) ライセンス: Link先を確認 | Mingyang Liu, Gabriele Farina, Asuman Ozdaglar, | (参考訳) LiteEFGは、Pythonバインディングが簡単に使える効率的なライブラリであり、マルチプレイヤーワイドフォームゲーム(EFG)を解決できる。
LiteEFGを使えば,Pythonで計算グラフを表現して,ゲームツリー構造のアップデートを定義することが可能になる。
グラフはC++バックエンドで実行され、Pythonでアルゴリズムを実行する場合と比較して大幅にスピードアップする。
さらに、LiteEFGでは、ゲームの決定ノードにおいて更新ルールの計算グラフのみを指定し、LiteEFGは更新ルールを各決定ノードに自動的に分散し、不完全な情報ゲームの構造を処理する。
LiteEFG is an efficient library with easy-to-use Python bindings, which can solve multiplayer extensive-form games (EFGs). LiteEFG enables the user to express computation graphs in Python to define updates on the game tree structure. The graph is then executed by the C++ backend, leading to significant speedups compared to running the algorithm in Python. Moreover, in LiteEFG, the user needs to only specify the computation graph of the update rule in a decision node of the game, and LiteEFG will automatically distribute the update rule to each decision node and handle the structure of the imperfect-information game. | 翻訳日:2024-07-31 19:08:17 公開日:2024-07-29 |
# Hypernetworks & Adversarial Portfoliosによる時系列モデルの設計
Designing Time-Series Models With Hypernetworks & Adversarial Portfolios ( http://arxiv.org/abs/2407.20352v1 ) ライセンス: Link先を確認 | Filip Staněk, | (参考訳) 本稿では,M6コンペティションの予測と投資の課題において,それぞれ4位と6位を達成した手法について述べる。
予測課題では、ハイパーネットを用いた新しいメタ学習モデルを用いて、予測タスクの特定のファミリーに合わせたパラメトリックモデルを設計した。
このアプローチにより、個々の予測タスク間で観察された類似性を活用できると同時に、データ生成プロセスにおける潜在的な不均一性を認識できる。
モデルのトレーニングはバックプロパゲーションによって直接行うことができ、高階微分への依存を排除し、パラメトリック関数の空間と最適パラメータ値の同時探索と等価である。
提案手法はM6を超えて拡張され,正弦波回帰タスクにおける最先端のメタラーニング手法よりも優れ,M4コンペティションにおける従来のパラメトリックモデルよりも優れていた。
投資課題では、ポートフォリオの重みを調整し、応募者と他の参加者との相関関係を大きく、あるいはより小さいものにし、適切なランクを得る確率を最大化することを目的とした。
This article describes the methods that achieved 4th and 6th place in the forecasting and investment challenges, respectively, of the M6 competition, ultimately securing the 1st place in the overall duathlon ranking. In the forecasting challenge, we tested a novel meta-learning model that utilizes hypernetworks to design a parametric model tailored to a specific family of forecasting tasks. This approach allowed us to leverage similarities observed across individual forecasting tasks while also acknowledging potential heterogeneity in their data generating processes. The model's training can be directly performed with backpropagation, eliminating the need for reliance on higher-order derivatives and is equivalent to a simultaneous search over the space of parametric functions and their optimal parameter values. The proposed model's capabilities extend beyond M6, demonstrating superiority over state-of-the-art meta-learning methods in the sinusoidal regression task and outperforming conventional parametric models on time-series from the M4 competition. In the investment challenge, we adjusted portfolio weights to induce greater or smaller correlation between our submission and that of other participants, depending on the current ranking, aiming to maximize the probability of achieving a good rank. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# 教師シミュレーションの自動解析のための大規模言語モデルの評価
Evaluating Large Language Models for automatic analysis of teacher simulations ( http://arxiv.org/abs/2407.20360v1 ) ライセンス: Link先を確認 | David de-Fitero-Dominguez, Mariano Albaladejo-González, Antonio Garcia-Cabot, Eva Garcia-Lopez, Antonio Moreno-Cediel, Erin Barno, Justin Reich, | (参考訳) デジタルシミュレーション(DS)は、ユーザーが会話のプロンプトを通じてエージェントと対話する安全な環境を提供し、現実的な教室シナリオで教師候補を訓練するのに使用できる、魅力的な学習体験を提供する。
これらのシミュレーションには、通常オープンエンドの質問が含まれており、教師候補が自分の考えを表現できるが、自動応答分析を複雑にすることができる。
この問題に対処するため,教師教育におけるDSの応答特性(ユーザ行動)を明らかにするために,Large Language Models (LLMs) の評価を行った。
DeBERTaV3 と Llama 3 の性能をゼロショット, 少数ショット, 微調整と組み合わせて評価した。
実験の結果,LLMの性能は識別する特性によって大きく異なることがわかった。
さらに、DeBERTaV3は、新しい特徴を識別する必要のある場合、性能を著しく低下させました。
対照的に、Llama 3はDeBERTaV3よりも新しい特性を検出し、より安定した性能を示した。
したがって、シミュレーションや教育目的によって変化するため、教師教育者が新たな特徴を導入する必要があるDSでは、Llama 3の使用がより推奨される。
これらの結果は、DSの高度に要求された自動評価を提供するために、LSMの導入に他の研究者を導くことができる。
Digital Simulations (DS) provide safe environments where users interact with an agent through conversational prompts, providing engaging learning experiences that can be used to train teacher candidates in realistic classroom scenarios. These simulations usually include open-ended questions, allowing teacher candidates to express their thoughts but complicating an automatic response analysis. To address this issue, we have evaluated Large Language Models (LLMs) to identify characteristics (user behaviors) in the responses of DS for teacher education. We evaluated the performance of DeBERTaV3 and Llama 3, combined with zero-shot, few-shot, and fine-tuning. Our experiments discovered a significant variation in the LLMs' performance depending on the characteristic to identify. Additionally, we noted that DeBERTaV3 significantly reduced its performance when it had to identify new characteristics. In contrast, Llama 3 performed better than DeBERTaV3 in detecting new characteristics and showing more stable performance. Therefore, in DS where teacher educators need to introduce new characteristics because they change depending on the simulation or the educational objectives, it is more recommended to use Llama 3. These results can guide other researchers in introducing LLMs to provide the highly demanded automatic evaluations in DS. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# MLからLLMへ:敵攻撃に対するフィッシングWebページ検出モデルのロバスト性の評価
From ML to LLM: Evaluating the Robustness of Phishing Webpage Detection Models against Adversarial Attacks ( http://arxiv.org/abs/2407.20361v1 ) ライセンス: Link先を確認 | Aditya Kulkarni, Vivek Balachandran, Dinil Mon Divakaran, Tamal Das, | (参考訳) フィッシング攻撃は、ユーザーを騙して機密情報を盗み、重大なサイバーセキュリティの脅威を引き起こす。
機械学習(ML)とディープラーニング(DL)の進歩は多くのフィッシングWebページ検出ソリューションの開発につながっているが、これらのモデルは敵の攻撃に弱いままである。
敵のフィッシングページに対する堅牢性を評価することが不可欠である。
既存のツールには、ブランド数限定で事前設計されたフィッシングWebページのデータセットが含まれており、フィッシング機能の多様性が欠如している。
これらの課題に対処するために、さまざまなフィッシング機能を正当なWebページに埋め込むことで、敵対的なフィッシングWebページを生成するツールであるPhishOracleを開発した。
We evaluate the robustness of two existing model, Stack model and Phishpedia, in classification of PhishOracle generated adversarial phishing webpages。
さらに,敵対的攻撃の文脈において,商業用大規模言語モデルであるGemini Pro Visionについて検討した。
我々は,PhishOracleが生成した逆フィッシングWebページがユーザを欺くかどうかを判断するために,ユーザスタディを実施している。
我々の発見によると、多くのPhishOracleが生成したフィッシングWebページが、現在のフィッシングWebページ検出モデルや騙しユーザーを回避しているが、Gemini Pro Visionは攻撃に対して堅牢である。
また、PhishOracle Webアプリを開発し、ユーザーが正当なURLを入力し、関連するフィッシング機能を選択し、対応するフィッシングWebページを生成する。
すべてのリソースはGitHubで公開されている。
Phishing attacks attempt to deceive users into stealing sensitive information, posing a significant cybersecurity threat. Advances in machine learning (ML) and deep learning (DL) have led to the development of numerous phishing webpage detection solutions, but these models remain vulnerable to adversarial attacks. Evaluating their robustness against adversarial phishing webpages is essential. Existing tools contain datasets of pre-designed phishing webpages for a limited number of brands, and lack diversity in phishing features. To address these challenges, we develop PhishOracle, a tool that generates adversarial phishing webpages by embedding diverse phishing features into legitimate webpages. We evaluate the robustness of two existing models, Stack model and Phishpedia, in classifying PhishOracle-generated adversarial phishing webpages. Additionally, we study a commercial large language model, Gemini Pro Vision, in the context of adversarial attacks. We conduct a user study to determine whether PhishOracle-generated adversarial phishing webpages deceive users. Our findings reveal that many PhishOracle-generated phishing webpages evade current phishing webpage detection models and deceive users, but Gemini Pro Vision is robust to the attack. We also develop the PhishOracle web app, allowing users to input a legitimate URL, select relevant phishing features and generate a corresponding phishing webpage. All resources are publicly available on GitHub. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# フォトニックプロセッサ上の量子増幅核の実験的研究
Experimental quantum-enhanced kernels on a photonic processor ( http://arxiv.org/abs/2407.20364v1 ) ライセンス: Link先を確認 | Zhenghao Yin, Iris Agresti, Giovanni de Felice, Douglas Brown, Alexis Toumi, Ciro Pentangelo, Simone Piacentini, Andrea Crespi, Francesco Ceccarelli, Roberto Osellame, Bob Coecke, Philip Walther, | (参考訳) 近年、機械学習は科学的な応用から日常的な応用まで、顕著な影響を与えている。
しかし、複雑なタスクはしばしば、エネルギーと計算力の消費が不可能なことを暗示する。
量子計算はそのような要件を低くする可能性があるが、現在の技術で拡張が到達可能かどうかは不明である。
本稿では、フォトニック集積プロセッサ上でバイナリ分類を行うカーネル手法を実証する。
我々のプロトコルはガウスカーネルやニューラルタンジェントカーネルなど最先端のカーネル手法より優れており、量子干渉を利用しており、単一光子コヒーレンスによる改善も少ないことを示す。
我々の方式ではゲートを絡める必要はなく、追加モードや光子を注入することでシステム次元を変更できる。
この結果は、より効率的なアルゴリズムと、量子効果が標準的な方法を改善するタスクの定式化に開放される。
Recently, machine learning had a remarkable impact, from scientific to everyday-life applications. However, complex tasks often imply unfeasible energy and computational power consumption. Quantum computation might lower such requirements, although it is unclear whether enhancements are reachable by current technologies. Here, we demonstrate a kernel method on a photonic integrated processor to perform a binary classification. We show that our protocol outperforms state-of-the-art kernel methods including gaussian and neural tangent kernels, exploiting quantum interference, and brings a smaller improvement also by single photon coherence. Our scheme does not require entangling gates and can modify the system dimension through additional modes and injected photons. This result opens to more efficient algorithms and to formulating tasks where quantum effects improve standard methods. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# 複合空間における混合ニュートン法による最適化
Mixed Newton Method for Optimization in Complex Spaces ( http://arxiv.org/abs/2407.20367v1 ) ライセンス: Link先を確認 | Nikita Yudin, Roland Hildebrand, Sergey Bakhurin, Alexander Degtyarev, Anna Lisachenko, Ilya Kuruzov, Andrei Semenov, Mohammad Alkousa, | (参考訳) 本稿では,複素変数の実数値関数の最小化を目的としたMixed Newton Methodを,関数を複素空間に拡張して実変数の実数値関数の最小化に適用する。
任意の正則化は手法の好適な局所収束特性を保ち、複素ミニマへの収束を防止するために用いられる特別なタイプの正則化を構成することを示す。
ニューラルネットワークを実数パラメータと複素数パラメータで訓練するために適用したいくつかの変種を比較した。
In this paper, we modify and apply the recently introduced Mixed Newton Method, which is originally designed for minimizing real-valued functions of complex variables, to the minimization of real-valued functions of real variables by extending the functions to complex space. We show that arbitrary regularizations preserve the favorable local convergence properties of the method, and construct a special type of regularization used to prevent convergence to complex minima. We compare several variants of the method applied to training neural networks with real and complex parameters. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# 非アベリア量子ホロノミーから生じる決定論的フォトニックな絡み合い
Deterministic photonic entanglement arising from non-Abelian quantum holonomy ( http://arxiv.org/abs/2407.20368v1 ) ライセンス: Link先を確認 | Aniruddha Bhattacharya, Chandra S. Raman, | (参考訳) 決定論的で高忠実なエンタングリング相互作用の実現 — 効率的な量子情報処理に使用できるタイプの — は、光子間の明確な目標のままである。
ここでは、最近3次元非アベリア量子ホロノミーを実装することが実証されたオンチップフォトニクスシステムを用いて、光の制御された状態の高度に絡み合った重ね合わせを作成し、操作するプロトコルを考案することによって、この長年の課題に対処する。
我々の計算は、そのような絡み合った重ね合わせのサブセットが最大エンタングル状態であり、その根底にある絡み合いは量子科学の応用のために蒸留され浄化されることを示している。
具体的には、このエンタングリング機構は、線形フォトニック要素だけで2量子・普遍・エンタングリング量子ゲートを実現するのに有効である。
さらに、この方法は、少なくとも原理上は、中性原子系の系に一般化可能であるべきである。
Realizing deterministic, high-fidelity entangling interactions--of the kind that can be utilized for efficient quantum information processing--between photons remains an elusive goal. Here, we address this long-standing issue by devising a protocol for creating and manipulating highly-entangled superpositions of well-controlled states of light by using an on-chip photonic system that has recently been shown to implement three-dimensional, non-Abelian quantum holonomy. Our calculations indicate that a subset of such entangled superpositions are maximally-entangled, volume-law states, and that the underlying entanglement can be distilled and purified for applications in quantum science. Specifically, we envisage that this entangling mechanism could be utilized for realizing two-qubit, universal, entangling quantum gates with linear photonic elements alone. Furthermore, this method should also--at least, in principle--be generalizable to systems of neutral atoms. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# Rydberg原子rf電極を用いた完全3次元ベクトル分極測定
Complete three-dimensional vector polarimetry with a Rydberg atom rf electrometer ( http://arxiv.org/abs/2407.20369v1 ) ライセンス: Link先を確認 | Peter K. Elgee, Kevin C. Cox, Joshua C. Hill, Paul D. Kunz, David H. Meyer, | (参考訳) Rydberg原子を用いた無線周波数(rf)受信機は、そのサイズ、周波数調整範囲、磁場吸収の欠如など、古典的なセンサーよりも魅力的な特徴を提供する。
本研究では、Rydberg atom rf polarimeter を実演することによって応用空間を拡張する。
3つの独立および直交局所振動子を持つrfヘテロダインを用いて、場の全振幅に加えて、場の偏極楕円を3次元で抽出することができる。
生成した3つのヘテロダイン信号の相対位相と振幅を用いて、3つの軸軸に沿った磁場振幅と位相を測定し、完全な3次元偏光を与える。
センサ周囲の異なる角度の入射場に対するこの偏光測定を実演する。
最後に、水平信号場と垂直信号場の分極に符号化されたデータシンボルの受信とそれらの間の位相について検討する。
水平偏光は57$\mu$V/m/$\sqrt{\text{Hz}}$,垂直偏光は66$\mu$V/m/$\sqrt{\text{Hz}}$,標準偏光は0.094radである。
Radio frequency (rf) receivers using Rydberg atoms offer appealing features over classical sensors, such as their size, frequency tuning range, and lack of field absorption. In this work, we extend the application space by demonstrating a Rydberg atom rf polarimeter. Using rf heterodyne with three independent and orthogonal local oscillators, we are able to extract the polarization ellipse of the field in three dimensions, in addition to the total amplitude of the field. We use the relative phases and amplitudes of the three generated heterodyne signals to measure the field amplitudes and phases along three cardinal axes giving the full three-dimensional polarization. We demonstrate this polarization measurement for incoming fields at different angles around the sensor. Lastly, we investigate the reception of data symbols encoded in the horizontal and vertical signal field polarizations and the phase between them. Our measurements yield an amplitude noise of 57 $\mu$V/m/$\sqrt{\text{Hz}}$ for horizontal polarization, 66 $\mu$V/m/$\sqrt{\text{Hz}}$ for vertical polarization, and a standard deviation of 0.094 rad in the phase between the field components. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# 言語モデル検索による検索におけるジェンダー, レース, インターセクションのバイアス
Gender, Race, and Intersectional Bias in Resume Screening via Language Model Retrieval ( http://arxiv.org/abs/2407.20371v1 ) ライセンス: Link先を確認 | Kyra Wilson, Aylin Caliskan, | (参考訳) 人工知能(AI)の採用ツールは履歴スクリーニングに革命をもたらし、大規模言語モデル(LLM)も同様の可能性を秘めている。
しかし, LLM内に埋め込まれたバイアスを考えると, 保護属性に基づいてグループを改良することなく, このシナリオで使用することができるかどうかは不明である。
本研究では,ジョブ候補選択をシミュレートする文書検索フレームワークを用いて,履歴書のスクリーニング設定においてLLMを使用する可能性を検討する。
このフレームワークを用いて、再試行監査を行い、マステキスト埋め込み(MTE)モデルの選択が履歴スクリーニングシナリオに偏っているかどうかを判定する。
我々は、500以上の公開履歴書と500以上のジョブ記述を使って、これを9つの職業にシミュレートする。
MTEは偏りがあり、85.1\%のケースでは白人関連、わずか11.1\%のケースでは女性関連、統計学的に有意な差がないケースは少数である。
さらに分析したところ、黒人男性は最大100 %のケースで不利であり、雇用環境における実際の偏見パターンを再現し、交叉性の3つの仮説を検証している。
また,履歴書の選択において,文書の長さや名称のコーパス頻度の影響も見いだす。
これらの発見は、雇用、公正、および技術ポリシーを自動化している広く使われているAIツールに影響を及ぼす。
Artificial intelligence (AI) hiring tools have revolutionized resume screening, and large language models (LLMs) have the potential to do the same. However, given the biases which are embedded within LLMs, it is unclear whether they can be used in this scenario without disadvantaging groups based on their protected attributes. In this work, we investigate the possibilities of using LLMs in a resume screening setting via a document retrieval framework that simulates job candidate selection. Using that framework, we then perform a resume audit study to determine whether a selection of Massive Text Embedding (MTE) models are biased in resume screening scenarios. We simulate this for nine occupations, using a collection of over 500 publicly available resumes and 500 job descriptions. We find that the MTEs are biased, significantly favoring White-associated names in 85.1\% of cases and female-associated names in only 11.1\% of cases, with a minority of cases showing no statistically significant differences. Further analyses show that Black males are disadvantaged in up to 100\% of cases, replicating real-world patterns of bias in employment settings, and validate three hypotheses of intersectionality. We also find an impact of document length as well as the corpus frequency of names in the selection of resumes. These findings have implications for widely used AI tools that are automating employment, fairness, and tech policy. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# Cow LOcalization(COLO)データセットを用いた屋内牛の局所化に関するモデル一般化研究
A Model Generalization Study in Localizing Indoor Cows with COw LOcalization (COLO) dataset ( http://arxiv.org/abs/2407.20372v1 ) ライセンス: Link先を確認 | Mautushi Das, Gonzalo Ferreira, C. P. James Chen, | (参考訳) 精密家畜農業(PLF)は、家畜の健康をモニターし、資源管理を最適化するために、高度なオブジェクトローカライゼーション技術に依存している。
本研究は, 屋内フリーストールバーン環境下での牛肉検出におけるYOLOv8モデルとYOLOv9モデルの一般化能力について検討し, 視角や照度, モデル複雑度などの各種トレーニングデータ特性に着目した。
新たにリリースされた公開データセットであるCOLO(COws LOcalization)データセットを活用することで、(1)照明条件やカメラアングルの変化によってモデル一般化が等しく影響される、(2)高次モデル複雑性により一般化性能が向上する、(3)関連するタスクでトレーニングされたカスタム初期重みによる微調整は、常に検出タスクに利点をもたらす、という3つの重要な仮説を探求する。
本研究は, 画像中の牛を横から撮影し, 様々なカメラアングルが検出モデルの構築において重要であることを明らかにする。
さらに、我々の結果は、より高いモデル複雑さが必ずしもより良いパフォーマンスをもたらすとは限らないことを強調しています。
最適なモデル構成は、特定のタスクとデータセットに大きく依存します。
最後に、関連するタスクでトレーニングされたカスタム初期重みによる微調整は、検出タスクの利点を提供するが、より単純なモデルはこのアプローチから同様に恩恵を受けない。
集中的な労働力を要する事前の情報に頼ることなく、事前訓練された重量で単純なモデルを訓練することがより効率的である。
今後の作業は、一般化と堅牢性を改善するために、適応的な方法と高度なデータ拡張に焦点を当てるべきである。
本研究は,既存の研究からコンピュータビジョンモデルをデプロイするための実践的ガイドラインを提供するとともに,一般化問題を強調し,1254の画像と11818頭の牛のインスタンスを含むCOLOデータセットをコントリビュートし,さらなる研究を行った。
Precision livestock farming (PLF) increasingly relies on advanced object localization techniques to monitor livestock health and optimize resource management. This study investigates the generalization capabilities of YOLOv8 and YOLOv9 models for cow detection in indoor free-stall barn settings, focusing on varying training data characteristics such as view angles and lighting, and model complexities. Leveraging the newly released public dataset, COws LOcalization (COLO) dataset, we explore three key hypotheses: (1) Model generalization is equally influenced by changes in lighting conditions and camera angles; (2) Higher model complexity guarantees better generalization performance; (3) Fine-tuning with custom initial weights trained on relevant tasks always brings advantages to detection tasks. Our findings reveal considerable challenges in detecting cows in images taken from side views and underscore the importance of including diverse camera angles in building a detection model. Furthermore, our results emphasize that higher model complexity does not necessarily lead to better performance. The optimal model configuration heavily depends on the specific task and dataset. Lastly, while fine-tuning with custom initial weights trained on relevant tasks offers advantages to detection tasks, simpler models do not benefit similarly from this approach. It is more efficient to train a simple model with pre-trained weights without relying on prior relevant information, which can require intensive labor efforts. Future work should focus on adaptive methods and advanced data augmentation to improve generalization and robustness. This study provides practical guidelines for PLF researchers on deploying computer vision models from existing studies, highlights generalization issues, and contributes the COLO dataset containing 1254 images and 11818 cow instances for further research. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# ESG Scoringにおける自然言語の活用と項目応答理論モデル
Leveraging Natural Language and Item Response Theory Models for ESG Scoring ( http://arxiv.org/abs/2407.20377v1 ) ライセンス: Link先を確認 | César Pedrosa Soares, | (参考訳) 本稿では,自然言語処理(NLP)技術と項目応答理論(IRT)を統合した環境・社会・ガバナンス(ESG)スコアリングの革新的アプローチについて検討する。
ブラジルの石油大手ペトロブラス(ペトロブラス)が2022年から2023年にかけて収集した、ポルトガルのニュース記事の包括的データセットを利用する。
データは、高度なNLP法を用いてESG関連感情に対してフィルタリングされ分類される。
次に、ラッシュモデルを用いてこれらのESG尺度の心理測定特性を評価し、時間とともにESGの感情傾向を微妙に評価する。
以上の結果から,ESG因子のより正確かつ信頼性の高い測定方法が有効であり,有意な期間と傾向が示された。
このアプローチはESG指標の堅牢性を高め、ESGレポートの時間的ダイナミクスをより深く理解することで、持続可能性と金融の幅広い分野に寄与する可能性がある。
This paper explores an innovative approach to Environmental, Social, and Governance (ESG) scoring by integrating Natural Language Processing (NLP) techniques with Item Response Theory (IRT), specifically the Rasch model. The study utilizes a comprehensive dataset of news articles in Portuguese related to Petrobras, a major oil company in Brazil, collected from 2022 and 2023. The data is filtered and classified for ESG-related sentiments using advanced NLP methods. The Rasch model is then applied to evaluate the psychometric properties of these ESG measures, providing a nuanced assessment of ESG sentiment trends over time. The results demonstrate the efficacy of this methodology in offering a more precise and reliable measurement of ESG factors, highlighting significant periods and trends. This approach may enhance the robustness of ESG metrics and contribute to the broader field of sustainability and finance by offering a deeper understanding of the temporal dynamics in ESG reporting. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# もし赤が話せるとしたら? 大規模言語モデルを用いた動的対話生成
What if Red Can Talk? Dynamic Dialogue Generation Using Large Language Models ( http://arxiv.org/abs/2407.20382v1 ) ライセンス: Link先を確認 | Navapat Nananukul, Wichayaporn Wongkamjan, | (参考訳) ロールプレイングゲーム(RPG)は、プレイヤーにリッチでインタラクティブな世界を提供する。
対話は開発者とプレイヤー間のコミュニケーションの主要な手段であり、ガイド、NPCインタラクション、ストーリーテリングといった様々な形式で表される。
ほとんどのゲームはメインストーリーとキャラクターの個性を定義するために書かれたスクリプトに依存しているが、プレイヤーの没入はキャラクター間のカジュアルな相互作用によって著しく強化される。
大規模言語モデル(LLM)の出現に伴い,知識グラフによって強化されたLLMを用いて動的かつ文脈的に適切な文字相互作用を生成する対話フィラーフレームワークを導入する。
この枠組みをFinal Fantasy VII RemakeとPokemonの環境下でテストし、GPT-4が定義された個性で行動し、対話を生成する能力を示す質的かつ定量的な証拠を提供する。
しかしながら、GPT-4が過度に肯定的あるいは微妙な個性である、例えば成熟度のようないくつかの欠陥は、湿度のような過度な特性に比べて品質が低い傾向にある。
本研究の目的は,よりニュアンスの高いフィラーダイアログ作成を支援することであり,それによってプレイヤーの没入感を高め,RPG体験の全般的向上を図ることである。
Role-playing games (RPGs) provide players with a rich, interactive world to explore. Dialogue serves as the primary means of communication between developers and players, manifesting in various forms such as guides, NPC interactions, and storytelling. While most games rely on written scripts to define the main story and character personalities, player immersion can be significantly enhanced through casual interactions between characters. With the advent of large language models (LLMs), we introduce a dialogue filler framework that utilizes LLMs enhanced by knowledge graphs to generate dynamic and contextually appropriate character interactions. We test this framework within the environments of Final Fantasy VII Remake and Pokemon, providing qualitative and quantitative evidence that demonstrates GPT-4's capability to act with defined personalities and generate dialogue. However, some flaws remain, such as GPT-4 being overly positive or more subtle personalities, such as maturity, tend to be of lower quality compared to more overt traits like timidity. This study aims to assist developers in crafting more nuanced filler dialogues, thereby enriching player immersion and enhancing the overall RPG experience. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# 評価誘導型近親政策最適化:動的グリッド世界における心理学的障害のモデル化
Appraisal-Guided Proximal Policy Optimization: Modeling Psychological Disorders in Dynamic Grid World ( http://arxiv.org/abs/2407.20383v1 ) ライセンス: Link先を確認 | Hari Prasad, Chinnu Jacob, Imthias Ahamed T. P, | (参考訳) 複数のドメインにまたがる人工知能の統合は、AIにおける人間のような認知プロセスを複製することの重要性を強調している。
感情的な知性をAIエージェントに組み込むことで、その感情的な安定性を評価し、重要な意思決定タスクにおけるレジリエンスと信頼性を高めることができる。
本研究では,Reinforcement Learning (RL) エージェントを用いた心理的障害のモデル化手法を開発する。
我々は評価理論を利用して,動的グリッド環境におけるRLエージェントの訓練にAG-PPOアルゴリズムを用いた。
さらに,心理学的障害をシミュレートし,エージェントの行動を制御するための報酬形成戦略を多数検討した。
修正されたPPOアルゴリズムの様々な構成の比較により、不安障害とOCD(Obsessive-Compulsive Disorder)のようなエージェントの振る舞いをシミュレートする変異が同定された。
さらに、標準的なPPOとAG-PPOとその構成を比較し、一般化機能の観点から性能改善を強調した。
最後に, 複雑なテスト環境下でのエージェントの行動パターンの分析を行い, 精神障害に関連する症状について検討した。
本研究は,標準的なPPOアルゴリズムに対する評価誘導PPOアルゴリズムの利点と,制御された人工環境における心理的障害をシミュレートし,RLエージェント上で評価する可能性を示す。
The integration of artificial intelligence across multiple domains has emphasized the importance of replicating human-like cognitive processes in AI. By incorporating emotional intelligence into AI agents, their emotional stability can be evaluated to enhance their resilience and dependability in critical decision-making tasks. In this work, we develop a methodology for modeling psychological disorders using Reinforcement Learning (RL) agents. We utilized Appraisal theory to train RL agents in a dynamic grid world environment with an Appraisal-Guided Proximal Policy Optimization (AG-PPO) algorithm. Additionally, we investigated numerous reward-shaping strategies to simulate psychological disorders and regulate the behavior of the agents. A comparison of various configurations of the modified PPO algorithm identified variants that simulate Anxiety disorder and Obsessive-Compulsive Disorder (OCD)-like behavior in agents. Furthermore, we compared standard PPO with AG-PPO and its configurations, highlighting the performance improvement in terms of generalization capabilities. Finally, we conducted an analysis of the agents' behavioral patterns in complex test environments to evaluate the associated symptoms corresponding to the psychological disorders. Overall, our work showcases the benefits of the appraisal-guided PPO algorithm over the standard PPO algorithm and the potential to simulate psychological disorders in a controlled artificial environment and evaluate them on RL agents. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# 機械学習を用いた心臓MRIにおける左室の正確なセグメンテーションのための2相セグメンテーション法
Two-Phase Segmentation Approach for Accurate Left Ventricle Segmentation in Cardiac MRI using Machine Learning ( http://arxiv.org/abs/2407.20387v1 ) ライセンス: Link先を確認 | Maria Tamoor, Abbas Raza Ali, Philemon Philip, Ruqqayia Adil, Rabia Shahid, Asma Naseer, | (参考訳) 左室の正確なセグメンテーションは, 疾患検出, 局所解析, 心臓外科的計画のための複雑なモデルの開発において重要な意味を持つ。
CMRは、サーバー心疾患の診断における黄金の標準である。
CMRのLVは、ベーサル、ミッドベントリクル、アピカルの3つの異なるセクションから構成される。
本研究では,心臓MRI(CMR)スキャンからLVの正確なセグメンテーションに着目し,機械学習(ML)の機能と結合する。
この研究の中心的な課題は、3種類のLVスライスに適用されるパラメータのセットが存在しないことである。
基底スライスに最適化されたパラメータは、中心室スライスや心尖スライスに適用すると、しばしば短くなる。
この問題に対処するために,LVセグメンテーションを強化する新しい手法を提案する。
提案手法はスライスの種類ごとに異なるパラメータの集合を用いており、結果として2相分割法が成立する。
最初のフェーズでは、LVスライスの種類に基づいて画像を3つのグループに分類し、第2フェーズでは、前フェーズから派生したパラメータを用いてCMR画像を分割する。
公開されているデータセット(ACDC(Automated Cardiac Diagnosis Challenge)が使用されている。
10-Fold Cross Validation を使用しており、平均スコアは 0.9228 である。
包括的なテストは、特定の種類のスライスに対して最適なパラメータセットが他のスライスタイプに対して適切に動作しないことを示している。
これらの結果から,LVの2相セグメンテーションモデルを用いてパラメータ標準化において重要な空白を埋めることが示され,心画像解析の精度の向上だけでなく,LVセグメンテーションの分野の進歩にも寄与することが示唆された。
Accurate segmentation of the Left Ventricle (LV) holds substantial importance due to its implications in disease detection, regional analysis, and the development of complex models for cardiac surgical planning. CMR is a golden standard for diagnosis of serveral cardiac diseases. LV in CMR comprises of three distinct sections: Basal, Mid-Ventricle, and Apical. This research focuses on the precise segmentation of the LV from Cardiac MRI (CMR) scans, joining with the capabilities of Machine Learning (ML). The central challenge in this research revolves around the absence of a set of parameters applicable to all three types of LV slices. Parameters optimized for basal slices often fall short when applied to mid-ventricular and apical slices, and vice versa. To handle this issue, a new method is proposed to enhance LV segmentation. The proposed method involves using distinct sets of parameters for each type of slice, resulting in a two-phase segmentation approach. The initial phase categorizes images into three groups based on the type of LV slice, while the second phase aims to segment CMR images using parameters derived from the preceding phase. A publicly available dataset (Automated Cardiac Diagnosis Challenge (ACDC)) is used. 10-Fold Cross Validation is used and it achieved a mean score of 0.9228. Comprehensive testing indicates that the best parameter set for a particular type of slice does not perform adequately for the other slice types. All results show that the proposed approach fills a critical void in parameter standardization through a two-phase segmentation model for the LV, aiming to not only improve the accuracy of cardiac image analysis but also contribute advancements to the field of LV segmentation. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# アライメントスコア:マルチビューポース精度評価のためのロバストメトリクス
Alignment Scores: Robust Metrics for Multiview Pose Accuracy Evaluation ( http://arxiv.org/abs/2407.20391v1 ) ライセンス: Link先を確認 | Seong Hun Lee, Javier Civera, | (参考訳) 本稿では,TAS(Translation Alignment Score),RAS(Rotation Alignment Score),PAS(Pose Alignment Score)の3つの新しい指標を提案する。
TASは回転とは独立して翻訳精度を評価し、RASは翻訳とは独立して回転精度を評価する。
PASは2つのスコアの平均であり、翻訳と回転の組合せの精度を評価する。
TASは以下の4つのステップで計算される: 1) 最寄りのペア距離の上位4分の1、$d$。
2) 頑健な登録法を用いて, 推定軌道を真実に順応する。
(3)全ての距離誤差を収集し、0.01d$から0.01d$までの複数のしきい値の累積周波数を得る。
(4) これらの累積周波数を加算し、理論上の最大値が1となるように正規化する。
TASは,(1)アウトレーヤやコリニア運動に対して頑健であり,(2)異なるデータセットのパラメータを調整する必要がないという点において,既存の指標に対して現実的な優位性を持っている。
RASはTASと同じような方法で計算され、既存の回転測定値よりも外れ値に対して堅牢であることも示されている。
我々は、広範囲なシミュレーションを通じてクレームを検証するとともに、提案した指標の長所と短所について詳細な議論を行う。
We propose three novel metrics for evaluating the accuracy of a set of estimated camera poses given the ground truth: Translation Alignment Score (TAS), Rotation Alignment Score (RAS), and Pose Alignment Score (PAS). The TAS evaluates the translation accuracy independently of the rotations, and the RAS evaluates the rotation accuracy independently of the translations. The PAS is the average of the two scores, evaluating the combined accuracy of both translations and rotations. The TAS is computed in four steps: (1) Find the upper quartile of the closest-pair-distances, $d$. (2) Align the estimated trajectory to the ground truth using a robust registration method. (3) Collect all distance errors and obtain the cumulative frequencies for multiple thresholds ranging from $0.01d$ to $d$ with a resolution $0.01d$. (4) Add up these cumulative frequencies and normalize them such that the theoretical maximum is 1. The TAS has practical advantages over the existing metrics in that (1) it is robust to outliers and collinear motion, and (2) there is no need to adjust parameters on different datasets. The RAS is computed in a similar manner to the TAS and is also shown to be more robust against outliers than the existing rotation metrics. We verify our claims through extensive simulations and provide in-depth discussion of the strengths and weaknesses of the proposed metrics. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# 医用画像セグメンテーションのためのDense Self-Supervised Learning
Dense Self-Supervised Learning for Medical Image Segmentation ( http://arxiv.org/abs/2407.20395v1 ) ライセンス: Link先を確認 | Maxime Seince, Loic Le Folgoc, Luiz Augusto Facury de Souza, Elsa Angelini, | (参考訳) 深層学習は医用画像セグメンテーションに革命をもたらしたが、高品質なアノテーションに大きく依存している。
新しいタスクごとにピクセルレベルの画像にラベルをつけるのに必要な時間、コスト、専門知識は、このパラダイムの普及を遅らせている。
本手法では,ラベルのない画像から直接,強力なピクセルレベルの表現を学習することで,手動によるアノテーションの負担を軽減することができる。
Pix2Repは、画像全体の対照的なSSLのための新しいピクセルレベルの損失および事前トレーニングパラダイムである。
これは、一般的なエンコーダ/デコーダのディープラーニングバックボーン(例:U-Net)に適用される。
ほとんどのSSL法は、強度と空間像の増大の下で学習された画像レベルの表現の不変性を強制するが、Pix2Repはピクセルレベルの表現の等価性を強制する。
心臓MRIのセグメンテーションの課題について,その枠組みを実証する。
その結果、既存の半教師付きアプローチや自己教師付きアプローチと比較して性能が向上し、完全な教師付きU-Netベースラインに比べて、等価性能のアノテーション負担が5倍削減された。
これには、リニアプロービング(resp. fine-tuning)の下でのワンショットセグメンテーションに対する30%(resp. 31%)のDICE改善が含まれている。
最後に、新しいPix2RepコンセプトをBarlow Twins非競合SSLと統合することで、セグメンテーションのパフォーマンスがさらに向上する。
Deep learning has revolutionized medical image segmentation, but it relies heavily on high-quality annotations. The time, cost and expertise required to label images at the pixel-level for each new task has slowed down widespread adoption of the paradigm. We propose Pix2Rep, a self-supervised learning (SSL) approach for few-shot segmentation, that reduces the manual annotation burden by learning powerful pixel-level representations directly from unlabeled images. Pix2Rep is a novel pixel-level loss and pre-training paradigm for contrastive SSL on whole images. It is applied to generic encoder-decoder deep learning backbones (e.g., U-Net). Whereas most SSL methods enforce invariance of the learned image-level representations under intensity and spatial image augmentations, Pix2Rep enforces equivariance of the pixel-level representations. We demonstrate the framework on a task of cardiac MRI segmentation. Results show improved performance compared to existing semi- and self-supervised approaches; and a 5-fold reduction in the annotation burden for equivalent performance versus a fully supervised U-Net baseline. This includes a 30% (resp. 31%) DICE improvement for one-shot segmentation under linear-probing (resp. fine-tuning). Finally, we also integrate the novel Pix2Rep concept with the Barlow Twins non-contrastive SSL, which leads to even better segmentation performance. | 翻訳日:2024-07-31 18:58:28 公開日:2024-07-29 |
# デバイス不完全性に対するセキュリティ証明のための相互情報連鎖ルール
Mutual information chain rules for security proofs robust against device imperfections ( http://arxiv.org/abs/2407.20396v1 ) ライセンス: Link先を確認 | Amir Arqand, Tony Metger, Ernest Y. -Z. Tan, | (参考訳) 本研究では、敵に追加情報を漏らす不完全な装置を用いて量子暗号を分析するのに適した、相互情報量に関する多くの連鎖ルールを導出する。
まず、スムーズな最小エントロピーとスムーズな最大情報の間の連鎖則を導出し、追加条件レジスタによるワンショット情報漏洩を特徴付ける以前のチェーン規則よりも改善する。
第二に、エントロピーの累積定理と同様の個々のチャネル出力のR'enyi相互情報の観点から、一連のチャネルによって生成される状態のR'enyi相互情報をバウンドする'information bounding theorem''を導出する。
特に、これは前の連鎖則の滑らかな極大情報に単純な境界を与える。
第3に、R'enyiエントロピーとR'enyi相互情報の間の連鎖規則を導出し、これはエントロピー累積定理を修正して、プロトコルの各ラウンドで相手に送信されるリークレジスタに適合させることができる。
これらの結果は、ランダムネス生成や量子鍵分布など、デバイスに依存しない、デバイスに依存しない様々なプロトコルにおいて、デバイス不完全性を扱うために使用できることを示す。
In this work we derive a number of chain rules for mutual information quantities, suitable for analyzing quantum cryptography with imperfect devices that leak additional information to an adversary. First, we derive a chain rule between smooth min-entropy and smooth max-information, which improves over previous chain rules for characterizing one-shot information leakage caused by an additional conditioning register. Second, we derive an ''information bounding theorem'' that bounds the R\'enyi mutual information of a state produced by a sequence of channels, in terms of the R\'enyi mutual information of the individual channel outputs, similar to entropy accumulation theorems. In particular, this yields simple bounds on the smooth max-information in the preceding chain rule. Third, we derive chain rules between R\'enyi entropies and R\'enyi mutual information, which can be used to modify the entropy accumulation theorem to accommodate leakage registers sent to the adversary in each round of a protocol. We show that these results can be used to handle some device imperfections in a variety of device-dependent and device-independent protocols, such as randomness generation and quantum key distribution. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# 単光LiDARにおけるランク順平均アルゴリズムの解析と改善
Analysis and Improvement of Rank-Ordered Mean Algorithm in Single-Photon LiDAR ( http://arxiv.org/abs/2407.20399v1 ) ライセンス: Link先を確認 | William C. Yau, Weijian Zhang, Hashan Kavinga Weerasooriya, Stanley H. Chan, | (参考訳) 単一光子LiDARを用いた深さ推定は、マッチングフィルタによってしばしば解決される。
しかし、バックグラウンドノイズの存在下ではエラーが発生しやすい。
Shin \textit{et al } (2015) が以前報告したランク順序付き平均 (ROM) フィルタは、背景雑音を除去するための一般的な手法である。
ROMは、近辺の中央値の統計値について、少数の光子の到着時間スタンプのみを選択することにより、ノイズの多い光子の到着時間スタンプを拒絶する。
ROMの有望な性能にもかかわらず、その理論的性能の限界は分かっていない。
本稿では,ROMが深さと信号-地上比で所定の閾値以下に低下した場合にROM性能が低下し,その精度が切断時に位相遷移することを示すことにより,ROM性能を理論的に特徴づける。
この理論に基づいて,タイトなタイムスタンプクラスタを選択することで,信号抽出の精度を向上させる手法を提案する。
実験結果から,提案アルゴリズムはROM上の3桁の信号強度で深度推定性能を向上し,信号の17倍のノイズレベルの高画質化を実現していることがわかった。
Depth estimation using a single-photon LiDAR is often solved by a matched filter. It is, however, error-prone in the presence of background noise. A commonly used technique to reject background noise is the rank-ordered mean (ROM) filter previously reported by Shin \textit{et al.} (2015). ROM rejects noisy photon arrival timestamps by selecting only a small range of them around the median statistics within its local neighborhood. Despite the promising performance of ROM, its theoretical performance limit is unknown. In this paper, we theoretically characterize the ROM performance by showing that ROM fails when the reflectivity drops below a threshold predetermined by the depth and signal-to-background ratio, and its accuracy undergoes a phase transition at the cutoff. Based on our theory, we propose an improved signal extraction technique by selecting tight timestamp clusters. Experimental results show that the proposed algorithm improves depth estimation performance over ROM by 3 orders of magnitude at the same signal intensities, and achieves high image fidelity at noise levels as high as 17 times that of signal. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# 見た目のガラスとホーン・クラウス・プログラムで見つかるもの
Through the Looking Glass, and what Horn Clause Programs Found There ( http://arxiv.org/abs/2407.20413v1 ) ライセンス: Link先を確認 | Paul Tarau, | (参考訳) 二重ホーン節は、ホーン節の鍵特性を反映する。
本稿では,「外観ガラスのもう1つの側面」を探求し,期待される,予期せぬ対称性とその実用性を明らかにする。
我々はDual Horn節を、ゴール駆動の前方推論をサポートし、直観的にも古典的にも有効である建設的否定の形式の実現者として再考する。
特に、二重ホーン節プログラムとして表される背景理論の文脈において、反事実仮説をファルシフィケートする能力について検討する。
Dual Horn節のプログラムでは、否定を失敗とするのとは対照的に、計算された回答の変数バインディングは、ステートメントがファルシフィケーションに成功している理由の説明を提供する。
さらに、命題の場合、ASPシステムにおける安定なモデルセマンティクスで実装された失敗としての否定とは対照的に、Hhorn節プログラムと同様に、Dual Horn節プログラムは多項式複雑性を持つ。
メタインタプリタでそれらの実行モデルを指定すると、デュアルホーン節プログラムからホーン節プログラムへのコンパイルスキームを考案し、その実行をパフォーマンスペナルティなしで確実にし、ホルン節とデュアルホーン節プログラムの組み合わせをサポートするために組み込みのSymLP言語を設計する。
動機付け型)アプリケーションとして,LLM推論チェーンを命題HhornおよびDual Horn節にキャストし,目的を構築的かつ証明し,推論チェーンの説明可能性を備えた生成AIを強化する。
Dual Horn clauses mirror key properties of Horn clauses. This paper explores the ``other side of the looking glass'' to reveal some expected and unexpected symmetries and their practical uses. We revisit Dual Horn clauses as enablers of a form of constructive negation that supports goal-driven forward reasoning and is valid both intuitionistically and classically. In particular, we explore the ability to falsify a counterfactual hypothesis in the context of a background theory expressed as a Dual Horn clause program. With Dual Horn clause programs, by contrast to negation as failure, the variable bindings in their computed answers provide explanations for the reasons why a statement is successfully falsified. Moreover, in the propositional case, by contrast to negation as failure as implemented with stable models semantics in ASP systems, and similarly to Horn clause programs, Dual Horn clause programs have polynomial complexity. After specifying their execution model with a metainterpreter, we devise a compilation scheme from Dual Horn clause programs to Horn clause programs, ensuring their execution with no performance penalty and we design the embedded SymLP language to support combined Horn clause and Dual Horn clause programs. As a (motivating) application, we cast LLM reasoning chains into propositional Horn and Dual Horn clauses that work together to constructively prove and disprove goals and enhance Generative AI with explainability of reasoning chains. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# ニューロモルフィックプロセッサ上のイベントベース光フロー:活性化スパーシフィケーションに基づくANNとSNNの比較
Event-based Optical Flow on Neuromorphic Processor: ANN vs. SNN Comparison based on Activation Sparsification ( http://arxiv.org/abs/2407.20421v1 ) ライセンス: Link先を確認 | Yingfu Xu, Guangzhi Tang, Amirreza Yousefzadeh, Guido de Croon, Manolis Sifalakis, | (参考訳) イベントベースの光学フローのためのスパイクニューラルネットワーク(SNN)は、彼らの人工知能ニューラルネットワーク(ANN)よりも計算効率が良いと主張されているが、文献では公正な比較が欠落している。
本研究では,アクティベーションスペーシフィケーションに基づくイベントベース光フローソリューションとニューロモーフィックプロセッサSENECAを提案する。
SENECAは、ANNアクティベーションとSNNスパイクの間隔を利用して、両方のタイプのニューラルネットワークの推論を加速するイベント駆動処理機構を備えている。
ANNとSNNは、我々の新しいスパーシフィケーション・アウェアトレーニングのおかげで、同様の低活性化/スパイク密度(〜5%)を持つ。
平均時間とエネルギー消費を推定するために設計されたハードウェア・イン・ループの実験では、SNNは44.9msと927.0マイクロジュールを消費しており、それぞれ62.5%と75.2%である。
SNNの高効率性は、ニューロン状態のメモリアクセス操作を少なくするピクセルワイドスパイク密度(43.5%対66.5%)が低いためである。
Spiking neural networks (SNNs) for event-based optical flow are claimed to be computationally more efficient than their artificial neural networks (ANNs) counterparts, but a fair comparison is missing in the literature. In this work, we propose an event-based optical flow solution based on activation sparsification and a neuromorphic processor, SENECA. SENECA has an event-driven processing mechanism that can exploit the sparsity in ANN activations and SNN spikes to accelerate the inference of both types of neural networks. The ANN and the SNN for comparison have similar low activation/spike density (~5%) thanks to our novel sparsification-aware training. In the hardware-in-loop experiments designed to deduce the average time and energy consumption, the SNN consumes 44.9ms and 927.0 microjoules, which are 62.5% and 75.2% of the ANN's consumption, respectively. We find that SNN's higher efficiency attributes to its lower pixel-wise spike density (43.5% vs. 66.5%) that requires fewer memory access operations for neuron states. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# XAI手法のユーザ評価のための新しい指標としての平均オピニオンスコア
Mean Opinion Score as a New Metric for User-Evaluation of XAI Methods ( http://arxiv.org/abs/2407.20427v1 ) ライセンス: Link先を確認 | Hyeon Yu, Jenny Benois-Pineau, Romain Bourqui, Romain Giot, Alexey Zhukov, | (参考訳) 本稿では,XAIポストホック説明器のユーザ中心評価指標として,画像品質基準である平均オピニオンスコア(MOS)を用いた。
MOSを測定するために,意図的に歪んだ画像の説明マップを用いてユーザ実験を行った。
重み付きクラス活性化マッピング(Grad-CAM)、MLFEM(Multi-Layered Feature Explanation Method)、FEM(Feature Explanation Method)の3つの手法を比較した。
さらに、この新たなユーザ中心メトリックと自動メトリクスの相関は、Spearmanのランク相関係数を用いて検討する。
MLFEMのMOSは、IAUC(Insertion Area Under Curve)とDAUC(Deletion Area Under Curve)の自動測定値と最も相関している。
しかし、全体的な相関は限られており、自動とユーザー中心のメトリクスのコンセンサスが欠如していることが浮き彫りになっている。
This paper investigates the use of Mean Opinion Score (MOS), a common image quality metric, as a user-centric evaluation metric for XAI post-hoc explainers. To measure the MOS, a user experiment is proposed, which has been conducted with explanation maps of intentionally distorted images. Three methods from the family of feature attribution methods - Gradient-weighted Class Activation Mapping (Grad-CAM), Multi-Layered Feature Explanation Method (MLFEM), and Feature Explanation Method (FEM) - are compared with this metric. Additionally, the correlation of this new user-centric metric with automatic metrics is studied via Spearman's rank correlation coefficient. MOS of MLFEM shows the highest correlation with automatic metrics of Insertion Area Under Curve (IAUC) and Deletion Area Under Curve (DAUC). However, the overall correlations are limited, which highlights the lack of consensus between automatic and user-centric metrics. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# ニューラル・サロゲート HMC: ニューラルネットワーク・サロゲート様のハミルトニアン・モンテカルロ加速
Neural Surrogate HMC: Accelerated Hamiltonian Monte Carlo with a Neural Network Surrogate Likelihood ( http://arxiv.org/abs/2407.20432v1 ) ライセンス: Link先を確認 | Linnea M Wolniewicz, Peter Sadowski, Claudio Corti, | (参考訳) マルコフ・チェイン・モンテカルロによるベイズ推論は、確率関数の効率的な計算を必要とする。
いくつかの科学的応用では、確率は偏微分方程式を数値的に解くことによって計算されなければならない。
ニューラルネットワークによって実装された代理確率関数を用いて計算を復号化することにより、そのような問題のいくつかを抽出可能であることを実証する。
これは、確率評価におけるノイズの低減と高速勾配計算の2つの利点があることを示す。
実験では、この手法が銀河系宇宙線のヘリオスフェリック輸送のモデルに適用され、パーカー方程式における潜伏パラメータの後方からの効率的なサンプリングを可能にした。
Bayesian Inference with Markov Chain Monte Carlo requires efficient computation of the likelihood function. In some scientific applications, the likelihood must be computed by numerically solving a partial differential equation, which can be prohibitively expensive. We demonstrate that some such problems can be made tractable by amortizing the computation with a surrogate likelihood function implemented by a neural network. We show that this has two additional benefits: reducing noise in the likelihood evaluations and providing fast gradient calculations. In experiments, the approach is applied to a model of heliospheric transport of galactic cosmic rays, where it enables efficient sampling from the posterior of latent parameters in the Parker equation. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# 離散出力センサネットワーク:複数検出イベントとグループ化検出器
Discrete-outcome sensor networks: Multiple detection events and grouping detectors ( http://arxiv.org/abs/2407.20435v1 ) ライセンス: Link先を確認 | Nada Ali, Mark Hillery, | (参考訳) 量子センサーネットワークは、検出器の1つで磁場の強さなどのパラメータを正確に決定できるかどうかを判断するためにしばしば研究されてきた。
より粗いアプローチは、検出器が信号と相互作用したかどうか、それがどの検出器であったのかを単純に判断することである。
このような離散的な量子センサーネットワークは、イエスノー質問に対する回答を求めるという意味では離散的であり、私たちがここで研究している。
問題のひとつは、ネットワークにとって良い初期状態であり、特に、絡み合っていなければならないかどうかである。
さっき、1つの検出器しか相互作用しないケースを調べたが、ここではその研究を2つの方法で拡張した。
第一に、一つの検出器が相互作用すること、第二に、検出器をグループ化する効果について検討する。
検出器がグループ化されたとき、私たちはどのグループに相互作用する検出器が含まれており、グループ内の個々の検出器が相互作用するわけではないことにのみ興味を持っています。
グループ化検出器の場合、絡み合った初期状態が有用であることがわかった。
Quantum sensor networks have often been studied in order to determine how accurately they can determine a parameter, such as the strength of a magnetic field, at one of the detectors. A more coarse-grained approach is to try to simply determine whether a detector has interacted with a signal or not, and which detector it was. Such discrete-outcome quantum sensor networks, discrete in the sense that we are seeking answers to yes-no questions, are what we study here. One issue is what is a good initial state for the network, and, in particular, should it be entangled or not. Earlier we looked at the case when only one detector interacted, and here we extend that study in two ways. First, we allow more that one detector to interact, and second, we examine the effect of grouping the detectors. When the detectors are grouped we are only interested in which group contained interacting detectors and not in which individual detectors within a group interacted. We find that in the case of grouping detectors, entangled initial states can be helpful. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# BaseBoostDepth: 自己教師型単眼深度推定のためにより大きなベースラインを爆発させる
BaseBoostDepth: Exploiting Larger Baselines For Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2407.20437v1 ) ライセンス: Link先を確認 | Kieran Saunders, Luis J. Manso, George Vogiatzis, | (参考訳) マルチベースラインステレオの領域では、一般的に、ベースライン分離の増加は、深さ推定の精度を大幅に向上させる。
しかし、一般的な自己監督型深度推定アーキテクチャは主に最小のフレーム分離と制約付きステレオベースラインを使用する。
より大きなフレーム分離を用いることができるが、明るさの顕著な変化や閉塞領域の増加など、様々な要因による深度品質の低下が示される。
これらの課題に対応するために,提案手法であるBaseBoostDepthは,より大規模なフレーム分離を効果的に活用するためのカリキュラムに着想を得た最適化戦略を取り入れている。
しかし,我々のカリキュラムに着想を得た戦略だけでは十分ではないことが明らかとなった。
そこで我々は,ポーズ推定の精度を高めるために,インクリメンタルなポーズ推定を導入する。
さらに,モデルのロバスト性を改善するために,ポーズ推定に誤りを加えて再構成を最適化する誤り誘発再構成を導入する。
最終的に、我々の最終深度ネットワークは、テスト時に計算複雑性を増大させることなく、画像ベース、エッジベース、ポイントクラウドベースのメトリクスにわたるKITTIとSynS-patchesデータセットの最先端のパフォーマンスを達成する。
プロジェクトのWebサイトはhttps://kieran514.github.io/BaseBoostDepth-Projectにある。
In the domain of multi-baseline stereo, the conventional understanding is that, in general, increasing baseline separation substantially enhances the accuracy of depth estimation. However, prevailing self-supervised depth estimation architectures primarily use minimal frame separation and a constrained stereo baseline. Larger frame separations can be employed; however, we show this to result in diminished depth quality due to various factors, including significant changes in brightness, and increased areas of occlusion. In response to these challenges, our proposed method, BaseBoostDepth, incorporates a curriculum learning-inspired optimization strategy to effectively leverage larger frame separations. However, we show that our curriculum learning-inspired strategy alone does not suffice, as larger baselines still cause pose estimation drifts. Therefore, we introduce incremental pose estimation to enhance the accuracy of pose estimations, resulting in significant improvements across all depth metrics. Additionally, to improve the robustness of the model, we introduce error-induced reconstructions, which optimize reconstructions with added error to the pose estimations. Ultimately, our final depth network achieves state-of-the-art performance on KITTI and SYNS-patches datasets across image-based, edge-based, and point cloud-based metrics without increasing computational complexity at test time. The project website can be found at https://kieran514.github.io/BaseBoostDepth-Project. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# 機械翻訳におけるジェンダーオルタナティブの生成
Generating Gender Alternatives in Machine Translation ( http://arxiv.org/abs/2407.20438v1 ) ライセンス: Link先を確認 | Sarthak Garg, Mozhdeh Gheini, Clara Emmanuel, Tatiana Likhomanenko, Qin Gao, Matthias Paulik, | (参考訳) 機械翻訳(MT)システムは、しばしばあいまいなジェンダー(例:英語で「看護師」)の用語を、システムのトレーニングデータ(例:「女性看護師」のスペイン語用語)で最も一般的なジェンダー形式に翻訳する。
これはしばしば社会に存在する有害なステレオタイプを反映し永続する。
MTユーザインタフェースを念頭に置いて、男女のあいまいさを摩擦のない方法で解決する。
5つの言語ペアのためのトレインとテストデータセットをオープンソースとして公開し、このタスクのベンチマークを確立します。
我々の重要な技術的貢献は、標準のMTモデルとシームレスに統合し、追加のコンポーネントや推論オーバーヘッドを増大させることなく高性能を維持する代替品を生成するための、新しい半教師付きソリューションである。
Machine translation (MT) systems often translate terms with ambiguous gender (e.g., English term "the nurse") into the gendered form that is most prevalent in the systems' training data (e.g., "enfermera", the Spanish term for a female nurse). This often reflects and perpetuates harmful stereotypes present in society. With MT user interfaces in mind that allow for resolving gender ambiguity in a frictionless manner, we study the problem of generating all grammatically correct gendered translation alternatives. We open source train and test datasets for five language pairs and establish benchmarks for this task. Our key technical contribution is a novel semi-supervised solution for generating alternatives that integrates seamlessly with standard MT models and maintains high performance without requiring additional components or increasing inference overhead. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# GPTジレンマ:基礎モデルとデュアルユースの影
The GPT Dilemma: Foundation Models and the Shadow of Dual-Use ( http://arxiv.org/abs/2407.20442v1 ) ライセンス: Link先を確認 | Alan Hickey, | (参考訳) 本稿では、基礎モデルの二重利用課題と、それらが国際安全保障にもたらすリスクについて検討する。
人工知能(AI)モデルが民間部門と軍事部門の両方でテストされ、展開されるにつれて、これらのユースケースの区別はより複雑になり、国家間の誤解や意図しないエスカレーションにつながる可能性がある。
基礎モデルの幅広い能力は、軍事的使用のために民間のモデルを再購入するコストを下げ、これらのモデルの開発と配備の背後にある他の州の意図を識別することが困難になった。
軍事能力がAIによって強化されるにつれて、この認識は、国家が軍事的脅威に直面する範囲を評価する上で極めて重要である。
したがって、これらのモデルの軍事的および民間的応用を区別する能力は、潜在的な軍事的エスカレーションを回避するための鍵となる。
本稿では,基礎モデルの開発サイクルにおける4つの重要な要因として,モデル入力,機能,システム利用事例,システム展開について分析する。
この枠組みは、民間と軍事の応用のあいまいさが生じる可能性のある点を明らかにするのに役立ち、潜在的に誤解を招く可能性がある。
本稿では、中距離原子力軍(INF)条約をケーススタディとして、関連するリスクを軽減するためのいくつかの戦略を提案する。
軍事競争のための赤い線を確立すること、情報共有プロトコルを強化すること、国際的透明性を促進するための基礎モデルを採用すること、特定の武器プラットフォームに制約を課すことなどが含まれる。
デュアルユースリスクを効果的に管理することにより、これらの戦略は、潜在的なエスカレーションを最小限に抑え、ますます一般的なAIモデルに伴うトレードオフに対処することを目的としている。
This paper examines the dual-use challenges of foundation models and the consequent risks they pose for international security. As artificial intelligence (AI) models are increasingly tested and deployed across both civilian and military sectors, distinguishing between these uses becomes more complex, potentially leading to misunderstandings and unintended escalations among states. The broad capabilities of foundation models lower the cost of repurposing civilian models for military uses, making it difficult to discern another state's intentions behind developing and deploying these models. As military capabilities are increasingly augmented by AI, this discernment is crucial in evaluating the extent to which a state poses a military threat. Consequently, the ability to distinguish between military and civilian applications of these models is key to averting potential military escalations. The paper analyzes this issue through four critical factors in the development cycle of foundation models: model inputs, capabilities, system use cases, and system deployment. This framework helps elucidate the points at which ambiguity between civilian and military applications may arise, leading to potential misperceptions. Using the Intermediate-Range Nuclear Forces (INF) Treaty as a case study, this paper proposes several strategies to mitigate the associated risks. These include establishing red lines for military competition, enhancing information-sharing protocols, employing foundation models to promote international transparency, and imposing constraints on specific weapon platforms. By managing dual-use risks effectively, these strategies aim to minimize potential escalations and address the trade-offs accompanying increasingly general AI models. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# マルチホップ量子ネットワークにおけるレジリエントエンタングルメント分布
Resilient Entanglement Distribution in a Multihop Quantum Network ( http://arxiv.org/abs/2407.20443v1 ) ライセンス: Link先を確認 | Muneer Alshowkan, Joseph M. Lukens, Hsuan-Hao Lu, Nicholas A. Peters, | (参考訳) 量子ネットワークの進化には、多様なユーザニーズを満たすために動的に再構成可能なエンタングルメント分布を持つアーキテクチャが必要であり、トランスミッションディスラプションに対する耐性を確保する必要がある。
我々は、中間ノード間の量子通信を可能にし、ネットワーク接続を拡大し、拡張性を高めることで、ネットワークリーチとレジリエンスを向上させるためにマルチホップ量子ネットワークを導入する。
オークリッジ国立研究所キャンパスにおける量子ネットワーク内での多重ホップ2量子偏光-絡み合い分布について述べる。
本システムでは、量子データプレーンと古典データと制御プレーンを統合し、フレキシブルで再構成可能なメッシュを作成するソフトウェア定義量子ネットワーク上での適応帯域幅管理に波長選択スイッチを使用する。
我々のネットワークは,3つのサブネットワーク内の6つのノードにまたがる絡み合いを分散し,それぞれ別の建物に配置し,適応的な資源管理を通じて量子状態の忠実度と伝達率を最適化する。
さらに、リンク障害にもかかわらず、サービス継続性を維持するために量子リソースを監視し、再利用するリンクリカバリアプローチを実装することで、ネットワークのレジリエンスを実証します。
The evolution of quantum networking requires architectures capable of dynamically reconfigurable entanglement distribution to meet diverse user needs and ensure tolerance against transmission disruptions. We introduce multihop quantum networks to improve network reach and resilience by enabling quantum communications across intermediate nodes, thus broadening network connectivity and increasing scalability. We present multihop two-qubit polarization-entanglement distribution within a quantum network at the Oak Ridge National Laboratory campus. Our system uses wavelength-selective switches for adaptive bandwidth management on a software-defined quantum network that integrates a quantum data plane with classical data and control planes, creating a flexible, reconfigurable mesh. Our network distributes entanglement across six nodes within three subnetworks, each located in a separate building, optimizing quantum state fidelity and transmission rate through adaptive resource management. Additionally, we demonstrate the network's resilience by implementing a link recovery approach that monitors and reroutes quantum resources to maintain service continuity despite link failures -- paving the way for scalable and reliable quantum networking infrastructures. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# 重要度補正型ニューラルJKOサンプリング
Importance Corrected Neural JKO Sampling ( http://arxiv.org/abs/2407.20444v1 ) ライセンス: Link先を確認 | Johannes Hertrich, Robert Gruhlke, | (参考訳) 非正規化確率密度関数から標本化するために、重み付けに基づいて連続正規化フロー(CNF)と回帰再サンプリングステップを組み合わせることを提案する。
本稿では, CNF の定常速度場と JKO スキームの反復学習を関連づけ, ワッサーシュタイン勾配流(WGF)の速度場への関連速度場の収束性を証明する。
局所的フローステップと非局所的リサンプリングステップの交互化により、マルチモーダル分布に対するWGFの局所的最小化や緩やかな収束を克服することができる。
拒絶ステップの提案はモデル自身によって生成されるため、古典的な拒絶スキームの共通の欠点に苦しむことはない。
生成モデルは反復的に訓練でき、各ステップにおける逆カルバック・リーブラー(KL)損失関数を低減し、iidサンプルを生成し、さらに、生成された基礎密度の評価を可能にする。
数値的な例では,高次元マルチモーダルターゲットを含む各種試験分布の精度が向上し,ほぼすべての場合において最先端の精度が向上している。
In order to sample from an unnormalized probability density function, we propose to combine continuous normalizing flows (CNFs) with rejection-resampling steps based on importance weights. We relate the iterative training of CNFs with regularized velocity fields to a JKO scheme and prove convergence of the involved velocity fields to the velocity field of the Wasserstein gradient flow (WGF). The alternation of local flow steps and non-local rejection-resampling steps allows to overcome local minima or slow convergence of the WGF for multimodal distributions. Since the proposal of the rejection step is generated by the model itself, they do not suffer from common drawbacks of classical rejection schemes. The arising model can be trained iteratively, reduces the reverse Kulback-Leibler (KL) loss function in each step, allows to generate iid samples and moreover allows for evaluations of the generated underlying density. Numerical examples show that our method yields accurate results on various test distributions including high-dimensional multimodal targets and outperforms the state of the art in almost all cases significantly. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# Futga: テンポラリ強化によるきめ細かい音楽理解を目指して
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation ( http://arxiv.org/abs/2407.20445v1 ) ライセンス: Link先を確認 | Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley, | (参考訳) 既存の音楽キャプション法は短い音楽クリップの簡潔なグローバルな記述に限られており、細かな音楽的特徴やタイムアウェアな音楽的変化を捉えられなかった。
これらの制約に対処するため,時間的構成による生成的拡張から学習することで,微細な音楽理解能力を備えたモデルであるFUTGAを提案する。
既存の音楽キャプションデータセットと大言語モデル(LLM)を利用して、フル長曲の詳細な音楽キャプションを構造記述と時間境界で合成する。
提案した合成データセットにより、FUTGAは、キートランジションポイントとその音楽機能における音楽の時間的変化を識別し、各音楽セグメントについて詳細な記述を生成することができる。
さらに、FUTGAによって生成されたフル長の音楽キャプションデータセットを、MusicCapsとSong Describerデータセットの強化として導入する。
我々は、音楽生成や検索を含む複数の下流タスクにおいて、自動生成されたキャプションを評価する。
実験では, 生成されたキャプションの品質と, 提案した音楽キャプション手法によって達成された様々な下流課題における性能を実証した。
我々のコードとデータセットは \href{https://huggingface.co/JoshuaW1997/FUTGA}{\textcolor{blue}{https://huggingface.co/JoshuaW1997/FUTGA}} で見ることができる。
Existing music captioning methods are limited to generating concise global descriptions of short music clips, which fail to capture fine-grained musical characteristics and time-aware musical changes. To address these limitations, we propose FUTGA, a model equipped with fined-grained music understanding capabilities through learning from generative augmentation with temporal compositions. We leverage existing music caption datasets and large language models (LLMs) to synthesize fine-grained music captions with structural descriptions and time boundaries for full-length songs. Augmented by the proposed synthetic dataset, FUTGA is enabled to identify the music's temporal changes at key transition points and their musical functions, as well as generate detailed descriptions for each music segment. We further introduce a full-length music caption dataset generated by FUTGA, as the augmentation of the MusicCaps and the Song Describer datasets. We evaluate the automatically generated captions on several downstream tasks, including music generation and retrieval. The experiments demonstrate the quality of the generated captions and the better performance in various downstream tasks achieved by the proposed music captioning approach. Our code and datasets can be found in \href{https://huggingface.co/JoshuaW1997/FUTGA}{\textcolor{blue}{https://huggingface.co/JoshuaW1997/FUTGA}}. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# MEVDT:マルチモードイベントベース車両検出・追跡データセット
MEVDT: Multi-Modal Event-Based Vehicle Detection and Tracking Dataset ( http://arxiv.org/abs/2407.20446v1 ) ライセンス: Link先を確認 | Zaid A. El Shair, Samir A. Rawashdeh, | (参考訳) 本稿では,Multi-Modal Event-based Vehicle Detection and Tracking (MEVDT)データセットを紹介する。
このデータセットは、Dynamic and Active-Pixel Vision Sensor (DAVIS) 240cハイブリッドイベントベースのカメラを使用して、イベントデータの同期ストリームとトラフィックシーンのグレースケールイメージを提供する。
MEVDTは63のマルチモーダルシーケンスで構成され、約13kイメージ、5Mイベント、10kオブジェクトラベル、85のユニークなオブジェクト追跡トラジェクトリを含んでいる。
さらに、MEVDTには、オブジェクト分類、ピクセル精度境界ボックス、および24Hzのラベリング周波数で提供されるユニークなオブジェクトIDからなる、手動で注釈付き基底真理ラベル $\unicode{x2014}$が含まれている。
MEVDTは、イベントベースのビジョンの分野での研究を進めるために設計されたもので、自動車環境におけるオブジェクト検出と追跡アルゴリズムの開発と評価を可能にする、高品質で現実世界の注釈付きデータセットに対する重要なニーズに対処することを目的としている。
In this data article, we introduce the Multi-Modal Event-based Vehicle Detection and Tracking (MEVDT) dataset. This dataset provides a synchronized stream of event data and grayscale images of traffic scenes, captured using the Dynamic and Active-Pixel Vision Sensor (DAVIS) 240c hybrid event-based camera. MEVDT comprises 63 multi-modal sequences with approximately 13k images, 5M events, 10k object labels, and 85 unique object tracking trajectories. Additionally, MEVDT includes manually annotated ground truth labels $\unicode{x2014}$ consisting of object classifications, pixel-precise bounding boxes, and unique object IDs $\unicode{x2014}$ which are provided at a labeling frequency of 24 Hz. Designed to advance the research in the domain of event-based vision, MEVDT aims to address the critical need for high-quality, real-world annotated datasets that enable the development and evaluation of object detection and tracking algorithms in automotive environments. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# Domain Adaptable Prescriptive AI Agent for Enterprise
Domain Adaptable Prescriptive AI Agent for Enterprise ( http://arxiv.org/abs/2407.20447v1 ) ライセンス: Link先を確認 | Piero Orderique, Wei Sun, Kristjan Greenewald, | (参考訳) 因果推論と規範的AIの進歩にもかかわらず、エンタープライズ環境での採用は、主に技術的な複雑さのために妨げられている。
多くのユーザーはこれらの技術を効果的に活用するために必要な知識と適切なツールを欠いている。
MIT-IBM Watson AI Labでのこの研究は、概念実証エージェントであるPrecAIseの開発に焦点を当てている。
目的は、先進的で斬新な因果推論と、自然言語の相互作用を通じて広くアクセスできるようにすることである。
発表されている自然言語ユーザインタフェース(NLUI)により、機械学習とデータサイエンスの専門知識に制限のあるユーザは、集中的なコンピューティングリソースを必要とせずに、意思決定プロセスにおける規範的分析を活用できる。
本稿では,機能呼び出し,忠実で対話的でダイナミックな会話の維持,新しいドメインのサポートを行うエージェントを提案する。
Despite advancements in causal inference and prescriptive AI, its adoption in enterprise settings remains hindered primarily due to its technical complexity. Many users lack the necessary knowledge and appropriate tools to effectively leverage these technologies. This work at the MIT-IBM Watson AI Lab focuses on developing the proof-of-concept agent, PrecAIse, a domain-adaptable conversational agent equipped with a suite of causal and prescriptive tools to help enterprise users make better business decisions. The objective is to make advanced, novel causal inference and prescriptive tools widely accessible through natural language interactions. The presented Natural Language User Interface (NLUI) enables users with limited expertise in machine learning and data science to harness prescriptive analytics in their decision-making processes without requiring intensive computing resources. We present an agent capable of function calling, maintaining faithful, interactive, and dynamic conversations, and supporting new domains. | 翻訳日:2024-07-31 18:48:44 公開日:2024-07-29 |
# Quantum HodgeRank: 量子コンピュータにおけるトポロジに基づくランクアグリゲーション
Quantum HodgeRank: Topology-Based Rank Aggregation on Quantum Computers ( http://arxiv.org/abs/2407.20452v1 ) ライセンス: Link先を確認 | Caesnan M. G. Leditto, Angus Southwell, Behnam Tonekaboni, Muhammad Usman, Kavan Modi, | (参考訳) ランクアグリゲーション技術は、最良の選択肢を特定する上で重要な役割を担っているが、現実世界のデータの本質的な不均衡と不完全性は重大な課題を生んでいる。
グラフ上の離散外部計算を利用するHodgeRankアルゴリズムは、これらの問題を克服し、一貫したグローバルな選択肢ランキングを出力することができる。
近年,ネットワークデータの複雑なマルチパート間相互作用の解析に高次ネットワークが採用されている。
しかし、HodgeRankを高階ネットワークのランキングに拡張するには、ネットワーク次元で指数関数的な計算コストが必要となる。
この課題に対処するため,HodgeRank法に比例した量子状態を出力する量子アルゴリズムを開発した。
量子特異値変換とツールを量子トポロジカルデータ解析から取り入れることで、量子ランダムアクセスメモリやスパースアクセス入力モデルの必要性を回避し、ネットワーク次元に依存しない時間複雑性を実現する。
また、出力量子状態から有意な情報を抽出する効率的なアルゴリズムとヒューリスティックスを示し、ランキングの整合性を計算するアルゴリズムを含む。
このアルゴリズムを用いることで、特定の構造を持つ高次ネットワークデータに対する超ポリノミカル量子スピードアップを実現することができる。
ランク付けタスク以外にも、量子コンピューティングは高次ネットワークや離散外部計算の研究において実りある応用を見出すことができることを示唆している。
Rank aggregation techniques play a crucial role in identifying the best alternatives, but the inherent imbalance and incompleteness of real-world data pose significant challenges. The HodgeRank algorithm, which utilizes discrete exterior calculus on a graph, can overcome these issues and output a consistent global ranking of alternatives. Recently, higher-order networks have been employed to analyze complex multipartite interactions in network data. Extending HodgeRank to ranking on higher-order networks, however, requires computational costs that are exponential in the network dimension. To address this challenge, we develop a quantum algorithm that outputs a quantum state proportional to the HodgeRank solution. By incorporating quantum singular value transformation and tools from quantum topological data analysis, our approach achieves time complexity independent of the network dimension, avoiding the need for quantum random access memory or sparse access input models. We also present efficient algorithms and heuristics to extract meaningful information from the output quantum state, including an algorithm to compute the consistency of the ranking. Using our algorithm, the consistency measure estimation has the potential to achieve superpolynomial quantum speedups for higher-order network data with specific structures. Beyond ranking tasks, our methods suggest that quantum computing could find fruitful applications in studying higher-order networks and discrete exterior calculus. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# 任意複素量子系の行列アンサンブルについて
On a Matrix Ensemble for Arbitrary Complex Quantum Systems ( http://arxiv.org/abs/2407.20453v1 ) ライセンス: Link先を確認 | William E. Salazar, Juan Diego Urbina, Javier Madroñero, | (参考訳) 本稿では, 固有状態熱化仮説(ETH)の基礎としてドイッチュが提唱した固有ベクトルアンサンブル(固有ベクトルアンサンブル, 固有状態熱化仮説, 固有状態熱化仮説, 固有状態熱化仮説, 固有ベクトルアンサンブル, 固有状態熱化理論, 固有状態熱化仮説, 固有状態熱化理論, 固有状態熱化仮説, 固有状態熱化理論, 固有状態熱化理論, 固有状態熱化理論, 固有状態熱化理論, 固有状態熱化理論, 固有状態熱化理論, 固有状態熱化理論, 固有状態熱化理論, 固有ベクトルアンサンブル, 固有ベクトルアンサンブル)の変分を網羅的に分析した。
特に,スペクトル形状因子のような相関関数の時間的挙動を変化させるシステム固有情報の残余や,RTTが捉えない明示的なシステム依存のハミルトン補正を含めることに焦点をあてる。
新しいアンサンブルにおける普遍的(ハール)についての予測の整合性は、任意の系において、ユニタリ 1-設計と強カオス系において、どのように近似された2-設計となるかを示すことによって明示される。
2点と4点のアンサンブル平均相関関数に対して普遍的な表現を提供し、システム依存情報がどのようにスペクトル的に分離されているかを示す一方で、新しいアンサンブルで定義される小さなエネルギーウィンドウ相関関数はETHの予測に還元されることを示す。
We present an exhaustive analytical exploration of a variation of the eigenvector ensemble initially proposed by Deutsch for the foundations of the Eigenstate Thermalization Hypothesis (ETH) that drastically (but not fully) increases system-dependent information, and therefore serves as a model for the study of complex quantum systems beyond the universal Random Matrix Theory (RMT) regime. We especially focus on the remnants of system-specific information that modify the late-time behavior of correlation functions like the spectral form factor, or the inclusion of explicit system-dependent Hamiltonian corrections not captured by the RMT regime. The consistency of the predictions in the new ensemble with respect to the universal (Haar) one is made explicit by showing how that for arbitrary systems it defines an unitary 1-design and for strongly chaotic systems it becomes an approximated 2-design. While we are able to provide universal expressions for two- and four-point ensemble-averaged correlation functions and show how system-dependent information is spectrally decoupled, we also show that for small energy windows correlation functions defined by the new ensemble reduce to the predictions of the ETH. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# CoMMIT:マルチモーダル大規模言語モデルのための協調型インストラクションチューニング
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models ( http://arxiv.org/abs/2407.20454v1 ) ライセンス: Link先を確認 | Junda Wu, Xintong Li, Tong Yu, Yu Wang, Xiang Chen, Jiuxiang Gu, Lina Yao, Jingbo Shang, Julian McAuley, | (参考訳) マルチモーダル大言語モデル(MLLM)における命令チューニングは、下流タスクのための事前訓練された機能エンコーダとバックボーンLLMを円滑に統合することを目的としている。
主な課題は、LLMが下流タスクの推論能力に適応し、機能エンコーダがより関連性の高いモーダル情報を提供するようにエンコーディングを調整する、協調学習を通じてシナジーを効率的に見つける方法である。
本稿では,MLLMの命令チューニングを理論的・経験的両面から解析し,特徴エンコーダとLLMという2つのコンポーネント間の不均衡学習が,モデルの収束を遅くする学習勾配の低下を招き,学習不足による準最適結果につながる可能性があることを示す。
そこで本研究では,学習バランスを定量的に評価する尺度を提案し,学習のコーディネートを改善する動的学習スケジューラをさらに設計する。
さらに、各モデルコンポーネントの学習状態を考慮したMLLMの生成分布の更新を促進する補助的損失正規化手法を導入し、各コンポーネントの勾配低下を防止し、学習バランス係数をより正確に推定できるようにする。
複数のLLMバックボーンと特徴エンコーダを用いて実験を行い、モデルに依存しず、様々なMLLMバックボーンと汎用的に統合することができる。
マルチダウンストリームタスクと視覚および音声のモーダル性に関する実験結果から,MLLM 命令チューニングにおける提案手法の有効性と有効性を示す。
Instruction tuning in multimodal large language models (MLLMs) aims to smoothly integrate a backbone LLM with a pre-trained feature encoder for downstream tasks. The major challenge is how to efficiently find the synergy through cooperative learning where LLMs adapt their reasoning abilities in downstream tasks while feature encoders adjust their encoding to provide more relevant modal information. In this paper, we analyze the MLLM instruction tuning from both theoretical and empirical perspectives, where we find unbalanced learning between the two components, i.e., the feature encoder and the LLM, can cause diminishing learning gradients that slow the model convergence and often lead to sub-optimal results due to insufficient learning. Inspired by our findings, we propose a measurement to quantitatively evaluate the learning balance, based on which we further design a dynamic learning scheduler that better coordinates the learning. In addition, we introduce an auxiliary loss regularization method to promote updating of the generation distribution of MLLMs considering the learning state of each model component, which potentially prevents each component from gradient diminishing and enables a more accurate estimation of the learning balance coefficient. We conduct experiments with multiple LLM backbones and feature encoders, where our techniques are model-agnostic and can be generically integrated with various MLLM backbones. Experiment results on multiple downstream tasks and modalities in vision and audio, demonstrate the proposed method's better efficiency and effectiveness in MLLM instruction tuning. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# 生成したペアから特徴保存ポートレート編集を学習する
Learning Feature-Preserving Portrait Editing from Generated Pairs ( http://arxiv.org/abs/2407.20455v1 ) ライセンス: Link先を確認 | Bowei Chen, Tiancheng Zhi, Peihao Zhu, Shen Sang, Jing Liu, Linjie Luo, | (参考訳) ポートレート編集は、アイデンティティのような主題的特徴の保存が困難であるため、既存の技術では困難である。
本稿では,自動生成ペアデータを利用した学習手法を提案する。
具体的には、所望の編集のために、合理的に優れたトレーニングペアを低コストで作成するためのデータ生成プロセスを設計する。
これらのペアに基づいて、編集方向を効果的に学習し、主観的特徴を保存するためのマルチコンディション拡散モデルを導入する。
提案モデルでは,推測過程をガイドし,詳細な主題の特徴を更に保存することのできる,正確な編集マスクを生成する。
コスチューム編集とマンガ表現編集の実験により,本手法は定量的かつ質的に,最先端の品質を達成できることを示した。
Portrait editing is challenging for existing techniques due to difficulties in preserving subject features like identity. In this paper, we propose a training-based method leveraging auto-generated paired data to learn desired editing while ensuring the preservation of unchanged subject features. Specifically, we design a data generation process to create reasonably good training pairs for desired editing at low cost. Based on these pairs, we introduce a Multi-Conditioned Diffusion Model to effectively learn the editing direction and preserve subject features. During inference, our model produces accurate editing mask that can guide the inference process to further preserve detailed subject features. Experiments on costume editing and cartoon expression editing show that our method achieves state-of-the-art quality, quantitatively and qualitatively. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# 量子場論と還元主義の限界
Quantum Field Theory and the Limits of Reductionism ( http://arxiv.org/abs/2407.20457v1 ) ライセンス: Link先を確認 | Emily Adlam, | (参考訳) 量子場論(QFT)の現在の状況は、存在論的還元主義の普遍的妥当性を疑問視する何らかの理由を与えると提案する。
再正規化群の流れは固定点を除いて可逆的であり、これは大小距離スケールの関係をQFTで完全に対称にし、少なくともQFTに対する非還元主義的アプローチの技術的可能性を開く。
QFT内で発生するいくつかの概念的問題は、より小さな大小のスーパーベーンではなくなった別の画像に移行することで緩和される可能性があると提案する。
最後に、非還元主義の形式が実装される可能性のある特定のモデルについて検討し、これらのモデルの将来的な発展の可能性について考察する。
I suggest that the current situation in quantum field theory (QFT) provides some reason to question the universal validity of ontological reductionism. I argue that the renormalization group flow is reversible except at fixed points, which makes the relation between large and small distance scales quite symmetric in QFT, opening up at least the technical possibility of a non-reductionist approach to QFT. I suggest that some conceptual problems encountered within QFT may potentially be mitigated by moving to an alternative picture in which it is no longer the case that the large supervenes on the small. Finally, I explore some specific models in which a form of non-reductionism might be implemented, and consider the prospects for future development of these models. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# エントロピーのエントロピーとエントロピー境界の関係
How are Entanglement Entropies Related to Entropy Bounds? ( http://arxiv.org/abs/2407.20458v1 ) ライセンス: Link先を確認 | Emily Adlam, | (参考訳) 本稿では、共変エントロピー境界を解釈する適切な方法について、現在の絡み合いエントロピーの知識が何を示唆しているかを理解する。
まず、古典的な場合と同様に、フォン・ノイマンのエントロピー上の普遍的境界は、エピステマ性または存在論的起源を持つことができる、という議論から始める。
次に、絡み合いのエントロピーの特徴の結果として、境界を説明するいくつかの可能な方法を考える。
凝縮物質と場の量子論における領域法則について考察し、それらが境界のエピステミックな読解を示唆していると主張した。
また、「絡み合いからの時空」プログラムについても論じ、絡み合いだけでは全地時空トポロジーが得られないかもしれないが、時空計量を決定する役割を担っている可能性があり、その場合、境界のよりオントロジ的な読み方を支持する可能性がある。
In this paper we seek to understand what current knowledge of entanglement entropies suggests about the appropriate way to interpret the covariant entropy bound. We first begin by arguing that just as in the classical case, a universal bound on the von Neumann entropy could have either an epistemic or ontological origin. We then consider several possible ways of explaining the bound as a consequence of features of the entanglement entropy. We discuss consider area laws in condensed matter and quantum field theory, arguing that they suggest an epistemic reading of the bound. We also discuss the 'spacetime from entanglement' programme, arguing that entanglement alone may not be able to full ground spacetime topology, but it could potentially play a role in determining the spacetime metric, in which case it would potentially support a more ontological reading of the bound. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# 多要素認証プロトコルにおける脆弱性の発掘:システムセキュリティ分析
Excavating Vulnerabilities Lurking in Multi-Factor Authentication Protocols: A Systematic Security Analysis ( http://arxiv.org/abs/2407.20459v1 ) ライセンス: Link先を確認 | Ang Kok Wee, Eyasu Getahun Chekole, Jianying Zhou, | (参考訳) 今日では、サイバー攻撃が急速に増加し、インターネットユーザーを苦しめている。
特に、認証攻撃は、侵入者が不正にシステムやリソースにアクセスするために正当なユーザーを偽装する主要な攻撃ベクトルである。
従来の単一要素認証(SFA)プロトコルは、しばしばサイドチャネルや他の攻撃技術によってバイパスされるため、現在の認証要件には不十分である。
この問題を軽減するため,近年,マルチファクタ認証(MFA)プロトコルが広く採用されている。
MFAは一般にSFAよりも堅牢で安全とされているが、必ずしもセキュリティと効率の強化を保証するとは限らない。
これは、プロトコルの設計や実装の欠陥のため、重大なセキュリティ上の脆弱性とパフォーマンス上の問題がまだ発生している可能性があるためである。
このような脆弱性は攻撃者によって悪用されるまで気づかないままにされることが多い。
したがって、本研究の主な目的は、設計や構造を体系的に分析することで、既存のMFAプロトコルの脆弱性を特定することである。
この目的のために、我々はまず、MFAプロトコルのセキュリティに非常に重要な、既存のものと新しく導入されたものの両方を含むセキュリティ評価基準を策定する。
そして、異なるドメインにわたるいくつかのMFAプロトコルを徹底的にレビューする。
その後、潜在的な脆弱性を特定するために、プロトコルの設計と構築を再検討し、徹底的に分析する。
その結果,調査対象のMFAプロトコル10のうち,重大な脆弱性を特定できた。
各プロトコルで特定された脆弱性を徹底的に議論し、関連する緩和戦略を考案する。
また,これらのプロトコルの性能情報を統合して,さまざまな認証要素を利用する場合のランタイムとストレージコストを示す。
Nowadays, cyberattacks are growing exponentially, causing havoc to Internet users. In particular, authentication attacks constitute the major attack vector where intruders impersonate legitimate users to maliciously access systems or resources. Traditional single-factor authentication (SFA) protocols are often bypassed by side-channel and other attack techniques, hence they are no longer sufficient to the current authentication requirements. To alleviate this problem, multi-factor authentication (MFA) protocols have been widely adopted recently, which helps to raise the security bar against imposters. Although MFA is generally considered more robust and secure than SFA, it may not always guarantee enhanced security and efficiency. This is because, critical security vulnerabilities and performance problems may still arise due to design or implementation flaws of the protocols. Such vulnerabilities are often left unnoticed until they are exploited by attackers. Therefore, the main objective of this work is identifying such vulnerabilities in existing MFA protocols by systematically analysing their designs and constructions. To this end, we first form a set of security evaluation criteria, encompassing both existing and newly introduced ones, which we believe are very critical for the security of MFA protocols. Then, we thoroughly review several MFA protocols across different domains. Subsequently, we revisit and thoroughly analyze the design and construction of the protocols to identify potential vulnerabilities. Consequently, we manage to identify critical vulnerabilities in ten of the MFA protocols investigated. We thoroughly discuss the identified vulnerabilities in each protocol and devise relevant mitigation strategies. We also consolidate the performance information of those protocols to show the runtime and storage cost when employing varying number of authentication factors. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# 弱監督型ICHセグメンテーションのための不確かさ検出型YOLO-SAM
Uncertainty-Rectified YOLO-SAM for Weakly Supervised ICH Segmentation ( http://arxiv.org/abs/2407.20461v1 ) ライセンス: Link先を確認 | Pascal Spiegler, Amirhossein Rasoulian, Yiming Xiao, | (参考訳) 頭蓋内出血 (ICH) は, 治療成績と生存率を改善するために, 迅速かつ正確な診断を必要とする生命予後である。
教師付き深層学習の最近の進歩は、医用画像の分析を大幅に改善してきたが、しばしば高品質なアノテーションを備えた広範囲なデータセットに依存しており、費用がかかり、時間もかかり、医療の専門知識を必要としている。
そこで我々は, YOLOオブジェクト検出モデルと不確実性補正セグメンテーションモデル(SAM)を利用した, 弱い教師付きICHセグメンテーション法を開発した。
さらに, YOLO予測ボックスプロンプトを用いて, セグメンテーション結果を改善するために, 新たなポイントプロンプト生成器を提案する。
ICH検出の精度は0.933,AUCは0.796,Diceスコアは0.629であった。
提案手法は, モデルトレーニングにおいて, 精巧なセグメンテーション基底の真理を必要とせず, より一般的に使用されているICH定量化手法に, 頑健で正確な代替手段を提供する。
Intracranial hemorrhage (ICH) is a life-threatening condition that requires rapid and accurate diagnosis to improve treatment outcomes and patient survival rates. Recent advancements in supervised deep learning have greatly improved the analysis of medical images, but often rely on extensive datasets with high-quality annotations, which are costly, time-consuming, and require medical expertise to prepare. To mitigate the need for large amounts of expert-prepared segmentation data, we have developed a novel weakly supervised ICH segmentation method that utilizes the YOLO object detection model and an uncertainty-rectified Segment Anything Model (SAM). In addition, we have proposed a novel point prompt generator for this model to further improve segmentation results with YOLO-predicted bounding box prompts. Our approach achieved a high accuracy of 0.933 and an AUC of 0.796 in ICH detection, along with a mean Dice score of 0.629 for ICH segmentation, outperforming existing weakly supervised and popular supervised (UNet and Swin-UNETR) approaches. Overall, the proposed method provides a robust and accurate alternative to the more commonly used supervised techniques for ICH quantification without requiring refined segmentation ground truths during model training. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# Graphite: キーワードレコメンデーションのためのグラフベースのエクストリームマルチラベルショートテキスト分類器
Graphite: A Graph-based Extreme Multi-Label Short Text Classifier for Keyphrase Recommendation ( http://arxiv.org/abs/2407.20462v1 ) ライセンス: Link先を確認 | Ashirbad Mishra, Soumik Dey, Jinyu Zhao, Marshall Wu, Binbin Li, Kamesh Madduri, | (参考訳) Keyphrase Recommendationは、広告とeコマースにおいて重要な問題であり、広告主/販売者は、販売を増やすために入札するキーフレーズ(検索クエリ)を推奨している。
オンラインプラットフォームに表示されている項目の多さや、表示された項目に対する様々な関心を示しながらユーザーが検索する可能性のある様々なクエリが原因で、これは困難な課題である。
さらに、クエリ/キーフレーズのレコメンデーションは、リアルタイムで、リソース制約のある環境で行う必要がある。
この問題は Extreme Multi-label (XML) Short text classification by tagging the input text with keywords as labels。
従来のニューラルネットワークモデルは、大きなラベル空間のために実現不可能か、推論遅延が遅いかのいずれかである。
グラフベースの分類モデルであるGraphiteは、標準的なテキスト分類モデルと同等のリアルタイムキーフレーズレコメンデーションを提供する。
さらに、プロダクション環境で制限されるGPUリソースを使用しない。
軽量な性質とフットプリントの小さいため、非常に大きなデータセットでトレーニングすることが可能で、最先端のXMLモデルは極端なリソース要求のために失敗する。
Graphiteは、ニューラルネットワークベースのモデルよりも決定論的、透過的、本質的に解釈可能である。
eBayの英語を話すサイトを対象とする40のカテゴリにわたって、当社のモデルのパフォーマンスを包括的に分析する。
Keyphrase Recommendation has been a pivotal problem in advertising and e-commerce where advertisers/sellers are recommended keyphrases (search queries) to bid on to increase their sales. It is a challenging task due to the plethora of items shown on online platforms and various possible queries that users search while showing varying interest in the displayed items. Moreover, query/keyphrase recommendations need to be made in real-time and in a resource-constrained environment. This problem can be framed as an Extreme Multi-label (XML) Short text classification by tagging the input text with keywords as labels. Traditional neural network models are either infeasible or have slower inference latency due to large label spaces. We present Graphite, a graph-based classifier model that provides real-time keyphrase recommendations that are on par with standard text classification models. Furthermore, it doesn't utilize GPU resources, which can be limited in production environments. Due to its lightweight nature and smaller footprint, it can train on very large datasets, where state-of-the-art XML models fail due to extreme resource requirements. Graphite is deterministic, transparent, and intrinsically more interpretable than neural network-based models. We present a comprehensive analysis of our model's performance across forty categories spanning eBay's English-speaking sites. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# 強化学習における高速自律移動法
A Method for Fast Autonomy Transfer in Reinforcement Learning ( http://arxiv.org/abs/2407.20466v1 ) ライセンス: Link先を確認 | Dinuka Sahabandu, Bhaskar Ramasubramanian, Michail Alexiou, J. Sukarno Mertoguno, Linda Bushnell, Radha Poovendran, | (参考訳) 本稿では,複数の環境から事前学習した批評家の価値関数を活用することにより,迅速な自律移動を促進するための新しい強化学習(RL)戦略を提案する。
大規模なリトレーニングや微調整を必要とする従来の手法とは異なり、我々の手法は既存の知識を統合し、RLエージェントが広範な計算資源を必要とせずに、新しい設定に迅速に適応できるようにする。
我々の貢献には、マルチクリティカル・アクター・クリティカル(MCAC)アルゴリズムの開発、その収束の確立、その有効性を示す実証的証拠が含まれる。
実験の結果,MCACは,最大22.76倍の自律移動とより高い報酬蓄積を達成し,ベースラインアクター批判アルゴリズムを著しく上回ることがわかった。
この進歩は、RL応用における効率的な適応のために蓄積した知識を活用する可能性を示している。
This paper introduces a novel reinforcement learning (RL) strategy designed to facilitate rapid autonomy transfer by utilizing pre-trained critic value functions from multiple environments. Unlike traditional methods that require extensive retraining or fine-tuning, our approach integrates existing knowledge, enabling an RL agent to adapt swiftly to new settings without requiring extensive computational resources. Our contributions include development of the Multi-Critic Actor-Critic (MCAC) algorithm, establishing its convergence, and empirical evidence demonstrating its efficacy. Our experimental results show that MCAC significantly outperforms the baseline actor-critic algorithm, achieving up to 22.76x faster autonomy transfer and higher reward accumulation. This advancement underscores the potential of leveraging accumulated knowledge for efficient adaptation in RL applications. | 翻訳日:2024-07-31 18:38:42 公開日:2024-07-29 |
# SYK系システムの電流相関と導電率:解析的研究
Current Correlations and Conductivity in SYK-Like Systems: An Analytical Study ( http://arxiv.org/abs/2407.20733v1 ) ライセンス: Link先を確認 | Rishabh Jha, Stefan Kehrein, Jan C. Louw, | (参考訳) G-\Sigma$フォーマリズムで表される行動に対する熱予測値を関数ベースで計算し、任意の時系列順序付けに適用する。
この枠組みを用いて, 種々のサハデフ-イェ-キタエフ(SYK)鎖の電場に対する線形応答を解析した。
各点が複素$q/2$-body相互作用SYKモデルであるようなSYK連鎖を考えると、$r/2$-body近辺ホッピングは$r=\kappa q$である。
我々は、すべての温度における導電率のすべての温度に対する大きな$q$制限の正確な解析式を、3つのケースで1/q$、すなわち$\kappa = \{ 1/2, 1, 2\}$で見つける。
$\kappa = \{1/2, 1\}$ の場合、低温で線形温度の$T$抵抗を観測し、奇妙な金属の挙動を示す。
逆に、$\kappa = 2$の場合、比抵抗は低温での電力法則、すなわち絶縁挙動に似た1/T^2$として分岐する。
T$が増加すると、最小比抵抗でフェルミ液体の挙動(\sim T^2$)が交差する。
この他にも、奇妙な金属の挙動(\sim T$)がある。
文献における以前の線形-in-$T$の結果と比較すると、比抵抗の挙動は、MIR境界より下においても存在し、悪い金属ではなく真の奇妙な金属であることが示される。
特に、$\kappa = 2$の場合、絶縁相からフェルミ液体の挙動への滑らかな交差が真の奇妙な金属となり、最終的に温度が上がるにつれて悪い金属となる。
我々は、すべての温度に対する抵抗性に関する既知結果を拡張・一般化し、普遍的な特徴を強調する3つのモデルの比較分析を行い、スケーリング引数を実行し、解析から物理図を作成する。
ホッピング結合強度が大きくなると, 最大直流導電率が3モデルすべてにわたって最大になる。
We present a functional-based approach to compute thermal expectation values for actions expressed in the $G-\Sigma$ formalism, applicable to any time sequence ordering. Utilizing this framework, we analyze the linear response to an electric field in various Sachdev-Ye-Kitaev (SYK) chains. We consider the SYK chain where each dot is a complex $q/2$-body interacting SYK model, and we allow for $r/2$-body nearest-neighbor hopping where $r=\kappa q$. We find exact analytical expressions in the large-$q$ limit for conductivities across all temperatures at leading order in $1/q$ for three cases, namely $\kappa = \{ 1/2, 1, 2\}$. When $\kappa = \{1/2, 1\}$, we observe linear-in-temperature $T$ resistivities at low temperatures, indicative of strange metal behavior. Conversely, when $\kappa = 2$, the resistivity diverges as a power law at low temperatures, namely as $1/T^2$, resembling insulating behavior. As $T$ increases, there is a crossover to Fermi liquid behavior ($\sim T^2$) at the minimum resistivity. Beyond this, another crossover occurs to strange metal behavior ($\sim T$). In comparison to previous linear-in-$T$ results in the literature, we also show that the resistivity behavior exists even below the MIR bound, indicating a true strange metal instead of a bad metal. In particular, we find for the $\kappa = 2$ case a smooth crossover from an insulating phase to a Fermi liquid behavior to a true strange metal and eventually becoming a bad metal as temperature increases. We extend and generalize previously known results on resistivities to all temperatures, do a comparative analysis across the three models where we highlight the universal features and invoke scaling arguments to create a physical picture out of our analyses. Remarkably, we find a universal maximum DC conductivity across all three models when the hopping coupling strength becomes large. | 翻訳日:2024-07-31 17:30:03 公開日:2024-07-29 |
# レチネックス拡散:レチネックス理論による拡散モデルにおけるイルミネーション条件の制御について
Retinex-Diffusion: On Controlling Illumination Conditions in Diffusion Models via Retinex Theory ( http://arxiv.org/abs/2407.20785v1 ) ライセンス: Link先を確認 | Xiaoyan Xing, Vincent Tao Hu, Jan Hendrik Metzen, Konrad Groh, Sezer Karaoglu, Theo Gevers, | (参考訳) 本稿では,照明条件に着目した条件画像生成のギャップを解消し,拡散モデルにおける照明操作の新たなアプローチを提案する。
我々は,拡散モデルをブラックボックス画像レンダリングとして概念化し,そのエネルギー関数を画像形成モデルに沿って戦略的に分解する。
本手法は, 生成過程における照明関連特性を効果的に分離し, 制御する。
これは、キャストシャドウ、ソフトシャドウ、反射間など、現実的な照明効果を持つ画像を生成する。
注目すべきなのは、本質的な分解を学習したり、潜在空間の方向を見つけたり、新しいデータセットで追加のトレーニングを受けたりすることなく、これを実現することだ。
This paper introduces a novel approach to illumination manipulation in diffusion models, addressing the gap in conditional image generation with a focus on lighting conditions. We conceptualize the diffusion model as a black-box image render and strategically decompose its energy function in alignment with the image formation model. Our method effectively separates and controls illumination-related properties during the generative process. It generates images with realistic illumination effects, including cast shadow, soft shadow, and inter-reflections. Remarkably, it achieves this without the necessity for learning intrinsic decomposition, finding directions in latent space, or undergoing additional training with new datasets. | 翻訳日:2024-07-31 17:10:01 公開日:2024-07-29 |
# CRASAR-U-DROID:ジオリフィケーションSUAS画像における建物配向と損傷評価のための大規模ベンチマークデータセット
CRASAR-U-DROIDs: A Large Scale Benchmark Dataset for Building Alignment and Damage Assessment in Georectified sUAS Imagery ( http://arxiv.org/abs/2407.17673v2 ) ライセンス: Link先を確認 | Thomas Manzini, Priyankari Perali, Raisa Karnik, Robin Murphy, | (参考訳) 本論文は,小型無人航空システム(SUAS)の地理空間画像から収集した損傷評価と空間アライメントのためのロボット支援捜索救助センター(Center for Robot Assisted Search and Rescue - Uncrewed Aerial Systems - Disaster Response Overhead Inspection Dataset,CRASAR-U-DROIDs)について述べる。
このデータセットは、災害対応におけるsUASの利用の増加と、機械学習とコンピュータビジョンモデルに高解像度の地理空間sUAS画像を利用するための以前の作業の欠如、運用上のユースケースとの整合性の欠如、および、sUASと衛星画像の間のさらなる調査を可能にすることを目標としている。
CRASAR-U-DRIODsデータセットは、連邦が宣言した10の災害(ハリケーン・イアン、ハリケーン・アイダ、ハリケーン・ハービー、ハリケーン・アイダリア、ハリケーン・ラウラ、ハリケーン・マイケル、ムセット・バイユー・ファイア、メイフィールド・トルナド、キラウエア・噴火、シャンプレーン・タワーズ・コラプス)のうち、67.98平方キロメートル (26.245 平方マイル)、21,716ビルのポリゴンと損傷ラベルを含む。
この画像は、損傷の人為的な判断を共同損傷尺度に従って提供した130個のアノテーターのプールに、オーバーレイ建築ポリゴンと組み合わせて撮影され、展示された。
これらのアノテーションは2段階のレビュープロセスを通じてレビューされ、ポリゴン損傷ラベルの構築はまず個別に、次に委員会によってレビューされた。
さらに、ビルディングポリゴンは、より高性能な機械学習モデルをトレーニングできるように、画像と正確に重なり合うように空間的に整列されている。
CRASAR-U-DRIODsは、SUASオルソモザイク画像の最大のラベル付きデータセットである。
This document presents the Center for Robot Assisted Search And Rescue - Uncrewed Aerial Systems - Disaster Response Overhead Inspection Dataset (CRASAR-U-DROIDs) for building damage assessment and spatial alignment collected from small uncrewed aerial systems (sUAS) geospatial imagery. This dataset is motivated by the increasing use of sUAS in disaster response and the lack of previous work in utilizing high-resolution geospatial sUAS imagery for machine learning and computer vision models, the lack of alignment with operational use cases, and with hopes of enabling further investigations between sUAS and satellite imagery. The CRASAR-U-DRIODs dataset consists of fifty-two (52) orthomosaics from ten (10) federally declared disasters (Hurricane Ian, Hurricane Ida, Hurricane Harvey, Hurricane Idalia, Hurricane Laura, Hurricane Michael, Musset Bayou Fire, Mayfield Tornado, Kilauea Eruption, and Champlain Towers Collapse) spanning 67.98 square kilometers (26.245 square miles), containing 21,716 building polygons and damage labels, and 7,880 adjustment annotations. The imagery was tiled and presented in conjunction with overlaid building polygons to a pool of 130 annotators who provided human judgments of damage according to the Joint Damage Scale. These annotations were then reviewed via a two-stage review process in which building polygon damage labels were first reviewed individually and then again by committee. Additionally, the building polygons have been aligned spatially to precisely overlap with the imagery to enable more performant machine learning models to be trained. It appears that CRASAR-U-DRIODs is the largest labeled dataset of sUAS orthomosaic imagery. | 翻訳日:2024-07-31 12:35:15 公開日:2024-07-29 |
# Particip-AI - 将来のAIユースケースとレイユーザへの影響を期待する
Particip-AI: Anticipating Future AI Use Cases and Impacts with Lay Users ( http://arxiv.org/abs/2403.14791v3 ) ライセンス: Link先を確認 | Jimin Mun, Liwei Jiang, Jenny Liang, Inyoung Cheong, Nicole DeCario, Yejin Choi, Tadayoshi Kohno, Maarten Sap, | (参考訳) ChatGPTのような汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を減らしたようだ。
しかし、AIのガバナンスと開発は依然として少数の人の手に委ねられており、開発ペースはリスクを総合的に評価することなく加速している。
汎用AIの民主的リスクアセスメントと設計に向けた第一歩として、レイパーがAIのユースケースとその影響を推測し評価するための慎重に設計されたフレームワークPartialIP-AIを紹介します。
我々のフレームワークは、ユースケースの収集、代替シナリオ(ユースケースの開発と開発)によるリスクアセスメントによる多様な害の顕在化、そしてその開発を決定づけることによるAI開発に対する緊張感の顕在化を通じて、AIに関するよりニュアンスで詳細な世論の研究を可能にします。
民主的なAI開発を実現するためのフレームワークの約束を示すために、295人の人口統計学的に多様な参加者からのインプットを用いた中規模研究を実施している。
我々の分析によると、参加者の反応は、現在のAI開発におけるビジネスの焦点と対照的に、個人生活や社会への応用を強調している。
また、専門家が定義した問題に補完する、AIや機関における不信など、想定されるさまざまな害のセットも見出します。
さらに,AI利用事例が開発されるべきかどうかの参加者の判断を有意に予測し,一般ユーザによるテクノソリューション主義への懸念を浮き彫りにした。
私たちは、PartICIP-AIのようなフレームワークが、民主的なAI開発とガバナンスをさらにガイドする方法についての議論で締めくくります。
General purpose AI, such as ChatGPT, seems to have lowered the barriers for the public to use AI and harness its power. However, the governance and development of AI still remain in the hands of a few, and the pace of development is accelerating without a comprehensive assessment of risks. As a first step towards democratic risk assessment and design of general purpose AI, we introduce PARTICIP-AI, a carefully designed framework for laypeople to speculate and assess AI use cases and their impacts. Our framework allows us to study more nuanced and detailed public opinions on AI through collecting use cases, surfacing diverse harms through risk assessment under alternate scenarios (i.e., developing and not developing a use case), and illuminating tensions over AI development through making a concluding choice on its development. To showcase the promise of our framework towards informing democratic AI development, we run a medium-scale study with inputs from 295 demographically diverse participants. Our analyses show that participants' responses emphasize applications for personal life and society, contrasting with most current AI development's business focus. We also surface diverse set of envisioned harms such as distrust in AI and institutions, complementary to those defined by experts. Furthermore, we found that perceived impact of not developing use cases significantly predicted participants' judgements of whether AI use cases should be developed, and highlighted lay users' concerns of techno-solutionism. We conclude with a discussion on how frameworks like PARTICIP-AI can further guide democratic AI development and governance. | 翻訳日:2024-07-31 12:29:44 公開日:2024-07-29 |
# 周波数誘導問題:周波数対応混合変圧器による骨格行動認識
Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer ( http://arxiv.org/abs/2407.12322v3 ) ライセンス: Link先を確認 | Wenhan Wu, Ce Zheng, Zihao Yang, Chen Chen, Srijan Das, Aidong Lu, | (参考訳) 近年, トランスフォーマーは骨格配列からの長期依存をモデル化する大きな可能性を示し, 骨格行動認識において常に注目を集めている。
しかし、既存のトランスフォーマーベースのアプローチは、同様の動きパターンを示す識別的表現の学習において不足する時空間的特徴を捉えるための単純な注意機構に大きく依存している。
この課題に対処するために、周波数対応混合変換器(FreqMixFormer)を導入する。
まず,その周波数係数に基づいて識別動作を識別することを目的として,関節特徴を周波数アテンションマップに埋め込むことにより骨格の周波数表現を解き放つ周波数アテンションモジュールを提案する。
その後、周波数特徴を持つ空間特徴を包含し、包括的周波数空間パターンをモデル化する混合変圧器アーキテクチャを開発した。
さらに,フレーム間の大域的相関を抽出するために時間変換器を提案する。
大規模な実験により、FreqMiXFormerは、NTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットを含む3つの人気のあるスケルトン行動認識データセットでSOTAより優れていることが示されている。
Recently, transformers have demonstrated great potential for modeling long-term dependencies from skeleton sequences and thereby gained ever-increasing attention in skeleton action recognition. However, the existing transformer-based approaches heavily rely on the naive attention mechanism for capturing the spatiotemporal features, which falls short in learning discriminative representations that exhibit similar motion patterns. To address this challenge, we introduce the Frequency-aware Mixed Transformer (FreqMixFormer), specifically designed for recognizing similar skeletal actions with subtle discriminative motions. First, we introduce a frequency-aware attention module to unweave skeleton frequency representations by embedding joint features into frequency attention maps, aiming to distinguish the discriminative movements based on their frequency coefficients. Subsequently, we develop a mixed transformer architecture to incorporate spatial features with frequency features to model the comprehensive frequency-spatial patterns. Additionally, a temporal transformer is proposed to extract the global correlations across frames. Extensive experiments show that FreqMiXFormer outperforms SOTA on 3 popular skeleton action recognition datasets, including NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets. | 翻訳日:2024-07-31 12:29:44 公開日:2024-07-29 |
# 機械学習によるグローバルな日CO2排出量の再構築
Reconstructing Global Daily CO2 Emissions via Machine Learning ( http://arxiv.org/abs/2407.20057v1 ) ライセンス: Link先を確認 | Tao Li, Lixing Wang, Zihan Qiu, Philippe Ciais, Taochun Sun, Matthew W. Jones, Robbie M. Andrew, Glen P. Peters, Piyu ke, Xiaoting Huang, Robert B. Jackson, Zhu Liu, | (参考訳) 高時間分解能CO2排出量データは、排出量変化の要因を理解するために重要であるが、現在の排出量データセットは年間ベースでしか利用できない。
そこで我々は,2019年以降に確立された日次排出量変動と予測器の関係に基づいて,全国規模の日次排出量を予測する機械学習アルゴリズムを用いて,グローバルな日次CO2排出量データセットを1970年まで遡って拡張した。
日中CO2排出量の変動は季節変動のスムーズさをはるかに上回った。
例えば、中国の年間平均排出量の31%に相当する日量CO2排出量の範囲は、2022年のインドでは46%である。
臨界放射温度(Tc)は,中国では平均16.5度(18.7度,米国では14.9度,日本では18.4度)であり,日中CO2排出量とTc以下の環境温度との間に負の相関がみられた。
温室効果ガスの排出が50年以上続く長期の時系列は、こうした発生頻度の上昇による極端な気温変動による排出量の増加傾向を示している。
この研究は、気候変動のため、二酸化炭素排出量を減らすためにより大きな努力が必要であることを示唆している。
High temporal resolution CO2 emission data are crucial for understanding the drivers of emission changes, however, current emission dataset is only available on a yearly basis. Here, we extended a global daily CO2 emissions dataset backwards in time to 1970 using machine learning algorithm, which was trained to predict historical daily emissions on national scales based on relationships between daily emission variations and predictors established for the period since 2019. Variation in daily CO2 emissions far exceeded the smoothed seasonal variations. For example, the range of daily CO2 emissions equivalent to 31% of the year average daily emissions in China and 46% of that in India in 2022, respectively. We identified the critical emission-climate temperature (Tc) is 16.5 degree celsius for global average (18.7 degree celsius for China, 14.9 degree celsius for U.S., and 18.4 degree celsius for Japan), in which negative correlation observed between daily CO2 emission and ambient temperature below Tc and a positive correlation above it, demonstrating increased emissions associated with higher ambient temperature. The long-term time series spanning over fifty years of global daily CO2 emissions reveals an increasing trend in emissions due to extreme temperature events, driven by the rising frequency of these occurrences. This work suggests that, due to climate change, greater efforts may be needed to reduce CO2 emissions. | 翻訳日:2024-07-31 05:10:53 公開日:2024-07-29 |
# 量子ランダムオラクルモデルにおける計算・計算プログラムの量子コピー保護
Quantum copy-protection of compute-and-compare programs in the quantum random oracle model ( http://arxiv.org/abs/2009.13865v5 ) ライセンス: Link先を確認 | Andrea Coladangelo, Christian Majenz, Alexander Poremba, | (参考訳) コピー保護は、ソフトウェアディストリビュータが任意の入力で評価できるような方法でプログラムをエンコードすることを可能にする。
Aaronson (CCC 2009) は、量子コピー保護スキームの正式な研究を開始し、量子暗号が量子非閉化定理(英語版)によってこの問題への解決策を提供するかもしれないと推測した。
本研究では、より表現力のある点関数の一般化である「コンピュテーション・アンド・コンプリア・プログラム」と呼ばれる、大規模な回避関数に対する量子複写保護スキームを導入する。
compute-and-compare プログラム $\mathsf{CC}[f,y]$ はその範囲内で関数 $f$ と文字列 $y$ によって指定される: on input $x$, $\mathsf{CC}[f,y]$ outputs $1$, if $f(x) = y$, and $0$。
提案手法は,量子乱数オラクルモデル(QROM)における完全悪意のある敵に対する非自明なセキュリティを実現する。
補完的な結果として,Ananth と La Placa (eprint 2020) が最近導入した "Secure Software Leasing" という,ソフトウェア保護に関するより弱い概念が,QROM の標準的なセキュリティ境界,すなわち無視可能な敵の優位性を保証していることを示す。
最後に,3つ目のコントリビューションとして,複数ビットの出力点関数に対する暗号化不能とコピー保護の関係を明らかにする。
Copy-protection allows a software distributor to encode a program in such a way that it can be evaluated on any input, yet it cannot be "pirated" - a notion that is impossible to achieve in a classical setting. Aaronson (CCC 2009) initiated the formal study of quantum copy-protection schemes, and speculated that quantum cryptography could offer a solution to the problem thanks to the quantum no-cloning theorem. In this work, we introduce a quantum copy-protection scheme for a large class of evasive functions known as "compute-and-compare programs" - a more expressive generalization of point functions. A compute-and-compare program $\mathsf{CC}[f,y]$ is specified by a function $f$ and a string $y$ within its range: on input $x$, $\mathsf{CC}[f,y]$ outputs $1$, if $f(x) = y$, and $0$ otherwise. We prove that our scheme achieves non-trivial security against fully malicious adversaries in the quantum random oracle model (QROM), which makes it the first copy-protection scheme to enjoy any level of provable security in a standard cryptographic model. As a complementary result, we show that the same scheme fulfils a weaker notion of software protection, called "secure software leasing", introduced very recently by Ananth and La Placa (eprint 2020), with a standard security bound in the QROM, i.e. guaranteeing negligible adversarial advantage. Finally, as a third contribution, we elucidate the relationship between unclonable encryption and copy-protection for multi-bit output point functions. | 翻訳日:2024-07-31 01:39:40 公開日:2024-07-29 |
# 決定機械:強化された決定木
Decision Machines: Enhanced Decision Trees ( http://arxiv.org/abs/2101.11347v6 ) ライセンス: Link先を確認 | Jinxiong Zhang, | (参考訳) 本稿では、行列計算を利用して計算効率と解釈可能性の両方を大幅に向上させる従来の二分決定木の革新的進化である決定機械(DM)について述べる。
ベクトル空間内の予測とバイナリテスト間の依存関係を明示的にマッピングすることで、DMは決定経路をナビゲートするための合理化されたアプローチを提供する。
決定木をカーネルメソッド、アンサンブルメソッド、アテンションメカニズムと統合する。
これらの要素の統合は、決定木の階層構造を活性化するだけでなく、行列計算の計算効率と一致させる。
我々の研究は、従来の機械学習アルゴリズムと現代のディープラーニング技術のギャップを埋め、機械学習分野におけるさらなる研究と応用のための新しい基盤を提供する。
This paper presents Decision Machines (DMs), an innovative evolution of traditional binary decision trees, which leverages matrix computations to significantly enhance both computational efficiency and interpretability. By explicitly mapping the dependencies between predictions and binary tests within a vector space, DMs offer a streamlined approach to navigating decision paths. We integrate decision trees with kernel methods, ensemble methods and attention mechanisms. The integration of these elements not only bolsters the hierarchical structure of decision trees but also aligns with the computational efficiency of matrix computations. Our work bridges the gap between traditional machine learning algorithms and modern deep learning techniques, providing a novel foundation for further research and application in the field of machine learning. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# Point Cloud Color Constancy
Point Cloud Color Constancy ( http://arxiv.org/abs/2111.11280v2 ) ライセンス: Link先を確認 | Xiaoyan Xing, Yanlin Qian, Sibo Feng, Yuhan Dong, Jiri Matas, | (参考訳) 本稿では,点雲を利用した照明色度推定アルゴリズムであるポイントクラウドカラーコンスタンシーについて述べる。
我々は、飛行時間センサ(ToF)がRGBセンサに厳密に装着した深度情報を活用し、各点に座標とRGB強度(x,y,z,r,g,b)を含む6次元雲を形成する。
PCCCは、点ネットアーキテクチャを色の不安定性問題に適用し、点線ベクトルを点線的に導き、大域的照明色度について大域的に決定する。
照明情報とともに拡張する2つのRGB-Dデータセットと、新しいベンチマークでは、PCCCは最先端のアルゴリズムよりも低い誤差を得る。
提案手法は単純かつ高速で、16*16サイズの入力しか必要とせず,500fps以上の速度で到達する。
In this paper, we present Point Cloud Color Constancy, in short PCCC, an illumination chromaticity estimation algorithm exploiting a point cloud. We leverage the depth information captured by the time-of-flight (ToF) sensor mounted rigidly with the RGB sensor, and form a 6D cloud where each point contains the coordinates and RGB intensities, noted as (x,y,z,r,g,b). PCCC applies the PointNet architecture to the color constancy problem, deriving the illumination vector point-wise and then making a global decision about the global illumination chromaticity. On two popular RGB-D datasets, which we extend with illumination information, as well as on a novel benchmark, PCCC obtains lower error than the state-of-the-art algorithms. Our method is simple and fast, requiring merely 16*16-size input and reaching speed over 500 fps, including the cost of building the point cloud and net inference. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# 生成擬似リプレイによるロバストかつ資源効率のよいデータフリー知識蒸留
Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay ( http://arxiv.org/abs/2201.03019v3 ) ライセンス: Link先を確認 | Kuluhan Binici, Shivam Aggarwal, Nam Trung Pham, Karianto Leman, Tulika Mitra, | (参考訳) データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
したがって, 実効的なデータフリーKD法は, 蒸留時に単調に生徒の精度を向上させるのが理想である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
この問題を解決するための簡単なアプローチは、生成されたサンプルを定期的に保存しリハーサルすることで、メモリフットプリントが増加し、プライバシの懸念が生まれます。
本稿では,これまでに観測された合成試料の分布を生成ネットワークでモデル化する。
特に、合成データ表現を最適に学習するためにカスタマイズされた訓練目的を持つ変分オートコーダ(VAE)を設計する。
学生は、VAEが作成したサンプルとともに、生成的擬似リプレイ技術によってリハーサルされる。
したがって、サンプルを保存することなく知識劣化を防止することができる。
画像分類ベンチマーク実験により,本手法は,試料保存法により発生する大きなメモリオーバーヘッドを排除しつつ,蒸留モデル精度の期待値を最適化することを示した。
Data-Free Knowledge Distillation (KD) allows knowledge transfer from a trained neural network (teacher) to a more compact one (student) in the absence of original training data. Existing works use a validation set to monitor the accuracy of the student over real data and report the highest performance throughout the entire process. However, validation data may not be available at distillation time either, making it infeasible to record the student snapshot that achieved the peak accuracy. Therefore, a practical data-free KD method should be robust and ideally provide monotonically increasing student accuracy during distillation. This is challenging because the student experiences knowledge degradation due to the distribution shift of the synthetic data. A straightforward approach to overcome this issue is to store and rehearse the generated samples periodically, which increases the memory footprint and creates privacy concerns. We propose to model the distribution of the previously observed synthetic samples with a generative network. In particular, we design a Variational Autoencoder (VAE) with a training objective that is customized to learn the synthetic data representations optimally. The student is rehearsed by the generative pseudo replay technique, with samples produced by the VAE. Hence knowledge degradation can be prevented without storing any samples. Experiments on image classification benchmarks show that our method optimizes the expected value of the distilled model accuracy while eliminating the large memory overhead incurred by the sample-storing methods. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# 準フレームレット:適応フレームレット畳み込みによるロバストグラフニューラルネットワーク
Quasi-Framelets: Robust Graph Neural Networks via Adaptive Framelet Convolution ( http://arxiv.org/abs/2201.04728v2 ) ライセンス: Link先を確認 | Mengxi Yang, Dai Shi, Xuebin Zheng, Jie Yin, Junbin Gao, | (参考訳) 本稿では,スペクトルグラフニューラルネットワーク(GNN)のためのマルチスケールフレームレット畳み込みの設計を提案する。
現在のスペクトル法は様々なグラフ学習タスクで優れているが、ノイズ、不完全、あるいは摂動グラフ信号に適応する柔軟性に欠けており、そのような条件下では脆弱である。
新たに提案したフレームレット畳み込みは,グラフデータを細調整によるマルチスケールアプローチにより低域と高域のスペクトルに分解することで,これらの制約に対処する。
提案手法はスペクトル領域内のフィルタ関数を直接設計し,スペクトル成分の精密制御を可能にする。
提案設計は、不要なスペクトル情報をフィルタリングし、ノイズグラフ信号の悪影響を著しく低減する。
我々のアプローチは、GNNの堅牢性を高めるだけでなく、重要なグラフの特徴や構造も維持する。
多様な実世界のグラフデータセットに関する広範な実験を通じて、我々のフレームレット畳み込みがノード分類タスクにおいて優れた性能を達成することを実証する。
ノイズの多いデータや敵攻撃に対する優れたレジリエンスを示しており、現実世界のグラフアプリケーションに対する堅牢なソリューションとしての可能性を強調している。
この進歩は、より適応的で信頼性の高いGNNアーキテクチャのための新しい道を開く。
This paper aims to provide a novel design of a multiscale framelet convolution for spectral graph neural networks (GNNs). While current spectral methods excel in various graph learning tasks, they often lack the flexibility to adapt to noisy, incomplete, or perturbed graph signals, making them fragile in such conditions. Our newly proposed framelet convolution addresses these limitations by decomposing graph data into low-pass and high-pass spectra through a finely-tuned multiscale approach. Our approach directly designs filtering functions within the spectral domain, allowing for precise control over the spectral components. The proposed design excels in filtering out unwanted spectral information and significantly reduces the adverse effects of noisy graph signals. Our approach not only enhances the robustness of GNNs but also preserves crucial graph features and structures. Through extensive experiments on diverse, real-world graph datasets, we demonstrate that our framelet convolution achieves superior performance in node classification tasks. It exhibits remarkable resilience to noisy data and adversarial attacks, highlighting its potential as a robust solution for real-world graph applications. This advancement opens new avenues for more adaptive and reliable spectral GNN architectures. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# 単なるリークではない: 画像の単一化に向けての真実に向けて
Not Just Streaks: Towards Ground Truth for Single Image Deraining ( http://arxiv.org/abs/2206.10779v3 ) ライセンス: Link先を確認 | Yunhao Ba, Howard Zhang, Ethan Yang, Akira Suzuki, Arnold Pfahnl, Chethan Chinder Chandrappa, Celso de Melo, Suya You, Stefano Soatto, Alex Wong, Achuta Kadambi, | (参考訳) 本研究では,実世界の降雨量とクリーンなイメージペアの大規模データセットと,降雨量と降雨量による劣化を画像から除去する手法を提案する。
デラミニングのための実世界のデータセットは存在しないため、現在の最先端の手法は合成データに依存しており、sim2realドメインギャップによって制限されている。
このギャップを、非レイン変動の微妙な制御により、実際のペアのデライニングデータセットを収集することで埋める。
我々のデータセットは、様々な実世界の降雨現象(例えば、雨のストリークと降雨の蓄積)のペアトレーニングと定量的評価を可能にする。
雨天現象に頑健な表現を学習するために,雨天と清潔な画像の間の雨天損失を最小限に抑え,基盤となるシーンを再構築するディープニューラルネットワークを提案する。
大規模な実験により, 種々の条件下での実際の降雨画像に対して, 最先端のデラミニング法よりも優れた性能を示すことが示された。
プロジェクトウェブサイト:https://visual.ee.ucla.edu/gt_rain.htm/。
We propose a large-scale dataset of real-world rainy and clean image pairs and a method to remove degradations, induced by rain streaks and rain accumulation, from the image. As there exists no real-world dataset for deraining, current state-of-the-art methods rely on synthetic data and thus are limited by the sim2real domain gap; moreover, rigorous evaluation remains a challenge due to the absence of a real paired dataset. We fill this gap by collecting a real paired deraining dataset through meticulous control of non-rain variations. Our dataset enables paired training and quantitative evaluation for diverse real-world rain phenomena (e.g. rain streaks and rain accumulation). To learn a representation robust to rain phenomena, we propose a deep neural network that reconstructs the underlying scene by minimizing a rain-robust loss between rainy and clean images. Extensive experiments demonstrate that our model outperforms the state-of-the-art deraining methods on real rainy images under various conditions. Project website: https://visual.ee.ucla.edu/gt_rain.htm/. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# 量子フォトニックプロセッサの学習理論
A learning theory for quantum photonic processors and beyond ( http://arxiv.org/abs/2209.03075v3 ) ライセンス: Link先を確認 | Matteo Rosati, | (参考訳) 連続可変(CV)量子回路によって生成された量子状態、測定、チャネルを学習するタスクについて考察する。
この回路群は光量子技術を記述するのに適しており、特に量子優位性を示すことのできる最先端のフォトニクスプロセッサを含んでいる。
CV回路パラメータに符号化された古典変数をそれらの回路上で評価された結果確率にマッピングする関数のクラスを定義する。
次に、擬似次元や被覆数の境界を計算することによって、そのようなクラスに対する効率的な学習可能性を保証するとともに、CV量子回路が回路サイズ、すなわちモードの数と多項式的にスケールするサンプルの複雑さで学習可能であることを示す。
その結果, CV回路は, 有限次元の回路と異なり, 回路深度によらず, 効率よくトレーニングできることがわかった。
We consider the tasks of learning quantum states, measurements and channels generated by continuous-variable (CV) quantum circuits. This family of circuits is suited to describe optical quantum technologies and in particular it includes state-of-the-art photonic processors capable of showing quantum advantage. We define classes of functions that map classical variables, encoded into the CV circuit parameters, to outcome probabilities evaluated on those circuits. We then establish efficient learnability guarantees for such classes, by computing bounds on their pseudo-dimension or covering numbers, showing that CV quantum circuits can be learned with a sample complexity that scales polynomially with the circuit's size, i.e., the number of modes. Our results show that CV circuits can be trained efficiently using a number of training samples that, unlike their finite-dimensional counterpart, does not scale with the circuit depth. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# 算数表現による二分決定木トラバーサルの革命
Revolutionizing Binary Decision Tree Traversals with Arithmetical Representations ( http://arxiv.org/abs/2209.04825v6 ) ライセンス: Link先を確認 | Jinxiong Zhang, | (参考訳) 本稿では,算術演算を用いた二分決定木をトラバースする革新的な手法を提案する。
本稿では,新しい表現行列を利用する二分木トラバーサルアルゴリズムの組を提案し,全二分木構造を平坦化し,集約された内部ノード決定を1つのベクトルに埋め込む。
当社のアプローチは、内部製品検索の最大化に基礎を置いており、決定木分割に関する新たな洞察を与えています。
This paper introduces an innovative method for traversing binary decision trees using arithmetic operations. We present a suite of binary tree traversal algorithms that leverage novel representation matrices to flatten the full binary tree structure and embed the aggregated internal node decisions into a single vector. Our approach, grounded in maximum inner product search, offers new insights into decision tree partitioning. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# ニューラルネットワーク付加モデルの一般化グラフ:財務における透明かつ正確な機械学習モデルの提案
Generalized Groves of Neural Additive Models: Pursuing transparent and accurate machine learning models in finance ( http://arxiv.org/abs/2209.10082v2 ) ライセンス: Link先を確認 | Dangxing Chen, Weicheng Ye, | (参考訳) 機械学習手法は従来の手法よりもモデル性能を著しく向上させたが、そのブラックボックス構造は研究者にとって結果の解釈を困難にしている。
高度に規制された金融業界にとって、モデルの透明性は正確性に等しく重要である。
モデルがどのように機能するかを理解できなければ、非常に正確な機械学習手法が受け入れられる可能性は低い。
我々は、ニューラル加算モデルの一般化グローブとして知られる、透明な機械学習モデルの新しいクラスを導入することでこの問題に対処する。
神経付加モデルの一般化されたグローブは、線形特徴、個々の非線形特徴、相互作用された非線形特徴の3つのカテゴリに分けられる。
さらに、最後のカテゴリの相互作用は局所的である。
ステップワイズ選択アルゴリズムは線形成分と非線形成分を区別し、加法的分離基準を適用して相互作用した群を慎重に検証する。
ファイナンスにおけるいくつかの実証的な例を通して、一般化されたニューラル加算モデルのグローブは、主に線形項とスパース非線形項しか持たない高い精度と透明性を示すことを示した。
While machine learning methods have significantly improved model performance over traditional methods, their black-box structure makes it difficult for researchers to interpret results. For highly regulated financial industries, model transparency is equally important to accuracy. Without understanding how models work, even highly accurate machine learning methods are unlikely to be accepted. We address this issue by introducing a novel class of transparent machine learning models known as generalized groves of neural additive models. The generalized groves of neural additive models separate features into three categories: linear features, individual nonlinear features, and interacted nonlinear features. Additionally, interactions in the last category are only local. A stepwise selection algorithm distinguishes the linear and nonlinear components, and interacted groups are carefully verified by applying additive separation criteria. Through some empirical examples in finance, we demonstrate that generalized grove of neural additive models exhibit high accuracy and transparency with predominantly linear terms and only sparse nonlinear ones. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# コントラスト型自己教師型学習のためのスリムなネットワーク
Slimmable Networks for Contrastive Self-supervised Learning ( http://arxiv.org/abs/2209.15525v3 ) ライセンス: Link先を確認 | Shuai Zhao, Linchao Zhu, Xiaohan Wang, Yi Yang, | (参考訳) 自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
この問題に対する主流の解決策は主に知識蒸留に依存しており、まず大きな教師モデルを訓練し、次にそれを蒸留することでより小さな教師の一般化能力を向上させる。
そこで本研究では,SlimCLR (SlimCLR) 学習のためのスリムなネットワークを余分に必要とせずに,事前学習した小さなモデルを得るための一段階のソリューションを提案する。
スリム化可能なネットワークは、完全なネットワークと、計算コストの低い小さなネットワークを含む、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークで構成されている。
しかし、ウェイトシェアリングネットワーク間の干渉は、勾配等級不均衡と勾配方向のばらつきによって証明されるように、自己監督されたケースで深刻な性能劣化を引き起こす。
前者は、パラメータのごく一部がバックプロパゲーション中に支配的な勾配を生成するが、主パラメータは完全に最適化されないことを示している。
後者は勾配方向が乱れ、最適化プロセスが不安定であることを示す。
これらの問題に対処するために,主パラメータが支配的な勾配を生成するための3つの手法を導入し,サブネットワークが一貫した出力を持つことを示す。
これらの技術には、サブネットワークのスロースタートトレーニング、オンライン蒸留、モデルサイズに応じた損失再重み付けが含まれる。
さらに, 線形評価において, 一つのスリム化可能な線形層が準最適であることを示す理論的結果を示した。
これにより、線形評価中に切換え可能な線形プローブ層が適用される。
典型的なコントラスト学習フレームワークでSlimCLRをインスタンス化し、パラメータやFLOPが少ない従来の手法よりも優れたパフォーマンスを実現する。
コードはhttps://github.com/mzhaoshuai/SlimCLRにある。
Self-supervised learning makes significant progress in pre-training large models, but struggles with small models. Mainstream solutions to this problem rely mainly on knowledge distillation, which involves a two-stage procedure: first training a large teacher model and then distilling it to improve the generalization ability of smaller ones. In this work, we introduce another one-stage solution to obtain pre-trained small models without the need for extra teachers, namely, slimmable networks for contrastive self-supervised learning (SlimCLR). A slimmable network consists of a full network and several weight-sharing sub-networks, which can be pre-trained once to obtain various networks, including small ones with low computation costs. However, interference between weight-sharing networks leads to severe performance degradation in self-supervised cases, as evidenced by gradient magnitude imbalance and gradient direction divergence. The former indicates that a small proportion of parameters produce dominant gradients during backpropagation, while the main parameters may not be fully optimized. The latter shows that the gradient direction is disordered, and the optimization process is unstable. To address these issues, we introduce three techniques to make the main parameters produce dominant gradients and sub-networks have consistent outputs. These techniques include slow start training of sub-networks, online distillation, and loss re-weighting according to model sizes. Furthermore, theoretical results are presented to demonstrate that a single slimmable linear layer is sub-optimal during linear evaluation. Thus a switchable linear probe layer is applied during linear evaluation. We instantiate SlimCLR with typical contrastive learning frameworks and achieve better performance than previous arts with fewer parameters and FLOPs. The code is at https://github.com/mzhaoshuai/SlimCLR. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# 反応ロボット制御の推論としての階層的ポリシー
Hierarchical Policy Blending as Inference for Reactive Robot Control ( http://arxiv.org/abs/2210.07890v3 ) ライセンス: Link先を確認 | Kay Hansel, Julen Urain, Jan Peters, Georgia Chalvatzaki, | (参考訳) 乱雑で密度の高い動的環境における運動生成は、ロボット工学における中心的なトピックであり、多目的意思決定問題として表現される。
現在のアプローチは、安全性とパフォーマンスのトレードオフです。
一方、反応政策は環境変化に対する迅速な対応を最適以下の行動のリスクで保証する。
一方、計画に基づく運動生成は、実現可能な軌道を提供するが、高い計算コストは制御周波数を制限し、したがって安全性を損なう可能性がある。
反応ポリシーと計画の利点を組み合わせるために,階層的な動き生成手法を提案する。
さらに,階層モデルと確率的最適化を形式化する確率的推論手法を採用する。
このアプローチは確率的かつリアクティブな専門家ポリシーの重み付け積として実現し,タスク水平線上で最適な重み付けを適応的に計算するために計画が使用される。
この確率的最適化は局所最適を回避し、乱雑で密度の高い環境における経路を見つける実行可能な反応性計画を提案する。
平面ナビゲーションと6DoF操作の広範な実験により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
Motion generation in cluttered, dense, and dynamic environments is a central topic in robotics, rendered as a multi-objective decision-making problem. Current approaches trade-off between safety and performance. On the one hand, reactive policies guarantee fast response to environmental changes at the risk of suboptimal behavior. On the other hand, planning-based motion generation provides feasible trajectories, but the high computational cost may limit the control frequency and thus safety. To combine the benefits of reactive policies and planning, we propose a hierarchical motion generation method. Moreover, we adopt probabilistic inference methods to formalize the hierarchical model and stochastic optimization. We realize this approach as a weighted product of stochastic, reactive expert policies, where planning is used to adaptively compute the optimal weights over the task horizon. This stochastic optimization avoids local optima and proposes feasible reactive plans that find paths in cluttered and dense environments. Our extensive experimental study in planar navigation and 6DoF manipulation shows that our proposed hierarchical motion generation method outperforms both myopic reactive controllers and online re-planning methods. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# Deep NURBS -- 許容可能な物理インフォームドニューラルネットワーク
Deep NURBS -- Admissible Physics-informed Neural Networks ( http://arxiv.org/abs/2210.13900v2 ) ライセンス: Link先を確認 | Hamed Saidaoui, Luis Espath, Rául Tempone, | (参考訳) 本研究では、任意のジオメトリの場合、ディリクレ境界条件を厳格に強制しつつ、偏微分方程式(PDE)の高精度かつ安価な解を可能にする、物理学情報ニューラルネットワーク(PINN)の新しい数値スキームを提案する。
提案手法は、物理領域とディリクレ境界条件を定義するのに必要な許容的なNURBSパラメトリゼーションとPINNソルバを組み合わせたものである。
基本境界条件は、この新しいDeep NURBSフレームワークで自動的に満たされる。
我々は,非Lipschitz領域を含む任意のジオメトリを考える際に,2次元楕円型PDEを用いて新しいアプローチを検証する。
古典的なPINNソルバと比較して、ディープ NURBS推定器は研究されたすべての問題に対して驚くほど高い収束率を持つ。
さらに,ニューラルネットワークの隠蔽層のみを用いて,研究対象のPDEに対して望ましい精度を実現した。
この新しい手法は、より現実的な物理インフォームド統計学習によってPDEに基づく変分問題を解けることによって、高次元問題に対するより効率的な解の道を開くと考えられる。
In this study, we propose a new numerical scheme for physics-informed neural networks (PINNs) that enables precise and inexpensive solution for partial differential equations (PDEs) in case of arbitrary geometries while strictly enforcing Dirichlet boundary conditions. The proposed approach combines admissible NURBS parametrizations required to define the physical domain and the Dirichlet boundary conditions with a PINN solver. The fundamental boundary conditions are automatically satisfied in this novel Deep NURBS framework. We verified our new approach using two-dimensional elliptic PDEs when considering arbitrary geometries, including non-Lipschitz domains. Compared to the classical PINN solver, the Deep NURBS estimator has a remarkably high convergence rate for all the studied problems. Moreover, a desirable accuracy was realized for most of the studied PDEs using only one hidden layer of neural networks. This novel approach is considered to pave the way for more effective solutions for high-dimensional problems by allowing for more realistic physics-informed statistical learning to solve PDE-based variational problems. | 翻訳日:2024-07-31 01:36:13 公開日:2024-07-29 |
# マルチプレイヤー不完全情報ゲームにおける対向モデル
Opponent Modeling in Multiplayer Imperfect-Information Games ( http://arxiv.org/abs/2212.06027v4 ) ライセンス: Link先を確認 | Sam Ganzfried, Kevin A. Wang, Max Chiswick, | (参考訳) 多くの現実世界の設定エージェントは、様々な戦略を利用できる複数の反対エージェントと戦略的に相互作用する。
このような設定のためのエージェントを設計するための標準的なアプローチは、ナッシュ均衡のような関連するゲーム理論の解の概念を計算または近似し、所定の戦略に従うことである。
しかし、このような戦略は、相手のプレーの観察を無視するものであり、悪用できる欠点を示す可能性がある。
本稿では,マルチプレイヤー不完全情報ゲームにおいて,繰り返しのインタラクションを通じて対戦者のプレーを観察する対戦者モデリング手法を提案する。
我々は,3人プレイのクーンポーカーにおいて,多種多様な実敵と正確なナッシュ均衡戦略に対して実験を行い,このアルゴリズムがナッシュ均衡戦略を含む全てのエージェントを著しく上回ることを示す。
In many real-world settings agents engage in strategic interactions with multiple opposing agents who can employ a wide variety of strategies. The standard approach for designing agents for such settings is to compute or approximate a relevant game-theoretic solution concept such as Nash equilibrium and then follow the prescribed strategy. However, such a strategy ignores any observations of opponents' play, which may indicate shortcomings that can be exploited. We present an approach for opponent modeling in multiplayer imperfect-information games where we collect observations of opponents' play through repeated interactions. We run experiments against a wide variety of real opponents and exact Nash equilibrium strategies in three-player Kuhn poker and show that our algorithm significantly outperforms all of the agents, including the exact Nash equilibrium strategies. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-29 |
# アクセサリのチューニング障害による原子時計の精度向上
Enhancing precision of atomic clocks by tuning disorder in accessories ( http://arxiv.org/abs/2212.08523v4 ) ライセンス: Link先を確認 | Aparajita Bhattacharyya, Ahana Ghoshal, Ujjwal Sen, | (参考訳) 精密測定を含むアクセサリーを有する量子デバイスは、ガラス障害、偶発的または工学的な挿入により、未知の量子系のパラメータを推定する際に、その気象学的精度を高めることができる。
無バイアス推定器が乱れた状況でもどのように特定され、その精度が量子Cr{\'a}mer-Rao不等式によって境界づけられるかを明確に述べる。
我々は,未バイアス推定器の最小標準偏差のフィッシャー情報に基づく下界を,システム内のガラス性障害の有無で比較した。
この現象は原子時計のような特定の測定装置の効率を高めることができる。
これらの時計の精度は、時間を測定するとき、2レベル原子の周波数の正確な決定に依存する。
不純物が原子内に存在し、障害パラメータとしてモデル化できる場合、理想的な無秩序なシナリオよりも周波数の測定がより正確になる可能性がある。
さらに、障害挿入は、2ビット状態のコピーである初期プローブの絡み合い内容の要求を減らし、障害誘発増強を提供する。
We find that a quantum device having an accessory involving precision measurement can have an enhancement of its metrological precision in estimating an unknown parameter of the quantum system by insertion of glassy disorder, accidental or engineered. We clearly mention how an unbiased estimator can also be identified in a disordered situation, and how the precision thereof can be bounded by the quantum Cr{\'a}mer-Rao inequality. We compare the Fisher information-based lower bound of the minimum standard deviation of an unbiased estimator, in presence of glassy disorder in the system, with the same of an ideal, viz. disorder-free, situation. The phenomenon can boost the efficiency of certain measuring devices, such as atomic clocks. The precision of these clocks, when measuring time, hinges on the precise determination of the frequency of a two-level atom. In cases where impurities are present in the atom, and can be modeled as a disorder parameter, it is possible for the measurement of frequency to be more accurate than in an ideal, disorder-free scenario. Moreover, disorder insertion can reduce the requirement of entanglement content of the initial probes, which are copies of two-qubit states, along with providing a disorder-induced enhancement. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-29 |
# UNIKD:ニューラルインプシット表現のための不確かさフィルター付きインクリメンタル知識蒸留
UNIKD: UNcertainty-filtered Incremental Knowledge Distillation for Neural Implicit Representation ( http://arxiv.org/abs/2212.10950v3 ) ライセンス: Link先を確認 | Mengqi Guo, Chen Li, Hanlin Chen, Gim Hee Lee, | (参考訳) 最近の神経暗黙表現(NIR)は、3次元再構成と新しいビュー合成のタスクにおいて大きな成功を収めている。
しかし、異なるカメラビューからのシーンのイメージを一度にトレーニングするためには、必要なのだ。
これは特に大規模なシーンと限られたデータストレージを持つシナリオでは高価である。
この観点から,本研究におけるNIRの漸進的学習の課題について考察する。
破滅的な忘れの問題を軽減するために,学生と教師の枠組みを設計する。
具体的には、各段階の終わりに生徒を教師として使用するプロセスを繰り返すとともに、次の段階において生徒の指導を指導する。
その結果、学生ネットワークはストリーミングデータから新たな情報を学び、教師ネットワークから古い知識を同時に保持することができる。
直感的ではあるが、生徒-教師パイプラインの適用は我々の作業ではうまくいきません。
教師ネットワークからのすべての情報は、古いデータでのみ訓練されているため、役に立たない。
さらに,この問題を解決するために,無作為な問い合わせ器と不確実性に基づくフィルタを導入し,有用な情報をフィルタリングする。
提案手法は汎用的であり,ニューラルレイディアンス場 (NeRF) やニューラルサーフェス場 (NeRF) などの暗黙表現に適応することができる。
3次元再構成と新しいビュー合成の併用による大規模な実験結果から, 異なるベースラインに対するアプローチの有効性が示された。
Recent neural implicit representations (NIRs) have achieved great success in the tasks of 3D reconstruction and novel view synthesis. However, they require the images of a scene from different camera views to be available for one-time training. This is expensive especially for scenarios with large-scale scenes and limited data storage. In view of this, we explore the task of incremental learning for NIRs in this work. We design a student-teacher framework to mitigate the catastrophic forgetting problem. Specifically, we iterate the process of using the student as the teacher at the end of each time step and let the teacher guide the training of the student in the next step. As a result, the student network is able to learn new information from the streaming data and retain old knowledge from the teacher network simultaneously. Although intuitive, naively applying the student-teacher pipeline does not work well in our task. Not all information from the teacher network is helpful since it is only trained with the old data. To alleviate this problem, we further introduce a random inquirer and an uncertainty-based filter to filter useful information. Our proposed method is general and thus can be adapted to different implicit representations such as neural radiance field (NeRF) and neural surface field. Extensive experimental results for both 3D reconstruction and novel view synthesis demonstrate the effectiveness of our approach compared to different baselines. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-29 |
# 量子ビット系における熱電流
Heat currents in qubit systems ( http://arxiv.org/abs/2301.13544v5 ) ライセンス: Link先を確認 | Hans C. Fogedby, | (参考訳) 現在、オープン量子系の文脈における量子熱力学への関心がある。
重要な問題は、量子熱力学の整合性、特に熱力学の第2法則、すなわち熱貯水池から冷たい貯水池への熱の流れである。
ここでは、最近のコンポジットシステム、特に局所的または大域的マスター方程式の適用に関する問題に重点を置いている。
この議論に寄与するために, 一つの量子ビットの例と, 異なる温度で2つの熱貯水池によって駆動される2つの結合量子ビットの単純な合成系について述べる。
大域的リンドブラッドマスター方程式アプローチの適用により、熱力学の第2法則に従って熱流の明示的な表現を提示する。
この分析はボルン・マルコフ近似を用いて行われる。
また、定常状態におけるコヒーレンスの存在の可能性についても論じる。
There is a current interest in quantum thermodynamics in the context of open quantum systems. An important issue is the consistency of quantum thermodynamics, in particular the second law of thermodynamics, i.e., the flow of heat from a hot reservoir to a cold reservoir. Here recent emphasis has been on composite system and in particular the issue regarding the application of local or global master equations. In order to contribute to this discussion we discuss two cases, namely as an example a single qubit and as a simple composite system two coupled qubits driven by two heat reservoirs at different temperatures, respectively. Applying a global Lindblad master equation approach we present explicit expressions for the heat currents in agreement with the second law of thermodynamics. The analysis is carried out in the Born-Markov approximation. We also discuss issues regarding the possible presence of coherences in the steady state. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-29 |
# DCEM:固体力学の深い相補的エネルギー法
DCEM: A deep complementary energy method for solid mechanics ( http://arxiv.org/abs/2302.01538v7 ) ライセンス: Link先を確認 | Yizheng Wang, Jia Sun, Timon Rabczuk, Yinghua Liu, | (参考訳) 近年、ディープラーニングの急速な進歩は、特に固体力学の領域で偏微分方程式(PDE)を解く際に、様々な分野に大きな影響を与え、ニューラルネットワークの顕著な近似能力の恩恵を受けている。
PDEの解決において、物理情報ニューラルネットワーク(PINN)とDeep Energy Method(DEM)が注目されている。
最小ポテンシャルエネルギーと相補エネルギーの原理は、固体力学における2つの重要な変分原理である。
しかし、よく知られたDeep Energy Method (DEM) は最小ポテンシャルエネルギーの原理に基づいているが、最小補完エネルギーの重要な形態は欠いている。
このギャップを埋めるために、最小補間エネルギーの原理に基づく深部補間エネルギー法(DCEM)を提案する。
DCEMの出力関数は、本質的に平衡方程式を満たす応力関数である。
本稿では,Prandtl と Airy の応力関数を用いて数値計算を行い,典型的な機械的問題をモデル化する際,DCEM と既存の PINN と DEM のアルゴリズムを比較した。
以上の結果から,DCEMはDEMよりも応力精度と効率が優れており,理論的解析や数値シミュレーションによって支持される複雑な変位境界条件に対処する上で有利であることが示唆された。
我々はDCEMをDCEM-Plus(DCEM-P)に拡張し、偏微分方程式を満たす項を追加する。
さらに,演算子学習と物理方程式を組み合わせることで,Deep complementary energy operator method (DCEM-O)を提案する。
当初,我々は高忠実度数値結果を用いてDCEM-Oを訓練し,補完エネルギーを取り入れた。
DCEM-PとDCEM-Oは、DCEMの精度と効率をさらに高める。
In recent years, the rapid advancement of deep learning has significantly impacted various fields, particularly in solving partial differential equations (PDEs) in the realm of solid mechanics, benefiting greatly from the remarkable approximation capabilities of neural networks. In solving PDEs, Physics-Informed Neural Networks (PINNs) and the Deep Energy Method (DEM) have garnered substantial attention. The principle of minimum potential energy and complementary energy are two important variational principles in solid mechanics. However, the well-known Deep Energy Method (DEM) is based on the principle of minimum potential energy, but there lacks the important form of minimum complementary energy. To bridge this gap, we propose the deep complementary energy method (DCEM) based on the principle of minimum complementary energy. The output function of DCEM is the stress function, which inherently satisfies the equilibrium equation. We present numerical results using the Prandtl and Airy stress functions, and compare DCEM with existing PINNs and DEM algorithms when modeling representative mechanical problems. The results demonstrate that DCEM outperforms DEM in terms of stress accuracy and efficiency and has an advantage in dealing with complex displacement boundary conditions, which is supported by theoretical analyses and numerical simulations. We extend DCEM to DCEM-Plus (DCEM-P), adding terms that satisfy partial differential equations. Furthermore, we propose a deep complementary energy operator method (DCEM-O) by combining operator learning with physical equations. Initially, we train DCEM-O using high-fidelity numerical results and then incorporate complementary energy. DCEM-P and DCEM-O further enhance the accuracy and efficiency of DCEM. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-29 |
# 音生成のための事前学習オーディオLDMの活用:ベンチマークによる検討
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study ( http://arxiv.org/abs/2303.03857v3 ) ライセンス: Link先を確認 | Yi Yuan, Haohe Liu, Jinhua Liang, Xubo Liu, Mark D. Plumbley, Wenwu Wang, | (参考訳) ディープニューラルネットワークは、最近、音声生成のブレークスルーを達成した。
優れたサンプル品質にもかかわらず、現在の音響生成モデルは、小規模データセット(例えば過剰適合)に問題に直面し、性能を著しく制限する。
本稿では,オーディオ生成の最先端モデルであるAudioLDMをバックボーンとして,音声生成の事前学習の利点について検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
さらに, 音響システムにおけるベースラインと評価プロトコルは, 異なる研究を直接比較するのに十分な整合性を持っていない。
音声生成タスクのさらなる研究を促進するため,様々な頻繁なデータセット上で音生成タスクをベンチマークする。
我々は,移動学習とベンチマークの結果が,条件付き音声生成のさらなる研究の参考になることを期待している。
Deep neural networks have recently achieved breakthroughs in sound generation. Despite the outstanding sample quality, current sound generation models face issues on small-scale datasets (e.g., overfitting), significantly limiting performance. In this paper, we make the first attempt to investigate the benefits of pre-training on sound generation with AudioLDM, the cutting-edge model for audio generation, as the backbone. Our study demonstrates the advantages of the pre-trained AudioLDM, especially in data-scarcity scenarios. In addition, the baselines and evaluation protocol for sound generation systems are not consistent enough to compare different studies directly. Aiming to facilitate further study on sound generation tasks, we benchmark the sound generation task on various frequently-used datasets. We hope our results on transfer learning and benchmarks can provide references for further research on conditional sound generation. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-29 |
# ランダムハミルトニアンによって生成されるユニタリ進化の回路複雑性の極端ジャンプ
Extremal jumps of circuit complexity of unitary evolutions generated by random Hamiltonians ( http://arxiv.org/abs/2303.17538v3 ) ライセンス: Link先を確認 | Marcin Kotowski, Michał Oszmaniec, Michał Horodecki, | (参考訳) 有限次元ヒルベルト空間におけるランダムに選択された強い相互作用を持つハミルトニアンの時間発展によって生じるユニタリの回路複雑性について検討する。
具体的には、2つのランダム・ジェネレータのアンサンブル、いわゆるガウスユニタリ・アンサンブル(GUE)と、ハール・ランダム・ユニタリ変換で共役する対角ガウス行列のアンサンブルに焦点を当てる。
どちらのシナリオでも、$\exp(-it H)$の複雑さは驚くべき振る舞いを示します。
さらに、上記のアンサンブルから生じる時間進化に由来する量子状態や、対角ガウス・ハミルトニアンのアンサンブルから生成される対角ユニタリについても、同様の挙動を観察する。
これらの結果を確立するためには、上記のアンサンブルの構造的特性(ユニタリ不変性など)と測定手法の集中に大きく依存する。
これにより、以前この文脈で用いられたテクニック、すなわち高次モーメントやフレームポテンシャルよりも、複雑性の時間的進化をより細かく制御できます。
We investigate circuit complexity of unitaries generated by time evolution of randomly chosen strongly interacting Hamiltonians in finite dimensional Hilbert spaces. Specifically, we focus on two ensembles of random generators -- the so called Gaussian Unitary Ensemble (GUE) and the ensemble of diagonal Gaussian matrices conjugated by Haar random unitary transformations. In both scenarios we prove that the complexity of $\exp(-it H)$ exhibits a surprising behaviour -- with high probability it reaches the maximal allowed value on the same time scale as needed to escape the neighborhood of the identity consisting of unitaries with trivial (zero) complexity. We furthermore observe similar behaviour for quantum states originating from time evolutions generated by above ensembles and for diagonal unitaries generated from the ensemble of diagonal Gaussian Hamiltonians. To establish these results we rely heavily on structural properties of the above ensembles (such as unitary invariance) and concentration of measure techniques. This gives us a much finer control over the time evolution of complexity compared to techniques previously employed in this context: high-degree moments and frame potentials. | 翻訳日:2024-07-31 01:26:28 公開日:2024-07-29 |
# シャッフルによるプライバシーの増幅:統一、単純化、強化
Privacy Amplification via Shuffling: Unified, Simplified, and Tightened ( http://arxiv.org/abs/2304.05007v5 ) ライセンス: Link先を確認 | Shaowei Wang, Yun Peng, Jin Li, Zikai Wen, Zhipeng Li, Shiyu Yu, Di Wang, Wei Yang, | (参考訳) 差分プライバシのシャッフルモデルは、分散化されたプライバシ保存データ分析において、有望なプライバシユーティリティバランスを提供する。
しかし、シャッフルによるプライバシーの増幅に関する現在の分析では、厳密さと一般性の両方が欠如している。
この問題に対処するために,シングルメッセージおよびマルチメッセージシャッフルプロトコルの両方において,プライバシーを増幅するための包括的なフレームワークとして,‘emph{variation-ratio reduction’を提案する。
ローカルメッセージの総変動境界と、ブランケットメッセージの確率比境界という2つの新しいパラメータ化を利用して、区別不可能なレベルを決定する。
我々の理論的な結果は,我々のフレームワークがより厳密な境界,特に極端確率設計を持つ局所乱数化器に対して,より厳密な境界を提供することを示す。
さらに、変動比の低減はシャッフルモデルにおける並列合成を補完し、統計クエリ(例えば、レンジクエリ、境界クエリ、頻繁なアイテムセットマイニング)で使用される一般的なサンプリングベースのランダム化器のプライバシー会計を向上する。
実証的な結果は、我々の数値増幅バウンダリが既存のものを超えており、シングルメッセージプロトコルの予算の最大$30\%、マルチメッセージプロトコルは$75\%、並列合成は$75\%-$95\%であることを示している。
我々のバウンダリはまた、非常に効率的な$\tilde{O}(n)$アルゴリズムをもたらし、$n=10^8$ユーザに対して10ドル以下で、数値的にプライバシを増幅します。
The shuffle model of differential privacy provides promising privacy-utility balances in decentralized, privacy-preserving data analysis. However, the current analyses of privacy amplification via shuffling lack both tightness and generality. To address this issue, we propose the \emph{variation-ratio reduction} as a comprehensive framework for privacy amplification in both single-message and multi-message shuffle protocols. It leverages two new parameterizations: the total variation bounds of local messages and the probability ratio bounds of blanket messages, to determine indistinguishability levels. Our theoretical results demonstrate that our framework provides tighter bounds, especially for local randomizers with extremal probability design, where our bounds are exactly tight. Additionally, variation-ratio reduction complements parallel composition in the shuffle model, yielding enhanced privacy accounting for popular sampling-based randomizers employed in statistical queries (e.g., range queries, marginal queries, and frequent itemset mining). Empirical findings demonstrate that our numerical amplification bounds surpass existing ones, conserving up to $30\%$ of the budget for single-message protocols, $75\%$ for multi-message ones, and a striking $75\%$-$95\%$ for parallel composition. Our bounds also result in a remarkably efficient $\tilde{O}(n)$ algorithm that numerically amplifies privacy in less than $10$ seconds for $n=10^8$ users. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-29 |
# InstructIE:バイリンガルインストラクションに基づく情報抽出データセット
InstructIE: A Bilingual Instruction-based Information Extraction Dataset ( http://arxiv.org/abs/2305.11527v4 ) ライセンス: Link先を確認 | Honghao Gui, Shuofei Qiao, Jintian Zhang, Hongbin Ye, Mengshu Sun, Lei Liang, Jeff Z. Pan, Huajun Chen, Ningyu Zhang, | (参考訳) 大規模言語モデルは、一般的な自然言語処理でよく機能するが、その効果は情報抽出(IE)の亜最適である。
最近の研究によると、主な理由はIE命令に関する広範なデータが不足していることにある。
IE命令の既存のデータセットは、カバー範囲が限られているだけでなく、建設コストも高いことに注意してください。
この問題に対処するために、12の異なるドメインをカバーするバイリンガル命令ベースのIEデータセットであるInstructIEを紹介する。
このようなデータセットの自動生成のためのフレームワークであるKG2Instructionを提案する。
さらに、テストセットを手動でアノテートします。
InstructIEでトレーニングされた大規模な言語モデルでは,IEの性能が向上するだけでなく,ベースラインに比べてゼロショット性能が向上することが実証された。
Large language models can perform well on general natural language tasks, but their effectiveness is still suboptimal for information extraction (IE). Recent works indicate that the main reason lies in the lack of extensive data on IE instructions. Note that the existing datasets on IE instructions not only have limited coverage but also involve high construction costs. To address this issue, we introduce InstructIE, a bilingual instruction-based IE dataset, which covers 12 diverse domains. We propose KG2Instruction, a framework specifically for the automatic generation of such datasets. Additionally, we manually annotate the test set. Experimental results demonstrate that large language models trained with InstructIE can not only obtain better IE capabilities but also enhance zero-shot performance compared with baselines. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-29 |
# 短期増強の選択は、ホメオスタティック・ニューラルセルオートマトンの進化を促進する
Selection for short-term empowerment accelerates the evolution of homeostatic neural cellular automata ( http://arxiv.org/abs/2305.15220v2 ) ライセンス: Link先を確認 | Caitlin Grasso, Josh Bongard, | (参考訳) エンパワーメント(エンパワーメント、英: Empowerment、英: Enpowerment)は、かつて、フィットネス機能として使用されるときのホメオスタシスが可能な神経細胞オートマトン(NCA)の進化的探索を支援することが示されている。
本研究は,NCAを具現化した分散センサモレータシステムに対して,エージェントの行動と将来の感覚の最大時間付き相互情報として定義されたエンパワーメントを成功させた。
しかし,行動とそれに対応する感覚との時間遅延は任意に選択された。
ここでは, 従来の研究を拡大し, ホメオスタティックNCAの発見を加速する補助的目的として, エンパワーメントの作用する時間スケールが有効性に与える影響を探求する。
ホメオスタシスのみの進化的選択と比較して,より長い遅延時間でエンパワーメントが大幅に改善されることが示唆された。
さらに,NCAの安定性と適応性について検討した。
短期的なNCAはより安定しており, ホームスタティックな課題を克服する上で, より優れた一般化が期待できる。
これらの知見は、他のアーティファクトの進化におけるエンパワーメントの利用を動機付け、それらに対する望ましい行動の進化を加速するためにどのように組み込むべきかを示唆している。
本論文のソースコードは, https://github.com/caitlingrasso/empowered-nca-II で公開されている。
Empowerment -- a domain independent, information-theoretic metric -- has previously been shown to assist in the evolutionary search for neural cellular automata (NCA) capable of homeostasis when employed as a fitness function. In our previous study, we successfully extended empowerment, defined as maximum time-lagged mutual information between agents' actions and future sensations, to a distributed sensorimotor system embodied as an NCA. However, the time-delay between actions and their corresponding sensations was arbitrarily chosen. Here, we expand upon previous work by exploring how the time scale at which empowerment operates impacts its efficacy as an auxiliary objective to accelerate the discovery of homeostatic NCAs. We show that shorter time delays result in marked improvements over empowerment with longer delays, when compared to evolutionary selection only for homeostasis. Moreover, we evaluate stability and adaptability of evolved NCAs, both hallmarks of living systems that are of interest to replicate in artificial ones. We find that short-term empowered NCA are more stable and are capable of generalizing better to unseen homeostatic challenges. Taken together, these findings motivate the use of empowerment during the evolution of other artifacts, and suggest how it should be incorporated to accelerate evolution of desired behaviors for them. Source code for the experiments in this paper can be found at: https://github.com/caitlingrasso/empowered-nca-II. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-29 |
# プライベートおよびコラボレーティブなカプラン量推定器
Private and Collaborative Kaplan-Meier Estimators ( http://arxiv.org/abs/2305.15359v2 ) ライセンス: Link先を確認 | Shadi Rahimian, Raouf Kerkouche, Ina Kurth, Mario Fritz, | (参考訳) カプラン・メイヤー推定器は、コホートの生存挙動を捉え、生存分析に必須のツールである。
その精度は、大規模で多様なデータセットによって改善され、データ保持者がより正確な推定のために協力するように促される。
しかし、これらのデータセットは機密性の高い個人情報を含むことが多く、単純なデータ共有を妨げる厳格なデータ保護措置を必要とする。
本研究では,差分プライバシーをデータの様々な機能に適用する柔軟性を提供する2つの新しい差分プライベート手法を提案する。
さらに,異なるデータ表現間の容易かつ迅速な変換を可能にする合成データセット生成手法を提案する。
これらの手法を用いることで,カプラン・マイアー曲線を厳密なプライバシー保証付きで同時推定できる様々な経路を提案する。
本研究は,本課題の方法の分類学と,この構造に基づく広範囲な実験的調査と評価を含む。
我々は,厳密なプライバシー基準(\varepsilon = 1$)に準拠したグローバルなKaplan-Meier推定器を,非プライベートな集中型推定器から統計的に有意な偏差を示さずに構築できることを実証した。
Kaplan-Meier estimators are essential tools in survival analysis, capturing the survival behavior of a cohort. Their accuracy improves with large, diverse datasets, encouraging data holders to collaborate for more precise estimations. However, these datasets often contain sensitive individual information, necessitating stringent data protection measures that preclude naive data sharing. In this work, we introduce two novel differentially private methods that offer flexibility in applying differential privacy to various functions of the data. Additionally, we propose a synthetic dataset generation technique that enables easy and rapid conversion between different data representations. Utilizing these methods, we propose various paths that allow a joint estimation of the Kaplan-Meier curves with strict privacy guarantees. Our contribution includes a taxonomy of methods for this task and an extensive experimental exploration and evaluation based on this structure. We demonstrate that our approach can construct a joint, global Kaplan-Meier estimator that adheres to strict privacy standards ($\varepsilon = 1$) while exhibiting no statistically significant deviation from the nonprivate centralized estimator. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-29 |
# SAPI:交差点付近の車両軌道予測
SAPI: Surroundings-Aware Vehicle Trajectory Prediction at Intersections ( http://arxiv.org/abs/2306.01812v2 ) ライセンス: Link先を確認 | Ethan Zhang, Hao Xiao, Yiqian Gan, Lei Wang, | (参考訳) 本研究では,交差点における車両軌道予測のための深層学習モデル,すなわちSAPIを提案する。
SAPIは、リアルタイムマップ、右道、および周辺トラフィックの情報を利用して、周囲の環境を抽象的に表現し、エンコードする。
提案モデルは、2つの畳み込みニューラルネットワーク(CNN)と1つのデコーダからなる。
生の履歴軌跡情報をフル活用するために, モデル内部で見返り操作を行うことを提案する。
我々は、自動運転車による現実世界の交差点で収集されたプロプライエタリなデータセット上でSAPIを評価する。
交差点での車両軌道予測において,SAPIは有望な性能を示し,ベンチマーク手法より優れていた。
6秒予測の平均変位誤差(ADE)と最終変位誤差(FDE)はそれぞれ1.84mと4.32mである。
また,提案モデルでは,異なるシナリオにおける車両軌跡を正確に予測できることを示す。
In this work we propose a deep learning model, i.e., SAPI, to predict vehicle trajectories at intersections. SAPI uses an abstract way to represent and encode surrounding environment by utilizing information from real-time map, right-of-way, and surrounding traffic. The proposed model consists of two convolutional network (CNN) and recurrent neural network (RNN)-based encoders and one decoder. A refiner is proposed to conduct a look-back operation inside the model, in order to make full use of raw history trajectory information. We evaluate SAPI on a proprietary dataset collected in real-world intersections through autonomous vehicles. It is demonstrated that SAPI shows promising performance when predicting vehicle trajectories at intersection, and outperforms benchmark methods. The average displacement error(ADE) and final displacement error(FDE) for 6-second prediction are 1.84m and 4.32m respectively. We also show that the proposed model can accurately predict vehicle trajectories in different scenarios. | 翻訳日:2024-07-31 01:16:44 公開日:2024-07-29 |
# CoCo: 教師なしドメイン適応グラフ分類のための結合コントラストフレームワーク
CoCo: A Coupled Contrastive Framework for Unsupervised Domain Adaptive Graph Classification ( http://arxiv.org/abs/2306.04979v3 ) ライセンス: Link先を確認 | Nan Yin, Li Shen, Mengzhu Wang, Long Lan, Zeyu Ma, Chong Chen, Xian-Sheng Hua, Xiao Luo, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ分類において目覚ましい成果を上げたが、多くのタスク固有のラベルが必要であり、取得には広範囲に費用がかかる可能性がある。
信頼できる解決策は、対象領域における教師なし学習を強化するためにラベル付きグラフを追加することである。
しかし、グラフトポロジの探究が不十分であり、また重要な領域差があるため、GNNをドメイン適応に適用する方法は未解決のままである。
本稿では,結合学習分野からトポロジ情報を抽出し,コントラスト学習による領域差を低減するCoCo(CoCo)を提案する。
CoCoにはグラフ畳み込みネットワークブランチと階層的なグラフカーネルネットワークブランチがあり、グラフトポロジを暗黙的かつ明示的な方法で探索する。
このフレームワークは、補完的な視点から学習したグラフ表現を拡張的理解のために組み込むだけでなく、ドメインアライメントのための同じ意味を持つドメイン間のサンプルペア間の類似性を促進します。
一般的なデータセットに関する大規模な実験は、CoCoがこれらの競合するベースラインを一般的に異なる設定で上回っていることを示している。
Although graph neural networks (GNNs) have achieved impressive achievements in graph classification, they often need abundant task-specific labels, which could be extensively costly to acquire. A credible solution is to explore additional labeled graphs to enhance unsupervised learning on the target domain. However, how to apply GNNs to domain adaptation remains unsolved owing to the insufficient exploration of graph topology and the significant domain discrepancy. In this paper, we propose Coupled Contrastive Graph Representation Learning (CoCo), which extracts the topological information from coupled learning branches and reduces the domain discrepancy with coupled contrastive learning. CoCo contains a graph convolutional network branch and a hierarchical graph kernel network branch, which explore graph topology in implicit and explicit manners. Besides, we incorporate coupled branches into a holistic multi-view contrastive learning framework, which not only incorporates graph representations learned from complementary views for enhanced understanding, but also encourages the similarity between cross-domain example pairs with the same semantics for domain alignment. Extensive experiments on popular datasets show that our CoCo outperforms these competing baselines in different settings generally. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-29 |
# 視覚言語モデルにおける微調整が分布外検出にどのように影響するか
How Does Fine-Tuning Impact Out-of-Distribution Detection for Vision-Language Models? ( http://arxiv.org/abs/2306.06048v3 ) ライセンス: Link先を確認 | Yifei Ming, Yixuan Li, | (参考訳) 最近のCLIPのような大規模視覚言語モデルでは、OoD(out-of-distribution)の検出と一般化性能が顕著である。
しかしながら、そのゼロショットインディストリビューション(ID)精度は、ダウンストリームデータセットに制限されることが多い。
最近のCLIPに基づくインシデントラーニングのような微調整手法は、OODラベルが利用可能なID分類やOOD一般化において、大幅に改善されている。
それでも、OODラベルなしでは、モデルがセマンティックシフトに信頼できるかどうかは不明だ。
本稿では,このギャップを埋めることを目的として,数発の下流タスクに対するOOD検出の微調整の影響について,総合的研究を行う。
OOD検出をマルチモーダルな概念マッチングとしてフレーミングすることにより、微調整法と様々なOODスコアとの接続を確立する。
以上の結果から,OODスコアの適切な選択はCLIPに基づく微調整に不可欠であることが示唆された。
特に、最大概念マッチング(MCM)スコアは、常に有望な解を提供する。
また, 即時学習は, ゼロショットに比較して最先端のOOD検出性能を示すことを示す。
Recent large vision-language models such as CLIP have shown remarkable out-of-distribution (OOD) detection and generalization performance. However, their zero-shot in-distribution (ID) accuracy is often limited for downstream datasets. Recent CLIP-based fine-tuning methods such as prompt learning have demonstrated significant improvements in ID classification and OOD generalization where OOD labels are available. Nonetheless, it remains unclear whether the model is reliable to semantic shifts without OOD labels. In this paper, we aim to bridge the gap and present a comprehensive study to understand how fine-tuning impact OOD detection for few-shot downstream tasks. By framing OOD detection as multi-modal concept matching, we establish a connection between fine-tuning methods and various OOD scores. Our results suggest that a proper choice of OOD scores is essential for CLIP-based fine-tuning. In particular, the maximum concept matching (MCM) score provides a promising solution consistently. We also show that prompt learning demonstrates the state-of-the-art OOD detection performance over the zero-shot counterpart. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-29 |
# HabiCrowd: クラウド対応ビジュアルナビゲーションのための高性能シミュレータ
HabiCrowd: A High Performance Simulator for Crowd-Aware Visual Navigation ( http://arxiv.org/abs/2306.11377v2 ) ライセンス: Link先を確認 | An Dinh Vuong, Toan Tien Nguyen, Minh Nhat VU, Baoru Huang, Dzung Nguyen, Huynh Thi Thanh Binh, Thieu Vo, Anh Nguyen, | (参考訳) Embodied AI(E-AI)の基礎的な側面である視覚ナビゲーションは、ここ数年で大きく研究されている。
視覚ナビゲーションタスクをサポートするために多くの3Dシミュレータが導入されたが、人間のダイナミクスを組み合わせるための作業はほとんど行われておらず、シミュレーションと現実世界のアプリケーションの間にギャップが生じた。
さらに、人間の力学を取り入れた現在の3Dシミュレータには、特にE-AIシミュレータの約束である計算効率の面で、いくつかの制限がある。
これらの欠点を克服するために,クラウド対応ビジュアルナビゲーションのための最初の標準ベンチマークであるHabiCrowdを紹介した。
実験により,提案手法は衝突回避における最先端性能を実現し,計算効率は比較して優れていた。
我々はHabiCrowdを利用して、クラウド対応視覚ナビゲーションタスクと人間とロボットのインタラクションに関する総合的な研究を行っている。
ソースコードとデータはhttps://habicrowd.github.io/で確認できる。
Visual navigation, a foundational aspect of Embodied AI (E-AI), has been significantly studied in the past few years. While many 3D simulators have been introduced to support visual navigation tasks, scarcely works have been directed towards combining human dynamics, creating the gap between simulation and real-world applications. Furthermore, current 3D simulators incorporating human dynamics have several limitations, particularly in terms of computational efficiency, which is a promise of E-AI simulators. To overcome these shortcomings, we introduce HabiCrowd, the first standard benchmark for crowd-aware visual navigation that integrates a crowd dynamics model with diverse human settings into photorealistic environments. Empirical evaluations demonstrate that our proposed human dynamics model achieves state-of-the-art performance in collision avoidance, while exhibiting superior computational efficiency compared to its counterparts. We leverage HabiCrowd to conduct several comprehensive studies on crowd-aware visual navigation tasks and human-robot interactions. The source code and data can be found at https://habicrowd.github.io/. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-29 |
# Predictive Pipelined Decoding: Exact LLM Decodingのための計算レイテンシトレードオフ
Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding ( http://arxiv.org/abs/2307.05908v2 ) ライセンス: Link先を確認 | Seongjun Yang, Gibbeum Lee, Jaewoong Cho, Dimitris Papailiopoulos, Kangwook Lee, | (参考訳) 本稿では,Large Language Models (LLMs) におけるgreedy decodingを高速化する手法として,予測パイプラインデコーディング(PPD)を提案する。
従来の戦略とは異なり、PDDは現在のトークン復号時に後のトークン復号の開始を並列化するために追加の計算資源を使用する。
この手法は遅延を減らし、LLM復号戦略におけるトレードオフの理解を再考する。
我々は計算とレイテンシのトレードオフを分析するための理論的フレームワークを開発した。
提案手法は,p_correct で表される一致率の評価により,提案手法に付随する遅延の潜在的な低減を解析的に推定する。
その結果、余剰の計算資源を使用することで、LCM復号化を加速する可能性が示された。
さらに, PPD を実装し, その有効性を実証的に検証するための予備実験を実施し, 理論的解析によってカバーされていない潜在的な現実的オーバーヘッドに対処する。
This paper presents "Predictive Pipelined Decoding (PPD)," an approach that speeds up greedy decoding in Large Language Models (LLMs) while maintaining the exact same output as the original decoding. Unlike conventional strategies, PPD employs additional compute resources to parallelize the initiation of subsequent token decoding during the current token decoding. This method reduces decoding latency and reshapes the understanding of trade-offs in LLM decoding strategies. We have developed a theoretical framework that allows us to analyze the trade-off between computation and latency. Using this framework, we can analytically estimate the potential reduction in latency associated with our proposed method, achieved through the assessment of the match rate, represented as p_correct. The results demonstrate that the use of extra computational resources has the potential to accelerate LLM decoding. Additionally, we implement PPD and conduct preliminary experiments to empirically validate its efficacy, addressing potential practical overheads not covered by theoretical analysis. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-29 |
# 汎用アーキテクチャによる分散トレーニングのためのロバスト完全非同期手法
Robust Fully-Asynchronous Methods for Distributed Training over General Architecture ( http://arxiv.org/abs/2307.11617v2 ) ライセンス: Link先を確認 | Zehan Zhu, Ye Tian, Yan Huang, Jinming Xu, Shibo He, | (参考訳) 分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST(Robust Fully-Asynchronous Stochastic Gradient Tracking)を提案する。
既存の非同期分散アルゴリズムとは異なり、R-FASTはデバイス間のデータ不均一性の影響を排除し、全体的な勾配ベクトルの追跡とバッファリングのために適切に設計された補助変数に依存する堅牢な勾配追跡戦略を採用することにより、パケットロスを可能にする。
さらに,本提案手法では,少なくとも1つの共通根を共有できる限り,2つのスパンニングツリーグラフを通信に利用し,通信アーキテクチャの柔軟な設計を可能にする。
本研究では,R-FASTは,滑らかかつ強凸な目的に対して幾何速度で最適近傍に収束し,一般の非凸設定に対して線形速度で静止点に収束することを示す。
Ring-AllReduceやD-PSGDのような同期ベンチマークアルゴリズムよりも1.5~2倍高速で動作し、精度は高いが、AD-PSGDやOSGPのような既存の非同期SOTAアルゴリズムよりも優れている。
Perfect synchronization in distributed machine learning problems is inefficient and even impossible due to the existence of latency, package losses and stragglers. We propose a Robust Fully-Asynchronous Stochastic Gradient Tracking method (R-FAST), where each device performs local computation and communication at its own pace without any form of synchronization. Different from existing asynchronous distributed algorithms, R-FAST can eliminate the impact of data heterogeneity across devices and allow for packet losses by employing a robust gradient tracking strategy that relies on properly designed auxiliary variables for tracking and buffering the overall gradient vector. More importantly, the proposed method utilizes two spanning-tree graphs for communication so long as both share at least one common root, enabling flexible designs in communication architectures. We show that R-FAST converges in expectation to a neighborhood of the optimum with a geometric rate for smooth and strongly convex objectives; and to a stationary point with a sublinear rate for general non-convex settings. Extensive experiments demonstrate that R-FAST runs 1.5-2 times faster than synchronous benchmark algorithms, such as Ring-AllReduce and D-PSGD, while still achieving comparable accuracy, and outperforms existing asynchronous SOTA algorithms, such as AD-PSGD and OSGP, especially in the presence of stragglers. | 翻訳日:2024-07-31 01:06:50 公開日:2024-07-29 |
# いかに効果的か? 大規模言語モデルに基づくファズドライバ生成の探索
How Effective Are They? Exploring Large Language Model Based Fuzz Driver Generation ( http://arxiv.org/abs/2307.12469v5 ) ライセンス: Link先を確認 | Cen Zhang, Yaowen Zheng, Mingqiang Bai, Yeting Li, Wei Ma, Xiaofei Xie, Yuekang Li, Limin Sun, Yang Liu, | (参考訳) LLM(Large Language Model)ファズドライバ生成は有望な研究分野である。
従来のプログラム分析ベースの手法とは異なり、このテキストベースのアプローチはより一般的であり、様々なAPI使用情報を利用することができる。
しかし、その効果や潜在的な課題など、この方向の根本的な問題に対する理解の欠如がまだ残っている。
このギャップを埋めるために,LLMを用いてファズドライバを効果的に生成する上での重要な課題を対象とした,最初の詳細な研究を行った。
本研究は,30の広く利用されているCプロジェクトから86のファズドライバ生成質問を収集した,キュレートされたデータセットを特徴とする。
6つのプロンプト戦略は、5つの異なる温度設定を持つ5つの最先端のLCMで設計およびテストされる。
合計で736,430個のファジィドライバを評価したところ、トークンのコストは0.85億ドル(8000ドル以上)だった。
さらに,LLM生成ドライバを産業用ドライバと比較し,ファジリング実験(3.75 CPU-year)を行った。
LLMをベースとしたファズドライバ生成は有望な方向であるが、実用的アプリケーションに対するいくつかの障害に直面している; - LLMは複雑な仕様を持つAPIに対して効果的なファズドライバを生成するのに困難に直面している。
繰り返しクエリの発行、例によるクエリ、反復的なクエリプロセスの採用、 – LLMの生成したドライバは、業界で使用されているものと同等のファジィな結果を得ることができるが、含まれたAPI使用の延長や、論理的なバグ検出を容易にするセマンティックオーラクルの統合など、拡張する大きなチャンスがある。
我々の洞察はOSS-Fuzz-Genプロジェクトを改善するために実装され、業界におけるファズドライバの実践的生成を促進しました。
LLM-based (Large Language Model) fuzz driver generation is a promising research area. Unlike traditional program analysis-based method, this text-based approach is more general and capable of harnessing a variety of API usage information, resulting in code that is friendly for human readers. However, there is still a lack of understanding regarding the fundamental issues on this direction, such as its effectiveness and potential challenges. To bridge this gap, we conducted the first in-depth study targeting the important issues of using LLMs to generate effective fuzz drivers. Our study features a curated dataset with 86 fuzz driver generation questions from 30 widely-used C projects. Six prompting strategies are designed and tested across five state-of-the-art LLMs with five different temperature settings. In total, our study evaluated 736,430 generated fuzz drivers, with 0.85 billion token costs ($8,000+ charged tokens). Additionally, we compared the LLM-generated drivers against those utilized in industry, conducting extensive fuzzing experiments (3.75 CPU-year). Our study uncovered that: - While LLM-based fuzz driver generation is a promising direction, it still encounters several obstacles towards practical applications; - LLMs face difficulties in generating effective fuzz drivers for APIs with intricate specifics. Three featured design choices of prompt strategies can be beneficial: issuing repeat queries, querying with examples, and employing an iterative querying process; - While LLM-generated drivers can yield fuzzing outcomes that are on par with those used in the industry, there are substantial opportunities for enhancement, such as extending contained API usage, or integrating semantic oracles to facilitate logical bug detection. Our insights have been implemented to improve the OSS-Fuzz-Gen project, facilitating practical fuzz driver generation in industry. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-29 |
# EthereumからArbitrumへのスマートコントラクトマイグレーションのセキュリティ解析
Security Analysis of Smart Contract Migration from Ethereum to Arbitrum ( http://arxiv.org/abs/2307.14773v3 ) ライセンス: Link先を確認 | Xueyan Tang, Lingzhi Shi, | (参考訳) あるブロックチェーンプラットフォームから別のブロックチェーンプラットフォームにスマートコントラクトを移行する場合、潜在的なセキュリティリスクがある。
これは、異なるブロックチェーンプラットフォームがスマートコントラクトを実行するための環境と特性が異なるためです。
本稿では,EthereumからArbitrumへのスマートコントラクトの移行に伴うセキュリティリスクについて検討する。
私たちは関連するデータを収集し、Arbitrumのクロスチェーンメッセージング、ブロックプロパティ、コントラクトアドレスエイリアス、ガス料金といった分野におけるEthereumとArbitrumの違いを調査するために、スマートコントラクトマイグレーションケースを分析しました。
36種類のスマートコントラクト移行事例から,4種類のケースを選択し,セキュリティリスクを要約した。
調査によると、Ethereumにデプロイされたスマートコントラクトは、不活性シーケンサが取得した古いオフチェーンデータ、時間に基づくロジックエラー、許可チェック失敗、DoS(DOS)攻撃など、公開ブロックチェーン特性に固有の問題によって、Arbitrumへの移行中に潜在的なセキュリティリスクに直面する可能性がある。
これらのセキュリティリスクを軽減するため,我々は回避方法を提案し,セキュアなマイグレーションプロセスを確保するためにユーザや開発者に対して検討を行った。
この研究は、EthereumからArbitrumへのスマートコントラクトのセキュアな移行を詳細に分析した初めてのものです。
When migrating smart contracts from one blockchain platform to another, there are potential security risks. This is because different blockchain platforms have different environments and characteristics for executing smart contracts. The focus of this paper is to study the security risks associated with the migration of smart contracts from Ethereum to Arbitrum. We collected relevant data and analyzed smart contract migration cases to explore the differences between Ethereum and Arbitrum in areas such as Arbitrum cross-chain messaging, block properties, contract address alias, and gas fees. From the 36 types of smart contract migration cases we identified, we selected 4 typical types of cases and summarized their security risks. The research shows that smart contracts deployed on Ethereum may face certain potential security risks during migration to Arbitrum, mainly due to issues inherent in public blockchain characteristics, such as outdated off-chain data obtained by the inactive sequencer, logic errors based on time, the permission check failed, Denial of Service(DOS) attacks. To mitigate these security risks, we proposed avoidance methods and provided considerations for users and developers to ensure a secure migration process. It's worth noting that this study is the first to conduct an in-depth analysis of the secure migration of smart contracts from Ethereum to Arbitrum. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-29 |
# 局所因果発見における構造的制約--標的変数の直接原因を特定する
Structural restrictions in local causal discovery: identifying direct causes of a target variable ( http://arxiv.org/abs/2307.16048v2 ) ライセンス: Link先を確認 | Juraj Bodik, Valérie Chavez-Demoulin, | (参考訳) 観測的関節分布から対象変数の直接原因の集合を学習する問題を考察する。
因果構造を表す有向非巡回グラフ(DAG)を学習することは科学の基本的な問題である。
完全なDAGが分布から特定できる場合、例えば非線形ガウスデータ生成過程を仮定するなど、いくつかの結果が知られている。
ここでは,DAG全体ではなく,1つの目的変数(局所因果構造)の直接的な原因を特定することにのみ関心がある。
これにより、識別可能性の仮定を緩和し、より高速で堅牢なアルゴリズムを開発することができる。
Invariance Causal Predictionフレームワークとは対照的に、我々は介入なしに1つの環境を観察するだけだと仮定する。
直接原因の集合が分布から特定可能な対象変数のデータ生成過程の異なる仮定について論じる。
その間、我々は基本的にターゲット変数以外の変数に仮定をしない。
そこで本研究では, 有限ランダムサンプルから直接原因を推定し, いくつかのベンチマークおよび実データに対して有効性を示すための2つの実用的なアルゴリズムを提案する。
We consider the problem of learning a set of direct causes of a target variable from an observational joint distribution. Learning directed acyclic graphs (DAGs) that represent the causal structure is a fundamental problem in science. Several results are known when the full DAG is identifiable from the distribution, such as assuming a nonlinear Gaussian data-generating process. Here, we are only interested in identifying the direct causes of one target variable (local causal structure), not the full DAG. This allows us to relax the identifiability assumptions and develop possibly faster and more robust algorithms. In contrast to the Invariance Causal Prediction framework, we only assume that we observe one environment without any interventions. We discuss different assumptions for the data-generating process of the target variable under which the set of direct causes is identifiable from the distribution. While doing so, we put essentially no assumptions on the variables other than the target variable. In addition to the novel identifiability results, we provide two practical algorithms for estimating the direct causes from a finite random sample and demonstrate their effectiveness on several benchmark and real datasets. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-29 |
# テネシー・イーストマン・プロセスの化学プロセスにおけるドメイン適応のベンチマーク
Benchmarking Domain Adaptation for Chemical Processes on the Tennessee Eastman Process ( http://arxiv.org/abs/2308.11247v2 ) ライセンス: Link先を確認 | Eduardo Fernandes Montesuma, Michela Mulas, Fred Ngolè Mboula, Francesco Corona, Antoine Souloumiac, | (参考訳) システム監視において、自動故障診断は、例えば、機械学習モデルを通してセンサーの読み取りに基づいてシステムの状態を推測しようとする。
この文脈では、歴史的データに基づいて、これらのシステムが受信データに一般化できることが重要である。
並行して、多くの要因がデータ確率分布の変化を誘発し、そのようなモデルが一般化する可能性を妨げている。
この意味で、ドメイン適応は異なる確率分布にモデルを適用するための重要なフレームワークである。
本稿では、化学プロセスの文脈におけるドメイン適応手法のベンチマークのための、テネシー・イーストマン・プロセス・オブ・ダウンズ・アンド・ヴォーゲル(1993)に基づく新しいベンチマークを提案する。
プロセスの説明とドメイン適応との関連性に加えて、ベンチマークを再現するための一連のデータ処理手順について述べる。
次に、この新しいベンチマークで11のドメイン適応戦略をテストし、最適なトランスポートベースの技術が他の戦略より優れていることを示す。
In system monitoring, automatic fault diagnosis seeks to infer the systems' state based on sensor readings, e.g., through machine learning models. In this context, it is of key importance that, based on historical data, these systems are able to generalize to incoming data. In parallel, many factors may induce changes in the data probability distribution, hindering the possibility of such models to generalize. In this sense, domain adaptation is an important framework for adapting models to different probability distributions. In this paper, we propose a new benchmark, based on the Tennessee Eastman Process of Downs and Vogel (1993), for benchmarking domain adaptation methods in the context of chemical processes. Besides describing the process, and its relevance for domain adaptation, we describe a series of data processing steps for reproducing our benchmark. We then test 11 domain adaptation strategies on this novel benchmark, showing that optimal transport-based techniques outperform other strategies. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-29 |
# 量子局所領域ネットワークのための低温マイクロ波リンク
Cryogenic microwave link for quantum local area networks ( http://arxiv.org/abs/2308.12398v2 ) ライセンス: Link先を確認 | W. K. Yam, M. Renger, S. Gandorfer, F. Fesquet, M. Handschuh, K. E. Honasoge, F. Kronowetter, Y. Nojiri, M. Partanen, M. Pfeiffer, H. van der Vliet, A. J. Matthews, J. Govenius, R. N. Jabdaraghi, M. Prunnila, A. Marx, F. Deppe, R. Gross, K. G. Fedorov, | (参考訳) 超伝導回路を用いたスケーラブルな量子情報処理は、単一希釈冷凍機にある個々のプロセッサからより強力な分散量子コンピューティングシステムへと進歩することが期待されている。
超伝導技術と互換性のある量子局所領域ネットワーク(QLAN)のためのハードウェアプラットフォームの実現は、実用的な量子優位性を達成するために重要である。
ここでは,マイクロ波QLANの基本プロトタイプとして,2つの異なる希釈型クライオスタットを6.6$mで接続する低温リンクと,その中心に5,2$mKのベース温度を接続する。
超伝導マイクロ波同軸ケーブルを用いて、分散ネットワークノード間の量子通信チャネルを形成する。
本研究では, 遠隔希釈冷凍機間の2モード圧縮マイクロ波状態の連続的エンタングルメント分布を実証し, 210 pm 0.02$dB, ネガティビティ0.501 pm 0.011$に到達した。
さらに、量子絡み合いはチャネル中心の温度で最大1ドルKまで保存され、高温でのマイクロ波量子通信への道が開かれた。
したがって、そのようなQLANシステムは、超伝導回路を用いた将来の分散量子コンピューティングのバックボーンを形成することができる。
Scalable quantum information processing with superconducting circuits is expected to advance from individual processors located in single dilution refrigerators to more powerful distributed quantum computing systems. The realization of hardware platforms for quantum local area networks (QLANs) compatible with superconducting technology is of high importance in order to achieve a practical quantum advantage. Here, we present a fundamental prototype platform for a microwave QLAN based on a cryogenic link connecting two separate dilution cryostats over a distance of $6.6$ m with a base temperature of $52$ mK in the center. Superconducting microwave coaxial cables are employed to form a quantum communication channel between the distributed network nodes. We demonstrate the continuous-variable entanglement distribution between the remote dilution refrigerators in the form of two-mode squeezed microwave states, reaching squeezing of $2.10 \pm 0.02$ dB and negativity of $0.501 \pm 0.011$. Furthermore, we show that quantum entanglement is preserved at channel center temperatures up to $1$ K, paving the way towards microwave quantum communication at elevated temperatures. Consequently, such a QLAN system can form the backbone for future distributed quantum computing with superconducting circuits. | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-29 |
# 臨床ノートを用いた公開共有型臨床大言語モデル
Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes ( http://arxiv.org/abs/2309.00237v4 ) ライセンス: Link先を確認 | Sunjun Kweon, Junu Kim, Jiyoun Kim, Sujeong Im, Eunbyeol Cho, Seongsu Bae, Jungwoo Oh, Gyubok Lee, Jong Hak Moon, Seng Chan You, Seungjin Baek, Chang Hoon Han, Yoon Bin Jung, Yohan Jo, Edward Choi, | (参考訳) 患者の臨床ノートを扱うために設計された大規模言語モデルの開発は、厳格なプライバシー規制のために、これらのノートのアクセシビリティとユーザビリティの制限によって、しばしば妨げられる。
これらの課題に対処するために,バイオメディカル文献から抽出した公開事例報告を用いて,まず大規模な臨床ノートを作成する。
次に、これらの合成ノートを使用して、専門的な臨床大言語モデルであるAsclepiusを訓練します。
Asclepiusは、合成データに基づいて訓練されているが、実際の臨床記録を用いて、実際の応用における潜在的な性能を評価する。
我々は、GPT-3.5-turboや他のオープンソースの代替品を含む、いくつかの大きな言語モデルに対してAsclepiusをベンチマークした。
合成ノートを用いたアプローチをさらに検証するため,Asclepiusを実際の臨床ノートで訓練した変種と比較した。
本研究は, ハイパフォーマンスな臨床言語モデルを構築する際に, 実物の代用として有効であることを示すものである。
この結論は、GPT-4と医療専門家の双方による詳細な評価によって裏付けられている。
アスクレピウスの開発に使用される重み、コード、データを含む全ての資源は、将来の研究のために一般に公開されている。
(https://github.com/starmpcc/Asclepius)
The development of large language models tailored for handling patients' clinical notes is often hindered by the limited accessibility and usability of these notes due to strict privacy regulations. To address these challenges, we first create synthetic large-scale clinical notes using publicly available case reports extracted from biomedical literature. We then use these synthetic notes to train our specialized clinical large language model, Asclepius. While Asclepius is trained on synthetic data, we assess its potential performance in real-world applications by evaluating it using real clinical notes. We benchmark Asclepius against several other large language models, including GPT-3.5-turbo and other open-source alternatives. To further validate our approach using synthetic notes, we also compare Asclepius with its variants trained on real clinical notes. Our findings convincingly demonstrate that synthetic clinical notes can serve as viable substitutes for real ones when constructing high-performing clinical language models. This conclusion is supported by detailed evaluations conducted by both GPT-4 and medical professionals. All resources including weights, codes, and data used in the development of Asclepius are made publicly accessible for future research. (https://github.com/starmpcc/Asclepius) | 翻訳日:2024-07-31 00:56:53 公開日:2024-07-29 |
# グラフ内の球に対する非切断型指導マップ
Non-Clashing Teaching Maps for Balls in Graphs ( http://arxiv.org/abs/2309.02876v2 ) ライセンス: Link先を確認 | Jérémie Chalopin, Victor Chepoi, Fionn Mc Inerney, Sébastien Ratel, | (参考訳) 最近、Kirkpatrick et al [ALT 2019] と Fallat et al [JMLR 2023] は非クラッシング教育を導入し、ゴールドマン・マティアスの共謀回避基準を満たす最も効率的な機械教育モデルであることを示した。
概念クラス $\mathcal{C}$ に対する教示写像 $T$ は、各概念 $C \in \mathcal{C}$ に対して (teaching) set $T(C)$ の例を割り当てる。
教示写像は、概念のペアがそれらの教示集合の和集合と一致しない場合、非クラッシングである。
非クラッシング教育写像 (NCTM) $T$ は、授業セット $T(C)$, $C \in \mathcal{C}$ の最大サイズである。
非クラッシング教育次元 NCTD$(\mathcal{C})$ of $\mathcal{C}$ は、NCTM の$\mathcal{C}$ の最小サイズである。
NCTM$^+$ と NCTD$^+(\mathcal{C})$ は類似して定義されるが、教師は正の例のみを使用することができる。
グラフのすべての球からなる概念クラス $\mathcal{B}(G)$ に対して NCTM と NCTM$^+$s を研究する。
関連する決定問題 B-NCTD$^+$ for NCTD$^+$ is NP-complete in split, co-bipartite and bipartite graphs。
驚いたことに、ETH が失敗しない限り、B-NCTD$^+$ は時間で走るアルゴリズム 2^{2^{o(\text{vc})}}\cdot n^{O(1)}$、カーネルに 2^{o(\text{vc})$ vertices を出力するカーネル化アルゴリズムも認めない。
これらの下界と一致する上界を補完する。
これらは非常に稀な結果である: NP において、vc によってパラメータ化されるような厳密な二重指数下界を許容することは唯一の問題であり、カーネル内の頂点数にそのような ETH ベースの条件付き下界を許容する問題の1つである。
木、インターバルグラフ、サイクルおよびサイクルのツリーに対して、VC次元に比例する大きさのNCTM$^+$sまたはNCTMを$\mathcal{B}(G)$とし、グロモフ・ハイエルボリックグラフに対して、近似NCTM$^+$s2を設計する。
Recently, Kirkpatrick et al. [ALT 2019] and Fallat et al. [JMLR 2023] introduced non-clashing teaching and showed it is the most efficient machine teaching model satisfying the Goldman-Mathias collusion-avoidance criterion. A teaching map $T$ for a concept class $\mathcal{C}$ assigns a (teaching) set $T(C)$ of examples to each concept $C \in \mathcal{C}$. A teaching map is non-clashing if no pair of concepts are consistent with the union of their teaching sets. The size of a non-clashing teaching map (NCTM) $T$ is the maximum size of a teaching set $T(C)$, $C \in \mathcal{C}$. The non-clashing teaching dimension NCTD$(\mathcal{C})$ of $\mathcal{C}$ is the minimum size of an NCTM for $\mathcal{C}$. NCTM$^+$ and NCTD$^+(\mathcal{C})$ are defined analogously, except the teacher may only use positive examples. We study NCTMs and NCTM$^+$s for the concept class $\mathcal{B}(G)$ consisting of all balls of a graph $G$. We show that the associated decision problem B-NCTD$^+$ for NCTD$^+$ is NP-complete in split, co-bipartite, and bipartite graphs. Surprisingly, we even prove that, unless the ETH fails, B-NCTD$^+$ does not admit an algorithm running in time $2^{2^{o(\text{vc})}}\cdot n^{O(1)}$, nor a kernelization algorithm outputting a kernel with $2^{o(\text{vc})}$ vertices, where vc is the vertex cover number of $G$. We complement these lower bounds with matching upper bounds. These are extremely rare results: it is only the second problem in NP to admit such a tight double-exponential lower bound parameterized by vc, and only one of very few problems to admit such an ETH-based conditional lower bound on the number of vertices in a kernel. For trees, interval graphs, cycles, and trees of cycles, we derive NCTM$^+$s or NCTMs for $\mathcal{B}(G)$ of size proportional to its VC-dimension, and for Gromov-hyperbolic graphs, we design an approximate NCTM$^+$ of size 2. | 翻訳日:2024-07-31 00:46:55 公開日:2024-07-29 |
# バルク拡散量子系における演算子拡散による加速減衰
Accelerated Decay due to Operator Spreading in Bulk-Dissipated Quantum Systems ( http://arxiv.org/abs/2309.03485v3 ) ライセンス: Link先を確認 | Tatsuhiko Shirai, Takashi Mori, | (参考訳) マルコビアン開多体量子系は複雑な緩和ダイナミクスを示す。
リウヴィリアのスペクトルギャップは、漸近的な崩壊速度を定常状態に特徴付けるが、近年、スペクトルギャップが必ずしも全体の緩和時間を決定するとは限らないことが指摘されている。
漸近的長期体制以前の緩和過程に対する我々の理解はまだ限られている。
ここでは定常状態における自己相関関数の集合緩和ダイナミクスを示す。
解析において重要な量として、過渡緩和を特徴付ける瞬時崩壊率を導入し、長期限界における従来の漸近崩壊率に収束する。
我々の理論は、バルク散逸した系が、演算子の拡散に伴う量子情報の揺らぎにより、漸近的な状態の前に一般化的に加速した崩壊を示すことを予測している。
Markovian open many-body quantum systems display complicated relaxation dynamics. The spectral gap of the Liouvillian characterizes the asymptotic decay rate towards the stationary state, but it has recently been pointed out that the spectral gap does not necessarily determine the overall relaxation time. Our understanding on the relaxation process before the asymptotically long-time regime is still limited. We here present a collective relaxation dynamics of autocorrelation functions in the stationary state. As a key quantity in the analysis, we introduce the instantaneous decay rate, which characterizes the transient relaxation and converges to the conventional asymptotic decay rate in the long-time limit. Our theory predicts that a bulk-dissipated system generically shows an accelerated decay before the asymptotic regime due to the scrambling of quantum information associated with the operator spreading. | 翻訳日:2024-07-31 00:46:55 公開日:2024-07-29 |
# 駆動散逸安定化による量子二量体の指数的に高速な調製
Exponentially faster preparation of quantum dimers via driven-dissipative stabilization ( http://arxiv.org/abs/2309.12705v2 ) ライセンス: Link先を確認 | Kian Hwee Lim, Wai-Keong Mok, Jia-Bin You, Jian Feng Kong, Davit Aghamalyan, | (参考訳) 本研究では,複数量子ビット間の多体絡み合いを1次元浴槽内に散逸させることにより生成する新しい高速・高忠実・耐雑音性スキームを提案する。
設計した時間依存駆動を用いて、1D浴槽における最先端の散逸安定化スキームの指数関数的高速化を実現し、目標の忠実度がユニティに近づき、キュービット数と指数関数的にスケールする時間スケールを必要とする。
量子二量体対を作るために、我々のスキームは、システムサイズに依存しないプロトコル時間で、局所的な2量子制御ハミルトニアンしか必要としない。
これは、多数の絡み合ったダイマーペアをオンデマンドで生成するためのスケーラブルで堅牢なプロトコルを提供し、多くの量子力学および量子情報処理タスクの基本的なリソースとして機能する。
We propose a novel rapid, high-fidelity, and noise-resistant scheme to generate many-body entanglement between multiple qubits stabilized by dissipation into a 1D bath. Using a carefully designed time-dependent drive, our scheme achieves a provably exponential speedup over state-of-the-art dissipative stabilization schemes in 1D baths, which require a timescale that diverges as the target fidelity approaches unity and scales exponentially with the number of qubits. To prepare quantum dimer pairs, our scheme only requires local 2-qubit control Hamiltonians, with a protocol time that is independent of system size. This provides a scalable and robust protocol for generating a large number of entangled dimer pairs on-demand, serving as a fundamental resource for many quantum metrology and quantum information processing tasks. | 翻訳日:2024-07-31 00:46:55 公開日:2024-07-29 |
# ドメインの一般化を再考する:識別可能性と一般化可能性
Rethinking Domain Generalization: Discriminability and Generalizability ( http://arxiv.org/abs/2309.16483v3 ) ライセンス: Link先を確認 | Shaocong Long, Qianyu Zhou, Chenhao Ying, Lizhuang Ma, Yuan Luo, | (参考訳) ドメイン一般化(DG)は、優れた識別可能性を維持しつつ、強力な一般化性を持つロバストモデルを開発する。
それでも、重要なDG技術は、特徴識別可能性を見越して、ドメイン不変表現を学習することで特徴一般化性を改善する傾向にある。
一方、特徴の一般化可能性と識別可能性の同時達成は、しばしば固有の矛盾を伴う複雑な課題を示す。
この課題は、不安定な要因、すなわち急激な相関を含むことにより、ドメイン不変の特徴が識別性を低下させるときに特に顕著になる。
一方、一般的な領域不変法は、カテゴリーレベルのアライメントに分類することができ、相当な一般化性を持ち、クラス内変動を狭める不必要な特徴を排除できる。
これらの障害を克服するために,我々はDGを,強い差別性と頑健な一般化性を備えた特徴を同時に付与する新たな視点から再考し,新しい枠組み,すなわち識別的微視的分布アライメント~(DMDA)を提案する。
DMDAにはSelective Channel Pruning~(SCP)とMicro-level Distribution Alignment~(MDA)の2つのコアコンポーネントが含まれている。
具体的には、SCPはニューラルネットワーク内での冗長性を緩和し、正確な分類による安定した属性を優先順位付けしようとする。
このアプローチは、急激な領域不変性の悪影響を軽減し、特徴識別性を増幅する。
さらに、MDAは各クラス内のマイクロレベルのアライメントをアクセントし、単なるカテゴリレベルのアライメントを越えている。
DMDAがDGの最先端手法に匹敵する結果を達成し,提案手法の有効性を裏付ける4つのベンチマークデータセットの大規模な実験を行った。
Domain generalization(DG) endeavors to develop robust models that possess strong generalizability while preserving excellent discriminability. Nonetheless, pivotal DG techniques tend to improve the feature generalizability by learning domain-invariant representations, inadvertently overlooking the feature discriminability. On the one hand, the simultaneous attainment of generalizability and discriminability of features presents a complex challenge, often entailing inherent contradictions. This challenge becomes particularly pronounced when domain-invariant features manifest reduced discriminability owing to the inclusion of unstable factors, i.e., spurious correlations. On the other hand, prevailing domain-invariant methods can be categorized as category-level alignment, susceptible to discarding indispensable features possessing substantial generalizability and narrowing intra-class variations. To surmount these obstacles, we rethink DG from a new perspective that concurrently imbues features with formidable discriminability and robust generalizability, and present a novel framework, namely, Discriminative Microscopic Distribution Alignment~(DMDA). DMDA incorporates two core components: Selective Channel Pruning~(SCP) and Micro-level Distribution Alignment~(MDA). Concretely, SCP attempts to curtail redundancy within neural networks, prioritizing stable attributes conducive to accurate classification. This approach alleviates the adverse effect of spurious domain invariance and amplifies the feature discriminability. Besides, MDA accentuates micro-level alignment within each class, going beyond mere category-level alignment. Extensive experiments on four benchmark datasets corroborate that DMDA achieves comparable results to state-of-the-art methods in DG, underscoring the efficacy of our method. | 翻訳日:2024-07-31 00:46:55 公開日:2024-07-29 |
# MVMR:マルチディトラクタに対するビデオモーメント検索の忠実度評価のための新しいフレームワーク
MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors ( http://arxiv.org/abs/2309.16701v3 ) ライセンス: Link先を確認 | Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung, | (参考訳) マルチメディアコンテンツの爆発により、ビデオからのテキストクエリにマッチするビデオモーメントを検出することを目的としたビデオモーメント検索(VMR)が重要問題として集中的に研究されている。
しかし、既存のVMRフレームワークは、ビデオが与えられると仮定して、ビデオのモーメント検索性能を評価する。
本稿では,VMRモデルの忠実度を評価するためのMVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案する。
そこで本研究では,テキストと視覚的セマンティック距離の検証手法を用いて,負の(トラクタ)と正の(偽の)ビデオセットを分類する大規模ビデオプール構築フレームワークを提案する。
これらの手法を用いて既存のVMRデータセットを拡張し、3つの実用的なMVMRデータセットを新たに構築する。
この課題を解決するために,(1)弱教師付き潜在的負の学習と(2)方向のハード負の学習という2つの対照的な学習メカニズムを用いた,強力な情報的サンプル重み付き学習手法であるCroCを提案する。
MVMRデータセットを用いた実験結果から,既存のVMRモデルは誤情報(ディストラクタ)に容易に注意をそらすことができるが,我々のモデルは極めて堅牢な性能を示し,CroCsはイントラクタに対する正のモーメントを識別するのに不可欠であることが示された。
私たちのコードとデータセットは、https://github.com/yny0506/Massive-Videos-Moment-Retrieval.comで公開されています。
With the explosion of multimedia content, video moment retrieval (VMR), which aims to detect a video moment that matches a given text query from a video, has been studied intensively as a critical problem. However, the existing VMR framework evaluates video moment retrieval performance, assuming that a video is given, which may not reveal whether the models exhibit overconfidence in the falsely given video. In this paper, we propose the MVMR (Massive Videos Moment Retrieval for Faithfulness Evaluation) task that aims to retrieve video moments within a massive video set, including multiple distractors, to evaluate the faithfulness of VMR models. For this task, we suggest an automated massive video pool construction framework to categorize negative (distractors) and positive (false-negative) video sets using textual and visual semantic distance verification methods. We extend existing VMR datasets using these methods and newly construct three practical MVMR datasets. To solve the task, we further propose a strong informative sample-weighted learning method, CroCs, which employs two contrastive learning mechanisms: (1) weakly-supervised potential negative learning and (2) cross-directional hard-negative learning. Experimental results on the MVMR datasets reveal that existing VMR models are easily distracted by the misinformation (distractors), whereas our model shows significantly robust performance, demonstrating that CroCs is essential to distinguishing positive moments against distractors. Our code and datasets are publicly available: https://github.com/yny0506/Massive-Videos-Moment-Retrieval. | 翻訳日:2024-07-31 00:46:55 公開日:2024-07-29 |
# 機能一般化の観点からのロバストなオーバーフィッティングを理解する
Understanding Robust Overfitting from the Feature Generalization Perspective ( http://arxiv.org/abs/2310.00607v2 ) ライセンス: Link先を確認 | Chaojian Yu, Xiaolong Shi, Jun Yu, Bo Han, Tongliang Liu, | (参考訳) 逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。
しかし、ロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。
本稿では,新しい特徴一般化の観点からROを考察する。
具体的には,自然データに対する各要因のアブレーション実験を設計し,その要因が自然データに由来することを確認した。
逆境と自然学習の唯一の違いが逆境の摂動の内包であることを考えると、逆境の摂動は自然データの特徴の一般化を低下させ、この仮説を広範な実験を通じて検証する。
これらの知見に基づき,特徴一般化の観点からROの全体像を示し,ROに関連する様々な経験的行動を説明する。
特徴一般化の観点を検討するため,ATにおける特徴一般化の劣化を防止するために,攻撃強度とデータ拡張という2つの代表的な手法を考案した。
ベンチマークデータセット上で行った大規模な実験により,提案手法はROを効果的に緩和し,対向ロバスト性を高めることができることが示された。
Adversarial training (AT) constructs robust neural networks by incorporating adversarial perturbations into natural data. However, it is plagued by the issue of robust overfitting (RO), which severely damages the model's robustness. In this paper, we investigate RO from a novel feature generalization perspective. Specifically, we design factor ablation experiments to assess the respective impacts of natural data and adversarial perturbations on RO, identifying that the inducing factor of RO stems from natural data. Given that the only difference between adversarial and natural training lies in the inclusion of adversarial perturbations, we further hypothesize that adversarial perturbations degrade the generalization of features in natural data and verify this hypothesis through extensive experiments. Based on these findings, we provide a holistic view of RO from the feature generalization perspective and explain various empirical behaviors associated with RO. To examine our feature generalization perspective, we devise two representative methods, attack strength and data augmentation, to prevent the feature generalization degradation during AT. Extensive experiments conducted on benchmark datasets demonstrate that the proposed methods can effectively mitigate RO and enhance adversarial robustness. | 翻訳日:2024-07-31 00:46:55 公開日:2024-07-29 |
# 社会福祉の適応的最大化
Adaptive maximization of social welfare ( http://arxiv.org/abs/2310.09597v2 ) ライセンス: Link先を確認 | Nicolo Cesa-Bianchi, Roberto Colomboni, Maximilian Kasy, | (参考訳) 我々は、社会福祉を最大化するための政策を繰り返し選択する問題を考える。
福祉は民間事業と公共収入の重み付けである。
初期の結果は後続の政策に影響を及ぼす。
実用性は観察されていないが、間接的に推測される。
応答関数は実験を通じて学習される。
我々は, Exp3アルゴリズムの変形に対して, 後悔に対する低い境界と, 一致する逆上界を導出する。
累積的後悔は$T^{2/3}$で増大する。
これが意味する。
(i)福祉の最大化は、(有限ポリシー集合に対して$T^{1/2}$のレートで)多武装バンディット問題よりも難しい。
(II)アルゴリズムは最適な速度を達成する。
確率的設定では、社会福祉が凹凸であれば、ダイアドサーチアルゴリズムを用いてT^{1/2}$(連続的な政策集合)のレートを達成できる。
我々は、非線形所得課税の拡張を分析し、商品課税の拡張をスケッチする。
我々は、われわれの設定を独占価格(これは簡単)と二国間貿易(より難しい)の価格設定と比較する。
We consider the problem of repeatedly choosing policies to maximize social welfare. Welfare is a weighted sum of private utility and public revenue. Earlier outcomes inform later policies. Utility is not observed, but indirectly inferred. Response functions are learned through experimentation. We derive a lower bound on regret, and a matching adversarial upper bound for a variant of the Exp3 algorithm. Cumulative regret grows at a rate of $T^{2/3}$. This implies that (i) welfare maximization is harder than the multi-armed bandit problem (with a rate of $T^{1/2}$ for finite policy sets), and (ii) our algorithm achieves the optimal rate. For the stochastic setting, if social welfare is concave, we can achieve a rate of $T^{1/2}$ (for continuous policy sets), using a dyadic search algorithm. We analyze an extension to nonlinear income taxation, and sketch an extension to commodity taxation. We compare our setting to monopoly pricing (which is easier), and price setting for bilateral trade (which is harder). | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-29 |
# 変分量子アルゴリズムのためのアルゴリズム指向クビットマッピング
Algorithm-Oriented Qubit Mapping for Variational Quantum Algorithms ( http://arxiv.org/abs/2310.09826v3 ) ライセンス: Link先を確認 | Yanjun Ji, Xi Chen, Ilia Polian, Yue Ban, | (参考訳) 短期デバイスに実装された量子アルゴリズムは、ノイズと限定的な量子ビット接続による量子ビットマッピングを必要とする。
本稿では,アルゴリズム固有の構造を利用して,正確なマッピング手法とスケーラブルなマッピング手法のギャップを埋めることを目的とした,アルゴリズム指向キュービットマッピング(AOQMAP)という戦略を提案する。
正確な手法は最適解を提供するが、大きな回路では難解となる。
SWAPネットワークのようなスケーラブルなメソッドは高速なソリューションを提供するが、最適性はない。
AOQMAPはこのギャップを、アルゴリズム的特徴と、特定のデバイスサブ構造との関係を利用して、最適でスケーラブルなソリューションを実現することで埋める。
提案された戦略は2段階のアプローチに従う。
まず、接続制約を満たすために回路をサブトポロジーにマップする。
第二に、コスト関数を用いて実行するための最適なキュービットを特定する。
特に、AOQMAPは、線形、T字型、H字型の回路深度を最小化する共通のサブトポロジー上で、完全に接続された2つの量子ビット相互作用を持つ変分量子アルゴリズムのスケーラブルかつ最適解を提供する。
IBM量子デバイス上で行われたベンチマーク実験では、Qiskit、Tket、SWAPネットワークと比較してゲート数と回路深さが大幅に減少した。
具体的には、AOQMAPは回路深さを最大82%減少させ、平均138%の成功確率を上昇させる。
このスケーラブルでアルゴリズム固有のアプローチは、より広い範囲の量子アルゴリズムを最適化する可能性を秘めている。
Quantum algorithms implemented on near-term devices require qubit mapping due to noise and limited qubit connectivity. In this paper we propose a strategy called algorithm-oriented qubit mapping (AOQMAP) that aims to bridge the gap between exact and scalable mapping methods by utilizing the inherent structure of algorithms. While exact methods provide optimal solutions, they become intractable for large circuits. Scalable methods, like SWAP networks, offer fast solutions but lack optimality. AOQMAP bridges this gap by leveraging algorithmic features and their association with specific device substructures to achieve optimal and scalable solutions. The proposed strategy follows a two stage approach. First, it maps circuits to subtopologies to meet connectivity constraints. Second, it identifies the optimal qubits for execution using a cost function. Notably, AOQMAP provides both scalable and optimal solutions for variational quantum algorithms with fully connected two qubit interactions on common subtopologies including linear, T-, and H-shaped, minimizing circuit depth. Benchmarking experiments conducted on IBM quantum devices demonstrate significant reductions in gate count and circuit depth compared to Qiskit, Tket, and SWAP network. Specifically, AOQMAP achieves up to an 82% reduction in circuit depth and an average 138% increase in success probability. This scalable and algorithm-specific approach holds the potential to optimize a wider range of quantum algorithms. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-29 |
# LLM4SGG:弱教師付きシーングラフ生成のための大規模言語モデル
LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation ( http://arxiv.org/abs/2310.10404v8 ) ライセンス: Link先を確認 | Kibum Kim, Kanghoon Yoon, Jaehyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park, | (参考訳) Wakly-Supervised Scene Graph Generation (WSSGG) 研究は、最近、コストのかかるアノテーションに大きく依存する、完全に教師されたアプローチの代替として現れた。
この点において,WSSGGの研究は画像領域上の非局在化三重項の接地に着目しつつ,非局在化三重項の取得に画像キャプションを利用した。
しかし、キャプションから三重項形成の過程に関わる2つの問題を見落としている。
1)キャプション中の細粒度述語が粗粒度述語に好ましくないように変換され、長い尾状述語分布となるようなキャプションから三つ子を抽出する際に、意味的過度な単純化問題が発生する。
2 低密度のシーングラフは、キャプション内の三つ子を、多くの三つ子を捨てて訓練に使用しない利害関係のクラスと整合させることで発生し、監督が不十分となる。
この2つの問題に対処するため,LLM の言語理解の深みを生かし,キャプションから三重項を抽出する際の推論能力と,エンティティ/述語クラスを対象データにアライメントすることで,弱教師付き SGG のための大規模言語モデル (LLM4SGG) を提案する。
これらのプロセスでLLMをさらに活用するため、我々はChain-of-Thoughtという概念と、文脈内数発の学習戦略を採用した。
LLM4SGGの有効性を検証するために、我々は、Visual GenomeとGQAデータセットの広範な実験を行い、Recall@Kと平均Recall@Kの両方において、最先端のWSSGG法と比較して大幅に改善されていることを示す。
さらに、LLM4SGGはデータ効率が良く、少量のトレーニング画像で効果的なモデルトレーニングを可能にする点が魅力である。
Weakly-Supervised Scene Graph Generation (WSSGG) research has recently emerged as an alternative to the fully-supervised approach that heavily relies on costly annotations. In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions. However, they have overlooked the two issues involved in the triplet formation process from the captions: 1) Semantic over-simplification issue arises when extracting triplets from captions, where fine-grained predicates in captions are undesirably converted into coarse-grained predicates, resulting in a long-tailed predicate distribution, and 2) Low-density scene graph issue arises when aligning the triplets in the caption with entity/predicate classes of interest, where many triplets are discarded and not used in training, leading to insufficient supervision. To tackle the two issues, we propose a new approach, i.e., Large Language Model for weakly-supervised SGG (LLM4SGG), where we mitigate the two issues by leveraging the LLM's in-depth understanding of language and reasoning ability during the extraction of triplets from captions and alignment of entity/predicate classes with target data. To further engage the LLM in these processes, we adopt the idea of Chain-of-Thought and the in-context few-shot learning strategy. To validate the effectiveness of LLM4SGG, we conduct extensive experiments on Visual Genome and GQA datasets, showing significant improvements in both Recall@K and mean Recall@K compared to the state-of-the-art WSSGG methods. A further appeal is that LLM4SGG is data-efficient, enabling effective model training with a small amount of training images. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-29 |
# ソーシャルメディア上でのヘイトスピーチ拡散器のユーザ特性分析
Analyzing User Characteristics of Hate Speech Spreaders on Social Media ( http://arxiv.org/abs/2310.15772v2 ) ライセンス: Link先を確認 | Dominique Geissler, Abdurahman Maarouf, Stefan Feuerriegel, | (参考訳) ソーシャルメディア上でのヘイトスピーチは、個人の精神的および身体的幸福を脅かし、現実世界の暴力に寄与する。
ソーシャルメディア上でのヘイトスピーチの普及を支える重要な要因は、リシェアだ。
しかし、誰がヘイトスピーチを再共有しているか、その特徴についてはほとんど知られていない。
本稿では,ヘイトスピーチにおけるユーザ特性の役割を,さまざまなヘイトスピーチ(政治的ヘイトスピーチなど)で分析する。
まず、大規模言語モデルを用いてヘイトスピーチ投稿をクラスタリングし、異なるタイプのヘイトスピーチを識別する。
次に,ユーザ属性がヘイトスピーチを再共有する確率に与える影響を,説明可能な機械学習モデルを用いてモデル化する。
そこで我々は,観察的ソーシャルメディアデータにおける選択バイアスの制御と,発話を嫌うユーザの潜伏する脆弱性の制御にデバイアスを適用した。
それ以外はすべて同じで、フォロワーが減り、友達も減り、投稿が減り、古いアカウントがヘイトスピーチを共有している。
これは、社会的影響の少ないユーザーがヘイトスピーチをシェアする傾向にあることを示している。
さらに、異なるタイプのヘイトスピーチに対してかなりの不均一性を見いだす。
例えば、人種差別と偽りの憎悪は、主に社会的影響の少ないユーザーによって拡散される。
対照的に、政治的反トランプと反右派憎悪は、より大きな社会的影響力を持つユーザーによって再創造される。
全体として、ヘイトスピーチの共有を促す要因を理解することは、有害な行動に関与するリスクのある個人を検知し、効果的な緩和戦略を設計するために重要である。
Hate speech on social media threatens the mental and physical well-being of individuals and contributes to real-world violence. Resharing is an important driver behind the spread of hate speech on social media. Yet, little is known about who reshares hate speech and what their characteristics are. In this paper, we analyze the role of user characteristics in hate speech resharing across different types of hate speech (e.g., political hate). For this, we proceed as follows: First, we cluster hate speech posts using large language models to identify different types of hate speech. Then we model the effects of user attributes on users' probability to reshare hate speech using an explainable machine learning model. To do so, we apply debiasing to control for selection bias in our observational social media data and further control for the latent vulnerability of users to hate speech. We find that, all else equal, users with fewer followers, fewer friends, fewer posts, and older accounts share more hate speech. This shows that users with little social influence tend to share more hate speech. Further, we find substantial heterogeneity across different types of hate speech. For example, racist and misogynistic hate is spread mostly by users with little social influence. In contrast, political anti-Trump and anti-right-wing hate is reshared by users with larger social influence. Overall, understanding the factors that drive users to share hate speech is crucial for detecting individuals at risk of engaging in harmful behavior and for designing effective mitigation strategies. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-29 |
# AlphaZero と Tabu Search による超大型グラフの探索
Finding Increasingly Large Extremal Graphs with AlphaZero and Tabu Search ( http://arxiv.org/abs/2311.03583v2 ) ライセンス: Link先を確認 | Abbas Mehrabian, Ankit Anand, Hyunjik Kim, Nicolas Sonnerat, Matej Balog, Gheorghe Comanici, Tudor Berariu, Andrew Lee, Anian Ruoss, Anna Bulanova, Daniel Toyama, Sam Blackwell, Bernardino Romera Paredes, Petar Veličković, Laurent Orseau, Joonkyung Lee, Anurag Murty Naredla, Doina Precup, Adam Zsolt Wagner, | (参考訳) この研究は、Erd\H{o}sの1975年の予想から着想を得た中心的極端グラフ理論の問題を研究する。
我々は、この問題を逐次決定問題として定式化し、ニューラルネットワーク誘導木探索であるAlphaZeroと、ヒューリスティック局所探索法であるタブサーチを比較した。
どちらの方法も、より小さなサイズで見つかった優れたグラフを使って、より大きなグラフの検索をジャンプ開始するカリキュラムを導入することで、我々は、いくつかのサイズの最先端の下位境界を改善する。
また,グラフ空間における探索学習のためのフレキシブルなグラフ生成環境と置換不変ネットワークアーキテクチャを提案する。
This work studies a central extremal graph theory problem inspired by a 1975 conjecture of Erd\H{o}s, which aims to find graphs with a given size (number of nodes) that maximize the number of edges without having 3- or 4-cycles. We formulate this problem as a sequential decision-making problem and compare AlphaZero, a neural network-guided tree search, with tabu search, a heuristic local search method. Using either method, by introducing a curriculum -- jump-starting the search for larger graphs using good graphs found at smaller sizes -- we improve the state-of-the-art lower bounds for several sizes. We also propose a flexible graph-generation environment and a permutation-invariant network architecture for learning to search in the space of graphs. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-29 |
# トポロジカル絶縁体ヘテロ構造のトポロジカルファラデー効果を利用したマイクロ波-光量子変換
Microwave-to-Optical Quantum Transduction Utilizing the Topological Faraday Effect of Topological Insulator Heterostructures ( http://arxiv.org/abs/2311.07293v2 ) ライセンス: Link先を確認 | Akihiko Sekine, Mari Ohfuchi, Yoshiyasu Doi, | (参考訳) マイクロ波と光子間の量子トランスダクションは超伝導量子ビットを用いたスケーラブル量子コンピュータの実現に不可欠である。
マイクロ波と光レンジの周波数差が大きいため、中間ボソニックモードや非線形プロセスを通じてトランスダクションを行う必要がある。
これまでのところ、強磁性体YIGの磁気光学的ファラデー効果(すなわち光-磁気相互作用)による転写効率$\eta$は、弱い磁気光学的カップリングにより$\eta\sim 10^{-8} \mathrm{-} 10^{-15}$と小さいことが示されている。
ここでは, 3次元トポロジカル絶縁薄膜は, テラヘルツ政権の試料厚さに依存しない位相的ファラデー効果を示す。
これにより、ファラデー回転角が大きくなり、薄膜限界における光磁気相互作用が強化される。
マイクロ波とテラヘルツ光子の伝送効率は、Bi$_2$Se$_3$やYIGなどの強磁性絶縁薄膜からなるヘテロ構造を利用して、$\eta\sim10^{-4}$に大幅に向上できることを理論的に示す。
The quantum transduction between microwave and optical photons is essential for realizing scalable quantum computers with superconducting qubits. Due to the large frequency difference between microwave and optical ranges, the transduction needs to be done via intermediate bosonic modes or nonlinear processes. So far, the transduction efficiency $\eta$ via the magneto-optic Faraday effect (i.e., the light-magnon interaction) in the ferromagnet YIG has been demonstrated to be small as $\eta\sim 10^{-8} \mathrm{-} 10^{-15}$ due to the weak magneto-optic coupling. Here, we take advantage of the fact that three-dimensional topological insulator thin films exhibit a topological Faraday effect that is independent of the sample thickness in the terahertz regime. This leads to a large Faraday rotation angle and therefore enhanced light-magnon interaction in the thin film limit. We show theoretically that the transduction efficiency between microwave and terahertz photons can be greatly improved to $\eta\sim10^{-4}$ by utilizing the heterostructures consisting of topological insulator thin films such as Bi$_2$Se$_3$ and ferromagnetic insulator thin films such as YIG. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-29 |
# 保存法と重力の量子化
Conservation Laws and the Quantization of Gravity ( http://arxiv.org/abs/2311.08971v3 ) ライセンス: Link先を確認 | Tianfeng Feng, Chiara Marletto, Vlatko Vedral, | (参考訳) 量子古典力学の一般的なフレームワークを用いて、量子物質と古典的な重力場の間の相互作用を分析する。
運動量やエネルギーの保存を仮定し、力学がハミルトン形式あるいは論文で設定された特定の分解特性に従うと仮定すると、古典的な重力場は量子系の運動量やエネルギーを変化させることはできない。
保存法則と物体の量子的性質の基本的な関係に基づいて、我々の分析は量子重力の研究に新たな視点を与え、自由落下のような既存の実験観測の新たな解釈を提供する。
Adopting general frameworks for quantum-classical dynamics, we analyze the interaction between quantum matter and a classical gravitational field. We point out that, assuming conservation of momentum or energy, and assuming that the dynamics obeys Hamiltonian formalism or a particular decomposition property set out in the paper, the classical gravitational field cannot change the momentum or energy of the quantum system, whereas the quantum gravitational field can do so. Drawing upon the fundamental relationship between conservation laws and the quantum properties of objects, our analysis offers new perspectives for the study of quantum gravity and provides a novel interpretation of existing experimental observations, such as free fall. | 翻訳日:2024-07-31 00:36:23 公開日:2024-07-29 |
# AV-Deepfake1M:大規模LCM駆動型オーディオビジュアルディープフェイクデータセット
AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset ( http://arxiv.org/abs/2311.15308v2 ) ライセンス: Link先を確認 | Zhixi Cai, Shreya Ghosh, Aman Pankaj Adatia, Munawar Hayat, Abhinav Dhall, Tom Gedeon, Kalin Stefanov, | (参考訳) 高度にリアルなディープフェイクな映像コンテンツの検出とローカライゼーションは、最先端の最先端の手法であっても困難である。
この領域における研究はほとんどが高品質なディープフェイク画像やビデオの検出に重点を置いているが、実際のビデオに埋め込まれたオーディオ視覚操作の小さな部分の局所化の問題に対処する研究はほとんどない。
本研究では,このようなコンテンツ生成の過程をエミュレートし,AV-Deepfake1Mデータセットを提案する。
データセットにはコンテンツ駆動が含まれています
(i)ビデオ操作、
(ii)音声操作、及び
(3)2K以上の被験者に対する音声・視覚的操作により,100万本以上の動画が得られた。
本稿では,提案したデータ生成パイプラインについて,データ品質の厳密な分析を伴って詳細に記述する。
最先端のディープフェイク検出とローカライズ手法を用いて提案したデータセットの総合ベンチマークは、以前のデータセットと比較してパフォーマンスが大幅に低下したことを示している。
提案したデータセットは、次世代のディープフェイクローカライゼーション手法を構築する上で重要な役割を果たす。
データセットと関連するコードはhttps://github.com/ControlNet/AV-Deepfake1Mで公開されている。
The detection and localization of highly realistic deepfake audio-visual content are challenging even for the most advanced state-of-the-art methods. While most of the research efforts in this domain are focused on detecting high-quality deepfake images and videos, only a few works address the problem of the localization of small segments of audio-visual manipulations embedded in real videos. In this research, we emulate the process of such content generation and propose the AV-Deepfake1M dataset. The dataset contains content-driven (i) video manipulations, (ii) audio manipulations, and (iii) audio-visual manipulations for more than 2K subjects resulting in a total of more than 1M videos. The paper provides a thorough description of the proposed data generation pipeline accompanied by a rigorous analysis of the quality of the generated data. The comprehensive benchmark of the proposed dataset utilizing state-of-the-art deepfake detection and localization methods indicates a significant drop in performance compared to previous datasets. The proposed dataset will play a vital role in building the next-generation deepfake localization methods. The dataset and associated code are available at https://github.com/ControlNet/AV-Deepfake1M . | 翻訳日:2024-07-31 00:26:37 公開日:2024-07-29 |
# ReMoS: 2パーソン相互作用のための3次元モーションコンディション反応合成
ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions ( http://arxiv.org/abs/2311.17057v3 ) ライセンス: Link先を確認 | Anindita Ghosh, Rishabh Dabral, Vladislav Golyanik, Christian Theobalt, Philipp Slusallek, | (参考訳) 近年の3次元モーション合成技術は,デジタル人間による多種多様な動作とジェスチャーの高品質なアニメーションを生成する。
しかし、このパラダイム内でのマルチヒューマンインタラクションの複雑なダイナミクスに対処する際、顕著な技術的ギャップが存在する。
本研究では,2人のインタラクションシナリオにおいて,人の全身反応運動を合成する拡散モデルReMoSを提案する。
1人の動きを考慮に入れ,2人目の反応体と手の動きを合成し,両者の相互作用を完了させるために,時空間的クロスアテンション機構を併用した。
本研究では,ペアダンス,忍術,キックボクシング,アクロバティックといった2つのシナリオにまたがるReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
複数の定量的メトリクス、質的視覚化、ユーザスタディを通じてReMoSを評価し、インタラクティブなモーション編集アプリケーションにおけるユーザビリティを示す。
Current approaches for 3D human motion synthesis generate high quality animations of digital humans performing a wide variety of actions and gestures. However, a notable technological gap exists in addressing the complex dynamics of multi human interactions within this paradigm. In this work, we present ReMoS, a denoising diffusion based model that synthesizes full body reactive motion of a person in a two person interaction scenario. Given the motion of one person, we employ a combined spatio temporal cross attention mechanism to synthesize the reactive body and hand motion of the second person, thereby completing the interactions between the two. We demonstrate ReMoS across challenging two person scenarios such as pair dancing, Ninjutsu, kickboxing, and acrobatics, where one persons movements have complex and diverse influences on the other. We also contribute the ReMoCap dataset for two person interactions containing full body and finger motions. We evaluate ReMoS through multiple quantitative metrics, qualitative visualizations, and a user study, and also indicate usability in interactive motion editing applications. | 翻訳日:2024-07-31 00:26:37 公開日:2024-07-29 |
# Agent-OM: オントロジーマッチングのためのLLMエージェントの活用
Agent-OM: Leveraging LLM Agents for Ontology Matching ( http://arxiv.org/abs/2312.00326v3 ) ライセンス: Link先を確認 | Zhangcheng Qiang, Weiqing Wang, Kerry Taylor, | (参考訳) オントロジーマッチング(OM)は、異なるオントロジー間のセマンティック相互運用性を可能にし、関連するエンティティを整合させることで、その概念的不均一性を解決する。
OMシステムには、従来の知識ベースのエキスパートシステムと、より新しい機械学習ベースの予測システムという、2つの一般的な設計パラダイムがある。
大規模言語モデル (LLM) と LLM エージェントはデータ工学に革命をもたらし、多くの領域で創造的に応用されているが、OM の可能性はまだ未定である。
本研究は,OMシステムのための新しいエージェント駆動LLM設計パラダイムを提案する。
OM に LLM エージェントを利用する際のいくつかの課題を考慮し、単純な OM ツールセットを用いて、2 つの Siamese エージェントからなる Agent-OM (w.r.t. Agent for Ontology Matching) という汎用フレームワークを提案する。
我々のフレームワークは概念実証システムで実装されている。
3つのオントロジーアライメント評価イニシアチブ (OAEI) のトラックを最先端OMシステム上で評価した結果, 単純なOMタスクにおける長年のベストパフォーマンスに非常に近い結果が得られ, 複雑かつ少ないOMタスクの性能を著しく向上させることができることがわかった。
Ontology matching (OM) enables semantic interoperability between different ontologies and resolves their conceptual heterogeneity by aligning related entities. OM systems currently have two prevailing design paradigms: conventional knowledge-based expert systems and newer machine learning-based predictive systems. While large language models (LLMs) and LLM agents have revolutionised data engineering and have been applied creatively in many domains, their potential for OM remains underexplored. This study introduces a novel agent-powered LLM-based design paradigm for OM systems. With consideration of several specific challenges in leveraging LLM agents for OM, we propose a generic framework, namely Agent-OM (w.r.t. Agent for Ontology Matching), consisting of two Siamese agents for retrieval and matching, with a set of simple OM tools. Our framework is implemented in a proof-of-concept system. Evaluations of three Ontology Alignment Evaluation Initiative (OAEI) tracks over state-of-the-art OM systems show that our system can achieve results very close to the long-standing best performance on simple OM tasks and can significantly improve the performance on complex and few-shot OM tasks. | 翻訳日:2024-07-31 00:26:37 公開日:2024-07-29 |
# AnyHome: 構造とテクスチャを備えた3Dホームのオープン語彙生成
AnyHome: Open-Vocabulary Generation of Structured and Textured 3D Homes ( http://arxiv.org/abs/2312.06644v3 ) ライセンス: Link先を確認 | Rao Fu, Zehao Wen, Zichen Liu, Srinath Sridhar, | (参考訳) 認知理論にインスパイアされたAnyHomeは、どんなテキストでもよく構造化され、テクスチャ化された屋内シーンに家庭規模で翻訳するフレームワークである。
提案手法は,大規模言語モデル (LLM) を設計テンプレートで促進することにより,提案した文章をアモーダルな構造化表現に変換する。
これらの表現は、定義された制約の中で幾何メッシュの合成を指示することにより、一貫した空間的レイアウトと現実的な空間的レイアウトを保証する。
次に、スコア蒸留サンプリングプロセスを使用して幾何学を洗練させ、それにライフスタイルのテクスチャを付加するエゴセントリックな塗布プロセスが続く。
AnyHomeは、編集性、カスタマイズ性、多様性、リアリズムで際立っている。
シーンの構造化された表現は、様々なレベルの粒度で広範な編集を可能にする。
単純なラベルから詳細な物語まで、テキストを解釈できるため、AnyHomeは詳細なジオメトリーとテクスチャを生成し、定量化と定性的化の両方で既存の手法より優れている。
Inspired by cognitive theories, we introduce AnyHome, a framework that translates any text into well-structured and textured indoor scenes at a house-scale. By prompting Large Language Models (LLMs) with designed templates, our approach converts provided textual narratives into amodal structured representations. These representations guarantee consistent and realistic spatial layouts by directing the synthesis of a geometry mesh within defined constraints. A Score Distillation Sampling process is then employed to refine the geometry, followed by an egocentric inpainting process that adds lifelike textures to it. AnyHome stands out with its editability, customizability, diversity, and realism. The structured representations for scenes allow for extensive editing at varying levels of granularity. Capable of interpreting texts ranging from simple labels to detailed narratives, AnyHome generates detailed geometries and textures that outperform existing methods in both quantitative and qualitative measures. | 翻訳日:2024-07-31 00:26:37 公開日:2024-07-29 |
# スライスワッサースタイン距離に基づく微分プライベート勾配流
Differentially Private Gradient Flow based on the Sliced Wasserstein Distance ( http://arxiv.org/abs/2312.08227v2 ) ライセンス: Link先を確認 | Ilana Sebag, Muni Sreenivas Pydi, Jean-Yves Franceschi, Alain Rakotomamonjy, Mike Gartrell, Jamal Atif, Alexandre Allauzen, | (参考訳) センシティブなトレーニングデータにおけるプライバシの保護は、特に生成モデリングの文脈において最重要である。
これは、差分的にプライベートな確率勾配降下または訓練モデルまたはジェネレータのための差分的にプライベートな計量によって達成できる。
本稿では,確率測度空間の勾配流に基づく新しい微分プライベートな生成モデルを提案する。
この目的のために、関連する確率微分方程式(SDE)を含むガウス平滑スライスワッサーシュタイン距離の勾配流を定義する。
このSDEを解くための数値的スキームを離散化して定義することにより、SDEのドリフト項の特定の形式によるガウス機構に基づくスムーズ化と微分プライバシーの関係を実証する。
次に、SDE自体が導入したスムーズなプロセスとWienerプロセスの両方を考慮に入れた勾配流の差分プライバシー保証を分析する。
実験により,提案モデルでは,ジェネレータベースモデルと比較して,低プライバシー予算で高忠実度データを生成できることが示唆された。
Safeguarding privacy in sensitive training data is paramount, particularly in the context of generative modeling. This can be achieved through either differentially private stochastic gradient descent or a differentially private metric for training models or generators. In this paper, we introduce a novel differentially private generative modeling approach based on a gradient flow in the space of probability measures. To this end, we define the gradient flow of the Gaussian-smoothed Sliced Wasserstein Distance, including the associated stochastic differential equation (SDE). By discretizing and defining a numerical scheme for solving this SDE, we demonstrate the link between smoothing and differential privacy based on a Gaussian mechanism, due to a specific form of the SDE's drift term. We then analyze the differential privacy guarantee of our gradient flow, which accounts for both the smoothing and the Wiener process introduced by the SDE itself. Experiments show that our proposed model can generate higher-fidelity data at a low privacy budget compared to a generator-based model, offering a promising alternative. | 翻訳日:2024-07-31 00:26:37 公開日:2024-07-29 |
# JoReS-Diff:低照度画像強調のための拡散モデルにおける関節網膜と意味前駆体
JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement ( http://arxiv.org/abs/2312.12826v2 ) ライセンス: Link先を確認 | Yuhui Wu, Guoqing Wang, Zhiwen Wang, Yang Yang, Tianyu Li, Malu Zhang, Chongyi Li, Heng Tao Shen, | (参考訳) 低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
いくつかの条件付き手法が成功したにも拘わらず、従来の手法はタスク固有の条件戦略の十分な定式化の重要性を無視する可能性がある。
本研究では,Retinexおよびセマンティックに基づく事前処理を付加した新しい手法であるJoReS-Diffを提案し,拡散モデルの生成能力を制御した。
まず、事前学習した分解ネットワークを利用してRetinexの事前生成を行い、調整ネットワークによってより良い品質で更新され、改良ネットワークに統合され、特徴レベルと画像レベルの両方でRetinexベースの条件生成を実装する。
さらに、入力画像からセマンティック事前をオフザシェルフセマンティックセグメンテーションモデルで抽出し、セマンティックアテンション層を介して組み込む。
Retinexとセマンティックベースの事前条件を条件として扱うことで、JoReS-DiffはLLIEと類似の画像拡張タスクのための拡散モデルを確立するためのユニークな視点を示す。
大規模な実験は、我々のアプローチの合理性と優越性を検証する。
Low-light image enhancement (LLIE) has achieved promising performance by employing conditional diffusion models. Despite the success of some conditional methods, previous methods may neglect the importance of a sufficient formulation of task-specific condition strategy, resulting in suboptimal visual outcomes. In this study, we propose JoReS-Diff, a novel approach that incorporates Retinex- and semantic-based priors as the additional pre-processing condition to regulate the generating capabilities of the diffusion model. We first leverage pre-trained decomposition network to generate the Retinex prior, which is updated with better quality by an adjustment network and integrated into a refinement network to implement Retinex-based conditional generation at both feature- and image-levels. Moreover, the semantic prior is extracted from the input image with an off-the-shelf semantic segmentation model and incorporated through semantic attention layers. By treating Retinex- and semantic-based priors as the condition, JoReS-Diff presents a unique perspective for establishing an diffusion model for LLIE and similar image enhancement tasks. Extensive experiments validate the rationality and superiority of our approach. | 翻訳日:2024-07-31 00:26:37 公開日:2024-07-29 |
# 複雑度理論による多重校正の意義
Complexity-Theoretic Implications of Multicalibration ( http://arxiv.org/abs/2312.17223v2 ) ライセンス: Link先を確認 | Sílvia Casacuberta, Cynthia Dwork, Salil Vadhan, | (参考訳) 本稿では,予測アルゴリズムの多群公正性に関する最近の文献と計算複雑性の古典的結果との関連性を示す。
多精度予測器は、あらかじめ特定された集合の任意の集合の各々のメンバに対して正しい。
多重校正予測器はより強い条件を満たす:それらはコレクションの各セットで校正される。
多重精度はトレビサン、タルシアニ、ヴァダン(2009)によって定義される函数の正則性の概念と等価である。
彼らは、クラス$F$(おそらく単純な)関数が与えられたとき、任意の複素関数$g$は、$F$のメンバに少数のオラクル呼び出しを行う低複雑さ関数$h$によって近似できることを示した。
この複雑性理論の正則性補題は、複雑性理論、加法数論、情報理論、グラフ理論、暗号学など、様々な分野に影響を及ぼすことが知られている。
多重校正というより強い概念から、Hardcore Lemma、Dense Model Theorem、条件付き擬似ミニエントロピーと予測不能の同値性など、正規性補題の多くの応用のより強くより一般的なバージョンを得る。
例えば、すべてのブール関数(その硬さによらず)が小さな不随伴ハードコア集合の集合を持つことを示し、これらのハードコア集合のサイズは、その函数がドメインの効率的な分割の対応する部分上でどのようにバランス付けられたかに関係している。
We present connections between the recent literature on multigroup fairness for prediction algorithms and classical results in computational complexity. Multiaccurate predictors are correct in expectation on each member of an arbitrary collection of pre-specified sets. Multicalibrated predictors satisfy a stronger condition: they are calibrated on each set in the collection. Multiaccuracy is equivalent to a regularity notion for functions defined by Trevisan, Tulsiani, and Vadhan (2009). They showed that, given a class $F$ of (possibly simple) functions, an arbitrarily complex function $g$ can be approximated by a low-complexity function $h$ that makes a small number of oracle calls to members of $F$, where the notion of approximation requires that $h$ cannot be distinguished from $g$ by members of $F$. This complexity-theoretic Regularity Lemma is known to have implications in different areas, including in complexity theory, additive number theory, information theory, graph theory, and cryptography. Starting from the stronger notion of multicalibration, we obtain stronger and more general versions of a number of applications of the Regularity Lemma, including the Hardcore Lemma, the Dense Model Theorem, and the equivalence of conditional pseudo-min-entropy and unpredictability. For example, we show that every boolean function (regardless of its hardness) has a small collection of disjoint hardcore sets, where the sizes of those hardcore sets are related to how balanced the function is on corresponding pieces of an efficient partition of the domain. | 翻訳日:2024-07-31 00:26:37 公開日:2024-07-29 |
# Deep-ELA: 単目的・多目的連続最適化問題に対する自己監督型事前学習変圧器を用いた深部探査景観解析
Deep-ELA: Deep Exploratory Landscape Analysis with Self-Supervised Pretrained Transformers for Single- and Multi-Objective Continuous Optimization Problems ( http://arxiv.org/abs/2401.01192v2 ) ライセンス: Link先を確認 | Moritz Vinzent Seiler, Pascal Kerschke, Heike Trautmann, | (参考訳) 近年の多くの研究で,特に単目的連続最適化問題において,探索景観解析(ELA)が数値的に特徴付ける可能性が実証されている。
これらの数値的特徴は、高レベルなプロパティ予測から自動アルゴリズム選択と自動アルゴリズム構成まで、連続最適化問題における機械学習タスクの入力を提供する。
ELAの特徴がなければ、単一目的の継続的最適化問題の特徴を分析し、理解することは、私たちの知る限りでは、非常に限定的です。
しかし、その有用性にもかかわらず、いくつかの過去の作品で示されているように、ERAの特徴はいくつかの欠点に悩まされている。
これには、(1.)複数の特徴の間の強い相関関係、(2.)多目的連続最適化問題への非常に限定的な適用性が含まれる。
治療法として、最近の研究は、ERAの代替としてディープラーニングベースのアプローチを提案している。
これらの研究では、例えば、ポイントクラウドトランスフォーマーを用いて、最適化問題のフィットネスランドスケープを特徴づけた。
しかし、これらのアプローチには大量のラベル付きトレーニングデータが必要である。
本研究では,ディープラーニングとERAの機能を組み合わせたハイブリッドアプローチであるDeep-ELAを提案する。
具体的には、無作為な最適化問題に対して、4つのトランスフォーマーを事前訓練し、連続的な単目的および多目的最適化問題のランドスケープの深い表現を学習した。
提案手法は, 単目的および多目的の連続最適化問題の解析に利用できるか, アルゴリズムの振る舞いや問題理解に焦点を絞った様々なタスクに微調整することができる。
In many recent works, the potential of Exploratory Landscape Analysis (ELA) features to numerically characterize, in particular, single-objective continuous optimization problems has been demonstrated. These numerical features provide the input for all kinds of machine learning tasks on continuous optimization problems, ranging, i.a., from High-level Property Prediction to Automated Algorithm Selection and Automated Algorithm Configuration. Without ELA features, analyzing and understanding the characteristics of single-objective continuous optimization problems is -- to the best of our knowledge -- very limited. Yet, despite their usefulness, as demonstrated in several past works, ELA features suffer from several drawbacks. These include, in particular, (1.) a strong correlation between multiple features, as well as (2.) its very limited applicability to multi-objective continuous optimization problems. As a remedy, recent works proposed deep learning-based approaches as alternatives to ELA. In these works, e.g., point-cloud transformers were used to characterize an optimization problem's fitness landscape. However, these approaches require a large amount of labeled training data. Within this work, we propose a hybrid approach, Deep-ELA, which combines (the benefits of) deep learning and ELA features. Specifically, we pre-trained four transformers on millions of randomly generated optimization problems to learn deep representations of the landscapes of continuous single- and multi-objective optimization problems. Our proposed framework can either be used out-of-the-box for analyzing single- and multi-objective continuous optimization problems, or subsequently fine-tuned to various tasks focussing on algorithm behavior and problem understanding. | 翻訳日:2024-07-31 00:16:53 公開日:2024-07-29 |
# 動的スパイキンググラフニューラルネットワーク
Dynamic Spiking Graph Neural Networks ( http://arxiv.org/abs/2401.05373v2 ) ライセンス: Link先を確認 | Nan Yin, Mengzhu Wang, Zhenghan Chen, Giulia De Masi, Bin Gu, Huan Xiong, | (参考訳) グラフで表される非ユークリッドデータの処理において、低消費電力と高効率のため、スパイキングニューラルネットワーク(SNN)とグラフニューラルネットワーク(GNN)の統合が徐々に注目を集めている。
しかし、一般的な問題として、動的グラフ表現学習は、高い複雑性や大きなメモリオーバーヘッドといった課題に直面している。
現在の作業では、グラフ構造情報を見落とし、伝播中に詳細が失われてしまうような、効率的なトレーニングのために、連続的な機能ではなくバイナリ機能を使用することで、リカレントニューラルネットワーク(RNN)の代わりにSNNを使用することが多い。
さらに、動的スパイクモデルを最適化するには、通常、時間ステップを越えた情報の伝搬が必要であり、メモリ要求が増加する。
これらの課題に対処するため、我々は \underline{Dy}namic \underline{S}p\underline{i}king \underline{G}raph \underline{N}eural Networks (\method{}) というフレームワークを提案する。
情報損失問題を緩和するため、‘method{} は初期層情報を最終層に直接伝播して情報補償を行う。
メモリ要求を満たすために、前方の計算の正確な逆に依存しない平衡状態に暗黙の微分を適用する。
従来の暗黙差分法は通常静的な状況に使用されるが、 \method{} は動的グラフ設定に拡張する。
大規模実世界の3つの動的グラフデータセットに対する大規模な実験は、計算コストの低い動的ノード分類タスクにおける \method{} の有効性を検証する。
The integration of Spiking Neural Networks (SNNs) and Graph Neural Networks (GNNs) is gradually attracting attention due to the low power consumption and high efficiency in processing the non-Euclidean data represented by graphs. However, as a common problem, dynamic graph representation learning faces challenges such as high complexity and large memory overheads. Current work often uses SNNs instead of Recurrent Neural Networks (RNNs) by using binary features instead of continuous ones for efficient training, which would overlooks graph structure information and leads to the loss of details during propagation. Additionally, optimizing dynamic spiking models typically requires propagation of information across time steps, which increases memory requirements. To address these challenges, we present a framework named \underline{Dy}namic \underline{S}p\underline{i}king \underline{G}raph \underline{N}eural Networks (\method{}). To mitigate the information loss problem, \method{} propagates early-layer information directly to the last layer for information compensation. To accommodate the memory requirements, we apply the implicit differentiation on the equilibrium state, which does not rely on the exact reverse of the forward computation. While traditional implicit differentiation methods are usually used for static situations, \method{} extends it to the dynamic graph setting. Extensive experiments on three large-scale real-world dynamic graph datasets validate the effectiveness of \method{} on dynamic node classification tasks with lower computational costs. | 翻訳日:2024-07-31 00:16:53 公開日:2024-07-29 |
# 教師なし可視赤外人物再同定のためのマルチメモリマッチング
Multi-Memory Matching for Unsupervised Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2401.06825v2 ) ライセンス: Link先を確認 | Jiangming Shi, Xiangbo Yin, Yeyun Chen, Yachao Zhang, Zhizhong Zhang, Yuan Xie, Yanyun Qu, | (参考訳) 教師なし可視赤外人物再識別(USL-VI-ReID)は、有望だが挑戦的な検索課題である。
USL-VI-ReIDの主な課題は、先行アノテーションに頼ることなく、擬似ラベルを効果的に生成し、モダリティ間で擬似ラベル対応を確立することである。
近年,USL-VI-ReIDではクラスタ化擬似ラベル法が注目されている。
しかし、従来の手法は個々のニュアンスを完全に活用するには至らなかった、なぜなら彼らは単にアイデンティティを表す単一のメモリを使って、相互モダリティの対応を確立するだけで、あいまいな相互モダリティの対応が得られたからである。
この問題を解決するために,USL-VI-ReIDのためのMMM(Multi-Memory Matching)フレームワークを提案する。
まず,2つのモダリティサンプルをクラスタリングして擬似ラベルを生成するために,Cross-Modality Clustering (CMC) モジュールを設計する。
マルチメモリ・ラーニング・アンド・マッチング(MMLM)モジュールを設計し,各視点のニュアンスに明示的に焦点を合わせ,信頼性の高い相互モダリティ対応を確立する。
最後に,ソフトクラスタレベルのアライメント (SCA) モジュールを設計し,ソフトな多対多アライメント戦略によりノイズ擬似ラベルの効果を緩和しながら,モダリティギャップを狭める。
公開SYSU-MM01とRegDBデータセットの大規模な実験により、確立された相互モダリティ対応の信頼性とMMMの有効性が示された。
ソースコードはリリースされます。
Unsupervised visible-infrared person re-identification (USL-VI-ReID) is a promising yet challenging retrieval task. The key challenges in USL-VI-ReID are to effectively generate pseudo-labels and establish pseudo-label correspondences across modalities without relying on any prior annotations. Recently, clustered pseudo-label methods have gained more attention in USL-VI-ReID. However, previous methods fell short of fully exploiting the individual nuances, as they simply utilized a single memory that represented an identity to establish cross-modality correspondences, resulting in ambiguous cross-modality correspondences. To address the problem, we propose a Multi-Memory Matching (MMM) framework for USL-VI-ReID. We first design a Cross-Modality Clustering (CMC) module to generate the pseudo-labels through clustering together both two modality samples. To associate cross-modality clustered pseudo-labels, we design a Multi-Memory Learning and Matching (MMLM) module, ensuring that optimization explicitly focuses on the nuances of individual perspectives and establishes reliable cross-modality correspondences. Finally, we design a Soft Cluster-level Alignment (SCA) module to narrow the modality gap while mitigating the effect of noise pseudo-labels through a soft many-to-many alignment strategy. Extensive experiments on the public SYSU-MM01 and RegDB datasets demonstrate the reliability of the established cross-modality correspondences and the effectiveness of our MMM. The source codes will be released. | 翻訳日:2024-07-31 00:16:53 公開日:2024-07-29 |
# 量子エントロピーと距離測度を統一的に推定するディスタングルメント
Disentanglement Provides a Unified Estimation for Quantum Entropies and Distance Measures ( http://arxiv.org/abs/2401.07716v2 ) ライセンス: Link先を確認 | Myeongjin Shin, Seungwoo Lee, Junseo Lee, Mingyu Lee, Donghwa Ji, Hyeonjun Yeo, Kabgyun Jeong, | (参考訳) フォン・ノイマン・エントロピー、R'enyi Entropy、Tsallis entropy、トレース距離、およびビュールズ距離のような忠実度誘起距離などの量子エントロピーと距離測度の推定は研究の重要な領域である。
本稿では,これらの量の推定に分散量子ニューラルネットワーク(DEQNN)を用いた統一的手法を提案する。
我々の数学的証明は、DECNNがより小さな部分状態で量子エントロピーと距離を保存できることを示し、さらなる推定に適している。
この方法は任意の数の量子状態に対してスケーラブルであり、特により複雑な量子系に対して有効である。
数値シミュレーションにより本手法の有効性を検証し,トレーニング性の向上と不毛な高原の回避策についても検討する。
The estimation of quantum entropies and distance measures, such as von Neumann entropy, R\'enyi entropy, Tsallis entropy, trace distance, and fidelity-induced distances like Bures distance, has been a key area of research. This paper introduces a unified approach using Disentangling Quantum Neural Networks (DEQNN) for estimating these quantities, leveraging continuity bounds and disentanglement in the cost function design. Our mathematical proof demonstrates that DEQNN can preserve quantum entropies and distances in smaller partial states, making them suitable for further estimation. This method is scalable to an arbitrary number of quantum states and is particularly effective for less complex quantum systems. Numerical simulations validate our approach, and we also discuss strategies to enhance trainability and avoid barren plateaus. | 翻訳日:2024-07-31 00:16:53 公開日:2024-07-29 |
# 微粒なシーングラフ生成のための適応的自己学習フレームワーク
Adaptive Self-training Framework for Fine-grained Scene Graph Generation ( http://arxiv.org/abs/2401.09786v3 ) ライセンス: Link先を確認 | Kibum Kim, Kanghoon Yoon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park, | (参考訳) シーングラフ生成(SGG)モデルは、長い尾の述語分布やアノテーションの欠如といったベンチマークデータセットに固有の問題に悩まされている。
本研究では, 注釈のない三つ子を用いて, SGGの長期化問題を緩和することを目的とする。
そこで本研究では,SGGモデルがトレーニングされている無注釈三重項に対して擬似ラベルを割り当てる,SGG(ST-SGG)の自己評価フレームワークを提案する。
画像認識のための自己学習には大きな進歩があったが、意味的あいまいさや述語クラスの長期分布といった固有の性質から、SGGタスクのための自己学習フレームワークを設計することはより困難である。
そこで本研究では,既存のSGGモデルに適用可能なモデルに依存しないフレームワークであるClass-specific Adaptive Thresholding with Momentum (CATM)を提案する。
さらに,提案する自己学習フレームワークをMPNNベースのSGGモデルに導入する際に有用なグラフ構造学習器(GSL)を考案した。
各種SGGモデルにおけるST-SGGの有効性を検証し,特に細粒度述語クラスの性能向上について検討した。
Scene graph generation (SGG) models have suffered from inherent problems regarding the benchmark datasets such as the long-tailed predicate distribution and missing annotation problems. In this work, we aim to alleviate the long-tailed problem of SGG by utilizing unannotated triplets. To this end, we introduce a Self-Training framework for SGG (ST-SGG) that assigns pseudo-labels for unannotated triplets based on which the SGG models are trained. While there has been significant progress in self-training for image recognition, designing a self-training framework for the SGG task is more challenging due to its inherent nature such as the semantic ambiguity and the long-tailed distribution of predicate classes. Hence, we propose a novel pseudo-labeling technique for SGG, called Class-specific Adaptive Thresholding with Momentum (CATM), which is a model-agnostic framework that can be applied to any existing SGG models. Furthermore, we devise a graph structure learner (GSL) that is beneficial when adopting our proposed self-training framework to the state-of-the-art message-passing neural network (MPNN)-based SGG models. Our extensive experiments verify the effectiveness of ST-SGG on various SGG models, particularly in enhancing the performance on fine-grained predicate classes. | 翻訳日:2024-07-31 00:16:53 公開日:2024-07-29 |
# 製造シミュレーションのための量子コンピューティング強化サービスエコシステム
Quantum Computing Enhanced Service Ecosystem for Simulation in Manufacturing ( http://arxiv.org/abs/2401.10623v3 ) ライセンス: Link先を確認 | Wolfgang Maass, Ankit Agrawal, Alessandro Ciani, Sven Danz, Alejandro Delgadillo, Philipp Ganser, Pascal Kienast, Marco Kulig, Valentina König, Nil Rodellas-Gràcia, Rivan Rughubar, Stefan Schröder, Marc Stautner, Hannah Stein, Tobias Stollenwerk, Daniel Zeuch, Frank K. Wilhelm, | (参考訳) 量子コンピューティング (QC) と機械学習 (ML) は、量子支援ML (QML) に個別にあるいは組み合わせられ、計算が高速化、精度の向上、リソース削減といった大きな可能性を秘めている。
工学における数値シミュレーションの改善は、製造業に強い経済的影響を与える可能性を示唆している。
本稿では, ハードウェアからアルゴリズム, サービス層, 組織層に至るまで, 様々なレイヤから構成される, 製造シミュレーションのための量子コンピューティング強化型サービスエコシステムの枠組みを提案する。
さらに,QCとQMLに基づく応用研究の現状を,科学的,産業的両面から考察する。
さらに、これらの新しい計算パラダイムの定量的評価を目的として、2つの高価値なユースケースを産業的に関連性のある環境で分析する。
Quantum computing (QC) and machine learning (ML), taken individually or combined into quantum-assisted ML (QML), are ascending computing paradigms whose calculations come with huge potential for speedup, increase in precision, and resource reductions. Likely improvements for numerical simulations in engineering imply the possibility of a strong economic impact on the manufacturing industry. In this project report, we propose a framework for a quantum computing-enhanced service ecosystem for simulation in manufacturing, consisting of various layers ranging from hardware to algorithms to service and organizational layers. In addition, we give insight into the current state of the art of applications research based on QC and QML, both from a scientific and an industrial point of view. We further analyse two high-value use cases with the aim of a quantitative evaluation of these new computing paradigms for industrially-relevant settings. | 翻訳日:2024-07-31 00:16:53 公開日:2024-07-29 |
# SU-SAM: パフォーマンスの低いシーンでセグメンテーションモデルに適応するためのシンプルな統一フレームワーク
SU-SAM: A Simple Unified Framework for Adapting Segment Anything Model in Underperformed Scenes ( http://arxiv.org/abs/2401.17803v2 ) ライセンス: Link先を確認 | Yiran Song, Qianyu Zhou, Xuequan Lu, Zhiwen Shao, Lizhuang Ma, | (参考訳) セグメンション・アズ・モデル(SAM)は、一般的な視覚シナリオにおいて優れた一般化性を示してきたが、専門的なデータを理解する能力に欠けていた。
近年,パラメータ効率の手法とタスク固有の設計を組み合わせ,特定のタスクにSAMを微調整する手法がいくつかある。
しかし、これらの手法は、下流のタスクで許容できるパフォーマンスを達成するために、手工芸、複雑でタスク固有の設計、および前/後処理に大きく依存している。
結果として、これは他の下流タスクへの一般化性を著しく制限する。
この問題に対処するために,パラメータ効率のよいSAMモデルを簡便かつ効率的に微調整できる簡易かつ統一的なフレームワーク SU-SAM を提案する。
SU-SAMはタスク固有の設計を一切必要とせず、パフォーマンスの低いシーンに対するSAMライクなモデルの適応性を大幅に向上することを目的としている。
具体的には、異なるメソッドのパラメータ効率のモジュールをフレームワークの基本設計要素に抽象化する。
さらに, SU-SAM, 直列構造, 並列構造, 混合構造, ロラ構造の4つの変種を提案する。
医用画像セグメンテーション、カモフラージュ物体検出、サルエント物体セグメンテーション、表面欠陥セグメンテーション、複雑な物体形状、影マスキングなど、9つのデータセットと6つの下流タスクによる総合的な実験により、SU-SAMの有効性を検証する。
実験の結果,SU-SAMは最先端の手法と比較して,競争力や精度が高いことがわかった。
さらに,SU-SAM内におけるパラメータ効率の異なる設計の有効性を詳細に分析する。
さらに,SU-SAMの一般化可能性を示す一般化モデルとベンチマークを提案する。
Segment anything model (SAM) has demonstrated excellent generalizability in common vision scenarios, yet falling short of the ability to understand specialized data. Recently, several methods have combined parameter-efficient techniques with task-specific designs to fine-tune SAM on particular tasks. However, these methods heavily rely on handcraft, complicated, and task-specific designs, and pre/post-processing to achieve acceptable performances on downstream tasks. As a result, this severely restricts generalizability to other downstream tasks. To address this issue, we present a simple and unified framework, namely SU-SAM, that can easily and efficiently fine-tune the SAM model with parameter-efficient techniques while maintaining excellent generalizability toward various downstream tasks. SU-SAM does not require any task-specific designs and aims to improve the adaptability of SAM-like models significantly toward underperformed scenes. Concretely, we abstract parameter-efficient modules of different methods into basic design elements in our framework. Besides, we propose four variants of SU-SAM, i.e., series, parallel, mixed, and LoRA structures. Comprehensive experiments on nine datasets and six downstream tasks to verify the effectiveness of SU-SAM, including medical image segmentation, camouflage object detection, salient object segmentation, surface defect segmentation, complex object shapes, and shadow masking. Our experimental results demonstrate that SU-SAM achieves competitive or superior accuracy compared to state-of-the-art methods. Furthermore, we provide in-depth analyses highlighting the effectiveness of different parameter-efficient designs within SU-SAM. In addition, we propose a generalized model and benchmark, showcasing SU-SAM's generalizability across all diverse datasets simultaneously. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-29 |
# 最適輸送と粒子勾配勾配を利用したプライバシー保護データリリース
Privacy-preserving data release leveraging optimal transport and particle gradient descent ( http://arxiv.org/abs/2401.17823v3 ) ライセンス: Link先を確認 | Konstantin Donhauser, Javier Abad, Neha Hulkund, Fanny Yang, | (参考訳) 本稿では,医療や行政などの高度に敏感な領域において,保護された表層データセットの差分データ合成を行う新しい手法を提案する。
現在の最先端の手法は、主に境界ベースのアプローチを使用しており、データセットは辺縁のプライベートな推定から生成される。
本稿では,PrivPGDについて紹介する。このPrivPGDは,最適輸送と粒子勾配勾配から得られるツールを生かし,限界に基づくプライベートデータ合成のための新しい生成手法である。
我々のアルゴリズムは、非常にスケーラブルで、追加のドメイン固有の制約を組み込む柔軟性を提供しながら、幅広いデータセット上の既存のメソッドよりも優れています。
We present a novel approach for differentially private data synthesis of protected tabular datasets, a relevant task in highly sensitive domains such as healthcare and government. Current state-of-the-art methods predominantly use marginal-based approaches, where a dataset is generated from private estimates of the marginals. In this paper, we introduce PrivPGD, a new generation method for marginal-based private data synthesis, leveraging tools from optimal transport and particle gradient descent. Our algorithm outperforms existing methods on a large range of datasets while being highly scalable and offering the flexibility to incorporate additional domain-specific constraints. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-29 |
# MEIA:未知環境におけるマルチモーダル・エンボディード・パーセプションと相互作用
MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments ( http://arxiv.org/abs/2402.00290v3 ) ライセンス: Link先を確認 | Yang Liu, Xinshuai Song, Kaixuan Jiang, Weixing Chen, Jingzhou Luo, Guanbin Li, Liang Lin, | (参考訳) 大規模言語モデルの発展に伴い、エンボディド・インテリジェンス(英語版)が注目を集めている。
それにもかかわらず、エンボディドインテリジェンスに関する以前の研究は、通常、視覚的または言語的に、シーンまたは歴史的記憶を一様の方法で符号化しており、それは、モデルの動き計画とエンボディドコントロールとの整合を複雑にしている。
この制限を克服するために、自然言語で表現された高レベルなタスクを実行可能なアクションのシーケンスに変換することができるMultimodal Embodied Interactive Agent (MEIA)を導入する。
具体的には,シーンの視覚的記憶を介し,大規模モデルとの組込み制御を容易にする,新しいMultimodal Environment Memory (MEM) モジュールを提案する。
この能力により、MEIAは多様な要件とロボットの能力に基づいて実行可能なアクションプランを生成することができる。
さらに,大規模言語モデルの助けを借りて,動的仮想カフェ環境に基づく具体的質問応答データセットを構築した。
この仮想環境では、ゼロショット学習を通じて複数の大規模モデルを活用し、様々な状況におけるシナリオを慎重に設計し、いくつかの実験を行う。
実験の結果,様々な対話型タスクにおけるMEIAの有望な性能が示された。
With the surge in the development of large language models, embodied intelligence has attracted increasing attention. Nevertheless, prior works on embodied intelligence typically encode scene or historical memory in an unimodal manner, either visual or linguistic, which complicates the alignment of the model's action planning with embodied control. To overcome this limitation, we introduce the Multimodal Embodied Interactive Agent (MEIA), capable of translating high-level tasks expressed in natural language into a sequence of executable actions. Specifically, we propose a novel Multimodal Environment Memory (MEM) module, facilitating the integration of embodied control with large models through the visual-language memory of scenes. This capability enables MEIA to generate executable action plans based on diverse requirements and the robot's capabilities. Furthermore, we construct an embodied question answering dataset based on a dynamic virtual cafe environment with the help of the large language model. In this virtual environment, we conduct several experiments, utilizing multiple large models through zero-shot learning, and carefully design scenarios for various situations. The experimental results showcase the promising performance of our MEIA in various embodied interactive tasks. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-29 |
# 生成スコアモデリングによる応答理論
Response Theory via Generative Score Modeling ( http://arxiv.org/abs/2402.01029v2 ) ライセンス: Link先を確認 | Ludovico Theo Giorgini, Katherine Deck, Tobias Bischoff, Andre Souza, | (参考訳) 本稿では,外部摂動に対する動的システムの応答を解析し,スコアベース生成モデルとGFDT(Generalized Fluctuation-Dissipation Theorem)を組み合わせるアプローチを提案する。
この手法は、非ガウス統計を含むシステム応答の正確な推定を可能にする。
我々は,空間相関雑音を伴うオルンシュタイン・ウレンベック過程,修正確率的アレン・カーン方程式,および2次元ナヴィエ・ストークス方程式の3種類の確率的偏微分方程式から得られた時系列データを用いて,我々のアプローチを数値的に検証する。
本稿では,従来の手法よりも精度が向上し,複雑な力学系の統計的挙動を予測する汎用ツールとしての可能性について論じる。
We introduce an approach for analyzing the responses of dynamical systems to external perturbations that combines score-based generative modeling with the Generalized Fluctuation-Dissipation Theorem (GFDT). The methodology enables accurate estimation of system responses, including those with non-Gaussian statistics. We numerically validate our approach using time-series data from three different stochastic partial differential equations of increasing complexity: an Ornstein-Uhlenbeck process with spatially correlated noise, a modified stochastic Allen-Cahn equation, and the 2D Navier-Stokes equations. We demonstrate the improved accuracy of the methodology over conventional methods and discuss its potential as a versatile tool for predicting the statistical behavior of complex dynamical systems. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-29 |
# 観測データによるルートのフライ検出とITシステムへの応用
On the Fly Detection of Root Causes from Observed Data with Application to IT Systems ( http://arxiv.org/abs/2402.06500v2 ) ライセンス: Link先を確認 | Lei Zan, Charles K. Assaad, Emilie Devijver, Eric Gaussier, Ali Aït-Bachir, | (参考訳) 本稿では、しきい値に基づくITシステムを表現するための構造因果モデルを提案し、そのようなシステムにおける異常の根本原因を迅速に検出する新しいアルゴリズムを提案する。
根本原因が因果関係がない場合、この方法は正しいことが証明されるが、この仮定を緩和するためにエージェントの介入に基づいて拡張が提案される。
我々のアルゴリズムとそのエージェントベースの拡張は、オフラインデータからの因果発見を活用し、オンラインデータの新たな異常に遭遇する際のサブグラフトラバースに関与する。
我々の広範な実験は、代替構造因果モデルや実際のIT監視データから生成されたデータに適用しても、我々の手法の優れた性能を示す。
This paper introduces a new structural causal model tailored for representing threshold-based IT systems and presents a new algorithm designed to rapidly detect root causes of anomalies in such systems. When root causes are not causally related, the method is proven to be correct; while an extension is proposed based on the intervention of an agent to relax this assumption. Our algorithm and its agent-based extension leverage causal discovery from offline data and engage in subgraph traversal when encountering new anomalies in online data. Our extensive experiments demonstrate the superior performance of our methods, even when applied to data generated from alternative structural causal models or real IT monitoring data. | 翻訳日:2024-07-31 00:07:09 公開日:2024-07-29 |
# 選択的推論による拡散モデルに基づく生成画像の統計的検証
Statistical Test on Diffusion Model-based Generated Images by Selective Inference ( http://arxiv.org/abs/2402.11789v2 ) ライセンス: Link先を確認 | Teruyuki Katsuoka, Tomohiro Shiraishi, Daiki Miwa, Vo Nguyen Le Duy, Ichiro Takeuchi, | (参考訳) 拡散モデルのような画像を生成するAI技術は急速に進歩している。
しかし、AI生成画像の信頼性を定量化するための確立された枠組みは存在せず、医療画像診断などの重要な意思決定タスクにおけるAIの使用を妨げている。
本研究では,拡散モデルが生成する画像に依存する意思決定タスクの信頼性を,統計的テストフレームワーク内で定量化する手法を提案する。
統計的テストの中核となる概念は、画像が訓練された拡散モデルによって生成されるという条件の下で、統計的テストを行う選択的推論フレームワークを使用することである。
本研究では,拡散モデルに基づく医用画像の異常検出タスクについて検討する。
本手法では, 医用画像診断結果の統計的意義をp値で定量化し, 誤差率の制御による意思決定を可能にする。
合成画像と脳画像の両方における数値実験により,統計的検査の理論的健全性と実用性を示す。
AI technology for generating images, such as diffusion models, has advanced rapidly. However, there is no established framework for quantifying the reliability of AI-generated images, which hinders their use in critical decision-making tasks, such as medical image diagnosis. In this study, we propose a method to quantify the reliability of decision-making tasks that rely on images produced by diffusion models within a statistical testing framework. The core concept of our statistical test involves using a selective inference framework, in which the statistical test is conducted under the condition that the images are produced by a trained diffusion model. As a case study, we study a diffusion model-based anomaly detection task for medical images. With our approach, the statistical significance of medical image diagnostic outcomes can be quantified in terms of a p-value, enabling decision-making with a controlled error rate. We demonstrate the theoretical soundness and practical effectiveness of our statistical test through numerical experiments on both synthetic and brain image datasets. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-29 |
# 強化学習による分散フィルタ回路の自動設計と最適化
Automated Design and Optimization of Distributed Filtering Circuits via Reinforcement Learning ( http://arxiv.org/abs/2402.14236v2 ) ライセンス: Link先を確認 | Peng Gao, Tao Yu, Fei Wang, Ru-Yue Yuan, | (参考訳) 分散フィルタ回路(DFC)の設計は複雑で時間を要する。
商用有限要素ソルバ HFSS (High-Frequency Structure Simulator) を用いるような従来の最適化手法は、全てのパラメータの組み合わせを固定ステップで列挙し、それぞれの組み合わせをシミュレートする。
さらに、これらの商用ツールは、パラメータが数値的な変化に敏感である場合の正確な調整に苦慮し、最適化効率が制限される。
そこで本研究では,DFC設計のための新しいエンドツーエンド自動手法を提案する。
提案手法は強化学習(RL)アルゴリズムを利用して,技術者の設計経験への依存を解消する。
これにより、回路設計に伴う主観性と制約が大幅に低減される。
実験により,提案手法と従来手法との比較において,設計効率と品質の向上が示された。
さらに,回路設計におけるRLの可能性を強調し,複雑なDFCの設計や急速に発展するDFCの設計において優れた性能を実現する。
特に,既存のDFC自動化設計手法であるCircuitGNNと比較して,平均性能は8.72%向上した。
さらに,本手法の実行効率はCPUのCircuitGNNの2000倍,GPUの241倍である。
Designing distributed filter circuits (DFCs) is complex and time-consuming, involving setting and optimizing multiple hyperparameters. Traditional optimization methods, such as using the commercial finite element solver HFSS (High-Frequency Structure Simulator) to enumerate all parameter combinations with fixed steps and then simulate each combination, are not only time-consuming and labor-intensive but also rely heavily on the expertise and experience of electronics engineers, making it difficult to adapt to rapidly changing design requirements. Additionally, these commercial tools struggle with precise adjustments when parameters are sensitive to numerical changes, resulting in limited optimization effectiveness. This study proposes a novel end-to-end automated method for DFC design. The proposed method harnesses reinforcement learning (RL) algorithms, eliminating the dependence on the design experience of engineers. Thus, it significantly reduces the subjectivity and constraints associated with circuit design. The experimental findings demonstrate clear improvements in design efficiency and quality when comparing the proposed method with traditional engineer-driven methods. Furthermore, the proposed method achieves superior performance when designing complex or rapidly evolving DFCs, highlighting the substantial potential of RL in circuit design automation. In particular, compared to the existing DFC automation design method CircuitGNN, our method achieves an average performance improvement of 8.72%. Additionally, the execution efficiency of our method is 2000 times higher than CircuitGNN on the CPU and 241 times higher on the GPU. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-29 |
# YOLO-TLA: YOLOv5に基づく効率的軽量小物体検出モデル
YOLO-TLA: An Efficient and Lightweight Small Object Detection Model based on YOLOv5 ( http://arxiv.org/abs/2402.14309v2 ) ライセンス: Link先を確認 | Chun-Lin Ji, Tao Yu, Peng Gao, Fei Wang, Ru-Yue Yuan, | (参考訳) コンピュータビジョンの重要な側面である物体検出は、精度と堅牢性において著しく進歩している。
これらの進歩にもかかわらず、実用的応用は依然として顕著な課題に直面しており、主に不正確な検出や小さな物体の発見の欠如が問題となっている。
本稿では,YOLOv5に基づくオブジェクト検出モデルであるYOLO-TLAを提案する。
まず、ネックネットワークピラミッドアーキテクチャにおいて、小さなオブジェクトに対する検出層を導入し、小さなオブジェクトのより微細な特徴を識別するために、より大規模な特徴マップを作成する。
さらに、C3CrossCovnモジュールをバックボーンネットワークに統合する。
このモジュールはスライディングウィンドウの特徴抽出を使い、計算要求とパラメータ数の両方を効果的に最小化し、モデルをよりコンパクトにする。
さらに,バックボーンネットワークにグローバルアテンション機構を組み込んだ。
このメカニズムはチャネル情報とグローバル情報を組み合わせて重み付けされた特徴マップを作成する。
このフィーチャーマップは、関心の対象の属性を強調しながら、無関係な詳細を効果的に無視するように調整されている。
ベースラインのYOLOv5sモデルと比較して,新たに開発されたYOLO-TLAモデルでは,MS COCO検証データセットが大幅に改善され,mAP@0.5で4.6%,mAP@0.5:0.95で4%増加した。
これらの改良をYOLOv5mモデルに拡張し、拡張版ではそれぞれmAP@0.5とmAP@0.5:0.95が1.7%、合計27.53Mパラメータが1.9%増加した。
これらの結果は、小さなオブジェクト検出において、YOLO-TLAモデルの効率的かつ効果的な性能を検証し、少ないパラメータと計算要求で高精度に達成する。
Object detection, a crucial aspect of computer vision, has seen significant advancements in accuracy and robustness. Despite these advancements, practical applications still face notable challenges, primarily the inaccurate detection or missed detection of small objects. In this paper, we propose YOLO-TLA, an advanced object detection model building on YOLOv5. We first introduce an additional detection layer for small objects in the neck network pyramid architecture, thereby producing a feature map of a larger scale to discern finer features of small objects. Further, we integrate the C3CrossCovn module into the backbone network. This module uses sliding window feature extraction, which effectively minimizes both computational demand and the number of parameters, rendering the model more compact. Additionally, we have incorporated a global attention mechanism into the backbone network. This mechanism combines the channel information with global information to create a weighted feature map. This feature map is tailored to highlight the attributes of the object of interest, while effectively ignoring irrelevant details. In comparison to the baseline YOLOv5s model, our newly developed YOLO-TLA model has shown considerable improvements on the MS COCO validation dataset, with increases of 4.6% in mAP@0.5 and 4% in mAP@0.5:0.95, all while keeping the model size compact at 9.49M parameters. Further extending these improvements to the YOLOv5m model, the enhanced version exhibited a 1.7% and 1.9% increase in mAP@0.5 and mAP@0.5:0.95, respectively, with a total of 27.53M parameters. These results validate the YOLO-TLA model's efficient and effective performance in small object detection, achieving high accuracy with fewer parameters and computational demands. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-29 |
# パングラムAI生成テキスト分類器の技術報告
Technical Report on the Pangram AI-Generated Text Classifier ( http://arxiv.org/abs/2402.14873v3 ) ライセンス: Link先を確認 | Bradley Emi, Max Spero, | (参考訳) トランスフォーマーをベースとしたニューラルネットワークであるPangram Textについて紹介する。
Pangram Textは、DetectGPTなどのゼロショットメソッドと、包括的なベンチマークで38倍以上のエラー率で商用AI検出ツールをリードする10のテキストドメイン(学生書き込み、クリエイティブライティング、サイエンスライティング、書籍、百科事典、ニュース、電子メール、科学論文、ショートフォームQ&A)と8つのオープンソースおよびクローズドな大言語モデルで構成されている。
本稿では, 評価などの高データ領域において, 分類器の偽陽性率を桁違いに下げることのできるトレーニングアルゴリズムである, 合成ミラーを用いた強負のマイニングを提案する。
最後に、Pangram Textは、非ネイティブな英語話者に偏りがなく、訓練中に見つからないドメインやモデルに一般化されていることを示す。
We present Pangram Text, a transformer-based neural network trained to distinguish text written by large language models from text written by humans. Pangram Text outperforms zero-shot methods such as DetectGPT as well as leading commercial AI detection tools with over 38 times lower error rates on a comprehensive benchmark comprised of 10 text domains (student writing, creative writing, scientific writing, books, encyclopedias, news, email, scientific papers, short-form Q&A) and 8 open- and closed-source large language models. We propose a training algorithm, hard negative mining with synthetic mirrors, that enables our classifier to achieve orders of magnitude lower false positive rates on high-data domains such as reviews. Finally, we show that Pangram Text is not biased against nonnative English speakers and generalizes to domains and models unseen during training. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-29 |
# 量子平面ローターによるオットーサイクル
Otto cycles with a quantum planar rotor ( http://arxiv.org/abs/2403.00684v2 ) ライセンス: Link先を確認 | Michael Gaida, Stefan Nimmrichter, | (参考訳) ここでは, 量子平面回転子を用いたオットーサイクルの2つの実現法を, 外部場によって制御される作業媒体として提示する。
動作する媒体の量子と古典的な記述を比較することで、オットーサイクルの性能とエンジンおよび冷凍機モードに関する真の量子効果を抽出する。
最初の例は、量子振り子に相当する制御された電場に従属する回転電気双極子である。
ここでは、量子ローターの体系的不利を古典的ローターと比較する。
対照的に、真の量子優位性は、制御磁場を受ける磁気モーメントを生成するチャージローターによって観測することができる。
ここでは,古典回転子をパラメータ選択のための動作媒体として動作不能であることを証明する一方,量子回転子ではエンジンと冷凍機モードをサポートし,サイクルの冷間ストローク中に量子統計を利用する。
We present two realizations of an Otto cycle with a quantum planar rotor as the working medium controlled by means of external fields. By comparing the quantum and the classical description of the working medium, we single out genuine quantum effects with regards to the performance and the engine and refrigerator modes of the Otto cycle. The first example is a rotating electric dipole subjected to a controlled electric field, equivalent to a quantum pendulum. Here we find a systematic disadvantage of the quantum rotor compared to its classical counterpart. In contrast, a genuine quantum advantage can be observed with a charged rotor generating a magnetic moment that is subjected to a controlled magnetic field. Here, we prove that the classical rotor is inoperable as a working medium for any choice of parameters, whereas the quantum rotor supports an engine and a refrigerator mode, exploiting the quantum statistics during the cold strokes of the cycle. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-29 |
# ViewDiff:テキストから画像モデルによる3次元連続画像生成
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models ( http://arxiv.org/abs/2403.01807v2 ) ライセンス: Link先を確認 | Lukas Höllein, Aljaž Božič, Norman Müller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner, | (参考訳) テキスト誘導による2Dコンテンツ制作の成功に触発されて、3Dアセット生成は膨大な注目を集めている。
既存のテキスト・ツー・3D法では、最適化問題において事前訓練されたテキスト・ツー・イメージ拡散モデルを使用したり、合成データに微調整したりすることで、背景のない非フォトリアリスティックな3Dオブジェクトが生成される。
本稿では,事前学習したテキスト・ツー・イメージのモデルを先行モデルとして活用し,実世界のデータから1つのデノナイズプロセスでマルチビュー画像を生成する手法を提案する。
具体的には,テキスト・ツー・イメージ・モデルの既存のU-Netネットワークの各ブロックに3次元ボリュームレンダリングとクロスフレーム・アテンション・レイヤを統合することを提案する。
さらに,任意の視点でより3D一貫性のある画像をレンダリングする自動回帰生成を設計する。
実世界のオブジェクトのデータセットに基づいてモデルをトレーニングし、その能力を示して、実環境における様々な高品質な形状とテクスチャのインスタンスを生成する。
既存の手法と比較して,本手法で生成した結果は一貫したものであり,視覚的品質(-30% FID,-37% KID)が好ましい。
3D asset generation is getting massive amounts of attention, inspired by the recent success of text-guided 2D content creation. Existing text-to-3D methods use pretrained text-to-image diffusion models in an optimization problem or fine-tune them on synthetic data, which often results in non-photorealistic 3D objects without backgrounds. In this paper, we present a method that leverages pretrained text-to-image models as a prior, and learn to generate multi-view images in a single denoising process from real-world data. Concretely, we propose to integrate 3D volume-rendering and cross-frame-attention layers into each block of the existing U-Net network of the text-to-image model. Moreover, we design an autoregressive generation that renders more 3D-consistent images at any viewpoint. We train our model on real-world datasets of objects and showcase its capabilities to generate instances with a variety of high-quality shapes and textures in authentic surroundings. Compared to the existing methods, the results generated by our method are consistent, and have favorable visual quality (-30% FID, -37% KID). | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-29 |
# Point2Building: 空飛ぶLiDARポイントクラウドからビルを再構築する
Point2Building: Reconstructing Buildings from Airborne LiDAR Point Clouds ( http://arxiv.org/abs/2403.02136v2 ) ライセンス: Link先を確認 | Yujia Liu, Anton Obukhov, Jan Dirk Wegner, Konrad Schindler, | (参考訳) 航空機搭載LiDAR点雲から3次元多角形メッシュとして建物を再構築するための学習的アプローチを提案する。
空中に浮かぶLiDARから3D建築を再構築する要因は、建築デザイン、特に屋根形状の多様さ、シーン全体の低・多彩な点密度、そしてしばしば植生やセンサーの視角による建物ファサードの不完全なカバレッジである。
形状の多様性に対処するため,入力点雲から3次元多角形メッシュを直接予測する生成モデルを提案する。
Point2Buildingと呼ばれる当社の自動回帰モデルは、頂点と顔のシーケンスを生成することで、メッシュを反復的に構築します。
このアプローチにより、モデルが多様なジオメトリやビルディング構造に柔軟に対応できる。
網羅的な平面検出などの前処理ステップに大きく依存する既存の多くの手法とは異なり,本モデルは点雲データから直接学習し,エラーの伝播を低減し,再構成の忠実度を高める。
我々は,チューリッヒ,ベルリン,タリンの航空機搭載LiDARデータの収集について実験的に検証した。
本手法は都市スタイルの多様さに優れた一般化を示す。
We present a learning-based approach to reconstruct buildings as 3D polygonal meshes from airborne LiDAR point clouds. What makes 3D building reconstruction from airborne LiDAR hard is the large diversity of building designs and especially roof shapes, the low and varying point density across the scene, and the often incomplete coverage of building facades due to occlusions by vegetation or to the viewing angle of the sensor. To cope with the diversity of shapes and inhomogeneous and incomplete object coverage, we introduce a generative model that directly predicts 3D polygonal meshes from input point clouds. Our autoregressive model, called Point2Building, iteratively builds up the mesh by generating sequences of vertices and faces. This approach enables our model to adapt flexibly to diverse geometries and building structures. Unlike many existing methods that rely heavily on pre-processing steps like exhaustive plane detection, our model learns directly from the point cloud data, thereby reducing error propagation and increasing the fidelity of the reconstruction. We experimentally validate our method on a collection of airborne LiDAR data of Zurich, Berlin and Tallinn. Our method shows good generalization to diverse urban styles. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-29 |
# Treespilation: アーキテクチャと状態最適化されたフェルミオンからキュービットへのマッピング
Treespilation: Architecture- and State-Optimised Fermion-to-Qubit Mappings ( http://arxiv.org/abs/2403.03992v3 ) ライセンス: Link先を確認 | Aaron Miller, Adam Glos, Zoltán Zimborás, | (参考訳) 量子コンピュータは、フェルミオン系を効率的にシミュレートし、量子化学や材料科学のような分野に利益をもたらす。
これを達成するために、アルゴリズムは通常、量子コンピュータの量子ビットにおけるフェルミオインの問題を符号化するためにフェルミオンから量子ビットへのマッピングを選択することから始める。
そこで本研究では,Fermionic 系を効率的にマッピングする手法である "treespilation" を紹介した。
本手法は,ADAPT-VQEアルゴリズムを用いて,化学基底状態のシミュレーションに必要なCNOTゲート数を最小化する。
我々は,IBM EagleやGoogle Sycamoreのような,完全な接続性および限定的なqubit接続型デバイスにおいて,CNOTカウントの最大7,4 %の大幅な削減を観察し,同様のCNOTカウントの削減を観察した。
多くの場合、これらの制限された接続デバイスで達成された削減は、初期の完全な接続CNOT数を超えています。
さらに,本手法は分子状態調製のための最もCNOT効率の高いVQEプロトコルであるQEB-およびqubit-ADAPT-VQEのCNOTおよびパラメータ効率を改善した。
Quantum computers hold great promise for efficiently simulating Fermionic systems, benefiting fields like quantum chemistry and materials science. To achieve this, algorithms typically begin by choosing a Fermion-to-qubit mapping to encode the Fermioinc problem in the qubits of a quantum computer. In this work, we introduce "treespilation," a technique for efficiently mapping Fermionic systems using a large family of favourable tree-based mappings previously introduced by some of the authors. We use this technique to minimise the number of CNOT gates required to simulate chemical groundstates found numerically using the ADAPT-VQE algorithm. We observe significant reductions, up to $74\%$, in CNOT counts on full connectivity and for limited qubit connectivity-type devices such as IBM Eagle and Google Sycamore, we observe similar reductions in CNOT counts. In many instances, the reductions achieved on these limited connectivity devices even surpass the initial full connectivity CNOT count. Additionally, we find our method improves the CNOT and parameter efficiency of QEB- and qubit-ADAPT-VQE, which are, to our knowledge, the most CNOT-efficient VQE protocols for molecular state preparation. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-29 |
# MOTを超えて: セマンティックなマルチオブジェクトトラッキング
Beyond MOT: Semantic Multi-Object Tracking ( http://arxiv.org/abs/2403.05021v4 ) ライセンス: Link先を確認 | Yunhao Li, Qin Li, Hao Wang, Xue Ma, Jiali Yao, Shaohua Dong, Heng Fan, Libo Zhang, | (参考訳) 現在のマルチオブジェクト追跡(MOT)は、ビデオ中のターゲット(すなわち 'where')の軌跡を予測することを目的としている。
しかし、多くの重要な応用において単に'どこ'を知ることは不十分である。
比較として、ビデオからの細粒度な振る舞いや相互作用、全体的な要約されたキャプション(すなわち'What')などのセマンティックな理解は、包括的ビデオ分析に強く望まれる。
そこで本研究では,オブジェクトの軌跡を推定し,事例キャプション,インスタンスインタラクション,ビデオキャプション全体を含む関連するトラジェクトリの意味的詳細を理解することを目的としたセマンティック・マルチオブジェクト追跡(SMOT)を導入し,トラッキングのための'where'と'what'を統合した。
SMOTの探索を促進するため,大規模なセマンティックMOTベンチマークであるBenSMOTを提案する。
具体的には、BenSMOTは3,292本のビデオと151Kフレームで構成され、人間のセマンティックトラッキングのさまざまなシナリオをカバーしている。
BenSMOTは、自然言語の関連するインスタンスキャプション、インスタンスインタラクション、各ビデオシーケンスの全体的なキャプションと共に、ターゲットのトラジェクトリに対するアノテーションを提供する。
私たちの知る限り、BenSMOTはSMOTの最初の公開ベンチマークです。
また,今後の研究を奨励するためにSMOTerという新しいトラッカーを提案し,SMOTのために特別に設計し,エンドツーエンドで訓練し,有望な性能を示す。
BenSMOTをリリースすることによって、SMOTの'where'と'what'を予測し、ビデオ理解のための新たな方向性を開くことで、従来のMOTを超えることを期待する。
BenSMOTとSMOTerはhttps://github.com/Nathan-Li123/SMOTerでリリースします。
Current multi-object tracking (MOT) aims to predict trajectories of targets (i.e., ''where'') in videos. Yet, knowing merely ''where'' is insufficient in many crucial applications. In comparison, semantic understanding such as fine-grained behaviors, interactions, and overall summarized captions (i.e., ''what'') from videos, associated with ''where'', is highly-desired for comprehensive video analysis. Thus motivated, we introduce Semantic Multi-Object Tracking (SMOT), that aims to estimate object trajectories and meanwhile understand semantic details of associated trajectories including instance captions, instance interactions, and overall video captions, integrating ''where'' and ''what'' for tracking. In order to foster the exploration of SMOT, we propose BenSMOT, a large-scale Benchmark for Semantic MOT. Specifically, BenSMOT comprises 3,292 videos with 151K frames, covering various scenarios for semantic tracking of humans. BenSMOT provides annotations for the trajectories of targets, along with associated instance captions in natural language, instance interactions, and overall caption for each video sequence. To our best knowledge, BenSMOT is the first publicly available benchmark for SMOT. Besides, to encourage future research, we present a novel tracker named SMOTer, which is specially designed and end-to-end trained for SMOT, showing promising performance. By releasing BenSMOT, we expect to go beyond conventional MOT by predicting ''where'' and ''what'' for SMOT, opening up a new direction in tracking for video understanding. We will release BenSMOT and SMOTer at https://github.com/Nathan-Li123/SMOTer. | 翻訳日:2024-07-30 23:57:25 公開日:2024-07-29 |
# 自然界における仮想試行のための拡散モデルの改善
Improving Diffusion Models for Authentic Virtual Try-on in the Wild ( http://arxiv.org/abs/2403.05139v3 ) ライセンス: Link先を確認 | Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, Jinwoo Shin, | (参考訳) 本稿では, 被写体と被写体とをそれぞれ一対のイメージとして, 被写体を被写体とする画像ベースの仮想試着について考察する。
従来の研究は、他の方法(例えば、GANベース)と比較して、生成した視覚の自然性を改善するために、仮想試行のための既存の模範的な塗布拡散モデルを適用するが、衣服の同一性を保たない。
この制限を克服するために,衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
IDM-VTONと呼ばれる本手法では,2つの異なるモジュールを用いて衣料画像のセマンティクスを符号化する。
1)視覚エンコーダから抽出されたハイレベルな意味論は、クロスアテンション層に融合し、その後、
2) 並列UNetから抽出した低レベル特徴を自己保持層に融合させる。
さらに、生成した視覚の信頼性を高めるために、衣服画像と人物画像の両方に詳細なテキストプロンプトを提供する。
最後に,一対の人着画像を用いたカスタマイズ手法を提案する。
実験結果から,本手法は衣服の詳細保存や仮想試行画像の生成において,従来の手法(拡散法とGAN法の両方)より優れており,質的にも定量的にも優れていたことが示唆された。
さらに,提案手法は実世界のシナリオにおいて有効であることを示す。
詳しくはプロジェクトのページを参照してほしい。
This paper considers image-based virtual try-on, which renders an image of a person wearing a curated garment, given a pair of images depicting the person and the garment, respectively. Previous works adapt existing exemplar-based inpainting diffusion models for virtual try-on to improve the naturalness of the generated visuals compared to other methods (e.g., GAN-based), but they fail to preserve the identity of the garments. To overcome this limitation, we propose a novel diffusion model that improves garment fidelity and generates authentic virtual try-on images. Our method, coined IDM-VTON, uses two different modules to encode the semantics of garment image; given the base UNet of the diffusion model, 1) the high-level semantics extracted from a visual encoder are fused to the cross-attention layer, and then 2) the low-level features extracted from parallel UNet are fused to the self-attention layer. In addition, we provide detailed textual prompts for both garment and person images to enhance the authenticity of the generated visuals. Finally, we present a customization method using a pair of person-garment images, which significantly improves fidelity and authenticity. Our experimental results show that our method outperforms previous approaches (both diffusion-based and GAN-based) in preserving garment details and generating authentic virtual try-on images, both qualitatively and quantitatively. Furthermore, the proposed customization method demonstrates its effectiveness in a real-world scenario. More visualizations are available in our project page: https://idm-vton.github.io | 翻訳日:2024-07-30 23:47:39 公開日:2024-07-29 |
# HealMe:心理療法のための大規模言語モデルにおける認知的リフレーミングの障害
HealMe: Harnessing Cognitive Reframing in Large Language Models for Psychotherapy ( http://arxiv.org/abs/2403.05574v3 ) ライセンス: Link先を確認 | Mengxi Xiao, Qianqian Xie, Ziyan Kuang, Zhicheng Liu, Kailai Yang, Min Peng, Weiguang Han, Jimin Huang, | (参考訳) 大きな言語モデル(LLM)は、認知的リフレーミングの重要なタスクを十分に処理し、恥、不信、セラピストのスキルの多様性、資源不足といった課題を克服することで、心理療法において重要な役割を果たす。
認知リフレーミングにおける従来のLLMは、主に否定的な感情を肯定的な感情に変換するが、これらのアプローチは効果が限られており、多くの場合、顧客による代替的な視点の自己発見を促進するものではない。
本稿では、メンタルエンハンスメント(HealMe)モデルにおける適応言語によるヘルピングとエンパワーメントについて紹介する。
この新しい認知的リフレーミング療法は、根深い否定的思考に効果的に対処し、合理的でバランスの取れた視点を育む。
従来のLLM手法とは違い、HealMeは精神療法の枠組みに基づいた共感的な対話を採用している。
顧客を感情から区別し、別の視点でブレインストーミングし、共感的で行動可能な提案を発達させることで、システマティックに顧客を導く。
さらに、AIシミュレーション対話と実際の治療会話の両方において、認知リフレーミングのパフォーマンスを厳格に評価するために特別に設計された、包括的で専門的な心理学的評価指標を採用した。
実験の結果,我々のモデルは共感,指導,論理的コヒーレンスにおいて他者よりも優れており,その効果と心理療法に対する肯定的影響が示された。
Large Language Models (LLMs) can play a vital role in psychotherapy by adeptly handling the crucial task of cognitive reframing and overcoming challenges such as shame, distrust, therapist skill variability, and resource scarcity. Previous LLMs in cognitive reframing mainly converted negative emotions to positive ones, but these approaches have limited efficacy, often not promoting clients' self-discovery of alternative perspectives. In this paper, we unveil the Helping and Empowering through Adaptive Language in Mental Enhancement (HealMe) model. This novel cognitive reframing therapy method effectively addresses deep-rooted negative thoughts and fosters rational, balanced perspectives. Diverging from traditional LLM methods, HealMe employs empathetic dialogue based on psychotherapeutic frameworks. It systematically guides clients through distinguishing circumstances from feelings, brainstorming alternative viewpoints, and developing empathetic, actionable suggestions. Moreover, we adopt the first comprehensive and expertly crafted psychological evaluation metrics, specifically designed to rigorously assess the performance of cognitive reframing, in both AI-simulated dialogues and real-world therapeutic conversations. Experimental results show that our model outperforms others in terms of empathy, guidance, and logical coherence, demonstrating its effectiveness and potential positive impact on psychotherapy. | 翻訳日:2024-07-30 23:47:39 公開日:2024-07-29 |
# バニラ・ガンのワッサーシュタイン観
A Wasserstein perspective of Vanilla GANs ( http://arxiv.org/abs/2403.15312v2 ) ライセンス: Link先を確認 | Lea Kunkel, Mathias Trabs, | (参考訳) GAN(Generative Adversarial Networks)の実証的な成功により、理論研究への関心が高まった。
統計学は主にワッサーシュタイン GAN とその一般化に焦点が当てられており、特に良好な次元還元特性が可能である。
元の最適化問題であるヴァニラ GAN の統計結果は依然としてかなり制限されており、滑らかな活性化関数や潜在空間と周囲空間の等次元といった仮定を必要とする。
このギャップを埋めるために、バニラ・ガンからワッサーシュタイン距離に接続する。
これにより、ワッサーシュタイン GAN の既存の結果がヴァニラ GAN にまで拡張できる。
特に、ワッサーシュタイン距離におけるバニラ GAN のオラクル不等式を得る。
このオラクルの不等式の仮定は、フィードフォワードReLUネットワークなど、実際に一般的に使用されるネットワークアーキテクチャによって満たされるように設計されている。
有界なH\"古いノルムを持つフィードフォワードReLUネットワークによるリプシッツ関数の近似の定量的結果を提供することで、ヴァニラ GAN とワッサーシュタイン GAN の収束率を未知の確率分布の推定子として結論付ける。
The empirical success of Generative Adversarial Networks (GANs) caused an increasing interest in theoretical research. The statistical literature is mainly focused on Wasserstein GANs and generalizations thereof, which especially allow for good dimension reduction properties. Statistical results for Vanilla GANs, the original optimization problem, are still rather limited and require assumptions such as smooth activation functions and equal dimensions of the latent space and the ambient space. To bridge this gap, we draw a connection from Vanilla GANs to the Wasserstein distance. By doing so, existing results for Wasserstein GANs can be extended to Vanilla GANs. In particular, we obtain an oracle inequality for Vanilla GANs in Wasserstein distance. The assumptions of this oracle inequality are designed to be satisfied by network architectures commonly used in practice, such as feedforward ReLU networks. By providing a quantitative result for the approximation of a Lipschitz function by a feedforward ReLU network with bounded H\"older norm, we conclude a rate of convergence for Vanilla GANs as well as Wasserstein GANs as estimators of the unknown probability distribution. | 翻訳日:2024-07-30 23:47:39 公開日:2024-07-29 |
# RadioGAT: グラフアテンションネットワークによるマルチバンド無線地図再構成のための統合モデルとデータ駆動フレームワーク
RadioGAT: A Joint Model-based and Data-driven Framework for Multi-band Radiomap Reconstruction via Graph Attention Networks ( http://arxiv.org/abs/2403.16397v2 ) ライセンス: Link先を確認 | Xiaojie Li, Songyang Zhang, Hang Li, Xiaoyang Li, Lexi Xu, Haigao Xu, Hui Mei, Guangxu Zhu, Nan Qi, Ming Xiao, | (参考訳) マルチバンド無線マップ再構成(MB-RMR)は、スペクトル管理やネットワーク計画といったタスクのための無線通信において重要な要素である。
しかし、シミュレーションデータや完全に構造化された真実に依存する従来の機械学習ベースのMB-RMRメソッドは、重大なデプロイメント課題に直面している。
これらの課題は、シミュレーションデータと実際のデータの違い、および実世界の測定の不足に起因する。
これらの課題に対処するために,1つの領域でMB-RMRに適したグラフ注意ネットワーク(GAT)に基づく新しいフレームワークであるRadioGATを提案する。
RadioGATは、データ駆動ラジオマップの一般化とモデルベースの空間スペクトル相関符号化を革新的に融合し、広範囲なデータソースへの依存を最小限に抑える。
このフレームワークは、電波伝搬モデルを利用してデータ固有の空間-スペクトル相関をキャプチャする革新的な符号化戦略を通じて、スパースマルチバンドデータをグラフ構造に変換することから始まる。
このグラフベースの表現は、データハンドリングを単純化するだけでなく、トレーニング中の適切なラベルサンプリングを可能にし、フレームワークのデプロイメント適応性を大幅に向上させる。
その後、GATは様々な周波数帯域で無線マップ情報を一般化するために使用される。
実環境に基づくレイトレーシングデータセットを用いた大規模な実験は、RadioGATの教師付き学習設定における精度の向上と半教師付きシナリオにおける堅牢性を示している。
これらの結果は、限られたデータ可用性を持つ環境でのMB-RMRの有効性と実用性を裏付けるものである。
Multi-band radiomap reconstruction (MB-RMR) is a key component in wireless communications for tasks such as spectrum management and network planning. However, traditional machine-learning-based MB-RMR methods, which rely heavily on simulated data or complete structured ground truth, face significant deployment challenges. These challenges stem from the differences between simulated and actual data, as well as the scarcity of real-world measurements. To address these challenges, our study presents RadioGAT, a novel framework based on Graph Attention Network (GAT) tailored for MB-RMR within a single area, eliminating the need for multi-region datasets. RadioGAT innovatively merges model-based spatial-spectral correlation encoding with data-driven radiomap generalization, thus minimizing the reliance on extensive data sources. The framework begins by transforming sparse multi-band data into a graph structure through an innovative encoding strategy that leverages radio propagation models to capture the spatial-spectral correlation inherent in the data. This graph-based representation not only simplifies data handling but also enables tailored label sampling during training, significantly enhancing the framework's adaptability for deployment. Subsequently, The GAT is employed to generalize the radiomap information across various frequency bands. Extensive experiments using raytracing datasets based on real-world environments have demonstrated RadioGAT's enhanced accuracy in supervised learning settings and its robustness in semi-supervised scenarios. These results underscore RadioGAT's effectiveness and practicality for MB-RMR in environments with limited data availability. | 翻訳日:2024-07-30 23:47:39 公開日:2024-07-29 |
# FlightScope:衛星画像における航空機検出アルゴリズムの概観
FlightScope: A Deep Comprehensive Review of Aircraft Detection Algorithms in Satellite Imagery ( http://arxiv.org/abs/2404.02877v3 ) ライセンス: Link先を確認 | Safouane El Ghazouali, Arnaud Gucciardi, Francesca Venturini, Nicola Venturi, Michael Rueegsegger, Umberto Michelucci, | (参考訳) リモートセンシングされた衛星画像における物体検出は、生物物理学や環境モニタリングなど多くの分野において基本的なものである。
ディープラーニングのアルゴリズムは常に進化しているが、それらは主に、人気の高い地上写真で実装され、テストされている。
本稿では,衛星画像中の航空機を識別するタスク用にカスタマイズされた,高度な物体検出アルゴリズム群を批判的に評価し,比較する。
大規模なHRPlanesV2データセットとGDITデータセットとの厳密な検証を併用して、この研究は、YOLOバージョン5と8、高速RCNN、CenterNet、RetinaNet、RTMDet、DETRなどを含む一連の方法論をスクラッチからトレーニングする。
この徹底的なトレーニングと検証研究により、YOLOv5は、リモートセンシングデータから航空機を識別し、多様な撮像条件で高精度かつ適応性を示すための最重要モデルであることが判明した。
YOLOv5は空中物体検出の堅牢なソリューションとして登場し、平均値の精度、リコール、ユニオン点数に対するインターセクションなどによってその重要性を浮き彫りにした。
ここでは,衛星画像解析の要求に応じたアルゴリズム選択の基本的役割を明らかにし,モデルの有効性を評価するための包括的な枠組みを拡張した。
ベンチマークツールキットとコードはhttps://github.com/toelt-llc/FlightScope_Benchを通じて利用可能であり、リモートセンシングオブジェクト検出の領域におけるさらなる探索と革新を目的としており、衛星画像アプリケーションにおける分析方法論の改善の道を開くことを目的としている。
Object detection in remotely sensed satellite pictures is fundamental in many fields such as biophysical, and environmental monitoring. While deep learning algorithms are constantly evolving, they have been mostly implemented and tested on popular ground-based taken photos. This paper critically evaluates and compares a suite of advanced object detection algorithms customized for the task of identifying aircraft within satellite imagery. Using the large HRPlanesV2 dataset, together with a rigorous validation with the GDIT dataset, this research encompasses an array of methodologies including YOLO versions 5 and 8, Faster RCNN, CenterNet, RetinaNet, RTMDet, and DETR, all trained from scratch. This exhaustive training and validation study reveal YOLOv5 as the preeminent model for the specific case of identifying airplanes from remote sensing data, showcasing high precision and adaptability across diverse imaging conditions. This research highlight the nuanced performance landscapes of these algorithms, with YOLOv5 emerging as a robust solution for aerial object detection, underlining its importance through superior mean average precision, Recall, and Intersection over Union scores. The findings described here underscore the fundamental role of algorithm selection aligned with the specific demands of satellite imagery analysis and extend a comprehensive framework to evaluate model efficacy. The benchmark toolkit and codes, available via https://github.com/toelt-llc/FlightScope_Bench, aims to further exploration and innovation in the realm of remote sensing object detection, paving the way for improved analytical methodologies in satellite imagery applications. | 翻訳日:2024-07-30 23:37:56 公開日:2024-07-29 |
# 微調整, 量子化, LLM: 意図しない成果をナビゲートする
Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes ( http://arxiv.org/abs/2404.04392v2 ) ライセンス: Link先を確認 | Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi, | (参考訳) 大規模言語モデル(LLM)は非常に人気があり、チャットボット、自動タスク補完エージェントなど多くのドメインで使われている。
しかし、LSMは多くの安全性上の脆弱性に悩まされており、ジェイルブレイク、インジェクション攻撃、プライバシー漏洩攻撃など、さまざまなタイプの攻撃で悪用することができる。
これらの攻撃は、LLMの動作を妨害し、強力なLLMシステムが悪意のある、または非倫理的なコンテンツを生成したり、悪意のあるアクションを取ったり、セキュリティフィルタをバイパスしてそれらのアクセスを活用することによって機密情報を漏洩させたりすることができる。
基礎的なLLMは、安全トレーニングを含むアライメントトレーニングを実施している。
これはモデルが倫理的かつ人間の反応に沿ったアウトプットを生成する方法を学ぶのに役立つ。
さらに、モデルをより安全にするために、受信した入力とモデルによって生成された出力をフィルタリングするためにガードレールを追加する。
これらの基礎的なLLMは、特定のタスクにこれらのモデルを使用したり、リソース制約のある環境で使用するためにガードレールの微調整、定量化、または変更を施される。
したがって, 微調整, 量子化, ガードレールなどの修正がLLMの安全性に与える影響を理解することは重要な問題となる。
結果を理解して緩和することは、LLMをよりセキュアにするための信頼性の高いシステムと効果的な戦略を構築するのに役立つでしょう。
本研究では,Mistral,Llama,MosaicMLなどの基礎モデルとその微調整バージョンについて検討した。
これらの総合的な評価は、細調整はジェイルブレイク攻撃成功率(ASR)を増加させ、量子化はASRに様々な影響を及ぼし、ガードレールはジェイルブレイク抵抗を大幅に改善することを示している。
Large Language Models (LLMs) have become very popular and are used in many domains, such as chatbots, auto-task completion agents, and much more. However, LLMs suffer from many safety vulnerabilities, which can be exploited using different types of attacks, such as jailbreaking, prompt injection attacks, and privacy leakage attacks. These attacks can disrupt the working of the LLMs and make powerful LLM systems generate malicious or unethical content, take malicious actions, or leak confidential information by bypassing the security filters and taking advantage of their access. Foundational LLMs undergo alignment training, which includes safety training. This helps the model learn how to generate outputs that are ethical and aligned with human responses. Further, to make the models even safer, guardrails are added to filter the inputs received and the output generated by the model. These foundational LLMs are subjected to fine-tuning, quantization, or alteration of guardrails to use these models for specialized tasks or to use them in a resource-constrained environment. So, understanding the impact of modifications such as fine-tuning, quantization, and guardrails on the safety of LLM becomes an important question. Understanding and mitigating the consequences will help build reliable systems and effective strategies to make LLMs more secure. In this study, we tested foundational models like Mistral, Llama, MosaicML, and their finetuned versions. These comprehensive evaluations show that fine-tuning increases jailbreak attack success rates (ASR), quantization has a variable impact on the ASR, and guardrails can help significantly improve jailbreak resistance. | 翻訳日:2024-07-30 23:37:56 公開日:2024-07-29 |
# LLMを用いたエンド・ツー・エンド自律運転模倣学習を支援するマルチモーダルトークンのプロンプト
Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs ( http://arxiv.org/abs/2404.04869v2 ) ライセンス: Link先を確認 | Yiqun Duan, Qiang Zhang, Renjing Xu, | (参考訳) 強化学習の領域における大規模言語モデル(LLM)の利用、特にプランナーとしての利用は、近年の学術文献において大きな注目を集めている。
しかし,既存の研究の大部分は,知覚モデルから得られたアウトプットを言語形式に変換するロボット工学の計画モデルに重点を置いている。
本研究では,マルチモーダルプロンプトトークンに基づく基本的な運転模倣学習とLLMを組み合わせることで,自動運転のためのハイブリッドエンド・ツー・エンド学習フレームワークを提案する。
分離された列車モデルからの知覚結果を純粋に言語入力に変換するのではなく、私たちの斬新さは2つの側面にあります。
1) 学習可能なマルチモーダルトークンへの視覚とLiDARの感覚入力のエンドツーエンド統合により、事前学習された知覚モデルによる記述バイアスを本質的に緩和する。
2) LLMを直接駆動させる代わりに, LLMを駆動モデルが誤りや複雑なシナリオを正すのに役立てるハイブリッド環境について検討する。
実験の結果,提案手法は49.21%の運転スコアと,CARLAによるオフライン評価において91.34%の経路完了率を達成できることが示唆された。
これらのパフォーマンスメトリクスは、最も先進的な駆動モデルに匹敵する。
The utilization of Large Language Models (LLMs) within the realm of reinforcement learning, particularly as planners, has garnered a significant degree of attention in recent scholarly literature. However, a substantial proportion of existing research predominantly focuses on planning models for robotics that transmute the outputs derived from perception models into linguistic forms, thus adopting a `pure-language' strategy. In this research, we propose a hybrid End-to-End learning framework for autonomous driving by combining basic driving imitation learning with LLMs based on multi-modality prompt tokens. Instead of simply converting perception results from the separated train model into pure language input, our novelty lies in two aspects. 1) The end-to-end integration of visual and LiDAR sensory input into learnable multi-modality tokens, thereby intrinsically alleviating description bias by separated pre-trained perception models. 2) Instead of directly letting LLMs drive, this paper explores a hybrid setting of letting LLMs help the driving model correct mistakes and complicated scenarios. The results of our experiments suggest that the proposed methodology can attain driving scores of 49.21%, coupled with an impressive route completion rate of 91.34% in the offline evaluation conducted via CARLA. These performance metrics are comparable to the most advanced driving models. | 翻訳日:2024-07-30 23:37:56 公開日:2024-07-29 |
# 最大近似推定を用いた凸正規化器の教師なし訓練
Unsupervised Training of Convex Regularizers using Maximum Likelihood Estimation ( http://arxiv.org/abs/2404.05445v2 ) ライセンス: Link先を確認 | Hong Ye Tan, Ziruo Cai, Marcelo Pereyra, Subhadip Mukherjee, Junqi Tang, Carola-Bibiane Schönlieb, | (参考訳) イメージングは逆問題の標準的な例であり、ノイズ測定から基底真理を再構築するタスクが悪用される。
近年のイメージングにおける最先端のアプローチは、非ローリングモデルとエンドツーエンドモデルによって先導され、さまざまな画像データセットでトレーニングされたディープラーニングを使用する。
しかし、そのような方法の多くは、利用できない、あるいは高価であるかもしれない地上の真理データの可用性を必要としており、アーキテクチャの選択によって回避できない根本的な障壁につながっている。
教師なし学習は、ノイズの多いデータに基づいて直接学習することができ、基礎的な真実を必要としないため、この要件を回避できる代替パラダイムを提示している。
教師なし学習に対するベイズ的アプローチの原則は、古典的変分正規化と本質的に結びついている与えられた雑音の測定に関して、限界的確率を最大化することである。
本稿では,モデル表現性およびデータセットサイズの両方において,従来よりも改善された,凸型ニューラルネットワークに基づく画像正規化項をノイズ測定に基づいてトレーニングするための,最大限界推定を用いた教師なしアプローチを提案する。
実験により, 提案手法は, 様々な画像汚濁演算子に対する類似の教師付き訓練法と比較して, ほぼ競争力のある先行性を生成し, エンドツーエンド法と比較して, より優れた一般化特性を保っていることが示された。
さらに,提案アルゴリズムの収束特性の詳細な理論的解析を行う。
Imaging is a standard example of an inverse problem, where the task of reconstructing a ground truth from a noisy measurement is ill-posed. Recent state-of-the-art approaches for imaging use deep learning, spearheaded by unrolled and end-to-end models and trained on various image datasets. However, many such methods require the availability of ground truth data, which may be unavailable or expensive, leading to a fundamental barrier that can not be bypassed by choice of architecture. Unsupervised learning presents an alternative paradigm that bypasses this requirement, as they can be learned directly on noisy data and do not require any ground truths. A principled Bayesian approach to unsupervised learning is to maximize the marginal likelihood with respect to the given noisy measurements, which is intrinsically linked to classical variational regularization. We propose an unsupervised approach using maximum marginal likelihood estimation to train a convex neural network-based image regularization term directly on noisy measurements, improving upon previous work in both model expressiveness and dataset size. Experiments demonstrate that the proposed method produces priors that are near competitive when compared to the analogous supervised training method for various image corruption operators, maintaining significantly better generalization properties when compared to end-to-end methods. Moreover, we provide a detailed theoretical analysis of the convergence properties of our proposed algorithm. | 翻訳日:2024-07-30 23:37:56 公開日:2024-07-29 |
# MedExpQA: 医療質問応答のための大規模言語モデルの多言語ベンチマーク
MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering ( http://arxiv.org/abs/2404.05590v2 ) ライセンス: Link先を確認 | Iñigo Alonso, Maite Oronoz, Rodrigo Agerri, | (参考訳) 大規模言語モデル(LLM)は、医療専門家が対話的な意思決定支援を支援するために人工知能技術の開発を促進する可能性を秘めている。
しかし、驚くべきことに、医療応用に必要な品質基準は達成されるには程遠い。
現在、LLMは時代遅れの知識と、幻覚的コンテンツを生成する傾向に悩まされている。
さらに、医療知識を評価するためのベンチマークでは、基準金の説明が欠落しているため、LCMの予測の推論を評価できない。
最後に、私たちが知っている限りでは、完全に無視されたトピックである英語以外の言語に対するLLMのベンチマークを考えると、この状況は特に悲惨です。
これらの問題点に対処するため,本論文では,医学的質問応答におけるLSMを評価するための,医学的試験に基づく最初の多言語ベンチマークであるMedExpQAを提案する。
我々の知る限り、MedExpQAは、LLMのパフォーマンスと比較するために、様々な金ベースの上限を確立するために、医師によって書かれた金の説明を初めて参照する。
ゴールドレファレンス説明とレトリーバル拡張生成(RAG)アプローチの両方を用いた総合多言語実験により、LLMの性能は、特に英語以外の言語において、まだ大きな改善の余地があることが示されている。
さらに,最新のRAG手法を用いても,医療質問応答に対する下流評価に有意な影響を及ぼす可能性のある,手軽に利用可能な医療知識の獲得と統合の難しさも示している。
これまでのところ、ベンチマークは4つの言語で利用可能ですが、この作業によって他の言語にもさらなる開発が促進されることを願っています。
Large Language Models (LLMs) have the potential of facilitating the development of Artificial Intelligence technology to assist medical experts for interactive decision support, which has been demonstrated by their competitive performances in Medical QA. However, while impressive, the required quality bar for medical applications remains far from being achieved. Currently, LLMs remain challenged by outdated knowledge and by their tendency to generate hallucinated content. Furthermore, most benchmarks to assess medical knowledge lack reference gold explanations which means that it is not possible to evaluate the reasoning of LLMs predictions. Finally, the situation is particularly grim if we consider benchmarking LLMs for languages other than English which remains, as far as we know, a totally neglected topic. In order to address these shortcomings, in this paper we present MedExpQA, the first multilingual benchmark based on medical exams to evaluate LLMs in Medical Question Answering. To the best of our knowledge, MedExpQA includes for the first time reference gold explanations written by medical doctors which can be leveraged to establish various gold-based upper-bounds for comparison with LLMs performance. Comprehensive multilingual experimentation using both the gold reference explanations and Retrieval Augmented Generation (RAG) approaches show that performance of LLMs still has large room for improvement, especially for languages other than English. Furthermore, and despite using state-of-the-art RAG methods, our results also demonstrate the difficulty of obtaining and integrating readily available medical knowledge that may positively impact results on downstream evaluations for Medical Question Answering. So far the benchmark is available in four languages, but we hope that this work may encourage further development to other languages. | 翻訳日:2024-07-30 23:37:56 公開日:2024-07-29 |
# 補償フィードバックによる学習における一般化誤差境界
Generalization Error Bounds for Learning under Censored Feedback ( http://arxiv.org/abs/2404.09247v2 ) ライセンス: Link先を確認 | Yifan Yang, Ali Payani, Parinaz Naghizadeh, | (参考訳) 学習理論からの一般化誤差は、以前に見つからなかったデータに対してアルゴリズムがどれだけうまく機能するかを統計的に保証する。
本稿では、検閲されたフィードバック(選択的なラベル付けバイアス)によるデータ非IIDnessの影響を特徴付ける。
まず、IIDデータから得られる経験的CDFと理論的CDFのギャップを特徴付けるDKW不等式を、検閲されたフィードバックによる非IIDデータの問題に拡張する。
次に、このCDFエラー境界を用いて、そのような非IIDデータに基づいて訓練された分類器の一般化誤差保証のバウンダリを提供する。
既存の一般化誤差境界(検閲されたフィードバックを考慮しない)はモデルの一般化保証を正しく捉えず、その境界の必要性を検証できないことを示す。
我々は,近年の文献で提案されている,検閲されたフィードバックを緩和する手法である(純粋で有界な)探索手法の有効性を,エラー境界を改善するためにさらに分析する。
この結果から,アルゴリズムの一般化保証の強化と,検閲されたフィードバックによって将来的なデータ可用性が制限される場合のデータ収集に伴うコストとのトレードオフを,意思決定者が考慮すべきであることを示す。
Generalization error bounds from learning theory provide statistical guarantees on how well an algorithm will perform on previously unseen data. In this paper, we characterize the impacts of data non-IIDness due to censored feedback (a.k.a. selective labeling bias) on such bounds. We first derive an extension of the well-known Dvoretzky-Kiefer-Wolfowitz (DKW) inequality, which characterizes the gap between empirical and theoretical CDFs given IID data, to problems with non-IID data due to censored feedback. We then use this CDF error bound to provide a bound on the generalization error guarantees of a classifier trained on such non-IID data. We show that existing generalization error bounds (which do not account for censored feedback) fail to correctly capture the model's generalization guarantees, verifying the need for our bounds. We further analyze the effectiveness of (pure and bounded) exploration techniques, proposed by recent literature as a way to alleviate censored feedback, on improving our error bounds. Together, our findings illustrate how a decision maker should account for the trade-off between strengthening the generalization guarantees of an algorithm and the costs incurred in data collection when future data availability is limited by censored feedback. | 翻訳日:2024-07-30 23:27:56 公開日:2024-07-29 |
# ランダム射影におけるノードの類似性:限界と病理例
Node Similarities under Random Projections: Limits and Pathological Cases ( http://arxiv.org/abs/2404.10148v2 ) ライセンス: Link先を確認 | Tvrtko Tadić, Cassiano Becker, Jennifer Neville, | (参考訳) ランダム射影は、計算効率のために様々なグラフ学習タスクの埋め込みを生成するために広く用いられている。
アプリケーションの大部分はJohnson-Lindenstrauss Lemmaを通じて正当化されている。
本稿では,グラフ行列の行に印加した場合に,ランダムなプロジェクションによってドット積とコサインの類似性がいかによく保存されるかを検討する。
我々の分析は、新しい漸近的および有限サンプルの結果を提供し、病理症例を特定し、数値実験でそれらを検証する。
埋め込みによって誘導されるノード順序を反転させるランダムなプロジェクションの確率を計算することにより、基本的な結果をランキングアプリケーションに特殊化する。
次数分布によっては, 隣接性, 正規化遷移行列の有無にかかわらず, ドット積に対して特に信頼性の低い埋め込みを生成する。
ランダムな投射によって生じる統計的ノイズに関して、コサイン類似性は驚くほど正確な近似をもたらすことを示す。
Random Projections have been widely used to generate embeddings for various graph learning tasks due to their computational efficiency. The majority of applications have been justified through the Johnson-Lindenstrauss Lemma. In this paper, we take a step further and investigate how well dot product and cosine similarity are preserved by random projections when these are applied over the rows of the graph matrix. Our analysis provides new asymptotic and finite-sample results, identifies pathological cases, and tests them with numerical experiments. We specialize our fundamental results to a ranking application by computing the probability of random projections flipping the node ordering induced by their embeddings. We find that, depending on the degree distribution, the method produces especially unreliable embeddings for the dot product, regardless of whether the adjacency or the normalized transition matrix is used. With respect to the statistical noise introduced by random projections, we show that cosine similarity produces remarkably more precise approximations. | 翻訳日:2024-07-30 23:27:56 公開日:2024-07-29 |
# 潜時拡散による長周期音楽生成
Long-form music generation with latent diffusion ( http://arxiv.org/abs/2404.10301v2 ) ライセンス: Link先を確認 | Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons, | (参考訳) 音声に基づく音楽生成モデルは近年大きな進歩を遂げているが、これまでのところ、テキストプロンプトから一貫性のある音楽構造を持つフル長の音楽トラックは作っていない。
時間長の文脈で生成モデルを訓練することにより,最大4m45秒の長音を生成可能であることを示す。
本モデルは,低サンプリング連続潜時表現(21.5Hz)で動作する拡散変圧器からなる。
音質と即時アライメントの指標に基づいて最先端の世代を取得し、主観的なテストにより、コヒーレントな構造を持つフル長の音楽を生成することが明らかになった。
Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure from text prompts. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure. | 翻訳日:2024-07-30 23:27:56 公開日:2024-07-29 |
# 物理における回帰問題に対する多要素ガウス過程代理モデリング
Multi-fidelity Gaussian process surrogate modeling for regression problems in physics ( http://arxiv.org/abs/2404.11965v2 ) ライセンス: Link先を確認 | Kislaya Ravi, Vladyslav Fediukov, Felix Dietrich, Tobias Neckel, Fabian Buse, Michael Bergmann, Hans-Joachim Bungartz, | (参考訳) 代理モデリングの主な課題の1つは、計算コストのかかるシミュレーションに関連するリソース制約によるデータの可用性の制限である。
多重忠実度法は、誤りの少ないがコストの増大に伴い、忠実度が増大する階層内のモデルに連鎖して解を与える。
本稿では,ガウス過程サロゲートを回帰のために構築する際の多面的多面性法の比較を行う。
既存文献における非線形自己回帰法は主に2つの忠実度モデルに限られており、これらの手法を2段階以上の忠実度を扱うように拡張する。
さらに,構造化カーネルを導入して遅延項を組み込んだ既存手法の強化を提案する。
各種の学術・実世界のシナリオにおいて,これらの手法の性能を実証する。
提案手法は, 計算コストの予測誤差が単一忠実度法に比べて小さいが, 有効性はシナリオによって異なる。
One of the main challenges in surrogate modeling is the limited availability of data due to resource constraints associated with computationally expensive simulations. Multi-fidelity methods provide a solution by chaining models in a hierarchy with increasing fidelity, associated with lower error, but increasing cost. In this paper, we compare different multi-fidelity methods employed in constructing Gaussian process surrogates for regression. Non-linear autoregressive methods in the existing literature are primarily confined to two-fidelity models, and we extend these methods to handle more than two levels of fidelity. Additionally, we propose enhancements for an existing method incorporating delay terms by introducing a structured kernel. We demonstrate the performance of these methods across various academic and real-world scenarios. Our findings reveal that multi-fidelity methods generally have a smaller prediction error for the same computational cost as compared to the single-fidelity method, although their effectiveness varies across different scenarios. | 翻訳日:2024-07-30 23:27:56 公開日:2024-07-29 |
# マルチターンLDM相互作用に対するプロンプト漏れ効果と防御戦略
Prompt Leakage effect and defense strategies for multi-turn LLM interactions ( http://arxiv.org/abs/2404.16251v3 ) ライセンス: Link先を確認 | Divyansh Agarwal, Alexander R. Fabbri, Ben Risher, Philippe Laban, Shafiq Joty, Chien-Sheng Wu, | (参考訳) プロンプトリークは、LLMアプリケーションに魅力的なセキュリティとプライバシの脅威をもたらす。
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する。
急激な漏洩脅威と緩和戦略の体系的評価は、特にマルチターンLDM相互作用において欠落している。
本稿では,4つの領域にまたがる10個のオープンソースLCMの高速リークに対するLSM脆弱性を系統的に調査する。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
標準化されたセットアップにより,タスク命令や知識文書など,特定のプロンプト内容の漏洩も防止できる。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
我々は、コスト分析を含む脅威モデルに対する防衛の異なる組み合わせを提示する。
我々の研究は、セキュアなLLMアプリケーションを構築するための重要なポイントを強調し、マルチターンLLMインタラクションの研究の方向性を提供する。
Prompt leakage poses a compelling security and privacy threat in LLM applications. Leakage of system prompts may compromise intellectual property, and act as adversarial reconnaissance for an attacker. A systematic evaluation of prompt leakage threats and mitigation strategies is lacking, especially for multi-turn LLM interactions. In this paper, we systematically investigate LLM vulnerabilities against prompt leakage for 10 closed- and open-source LLMs, across four domains. We design a unique threat model which leverages the LLM sycophancy effect and elevates the average attack success rate (ASR) from 17.7% to 86.2% in a multi-turn setting. Our standardized setup further allows dissecting leakage of specific prompt contents such as task instructions and knowledge documents. We measure the mitigation effect of 7 black-box defense strategies, along with finetuning an open-source model to defend against leakage attempts. We present different combination of defenses against our threat model, including a cost analysis. Our study highlights key takeaways for building secure LLM applications and provides directions for research in multi-turn LLM interactions | 翻訳日:2024-07-30 23:27:56 公開日:2024-07-29 |
# 1T'モリブデンジテルリドを用いた真ランダム数生成
True random number generation using 1T' molybdenum ditelluride ( http://arxiv.org/abs/2404.16271v2 ) ライセンス: Link先を確認 | Yang Liu, Pengyu Liu, Yingyi Wen, Zihan Liang, Songwei Liu, Lekai Song, Jingfang Pei, Xiaoyue Fan, Teng Ma, Gang Wang, Shuo Gao, Kong-Pang Pun, Xiaolong Chen, Guohua Hu, | (参考訳) 真のランダム数は、科学研究や様々な工学的な問題に不可欠である。
しかし、それらの生成は信頼できるエントロピー源に依存している。
本稿では,電気化学的剥離法を用いて作製した構造準安定1T'MoTe2から探るコンダクタンスノイズを用いた真の乱数生成について述べる。
ノイズスペクトル密度と統計的時間ラグは、1T' MoTe2における強誘電体双極子のランダムな分極に由来することを示唆している。
単純な回路を用いることで、ノイズは真の乱数生成を可能にし、1Mbit/sを超える高スループットなセキュアな乱数生成のシードとしての使用を可能にし、セキュアなデータ保護が深刻になった暗号などのアプリケーションにアピールする。
特に、乱数を用いてニューラルネットワークの重要な生体情報を保護することを実証し、ビッグデータと人工知能において重要なデータプライバシー対策を示す。
True random numbers are essential for scientific research and various engineering problems. Their generation, however, depends on a reliable entropy source. Here, we present true random number generation using the conductance noise probed from structurally metastable 1T' MoTe2 prepared via electrochemical exfoliation. The noise, fitting a Poisson process, is a robust entropy source capable of remaining stable even at 15 K. Noise spectral density and statistical time-lag suggest the noise originates from the random polarization of the ferroelectric dipoles in 1T' MoTe2. Using a simple circuit, the noise allows true random number generation, enabling their use as the seed for high-throughput secure random number generation over 1 Mbit/s, appealing for applications such as cryptography where secure data protection has now become severe. Particularly, we demonstrate safeguarding key biometric information in neural networks using the random numbers, proving a critical data privacy measure in big data and artificial intelligence. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-29 |
# 量子対状態伝達の一般化
A generalization of quantum pair state transfer ( http://arxiv.org/abs/2404.16654v2 ) ライセンス: Link先を確認 | Sooyeong Kim, Hermie Monterde, Bahman Ahmadi, Ada Chan, Stephen Kirkland, Sarah Plosker, | (参考訳) グラフの$s$-pair状態は、$\mathbf{e}_u+s\mathbf{e}_v$という形の量子状態であり、$u$と$v$はグラフの頂点であり、$s$はゼロでない複素数である。
もし$s=-1$(resp., $s=1$)なら、そのような状態はペア状態(resp. + state)と呼ばれる。
本稿では、連続的な量子ウォークにおける完全$s$ペア状態移動の理論を開発し、そこでは、ハミルトニアンをグラフの隣接性、ラプラシアン行列、または符号なしラプラシアン行列とみなす。
頂点完全状態移動を許容する完全グラフ、サイクルおよび反ポッド距離正則グラフにおいて、完全$s$ペア状態移動を特徴付ける。
分数復活を許容する商グラフとグラフを用いて、完全$s$ペア状態移動を持つグラフの無限族を構成する。
我々は、隣接行列に対する直線グラフ内の頂点間の完全状態移動が、符号なしラプラシア行列に対するグラフ内の対応するエッジによって形成されるプラス状態間の完全状態移動と等価である必要十分条件を提供する。
最後に、隣接行列に対するカルト積の直線グラフにおける頂点間の完全状態移動を特徴付ける。
An $s$-pair state in a graph is a quantum state of the form $\mathbf{e}_u+s\mathbf{e}_v$, where $u$ and $v$ are vertices in the graph and $s$ is a non-zero complex number. If $s=-1$ (resp., $s=1$), then such a state is called a pair state (resp. plus state). In this paper, we develop the theory of perfect $s$-pair state transfer in continuous quantum walks, where the Hamiltonian is taken to be the adjacency, Laplacian or signless Laplacian matrix of the graph. We characterize perfect $s$-pair state transfer in complete graphs, cycles and antipodal distance-regular graphs admitting vertex perfect state transfer. We construct infinite families of graphs with perfect $s$-pair state transfer using quotient graphs and graphs that admit fractional revival. We provide necessary and sufficient conditions such that perfect state transfer between vertices in the line graph relative to the adjacency matrix is equivalent to perfect state transfer between the plus states formed by corresponding edges in the graph relative to the signless Laplacian matrix. Finally, we characterize perfect state transfer between vertices in the line graphs of Cartesian products relative to the adjacency matrix. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-29 |
# マネーロンダリングの形状:Elliptic2データセットを用いたブロックチェーン上でのサブグラフ表現学習
The Shape of Money Laundering: Subgraph Representation Learning on the Blockchain with the Elliptic2 Dataset ( http://arxiv.org/abs/2404.19109v3 ) ライセンス: Link先を確認 | Claudio Bellei, Muhua Xu, Ross Phillips, Tom Robinson, Mark Weber, Tim Kaler, Charles E. Leiserson, Arvind, Jie Chen, | (参考訳) サブグラフ表現学習(Subgraph representation learning)は、複雑なネットワーク内の局所構造(または形状)を分析する技術である。
スケーラブルグラフニューラルネットワーク(GNN)の最近の発展によって実現されたこのアプローチは、ノードの抽象化レベルではなく、サブグループレベル(複数接続ノード)でリレーショナル情報をエンコードする。
我々は、アンチマネーロンダリング(AML)のような特定のドメインアプリケーションは本質的にサブグラフ問題であり、メインストリームグラフ技術は最適化の準位で運用されていると仮定する。
これは、実際のサイズと複雑さの注釈付きデータセットの不足に加えて、大規模にGNNワークフローを管理するためのソフトウェアツールの欠如による部分もある。
基本アルゴリズムやAMLなどのドメインアプリケーションでの作業を可能にするため、49Mノードクラスタと196Mエッジトランザクションからなるバックグラウンドグラフ内に、122KラベルのBitcoinクラスタのサブグラフを含む巨大なグラフデータセットであるElliptic2を紹介した。
このデータセットは、マネーロンダリングが暗号通貨で展示する「事例」の集合を学習し、新しい犯罪行為を正確に分類するために、不正行為と結びつくことが知られているサブグラフを提供する。
データセットとともに、私たちのグラフ技術、ソフトウェアツール、有望な初期の実験結果、そしてこのアプローチから既に得られる新たなドメイン洞察を共有しています。
同時に、このアプローチの即時的な実践価値と、仮想通貨やその他の金融ネットワークにおけるマネーロンダリングと法医学的分析の新しい標準の可能性を見出した。
Subgraph representation learning is a technique for analyzing local structures (or shapes) within complex networks. Enabled by recent developments in scalable Graph Neural Networks (GNNs), this approach encodes relational information at a subgroup level (multiple connected nodes) rather than at a node level of abstraction. We posit that certain domain applications, such as anti-money laundering (AML), are inherently subgraph problems and mainstream graph techniques have been operating at a suboptimal level of abstraction. This is due in part to the scarcity of annotated datasets of real-world size and complexity, as well as the lack of software tools for managing subgraph GNN workflows at scale. To enable work in fundamental algorithms as well as domain applications in AML and beyond, we introduce Elliptic2, a large graph dataset containing 122K labeled subgraphs of Bitcoin clusters within a background graph consisting of 49M node clusters and 196M edge transactions. The dataset provides subgraphs known to be linked to illicit activity for learning the set of "shapes" that money laundering exhibits in cryptocurrency and accurately classifying new criminal activity. Along with the dataset we share our graph techniques, software tooling, promising early experimental results, and new domain insights already gleaned from this approach. Taken together, we find immediate practical value in this approach and the potential for a new standard in anti-money laundering and forensic analytics in cryptocurrencies and other financial networks. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-29 |
# 富裕層管理の民主化--有能な相互ファンドブロックチェーンプロトコル
The Democratization of Wealth Management: Hedged Mutual Fund Blockchain Protocol ( http://arxiv.org/abs/2405.02302v2 ) ライセンス: Link先を確認 | Ravi Kashyap, | (参考訳) 従来の投資資金のベストプラクティスをブロックチェーンの世界に持ち込むために、いくつかのイノベーションを開発しています。
具体的には、こう説明する。
1) 相互資金と同様に、資金価格を定期的に更新することができる。
2 運用手数料は、ヘッジファンドのように請求することができる。
3 相互ヘッジされたブロックチェーン投資基金は、ハイウォーターマーク等の投資家保護策で運営することができる。
4) 償還の際、トレーディング関連スリップコストを相殺する措置
私たちの概念 - とブロックチェーン技術 – を使うことで、従来のファンドは、簡易な方法でパフォーマンス手数料を計算し、いくつかの運用上の問題を軽減することができます。
ブロックチェーンは従来のファイナンスのために多くの問題を解決できますが、試行錯誤された富管理技術は分散化の恩恵を受け、採用を加速します。
数学的定式化やインストラクティブポインタなど、詳細なステップでこれらのアイデアを実装し、私たちの設計がブロックチェーンのボトルネックを克服し、スマートコントラクトをよりスマートにする方法について議論します。
本稿では,そのメカニズムに関するいくつかのシナリオを数値図示する。
We develop several innovations to bring the best practices of traditional investment funds to the blockchain landscape. Specifically, we illustrate how: 1) fund prices can be updated regularly like mutual funds; 2) performance fees can be charged like hedge funds; 3) mutually hedged blockchain investment funds can operate with investor protection schemes, such as high water marks; and 4) measures to offset trading related slippage costs when redemptions happen. Using our concepts - and blockchain technology - traditional funds can calculate performance fees in a simplified manner and alleviate several operational issues. Blockchain can solve many problems for traditional finance, while tried and tested wealth management techniques can benefit decentralization, speeding its adoption. We provide detailed steps - including mathematical formulations and instructive pointers - to implement these ideas and discuss how our designs overcome several blockchain bottlenecks, making smart contracts smarter. We provide numerical illustrations of several scenarios related to our mechanisms. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-29 |
# MMEarth:地理空間表現学習のためのマルチモーダル・プレテキスト・タスク
MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning ( http://arxiv.org/abs/2405.02771v2 ) ライセンス: Link先を確認 | Vishal Nedungadi, Ankit Kariryaa, Stefan Oehmcke, Serge Belongie, Christian Igel, Nico Lang, | (参考訳) 地球観測(EO)データの量は膨大であるが、多くの重要な応用にはラベル付きトレーニングデータがない。
しかし、EOデータには、地理的位置と時間に基づいて、さまざまなモダリティとセンサーからのデータを自動的にペアリングするユニークな機会がある。
我々はこの機会を捉え、世界規模で多様なマルチモーダル事前学習データセットであるMMEarthを作成する。
この120万箇所の新たなコーパスを用いて,光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
我々のアプローチは、完全な畳み込みマスク付きオートエンコーダ(MAE)であるConvNeXt V2アーキテクチャに基づいている。
マルチモーダル・プレテキスト・タスクの組をベースとしたMP-MAEアプローチは、ImageNetで事前訓練されたMAEと、ドメイン固有の衛星画像で事前訓練されたMAEよりも優れていることを示す。
これは、画像分類やセマンティックセグメンテーションを含むいくつかの下流タスクで示される。
マルチモーダルプレテキストタスクによる事前トレーニングは,光衛星画像のみの事前トレーニングに比べて,線形探索性能が顕著に向上することがわかった。
これにより、グローバルスケールアプリケーションにおいて重要な側面であるラベル効率とパラメータ効率が向上する。
The volume of unlabelled Earth observation (EO) data is huge, but many important applications lack labelled training data. However, EO data offers the unique opportunity to pair data from different modalities and sensors automatically based on geographic location and time, at virtually no human labor cost. We seize this opportunity to create MMEarth, a diverse multi-modal pretraining dataset at global scale. Using this new corpus of 1.2 million locations, we propose a Multi-Pretext Masked Autoencoder (MP-MAE) approach to learn general-purpose representations for optical satellite images. Our approach builds on the ConvNeXt V2 architecture, a fully convolutional masked autoencoder (MAE). Drawing upon a suite of multi-modal pretext tasks, we demonstrate that our MP-MAE approach outperforms both MAEs pretrained on ImageNet and MAEs pretrained on domain-specific satellite images. This is shown on several downstream tasks including image classification and semantic segmentation. We find that pretraining with multi-modal pretext tasks notably improves the linear probing performance compared to pretraining on optical satellite images only. This also leads to better label efficiency and parameter efficiency which are crucial aspects in global scale applications. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-29 |
# 人工意識は達成可能か? : 人間の脳からの教訓
Is artificial consciousness achievable? Lessons from the human brain ( http://arxiv.org/abs/2405.04540v2 ) ライセンス: Link先を確認 | Michele Farisco, Kathinka Evers, Jean-Pierre Changeux, | (参考訳) ここでは、人間の脳の進化と、その意識との関係を基準モデルとして、進化の観点から人工意識を発達させるという問題を分析する。
この種の分析によって人間の脳の構造的機能的特徴が明らかになり、人間のような複雑な意識的体験に到達するための鍵となり、現在の人工知能(AI)の研究は、意識的な処理が可能なシステムを開発するために考慮すべきである。
AIが人間の意識をエミュレートする能力(構造的・建築的)と外在的(科学的・技術的知識の現在の段階)の両方に制限されているとしても、意識的な処理を可能にし/あるいは調整する脳の特徴からインスピレーションを得て、意識的なAIを開発するための潜在的に有望な戦略である、と我々は主張する。
また、理論的には、AI研究が人間と質的に異なる部分的あるいは潜在的に代替的な意識を発達させ、視点によっては多かれ少なかれ洗練される可能性がある。
したがって、我々は、人間とAIに同じ単語の意識があいまいになり、誤解を招く可能性があるため、AIの意識処理と完全な人間の意識経験との相違点を明確に特定することを提案する。
We here analyse the question of developing artificial consciousness from an evolutionary perspective, taking the evolution of the human brain and its relation with consciousness as a reference model. This kind of analysis reveals several structural and functional features of the human brain that appear to be key for reaching human-like complex conscious experience and that current research on Artificial Intelligence (AI) should take into account in its attempt to develop systems capable of conscious processing. We argue that, even if AI is limited in its ability to emulate human consciousness for both intrinsic (structural and architectural) and extrinsic (related to the current stage of scientific and technological knowledge) reasons, taking inspiration from those characteristics of the brain that make conscious processing possible and/or modulate it, is a potentially promising strategy towards developing conscious AI. Also, it is theoretically possible that AI research can develop partial or potentially alternative forms of consciousness that is qualitatively different from the human, and that may be either more or less sophisticated depending on the perspectives. Therefore, we recommend neuroscience-inspired caution in talking about artificial consciousness: since the use of the same word consciousness for humans and AI becomes ambiguous and potentially misleading, we propose to clearly specify what is common and what differs in AI conscious processing from full human conscious experience. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-29 |
# 量子プログラムの衝突試験
Concolic Testing of Quantum Programs ( http://arxiv.org/abs/2405.04860v2 ) ライセンス: Link先を確認 | Shangzhou Xia, Jianjun Zhao, Fuyuan Zhang, Xiaoyu Guo, | (参考訳) 本稿では,量子プログラムに特化して設計された最初のココリックテストフレームワークを提案する。
このフレームワークは量子状態の量子化と量子変数の記号化方法を示す量子条件文を定義する。
このフレームワークを利用することで、量子プログラムの具体的な実行パス毎に経路制約を生成する。
これらの制約は新しい経路の探索を導くもので、量子制約ソルバが結果を決定し、新しい入力サンプルを生成し、分岐カバレッジを高める。
我々はこのフレームワークをPythonで実装し、実践的な評価のためにQiskitと統合した。
実験結果から,我々のコンコリックテストフレームワークは,量子入力サンプルのブランチカバレッジと品質を著しく向上させ,量子ソフトウェアテストの有効性と効率性を実証した。
This paper presents the first concolic testing framework specifically designed for quantum programs. The framework defines quantum conditional statements that quantify quantum states and presents a symbolization method for quantum variables. Utilizing this framework, we generate path constraints for each concrete execution path of a quantum program. These constraints guide the exploration of new paths, with a quantum constraint solver determining the outcomes to generate novel input samples and enhance branch coverage. We implemented this framework in Python and integrated it with Qiskit for practical evaluation. Experimental results demonstrate that our concolic testing framework significantly improves branch coverage and the quality of quantum input samples, demonstrating its effectiveness and efficiency in quantum software testing. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-29 |
# 不正確な確率に部分的可観測性:ロバストなPMDPのためのゲームセマンティクス
Imprecise Probabilities Meet Partial Observability: Game Semantics for Robust POMDPs ( http://arxiv.org/abs/2405.04941v2 ) ライセンス: Link先を確認 | Eline M. Bovy, Marnix Suilen, Sebastian Junges, Nils Jansen, | (参考訳) 部分的に観測可能なマルコフ決定過程(POMDP)は確率分布が正確に知られているという重要な仮定に依存している。
ロバストPOMDP(RPOMDP)は不確実性集合と呼ばれる不正確な確率を定義することによって、この懸念を緩和する。
堅牢なMDPは広く研究されているが、RPOMDPの研究は限られており、主にアルゴリズム的な解法に焦点を当てている。
我々は、RPOMDPの理論的理解を拡大する。
1) 不確実性集合に関する異なる仮定は、最適な政策及び価値に影響を与える。
2) RPOMDP は部分的に観測可能な確率ゲーム (POSG) を持っている。
3) 異なる仮定を持つ同一の RPOMDP は意味的に異なるPOSG をもたらし、したがって異なるポリシーと値となる。
RPOMDP に対するこれらの新しい意味論は、ゲーム理論で研究されているPOSG の結果へのアクセスを与え、具体的には、ナッシュ均衡の存在を示す。
最後に,既存のRPOMDP文献をセマンティクスを用いて分類し,これらの研究がどのような不確実性を想定しているかを明らかにする。
Partially observable Markov decision processes (POMDPs) rely on the key assumption that probability distributions are precisely known. Robust POMDPs (RPOMDPs) alleviate this concern by defining imprecise probabilities, referred to as uncertainty sets. While robust MDPs have been studied extensively, work on RPOMDPs is limited and primarily focuses on algorithmic solution methods. We expand the theoretical understanding of RPOMDPs by showing that 1) different assumptions on the uncertainty sets affect optimal policies and values; 2) RPOMDPs have a partially observable stochastic game (POSG) semantic; and 3) the same RPOMDP with different assumptions leads to semantically different POSGs and, thus, different policies and values. These novel semantics for RPOMDPs give access to results for POSGs, studied in game theory; concretely, we show the existence of a Nash equilibrium. Finally, we classify the existing RPOMDP literature using our semantics, clarifying under which uncertainty assumptions these existing works operate. | 翻訳日:2024-07-30 23:18:12 公開日:2024-07-29 |
# 連続的ブラウン橋拡散によるフレーム補間
Frame Interpolation with Consecutive Brownian Bridge Diffusion ( http://arxiv.org/abs/2405.05953v3 ) ライセンス: Link先を確認 | Zonglin Lyu, Ming Li, Jianbo Jiao, Chen Chen, | (参考訳) ビデオフレーム補間(VFI)における最近の研究は、拡散に基づく条件付き画像生成問題としてVFIを定式化しようと試み、ランダムなノイズと隣接するフレームを与えられた中間フレームを合成している。
ビデオの解像度が比較的高いため、LDM(Latent Diffusion Models)が条件生成モデルとして使われ、オートエンコーダは画像をラテント表現に圧縮し、これらのラテント表現からイメージを再構成する。
このような定式化は重要な課題である: VFI は出力が決定論的に基底真理中間フレームに等しいことを期待するが、LCM はモデルが複数回実行されると、ランダムに異なる画像の集合を生成する。
多様な生成の理由は、LDMにおける生成された潜在表現の累積分散(生成の各ステップで蓄積される分散)が大きいからである。
これによりサンプリング軌道はランダムになり、決定論的世代よりも多様になる。
この問題に対処するため,我々は,Branian Bridge Diffusionを用いたフレーム補間法を提案する。
具体的には、決定論的初期値を入力とし、生成した潜在表現の累積分散をはるかに小さくする、連続的なブラウン橋拡散を提案する。
実験の結果,本手法はオートエンコーダの改良とともに改良され,VFIの最先端性能が向上し,さらなる向上の可能性が残っていることが示唆された。
Recent work in Video Frame Interpolation (VFI) tries to formulate VFI as a diffusion-based conditional image generation problem, synthesizing the intermediate frame given a random noise and neighboring frames. Due to the relatively high resolution of videos, Latent Diffusion Models (LDMs) are employed as the conditional generation model, where the autoencoder compresses images into latent representations for diffusion and then reconstructs images from these latent representations. Such a formulation poses a crucial challenge: VFI expects that the output is deterministically equal to the ground truth intermediate frame, but LDMs randomly generate a diverse set of different images when the model runs multiple times. The reason for the diverse generation is that the cumulative variance (variance accumulated at each step of generation) of generated latent representations in LDMs is large. This makes the sampling trajectory random, resulting in diverse rather than deterministic generations. To address this problem, we propose our unique solution: Frame Interpolation with Consecutive Brownian Bridge Diffusion. Specifically, we propose consecutive Brownian Bridge diffusion that takes a deterministic initial value as input, resulting in a much smaller cumulative variance of generated latent representations. Our experiments suggest that our method can improve together with the improvement of the autoencoder and achieve state-of-the-art performance in VFI, leaving strong potential for further enhancement. | 翻訳日:2024-07-30 23:08:22 公開日:2024-07-29 |
# ゾーンニュートラル原子構造上の論理的エンタングゲートの抽象モデルと効率的なルーティング
An Abstract Model and Efficient Routing for Logical Entangling Gates on Zoned Neutral Atom Architectures ( http://arxiv.org/abs/2405.08068v2 ) ライセンス: Link先を確認 | Yannick Stade, Ludwig Schmid, Lukas Burgholzer, Robert Wille, | (参考訳) 最近の実験的成果は、フォールトトレラント量子コンピューティングにおける中性原子アーキテクチャの可能性を示している。
これらのアーキテクチャは、計算中の原子の動的再構成を特徴とし、ほぼ任意の2次元再構成を可能にする。
さらに、エンタング、ストレージ、読み取りのための専用リージョンを備えたゾーンレイアウトを採用している。
このアーキテクチャは、このハードウェアに量子回路を効率的にコンパイルし、正しいタイミングで原子が正しい位置にあることを注意する設計自動化ソフトウェアを必要とする。
本稿では,(1)新しいアーキテクチャの抽象モデルを提供し,(2)絡み合うゲートのルーティング問題に対する効率的な解法を提供することにより,この一連の作業を開始する。
これにより、密閉ゲートの並列性の最大化と、ゾーン間の原子のルーティングによるオーバーヘッドの最小化を目指す。
さらに、フォールトトレラント量子コンピューティングの領域を念頭に置き、論理量子ビット配列を1つの論理量子ビットを符号化する。
提案手法を NALAC というツールとして実装し,提案手法の有効性と効率性を示した。
ミュンヘン量子ツールキット(MQT)の一部として、NAACはhttps://github.com/cda-tum/mqt-qmapでオープンソースとして公開されている。
Recent experimental achievements have demonstrated the potential of neutral atom architectures for fault-tolerant quantum computing. These architectures feature the dynamic rearrangement of atoms during computation, enabling nearly arbitrary two-dimensional rearrangements. Additionally, they employ a zoned layout with dedicated regions for entangling, storage, and readout. This architecture requires design automation software that efficiently compiles quantum circuits to this hardware and takes care that atoms are in the right place at the right time. In this paper, we initiate this line of work by providing, (1) an abstract model of the novel architecture and, (2) an efficient solution to the routing problem of entangling gates. By this, we aim to maximize the parallelism of entangling gates and minimize the overhead caused by the routing of atoms between zones. In addition to that, we keep the realm of fault-tolerant quantum computing in mind and consider logical qubit arrays, each of which encodes one logical qubit. We implemented the proposed idea as a tool called NALAC and demonstrated its effectiveness and efficiency by showing that it can significantly reduce the routing overhead of logical entangling gates compared to the naive approach. As part of the Munich Quantum Toolkit (MQT), NALAC is publicly available as open-source at https://github.com/cda-tum/mqt-qmap. | 翻訳日:2024-07-30 23:08:22 公開日:2024-07-29 |
# クリフォードゲートからなる量子回路の古典シミュレーションについて
On Classical Simulation of Quantum Circuits Composed of Clifford Gates ( http://arxiv.org/abs/2405.13590v2 ) ライセンス: Link先を確認 | George Biswas, | (参考訳) ゴッテマン・クニルの定理は、クリフォードゲートのみからなる量子回路は古典的に効率的にシミュレートできると主張している。
この定理は、クリフォードゲートがパウリの弦を他のパウリの弦に写し、古典的な計算を用いて構造化されたシミュレーションプロセスを可能にするという事実に基づいている。
本研究では, 行列積, テンソル積, 可換化, 反可換化, 固有値, 固有ベクトルといった概念を生かして, ゴッテマン・クニル定理のステップバイステップの手順を初心者向きに分解する。
重畳現象と絡み合い現象の詳細な例を通して、クリフォードゲート型量子回路の古典的シミュレーションを明確に理解することを目的としている。
定理の正式な証明は提供していないが、必要であれば各段階で直感的な物理的洞察を提供し、この興味深い量子計算の側面を支える基本的な原理を読者に理解させる。
The Gottesman-Knill theorem asserts that quantum circuits composed solely of Clifford gates can be efficiently simulated classically. This theorem hinges on the fact that Clifford gates map Pauli strings to other Pauli strings, thereby allowing for a structured simulation process using classical computations. In this work, we break down the step-by-step procedure of the Gottesman-Knill theorem in a beginner-friendly manner, leveraging concepts such as matrix products, tensor products, commutation, anti-commutation, eigenvalues, and eigenvectors of quantum mechanical operators. Through detailed examples illustrating superposition and entanglement phenomena, we aim to provide a clear understanding of the classical simulation of Clifford gate-based quantum circuits. While we do not provide a formal proof of the theorem, we offer intuitive physical insights at each stage where necessary, empowering readers to grasp the fundamental principles underpinning this intriguing aspect of quantum computation. | 翻訳日:2024-07-30 23:08:21 公開日:2024-07-29 |
# MOD-UV:未ラベルビデオからモバイルオブジェクト検出器を学習する
MOD-UV: Learning Mobile Object Detectors from Unlabeled Videos ( http://arxiv.org/abs/2405.14841v2 ) ライセンス: Link先を確認 | Yihong Sun, Bharath Hariharan, | (参考訳) エージェントは、例えば自動運転車の交通参加者など、興味のある対象を検出し、ローカライズする必要がある。
このタスクのバウンディングボックスという形でのスーパービジョンは非常に高価です。
このように、事前の研究では教師なしのインスタンス検出とセグメンテーションが検討されているが、注釈付きボックスが存在しないため、どのようにピクセルをオブジェクトに分類し、どのオブジェクトが興味を持つかは明らかでない。
これにより、オーバー/アンダー・セグメンテーションと無関係なオブジェクトが生成される。
人間の視覚システムと実用的な応用に触発されて、教師なし検出の鍵を欠いたキューは動きである、と仮定する: 興味のあるオブジェクトは、通常、頻繁に動く移動物体であり、動きは別々のインスタンスを指定できる。
本稿では,未ラベルビデオのみから学習した移動体検出器MOD-UVを提案する。
動作セグメンテーションから派生した擬似ラベルから始めるが、動きセグメンテーションによって欠落する小さな物体や静的な移動物体を段階的に発見する新しい訓練パラダイムを導入する。
その結果、ラベル付けされていないビデオからしか学ばないが、MOD-UVは単一の静的画像からモバイルオブジェクトを検出し、セグメンテーションすることができる。
Waymo Open, nuScenes, およびKITTIデータセット上で, 外部データや教師付きモデルを用いることなく, 教師なし移動体検出における最先端の性能を実証的に達成する。
コードはhttps://github.com/YihongSun/MOD-UV.comで入手できる。
Embodied agents must detect and localize objects of interest, e.g. traffic participants for self-driving cars. Supervision in the form of bounding boxes for this task is extremely expensive. As such, prior work has looked at unsupervised instance detection and segmentation, but in the absence of annotated boxes, it is unclear how pixels must be grouped into objects and which objects are of interest. This results in over-/under-segmentation and irrelevant objects. Inspired by human visual system and practical applications, we posit that the key missing cue for unsupervised detection is motion: objects of interest are typically mobile objects that frequently move and their motions can specify separate instances. In this paper, we propose MOD-UV, a Mobile Object Detector learned from Unlabeled Videos only. We begin with instance pseudo-labels derived from motion segmentation, but introduce a novel training paradigm to progressively discover small objects and static-but-mobile objects that are missed by motion segmentation. As a result, though only learned from unlabeled videos, MOD-UV can detect and segment mobile objects from a single static image. Empirically, we achieve state-of-the-art performance in unsupervised mobile object detection on Waymo Open, nuScenes, and KITTI Datasets without using any external data or supervised models. Code is available at https://github.com/YihongSun/MOD-UV. | 翻訳日:2024-07-30 23:08:21 公開日:2024-07-29 |
# リモートセンシングのための合成画像検索
Composed Image Retrieval for Remote Sensing ( http://arxiv.org/abs/2405.15587v3 ) ライセンス: Link先を確認 | Bill Psomas, Ioannis Kakogeorgiou, Nikos Efthymiadis, Giorgos Tolias, Ondrej Chum, Yannis Avrithis, Konstantinos Karantzalos, | (参考訳) この研究は、合成画像検索をリモートセンシングに導入する。
テキスト記述によって交互に画像例によって大きなイメージアーカイブをクエリすることが可能で、視覚的またはテキスト的なクエリよりも説明力を高めることができる。
様々な属性は、形状、色、文脈など、テキスト部分によって変更することができる。
イメージ・ツー・イメージとテキスト・ツー・イメージの類似性を融合させる新しい手法を提案する。
視覚言語モデルは十分な記述力を有しており、学習ステップやトレーニングデータを必要としないことを実証する。
色, 文脈, 密度, 存在, 量, 形状変化に着目した新しい評価ベンチマークを提案する。
我々の研究は、このタスクの最先端を設定できるだけでなく、リモートセンシング画像検索の分野におけるギャップに対処するための基礎的なステップとしても機能する。
Code at: https://github.com/billpsomas/rscir
This work introduces composed image retrieval to remote sensing. It allows to query a large image archive by image examples alternated by a textual description, enriching the descriptive power over unimodal queries, either visual or textual. Various attributes can be modified by the textual part, such as shape, color, or context. A novel method fusing image-to-image and text-to-image similarity is introduced. We demonstrate that a vision-language model possesses sufficient descriptive power and no further learning step or training data are necessary. We present a new evaluation benchmark focused on color, context, density, existence, quantity, and shape modifications. Our work not only sets the state-of-the-art for this task, but also serves as a foundational step in addressing a gap in the field of remote sensing image retrieval. Code at: https://github.com/billpsomas/rscir | 翻訳日:2024-07-30 23:08:21 公開日:2024-07-29 |
# 対話型環境学習によるLLMエージェントによる指導マニュアルの自動作成
AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning ( http://arxiv.org/abs/2405.16247v2 ) ライセンス: Link先を確認 | Minghao Chen, Yihang Li, Yanting Yang, Shiyu Yu, Binbin Lin, Xiaofei He, | (参考訳) LLM(Large Language Models)ベースのエージェントは、さまざまなドメイン、例えばロボティクス、ゲーム、Webナビゲーションにおいて、自律的にタスクを完了させることを約束している。
しかし、これらのエージェントは通常、特定のドメインのタスクを解決するために精巧な設計と専門家のプロンプトを必要とし、適応性を制限する。
我々は,LLMエージェントが対話を通じて理解を自律的に構築し,新しい環境に適応することを可能にするフレームワークであるAutoManualを紹介した。
AutoManualは、環境知識を多様なルールに分類し、2つのエージェントによってオンラインで最適化する。
1) プランナーは、環境と対話するための現在の規則に基づいて実行可能な計画をコーディングする。
2) ビルダーは、オンラインルール管理と本質的な詳細保持を容易にする、よく構造化されたルールシステムを通じてルールを更新する。
ルール管理における幻覚を軽減するために,ビルダーのケース条件付きプロンプト戦略を導入する。
最後に、フォーミュラレータはこれらのルールを包括的なマニュアルにコンパイルする。
自己生成マニュアルは適応性を向上するだけでなく、人間可読性を維持しながら、より小さなLCMの計画も導くことができる。
1つの単純なデモンストレーションで、AutoManualはタスクの成功率を大幅に改善し、GPT-4-turboで97.4\%、ALFWorldベンチマークタスクで86.2\%を達成した。
コードはhttps://github.com/minghchen/automanual.comで公開されている。
Large Language Models (LLM) based agents have shown promise in autonomously completing tasks across various domains, e.g., robotics, games, and web navigation. However, these agents typically require elaborate design and expert prompts to solve tasks in specific domains, which limits their adaptability. We introduce AutoManual, a framework enabling LLM agents to autonomously build their understanding through interaction and adapt to new environments. AutoManual categorizes environmental knowledge into diverse rules and optimizes them in an online fashion by two agents: 1) The Planner codes actionable plans based on current rules for interacting with the environment. 2) The Builder updates the rules through a well-structured rule system that facilitates online rule management and essential detail retention. To mitigate hallucinations in managing rules, we introduce a case-conditioned prompting strategy for the Builder. Finally, the Formulator agent compiles these rules into a comprehensive manual. The self-generated manual can not only improve the adaptability but also guide the planning of smaller LLMs while being human-readable. Given only one simple demonstration, AutoManual significantly improves task success rates, achieving 97.4\% with GPT-4-turbo and 86.2\% with GPT-3.5-turbo on ALFWorld benchmark tasks. The code is available at https://github.com/minghchen/automanual. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# Matryoshka Multimodal Models
Matryoshka Multimodal Models ( http://arxiv.org/abs/2405.17430v2 ) ライセンス: Link先を確認 | Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee, | (参考訳) LLaVAのような大規模マルチモーダルモデル(LMM)は、視覚言語学的推論において強い性能を示している。
これらのモデルはまず、画像を固定された多数のビジュアルトークンに埋め込み、次に大きな言語モデル(LLM)にフィードする。
しかし、この設計は高解像度の画像やビデオなどの密集した視覚シナリオに対して過度に多くのトークンを発生させ、非常に非効率になる。
トークンのプルーニング/マージ方法は存在するが、各画像に対して単一の長さの出力を生成し、情報密度対効率のトレードオフには柔軟性がない。
マルチモーダルモデル(M3: Matryoshka Multimodal Models,M3: Matryoshka Multimodal Models)を提案する。
M3は既存のデータセットに必要な粒度を分析するためのフレームワークを提供しており、COCOスタイルのベンチマークでは、すべての576トークンと同様の精度を得るためには、約9のビジュアルトークンしか必要としない。
Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in visual-linguistic reasoning. These models first embed images into a fixed large number of visual tokens and then feed them into a Large Language Model (LLM). However, this design causes an excessive number of tokens for dense visual scenarios such as high-resolution images and videos, leading to great inefficiency. While token pruning/merging methods do exist, they produce a single length output for each image and do not afford flexibility in trading off information density v.s. efficiency. Inspired by the concept of Matryoshka Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the number of tokens used to represent an image based on the anticipated complexity or simplicity of the content; (2) M3 provides a framework for analyzing the granularity needed for existing datasets, where we find that COCO-style benchmarks only need around ~9 visual tokens to obtain accuracy similar to that of using all 576 tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# 土壌水分予測のためのスマート農業における時系列基盤モデルの導入
Leveraging Time-Series Foundation Models in Smart Agriculture for Soil Moisture Forecasting ( http://arxiv.org/abs/2405.18913v2 ) ライセンス: Link先を確認 | Boje Deforce, Bart Baesens, Estefanía Serral Asensio, | (参考訳) 近年、自然言語処理とコンピュータビジョンの基礎モデルが急増し、様々な領域におけるイノベーションが加速した。
この進歩に触発されて、スマート農業における時系列予測の基礎モデルの可能性を探る。
具体的には、土壌水ポテンシャル(\psi_\mathrm{soil}$)を予測するため、土壌水の状態(SOTA)時系列基盤モデルである$\texttt{TimeGPT}$という新しい応用法を提案する。
伝統的に、このタスクは幅広い入力変数に依存する。
我々は$\psi_\mathrm{soil}$'s ability to forecast $\psi_\mathrm{soil}$ in:$i$) a zero-shot setting,$ii$) 歴史的$\psi_\mathrm{soil}$ Measurement,$iii$) 細調整された設定を探索し、モデルに外因性変数を追加する。
我々は$\texttt{TimeGPT}$のパフォーマンスを、$\psi_\mathrm{soil}$を予測するための確立されたSOTAベースラインモデルと比較する。
我々の結果は、$\texttt{TimeGPT}$が、歴史的な$\psi_\mathrm{soil}$データのみを使用して、競合予測精度を達成し、農業アプリケーションに対するその顕著な可能性を強調していることを示している。
本研究は、伝統的に大規模なデータ収集やドメインの専門知識に依存したタスクの予測を可能にすることにより、農業における持続的開発のための時系列モデル構築の道を開くものである。
The recent surge in foundation models for natural language processing and computer vision has fueled innovation across various domains. Inspired by this progress, we explore the potential of foundation models for time-series forecasting in smart agriculture, a field often plagued by limited data availability. Specifically, this work presents a novel application of $\texttt{TimeGPT}$, a state-of-the-art (SOTA) time-series foundation model, to predict soil water potential ($\psi_\mathrm{soil}$), a key indicator of field water status that is typically used for irrigation advice. Traditionally, this task relies on a wide array of input variables. We explore $\psi_\mathrm{soil}$'s ability to forecast $\psi_\mathrm{soil}$ in: ($i$) a zero-shot setting, ($ii$) a fine-tuned setting relying solely on historic $\psi_\mathrm{soil}$ measurements, and ($iii$) a fine-tuned setting where we also add exogenous variables to the model. We compare $\texttt{TimeGPT}$'s performance to established SOTA baseline models for forecasting $\psi_\mathrm{soil}$. Our results demonstrate that $\texttt{TimeGPT}$ achieves competitive forecasting accuracy using only historical $\psi_\mathrm{soil}$ data, highlighting its remarkable potential for agricultural applications. This research paves the way for foundation time-series models for sustainable development in agriculture by enabling forecasting tasks that were traditionally reliant on extensive data collection and domain expertise. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# TabMDA: In-context Subsetting を用いた変換器を用いた任意の分類器に対するタブラルマニフォールドデータ拡張
TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting ( http://arxiv.org/abs/2406.01805v2 ) ライセンス: Link先を確認 | Andrei Margeloiu, Adrián Bazaga, Nikola Simidjievski, Pietro Liò, Mateja Jamnik, | (参考訳) タブラルデータは多くの臨界領域で広く使われているが、大量に取得することはしばしば困難である。
この不足は、通常、そのようなデータ上での機械学習モデルの性能の低下をもたらす。
データ拡張(Data Augmentation)は、視覚と言語タスクのパフォーマンス向上のための一般的な戦略であり、通常、入力空間に明示的な対称性が欠如しているため、表形式のデータではパフォーマンスが低下する。
この課題を克服するために,表データの多様体データ拡張法であるTabMDAを導入する。
この方法は、TabPFNのような事前訓練されたインコンテキストモデルを使用して、データを埋め込み空間にマッピングする。
TabMDAは、さまざまなコンテキストでデータを複数回エンコードすることで、ラベル不変変換を実行する。
このプロセスは、基礎となるコンテキスト内モデルの学習された埋め込み空間を探索し、トレーニングデータセットを拡大する。
TabMDAはトレーニング不要のメソッドであり、任意の分類器に適用できる。
我々は,5つの標準分類器上でTabMDAを評価し,様々な表付きデータセット間での大幅な性能向上を観察した。
この結果から,TabMDAは,事前学習したテキスト内モデルの情報を有効活用し,下流の分類器の性能を向上させることができることを示した。
コードはhttps://github.com/AdrianBZG/TabMDAで入手できる。
Tabular data is prevalent in many critical domains, yet it is often challenging to acquire in large quantities. This scarcity usually results in poor performance of machine learning models on such data. Data augmentation, a common strategy for performance improvement in vision and language tasks, typically underperforms for tabular data due to the lack of explicit symmetries in the input space. To overcome this challenge, we introduce TabMDA, a novel method for manifold data augmentation on tabular data. This method utilises a pre-trained in-context model, such as TabPFN, to map the data into an embedding space. TabMDA performs label-invariant transformations by encoding the data multiple times with varied contexts. This process explores the learned embedding space of the underlying in-context models, thereby enlarging the training dataset. TabMDA is a training-free method, making it applicable to any classifier. We evaluate TabMDA on five standard classifiers and observe significant performance improvements across various tabular datasets. Our results demonstrate that TabMDA provides an effective way to leverage information from pre-trained in-context models to enhance the performance of downstream classifiers. Code is available at https://github.com/AdrianBZG/TabMDA. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# 隠れメッセージのキャリアとしての大規模言語モデル
Large Language Models as Carriers of Hidden Messages ( http://arxiv.org/abs/2406.02481v2 ) ライセンス: Link先を確認 | Jakub Hoscilowicz, Pawel Popiolek, Jan Rudkowski, Jedrzej Bieniasz, Artur Janicki, | (参考訳) 単純な微調整の助けを借りて、隠れたテキストを大きな言語モデル(LLM)に人工的に埋め込むことができる。
このテキストは LLM への特定のクエリによってのみ公開される。
主な用途はLLMフィンガープリントとステガノグラフィである。
LLMフィンガープリントの文脈では、ライセンスコンプライアンスを検証するために、ユニークなテキスト識別子(フィンガープリント)がモデル内に埋め込まれている。
ステガノグラフィーの文脈では、LSMは選択されたトリガー質問を通じて開示できる隠されたメッセージのキャリアとして機能する。
我々の研究は、LLMに隠されたテキストを微調整で埋め込むことは、非常に多くの潜在的なトリガー(文字やトークンのシーケンスがトリガーとして機能する)のために安全であるように見えるが、LCMの出力復号プロセスの分析を通じて抽出される可能性があることを実証している。
本研究では, Unconditional Token Forcing (UTF) と呼ばれる抽出攻撃を提案する。
LLMの語彙から各トークンをモデルに反復的に供給すると、異常に高いトークン確率を持つ出力シーケンスが明らかになり、潜在的な隠れテキスト候補を示すという仮説に基づいている。
また, サンプリング復号法に基づいて, UTF と攻撃に耐性のあるテキストを隠蔽する防御手法を提案し, unconditional Token Forcing Confusion (UTFC) と命名した。
我々の知る限り、UTFCで隠されたテキストを抽出できる攻撃方法はない。
UTFCには良性アプリケーション(LLMフィンガープリントの改善)と良性アプリケーション(LLMを使用して秘密通信チャネルを作成する)の両方がある。
コードはgithub.com/j-hoscilowic/zurek-steganoで入手できる。
With the help of simple fine-tuning, one can artificially embed hidden text into large language models (LLMs). This text is revealed only when triggered by a specific query to the LLM. Two primary applications are LLM fingerprinting and steganography. In the context of LLM fingerprinting, a unique text identifier (fingerprint) is embedded within the model to verify licensing compliance. In the context of steganography, the LLM serves as a carrier for hidden messages that can be disclosed through a chosen trigger question. Our work demonstrates that embedding hidden text in the LLM via fine-tuning, though seemingly secure due to the vast number of potential triggers (any sequence of characters or tokens could serve as a trigger), is susceptible to extraction through analysis of the LLM's output decoding process. We propose an extraction attack called Unconditional Token Forcing (UTF). It is premised on the hypothesis that iteratively feeding each token from the LLM's vocabulary into the model should reveal output sequences with abnormally high token probabilities, indicating potential hidden text candidates. We also present a defense method to hide text in such a way that it is resistant to both UTF and attacks based on sampling decoding methods, which we named Unconditional Token Forcing Confusion (UTFC). To the best of our knowledge, there is no attack method that can extract text hidden with UTFC. UTFC has both benign applications (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels). Code is available at github.com/j-hoscilowic/zurek-stegano | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# 不均一な個人差分学習のための雑音認識アルゴリズム
Noise-Aware Algorithm for Heterogeneous Differentially Private Federated Learning ( http://arxiv.org/abs/2406.03519v2 ) ライセンス: Link先を確認 | Saber Malekmohammadi, Yaoliang Yu, Yang Cao, | (参考訳) 高いユーティリティと厳密なデータプライバシは、いくつかのクライアント間で分散したデータからモデルを学ぶ、フェデレートラーニング(FL)システムの主要な目標のひとつです。
後者はFL(DPFL)で差分プライバシーを利用することで実現されている。
クライアントのプライバシ要件には不均一性があることが多く、既存のDPFLは、クライアントの統一的なプライバシ要件を前提とするか、あるいはサーバが完全に信頼されていない場合(設定)には適用できない。
さらに、クライアントのバッチサイズやデータセットサイズには不均一性がしばしば存在し、示すように、クライアントモデルの更新間でDPノイズレベルが余分に変化する。
このような異種性の源では、クライアントのアグリゲーションの重み付けをプライバシパラメータに比例して割り当てるなど、直接的なアグリゲーション戦略によって、実用性が低下する。
本稿では,クライアントモデル更新における真のノイズレベルを効率的に推定し,集約モデル更新におけるノイズレベルを大幅に低減するRobust-HDPを提案する。
Robust-HDPはユーティリティと収束速度を改善し、不正なプライバシパラメータをサーバに送信する可能性のあるクライアントに対して安全である。
複数のデータセットに対する大規模な実験結果と理論的解析により,Robust-HDPの有効性が確認された。
私たちのコードはここにある。
High utility and rigorous data privacy are of the main goals of a federated learning (FL) system, which learns a model from the data distributed among some clients. The latter has been tried to achieve by using differential privacy in FL (DPFL). There is often heterogeneity in clients privacy requirements, and existing DPFL works either assume uniform privacy requirements for clients or are not applicable when server is not fully trusted (our setting). Furthermore, there is often heterogeneity in batch and/or dataset size of clients, which as shown, results in extra variation in the DP noise level across clients model updates. With these sources of heterogeneity, straightforward aggregation strategies, e.g., assigning clients aggregation weights proportional to their privacy parameters will lead to lower utility. We propose Robust-HDP, which efficiently estimates the true noise level in clients model updates and reduces the noise-level in the aggregated model updates considerably. Robust-HDP improves utility and convergence speed, while being safe to the clients that may maliciously send falsified privacy parameter to server. Extensive experimental results on multiple datasets and our theoretical analysis confirm the effectiveness of Robust-HDP. Our code can be found here. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# 開非平衡量子系におけるMpemba効果
Mpemba effects in open nonequilibrium quantum systems ( http://arxiv.org/abs/2406.03521v2 ) ライセンス: Link先を確認 | Andrea Nava, Reinhold Egger, | (参考訳) いくつかの貯水池に結合した量子系を開放するために、古典的な熱的メンバ効果(初期のホット系は、冷たいものよりも最終平衡状態に速く緩和する)を一般化する。
一般に、2つの異なる種類の量子Mpemba効果が可能であることを示す。
それらは量子状態トモグラフィーによって区別される。
しかし、(型を決定することなしに)量子ムペンバ効果の存在は、電流やエネルギーのような単純な観測可能量を測定することで既に確立できる。
2つの金属鉛に結合した相互作用する2サイト北エフ模型の実験可能な場合の一般的な結果について述べる。
We generalize the classical thermal Mpemba effect (where an initially hot system relaxes faster to the final equilibrium state than a cold one) to open quantum systems coupled to several reservoirs. We show that, in general, two different types of quantum Mpemba effects are possible. They may be distinguished by quantum state tomography. However, the existence of a quantum Mpemba effect (without determining the type) can already be established by measuring simpler observables such as currents or energies. We illustrate our general results for the experimentally feasible case of an interacting two-site Kitaev model coupled to two metallic leads. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# Fantastyc: ブロックチェーンベースのフェデレーションラーニングはセキュアで実践的
Fantastyc: Blockchain-based Federated Learning Made Secure and Practical ( http://arxiv.org/abs/2406.03608v2 ) ライセンス: Link先を確認 | William Boitier, Antonella Del Pozzo, Álvaro García-Pérez, Stephane Gazut, Pierre Jobic, Alexis Lemaire, Erwan Mahe, Aurelien Mayoue, Maxence Perion, Tuanir Franca Rezende, Deepika Singh, Sara Tucci-Piergiovanni, | (参考訳) フェデレートラーニング(Federated Learning)は、複数のクライアントが、ローカルデータを共有せずに、中央サーバのオーケストレーションの下で機械学習モデルを協調的にトレーニングすることを可能にする分散フレームワークである。
このフレームワークの中心性は、ブロックチェーンベースのフェデレーション学習アプローチによって、文献で扱われる障害点を表している。
トレーサビリティを備えた完全な分散ソリューションを保証する一方で、そのようなアプローチは、事実上デプロイされる完全性、機密性、スケーラビリティに関するいくつかの課題に直面している。
本稿では,この課題に対処するためのFantastycを提案する。
Federated Learning is a decentralized framework that enables multiple clients to collaboratively train a machine learning model under the orchestration of a central server without sharing their local data. The centrality of this framework represents a point of failure which is addressed in literature by blockchain-based federated learning approaches. While ensuring a fully-decentralized solution with traceability, such approaches still face several challenges about integrity, confidentiality and scalability to be practically deployed. In this paper, we propose Fantastyc, a solution designed to address these challenges that have been never met together in the state of the art. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# バスケットボールにおけるオフボール得点予測の数学的モデル
Mathematical models for off-ball scoring prediction in basketball ( http://arxiv.org/abs/2406.08749v2 ) ライセンス: Link先を確認 | Rikako Kono, Keisuke Fujii, | (参考訳) プロバスケットボールでは,戦略的意思決定に基づく得点機会の正確な予測は,空間的・プレイヤー的評価に不可欠である。
しかしながら、従来のモデルは、総合的なパフォーマンス評価に不可欠なオフボール運動の複雑さを考慮する上で、しばしば課題に直面している。
本研究では,バスケットボールにおけるオフボールの得点率を予測するための2つの数学的モデルを提案し,パス・ツー・スコアとドリブル・トゥ・スコアのシーケンスを考察した。
BMOSモデルは、元々サッカー用に設計されたオフボール・スコーリング・オポチュニティ(OBSO)モデルの原則をバスケットボールに適応させる一方、BIMOSモデルはボールの動きのインターセプションの可能性を取り入れている。
我々は,2015-2016年シーズンのNBA630試合の選手追跡データを用いてこれらのモデルを評価し,BIMOSモデルがチームスコアの予測精度においてBMOSモデルより優れており,さらにさらなる開発の可能性を強調した。
総合的に、BIMOSモデルはバスケットボールにおける戦術分析と選手評価に貴重な洞察を提供する。
In professional basketball, the accurate prediction of scoring opportunities based on strategic decision-making is crucial for spatial and player evaluations. However, traditional models often face challenges in accounting for the complexities of off-ball movements, which are essential for comprehensive performance evaluations. In this study, we propose two mathematical models to predict off-ball scoring opportunities in basketball, considering pass-to-score and dribble-to-score sequences: the Ball Movement for Off-ball Scoring (BMOS) and the Ball Intercept and Movement for Off-ball Scoring (BIMOS) models. The BMOS model adapts principles from the Off-Ball Scoring Opportunities (OBSO) model, originally designed for soccer, to basketball, whereas the BIMOS model also incorporates the likelihood of interception during ball movements. We evaluated these models using player tracking data from 630 NBA games in the 2015-2016 regular season, demonstrating that the BIMOS model outperforms the BMOS model in terms of team scoring prediction accuracy, while also highlighting its potential for further development. Overall, the BIMOS model provides valuable insights for tactical analysis and player evaluation in basketball. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# MICL:デモにおける複数ラベル語によるインテクスト学習の改善
MICL: Improving In-Context Learning through Multiple-Label Words in Demonstration ( http://arxiv.org/abs/2406.10908v2 ) ライセンス: Link先を確認 | Zhu Zixiao, Feng Zijian, Zhou Hanzhang, Qian Junlang, Mao Kezhi, | (参考訳) In-context Learning (ICL)では、サンプルラベルペアをデモとして使用することで、大規模な言語モデル(LLM)が新しいタスクを実行できる。
しかし、デモのバリエーションは、かなり異なるパフォーマンスをもたらす可能性がある。
現在の研究は、主にサンプルラベルペアを作成する際に、クラス名をラベル語と仮定して、サンプルサンプルを選択することに焦点を当てている。
しかし、ラベルワードの選択はICLのパフォーマンスに不可欠である。
さらに、実演で1つのクラス名を使用することで最適な結果が得られないことが観察された。
本稿では,ICL性能を向上させるために,複数のラベル語を1つのサンプルラベル対に使用することを提案する。
さらに, LLMの出力分布に基づいてサンプルラベルペアを選択し, 注文し, サンプルとラベルの両方の観点から実演例を最適化することを目的とした。
7つの分類データセットによる評価結果から,複数ラベル語の使用は,その選択,順序,量によって戦略的に整理され,多様なラベル情報を通じてICLの性能を向上させることが示唆された。
In-context learning (ICL) enables large language models (LLMs) to perform new tasks by using sample-label pairs as demonstrations. However, variations in demonstrations can lead to significantly different performances. Current research mainly focuses on selecting demonstration samples, preassuming the class name to be the label word when creating sample-label pairs. However, the choice of label words is crucial for ICL performance. In addition, we observe that using a single class name in demonstration may not yield optimal results. In this paper, we propose to use multiple label words in one sample-label pair to enhance ICL performance. Further, we select and order sample-label pairs based on LLM's output distribution, aiming to optimize the demonstration examples from both the samples' and labels' perspectives. Evaluation results on seven classification datasets show that the use of multiple label words, strategically organized by their selection, order and quantity, improves ICL performance through diverse label information. | 翻訳日:2024-07-30 22:58:37 公開日:2024-07-29 |
# 展開時間:4次元乱流の生成モデリング
Unfolding Time: Generative Modeling for Turbulent Flows in 4D ( http://arxiv.org/abs/2406.11390v2 ) ライセンス: Link先を確認 | Abdullah Saydemir, Marten Lienen, Stephan Günnemann, | (参考訳) 乱流シミュレーションにおける最近の研究は、高速な3次元代理モデリングのための生成拡散モデルの可能性を示した。
このアプローチでは、初期状態を指定する必要や、長いシミュレーションを行う必要がなくなり、プロセスが大幅に加速する。
乱流状態の学習多様体から個々のフレームをサンプリングするのに適しているが、以前のモデルではシーケンスを生成する能力が欠如しており、動的現象の解析を妨げている。
本研究は、4次元生成拡散モデルと、現実的な流れ状態列の生成を可能にする物理インフォームドガイダンス技術を導入することで、この制限に対処する。
提案手法は, 個々のフレームからシーケンスへの一般化が困難な課題であるにもかかわらず, 乱流多様体からのサブシーケンス全体のサンプリングに成功できることが示唆された。
この進歩は、乱流の時間的進化を分析するために生成的モデリングを適用するための扉を開き、それらの複雑な力学に関する貴重な洞察を提供する。
A recent study in turbulent flow simulation demonstrated the potential of generative diffusion models for fast 3D surrogate modeling. This approach eliminates the need for specifying initial states or performing lengthy simulations, significantly accelerating the process. While adept at sampling individual frames from the learned manifold of turbulent flow states, the previous model lacks the capability to generate sequences, hindering analysis of dynamic phenomena. This work addresses this limitation by introducing a 4D generative diffusion model and a physics-informed guidance technique that enables the generation of realistic sequences of flow states. Our findings indicate that the proposed method can successfully sample entire subsequences from the turbulent manifold, even though generalizing from individual frames to sequences remains a challenging task. This advancement opens doors for the application of generative modeling in analyzing the temporal evolution of turbulent flows, providing valuable insights into their complex dynamics. | 翻訳日:2024-07-30 22:48:36 公開日:2024-07-29 |
# 量子臨界系における厳密に解決可能な非単位時間進化 I:複雑な時空メトリクスの影響
Exactly solvable non-unitary time evolution in quantum critical systems I: Effect of complex spacetime metrics ( http://arxiv.org/abs/2406.17059v2 ) ライセンス: Link先を確認 | Xueda Wen, | (参考訳) この一連の研究において、量子クエンチから時間依存駆動までの1次元量子クリティカルシステムにおいて、正確に解ける非単位時間進化について研究する。
この部分 I では、量子場理論における許容可能な複素時空測度に関する、Kontsevich と Segal [1] と Witten [2] の最近の研究に動機付けられている。
一般に、そのような複雑な時空のメトリクスは、単位でない時間進化をもたらす。
本研究では,そのような単位時間進化の普遍的特徴を,正確に解ける設定に基づいて検討する。
エンタングルメント・ハミルトンおよびエンタングルメントスペクトル、エンタングルメント・エントロピー、任意の時間におけるエネルギー密度を含む様々な物理量を正確に解くことができる。
複素時間による減衰効果により、初期状態の励起は時間とともに徐々に減衰する。
非平衡力学は、リアルタイム進化の場合と定性的に異なる普遍的な特徴を示す。
例えば、大域的クエンチ後の無限系の場合、半無限部分系の絡み合いエントロピーは、リアルタイム進化における線形成長とは対照的に、時間的に対数的に増加する。
さらに,時依存型量子臨界系を複素時空メトリクスで数値的に検討する。
ドライビングとダンピングの競合は, 興味深い絡み合い構造を持つ定常状態に繋がることがわかった。
In this series of works, we study exactly solvable non-unitary time evolutions in one-dimensional quantum critical systems ranging from quantum quenches to time-dependent drivings. In this part I, we are motivated by the recent works of Kontsevich and Segal [1] and Witten [2] on allowable complex spacetime metrics in quantum field theories. In general, such complex spacetime metrics will lead to non-unitary time evolutions. In this work, we study the universal features of such non-unitary time evolutions based on exactly solvable setups. Various physical quantities including entanglement Hamiltonian and entanglement spectrum, entanglement entropy, and energy density at an arbitrary time can be exactly solved. Due to the damping effect introduced by the complex time, the excitations in the initial state are gradually damped out in time. The non-equilibrium dynamics exhibits universal features that are qualitatively different from the case of real-time evolutions. For instance, for an infinite system after a global quench, the entanglement entropy of the semi-infinite subsystem will grow logarithmically in time, in contrast to the linear growth in a real-time evolution. Moreover, we study numerically the time-dependent driven quantum critical systems with allowable complex spacetime metrics. It is found that the competition between driving and damping leads to a steady state with an interesting entanglement structure. | 翻訳日:2024-07-30 22:48:36 公開日:2024-07-29 |
# マイクロ圧縮認識のための自己知識蒸留に基づく3ストリーム時間シフト注意ネットワーク
Three-Stream Temporal-Shift Attention Network Based on Self-Knowledge Distillation for Micro-Expression Recognition ( http://arxiv.org/abs/2406.17538v2 ) ライセンス: Link先を確認 | Guanghao Zhu, Lin Liu, Yuhao Hu, Haixin Sun, Fang Liu, Xiaohui Du, Ruqian Hao, Juanxiu Liu, Yong Liu, Hao Deng, Jing Zhang, | (参考訳) マイクロ表現は、人々が本当の感情を隠そうとするときに自然に起こる微妙な顔の動きである。
ミクロな表現認識は、犯罪分析や心理療法など、多くの分野で重要である。
しかし、マイクロ表現の強度が低く、公開データセットが小さいため、マイクロ表現認識は困難である。
そこで本論文では,SKD-TSTSANと呼ばれる自己知識蒸留に基づく3ストリーム時間シフトアテンションネットワークを提案する。
まず, 筋運動の低強度に対処するために, 学習に基づく運動倍率モジュールを用いて筋運動の強度を高める。
第2に,局所空間ストリームにおける効率の良いチャネルアテンションモジュールを用いて,マイクロ表現に高い関連性を持つ顔領域にネットワークを集中させる。
さらに、時間シフトモジュールを動的時間的ストリームで使用することにより、2つの異なる時間的領域からの動作情報を混合することにより、追加パラメータを持たない時間的モデリングを可能にする。
さらに, 補助分類器を導入し, ネットワークの最深部を監督に利用することにより, 自己知識蒸留をマイクロ圧縮認識タスクに導入し, 全ブロックがトレーニングセットの特徴を十分に探求することを奨励する。
最後に、CASME II、SAMM、MMEW、CAS(ME)3の4つの公開データセットについて広範な実験を行った。
実験の結果,SKD-TSTSANは既存の手法よりも優れ,新しい最先端性能を実現していることがわかった。
私たちのコードはhttps://github.com/GuanghaoZhu663/SKD-TSTSANで公開されます。
Micro-expressions are subtle facial movements that occur spontaneously when people try to conceal real emotions. Micro-expression recognition is crucial in many fields, including criminal analysis and psychotherapy. However, micro-expression recognition is challenging since micro-expressions have low intensity and public datasets are small in size. To this end, a three-stream temporal-shift attention network based on self-knowledge distillation called SKD-TSTSAN is proposed in this paper. Firstly, to address the low intensity of muscle movements, we utilize learning-based motion magnification modules to enhance the intensity of muscle movements. Secondly, we employ efficient channel attention modules in the local-spatial stream to make the network focus on facial regions that are highly relevant to micro-expressions. In addition, temporal shift modules are used in the dynamic-temporal stream, which enables temporal modeling with no additional parameters by mixing motion information from two different temporal domains. Furthermore, we introduce self-knowledge distillation into the micro-expression recognition task by introducing auxiliary classifiers and using the deepest section of the network for supervision, encouraging all blocks to fully explore the features of the training set. Finally, extensive experiments are conducted on four public datasets: CASME II, SAMM, MMEW, and CAS(ME)3. The experimental results demonstrate that our SKD-TSTSAN outperforms other existing methods and achieves new state-of-the-art performance. Our code will be available at https://github.com/GuanghaoZhu663/SKD-TSTSAN. | 翻訳日:2024-07-30 22:48:36 公開日:2024-07-29 |
# 脂肪のトリミング:プルーニングによる3次元ガウス平板の効率的な圧縮
Trimming the Fat: Efficient Compression of 3D Gaussian Splats through Pruning ( http://arxiv.org/abs/2406.18214v2 ) ライセンス: Link先を確認 | Muhammad Salman Ali, Maryam Qamar, Sung-Ho Bae, Enzo Tartaglione, | (参考訳) 近年,ニューラル・ラディアンス・フィールド(Neural Radiance Fields)やより最近では3Dガウス・スプラッティング(3DGS)モデルによって提供されるエンドツーエンドのトレーニング能力によって,3Dモデルの利用が勢いを増している。
後者は、トレーニング中の急激な収束を本質的に緩和し、広範囲な編集性を提供することで、大きな優位性を持っている。
しかし、急速な進歩にもかかわらず、これらのモデルのスケーラビリティに関する文献はまだ幼少期である。
本研究では,このギャップに対処するための最初のステップとして,そのようなモデルのメモリと計算のスケーラビリティの両方を実現するアプローチを示す。
具体的には、モデルに符号化された余分な情報を除去するために、ポストホック勾配インフォームドイテレーティブプルーニング手法である"Trimming the fat"を提案する。
提案手法の有効性を検証した結果, ベースライン性能の維持や改善を図りながら, 最大75%のガウスを除去できることが判明した。
提案手法は,ベースラインモデルと同等の性能を維持しつつ,50$\times$圧縮を実現し,最大600FPSの高速化を実現している。
In recent times, the utilization of 3D models has gained traction, owing to the capacity for end-to-end training initially offered by Neural Radiance Fields and more recently by 3D Gaussian Splatting (3DGS) models. The latter holds a significant advantage by inherently easing rapid convergence during training and offering extensive editability. However, despite rapid advancements, the literature still lives in its infancy regarding the scalability of these models. In this study, we take some initial steps in addressing this gap, showing an approach that enables both the memory and computational scalability of such models. Specifically, we propose "Trimming the fat", a post-hoc gradient-informed iterative pruning technique to eliminate redundant information encoded in the model. Our experimental findings on widely acknowledged benchmarks attest to the effectiveness of our approach, revealing that up to 75% of the Gaussians can be removed while maintaining or even improving upon baseline performance. Our approach achieves around 50$\times$ compression while preserving performance similar to the baseline model, and is able to speed-up computation up to 600 FPS. | 翻訳日:2024-07-30 22:48:36 公開日:2024-07-29 |
# FastCLIP: 限られたリソースでCLIPトレーニングを加速するための最適化手法のスイート
FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources ( http://arxiv.org/abs/2407.01445v2 ) ライセンス: Link先を確認 | Xiyuan Wei, Fanjiang Ye, Ori Yonay, Xingyu Chen, Baixi Sun, Dingwen Tao, Tianbao Yang, | (参考訳) 大規模データに対する最先端のContrastive Language- Image Pretraining(CLIP)モデルのトレーニングに関する既存の研究では、大規模なバッチサイズを必要とするため、数百から数千のGPUが使用されている。
しかし、このような大量の資源は、ほとんどの人にはアクセスできない。
グローバルなコントラスト損失を最適化するための高度な合成最適化手法は,大規模なバッチサイズの要求を除去するために有効であることが証明されているが,大規模なデータに対するそれらの性能は未探索であり,最適化されていない。
このギャップを埋めるために、本稿では、限られたリソース(例えば、最大10個のGPU)でCLIPトレーニングのいくつかの側面について検討する。
最初にFastCLIPを紹介した。これは高度な合成最適化技術に基づく一般的なCLIPトレーニングフレームワークで、分散環境向けに設計および最適化されている。
我々のフレームワークは、通信オーバーヘッドを低減するための効率的な勾配低減戦略を備えている。
第2に、学習効率をさらに向上させるために、内部学習率のスケジュール、温度パラメータの更新規則、モデルパラメータの3つの要素を最適化の観点から検討する。
それぞれのコンポーネントに対するさまざまな戦略の実験は、CLIPトレーニングをより効率的に行う方法について光を当てた。
最後に、FastCLIPとOpenCLIP(State-of-the-art training baseline)のパフォーマンスを8ノード上の32GPUまで異なる計算スケールでベンチマークし、リソース制限設定におけるFastCLIPの大幅な改善を示すために、270万、9.100万、および31500万の画像テキストペアの3つのデータスケールをベンチマークした。
我々は、FastCLIPのコードをhttps://github.com/Optimization-AI/fast_clipでリリースします。
Existing studies of training state-of-the-art Contrastive Language-Image Pretraining (CLIP) models on large-scale data involve hundreds of or even thousands of GPUs due to the requirement of a large batch size. However, such a large amount of resources is not accessible to most people. While advanced compositional optimization techniques for optimizing global contrastive losses have been demonstrated effective for removing the requirement of large batch size, their performance on large-scale data remains underexplored and not optimized. To bridge the gap, this paper explores several aspects of CLIP training with limited resources (e.g., up to tens of GPUs). First, we introduce FastCLIP, a general CLIP training framework built on advanced compositional optimization techniques while designed and optimized for the distributed setting. Our framework is equipped with an efficient gradient reduction strategy to reduce communication overhead. Second, to further boost training efficiency, we investigate three components of the framework from an optimization perspective: the schedule of the inner learning rate, the update rules of the temperature parameter and the model parameters, respectively. Experiments on different strategies for each component shed light on how to conduct CLIP training more efficiently. Finally, we benchmark the performance of FastCLIP and the state-of-the-art training baseline (OpenCLIP) on different compute scales up to 32 GPUs on 8 nodes, and three data scales ranging from 2.7 million, 9.1 million to 315 million image-text pairs to demonstrate the significant improvement of FastCLIP in the resource-limited setting. We release the code of FastCLIP at https://github.com/Optimization-AI/fast_clip . | 翻訳日:2024-07-30 22:48:36 公開日:2024-07-29 |
# reBEN:Refined BigEarthNet Dataset for Remote Sensing Image Analysis
reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis ( http://arxiv.org/abs/2407.03653v2 ) ライセンス: Link先を確認 | Kai Norman Clasen, Leonard Hackel, Tom Burgert, Gencer Sumbul, Begüm Demir, Volker Markl, | (参考訳) 本稿では,リモートセンシング画像解析のための深層学習(DL)研究を支援するために構築された大規模マルチモーダルリモートセンシングデータセットであるBigEarthNet(reBEN)を提案する。
reBENデータセットは、Sentinel-1とSentinel-2の画像パッチの549,488対で構成されている。
reBENを構築するには、まずSentinel-1とSentinel-2のタイルを使ってBigEarthNetデータセットを構築し、1200 m x 1200 mのパッチに分割する。
我々は,Sentinel-2パッチに対して,最新のSentinelツールを用いて大気補正を行い,その結果,BigEarthNetよりも高品質なパッチが得られた。
各パッチはピクセルレベルの参照マップとシーンレベルのマルチラベルに関連付けられている。
これにより、reBENはピクセルベースおよびシーンベースの学習タスクに適している。
ラベルは、BigEarthNetのような19クラスの命名法を利用して、2018年の最新のCORINE Land Cover (CLC)マップに由来する。
最新のCLCマップを使用することで、BigEarthNetにあるラベルノイズを克服することができる。
さらに, 列車間の空間的相関, 検証, テストセットを, BigEarthNet に存在するものに対して著しく低減する新しい地理的分割割当アルゴリズムを提案する。
これにより、DLモデルの評価の信頼性が向上する。
DLモデルのトレーニング時間を最小化するために,reBENデータセットをDL最適化データフォーマットに変換するソフトウェアツールを導入する。
本研究では,複数の最先端DLモデルを考慮したマルチモーダル多ラベル画像分類問題に対するreBENの可能性を示す。
トレーニング済みのモデルウェイト、関連コード、完全なデータセットはhttps://bigearth.net.comで入手できる。
This paper presents refined BigEarthNet (reBEN) that is a large-scale, multi-modal remote sensing dataset constructed to support deep learning (DL) studies for remote sensing image analysis. The reBEN dataset consists of 549,488 pairs of Sentinel-1 and Sentinel-2 image patches. To construct reBEN, we initially consider the Sentinel-1 and Sentinel-2 tiles used to construct the BigEarthNet dataset and then divide them into patches of size 1200 m x 1200 m. We apply atmospheric correction to the Sentinel-2 patches using the latest version of the sen2cor tool, resulting in higher-quality patches compared to those present in BigEarthNet. Each patch is then associated with a pixel-level reference map and scene-level multi-labels. This makes reBEN suitable for pixel- and scene-based learning tasks. The labels are derived from the most recent CORINE Land Cover (CLC) map of 2018 by utilizing the 19-class nomenclature as in BigEarthNet. The use of the most recent CLC map results in overcoming the label noise present in BigEarthNet. Furthermore, we introduce a new geographical-based split assignment algorithm that significantly reduces the spatial correlation among the train, validation, and test sets with respect to those present in BigEarthNet. This increases the reliability of the evaluation of DL models. To minimize the DL model training time, we introduce software tools that convert the reBEN dataset into a DL-optimized data format. In our experiments, we show the potential of reBEN for multi-modal multi-label image classification problems by considering several state-of-the-art DL models. The pre-trained model weights, associated code, and complete dataset are available at https://bigearth.net. | 翻訳日:2024-07-30 22:48:36 公開日:2024-07-29 |
# 多体ハミルトン基底状態における絡み合い検出のための変分量子固有解器のベンチマーク
Benchmarking Variational Quantum Eigensolvers for Entanglement Detection in Many-Body Hamiltonian Ground States ( http://arxiv.org/abs/2407.04453v2 ) ライセンス: Link先を確認 | Alexandre Drinko, Guilherme I. Correr, Ivan Medina, Pedro C. Azado, Askery Canabarro, Diogo O. Soares-Pinto, | (参考訳) 変分量子アルゴリズム(VQA)は近年、量子優位を得る約束として登場している。
これらのタスク指向アルゴリズムは、量子プロセッサと古典最適化を組み合わせたハイブリッドループで動作する。
変分量子固有解器(VQEs)と呼ばれる特定の種類のVQAを用いて、ハイゼンベルク・ハミルトニアンによって記述された多体系の絡み合った観測と絡み合った基底状態検出において、量子回路をパラメータ化してベンチマークする。
ハミルトニアン相互作用にインスパイアされた構造を持つ量子回路は、問題に依存しない回路よりもコスト関数推定のより良い結果を示した。
Variational quantum algorithms (VQAs) have emerged in recent years as a promise to obtain quantum advantage. These task-oriented algorithms work in a hybrid loop combining a quantum processor and classical optimization. Using a specific class of VQA named variational quantum eigensolvers (VQEs), we choose some parameterized quantum circuits to benchmark them at entanglement witnessing and entangled ground state detection for many-body systems described by Heisenberg Hamiltonian, varying the number of qubits and shots. Quantum circuits whose structure is inspired by the Hamiltonian interactions presented better results on cost function estimation than problem-agnostic circuits. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# 接触相互作用を持つ量子系に対するハミルトニアン
Hamiltonians for Quantum Systems with Contact Interactions ( http://arxiv.org/abs/2407.06876v2 ) ライセンス: Link先を確認 | Daniele Ferretti, Alessandro Teta, | (参考訳) 接触(ゼロレンジまたは$\delta$)相互作用を持つ3次元の非相対論的量子粒子を$n>2$とする系に対して、自己共役および下界ハミルトニアンを構築する問題について論じる。
このような相互作用は、2つの粒子の座標が一致するときに、偶然の超平面で満たされる(特異な)境界条件によって記述される。
文献に現れる最近の研究の行に続いて, 単体問題における通常の境界条件に対して, わずかに修正された境界条件を導入する。
このような新しい境界条件により、1962年にミンロスとファドデエフによって記述された中心現象の崩壊による不安定性は避けられることを示すことができる。
すると、系の物理的に妥当なハミルトニアンを得る。
この手法は、相互作用するボソンのガス$N$と、異なる粒子と相互作用する等しい質量$M$の区別可能な粒子$N$の場合に適用する。
後者の場合、$M \longrightarrow +\infty$ のモデルの極限についても論じる。
極限において、固定位置に置かれた$N$(非局所)点相互作用を受ける光粒子に対する一体ハミルトニアンを得ることを示す。
このような非局所的な点間相互作用が、標準的な局所的な点間相互作用の場合に存在する紫外線の病態を示さないことを検証する。
We discuss the problem of constructing self-adjoint and lower bounded Hamiltonians for a system of $n>2$ non-relativistic quantum particles in dimension three with contact (or zero-range or $\delta$) interactions. Such interactions are described by (singular) boundary conditions satisfied at the coincidence hyperplanes, i.e., when the coordinates of two particles coincide. Following the line of recent works appeared in the literature, we introduce a boundary condition slightly modified with respect to usual boundary condition one has in the one-body problem. With such new boundary condition we can show that the instability property due to the fall to the center phenomenon described by Minlos and Faddeev in 1962 is avoided. Then one obtains a physically reasonable Hamiltonian for the system. We apply the method to the case of a gas of $N$ interacting bosons and to the case of $N$ distinguishable particles of equal mass $M$ interacting with a different particle. In the latter case we also discuss the limit of the model for $M \longrightarrow +\infty$. We show that in the limit one obtains the one-body Hamiltonian for the light particle subject to $N$ (non-local) point interactions placed at fixed positions. We will verify that such non-local point interactions do not exhibit the ultraviolet pathologies that are present in the case of standard local point interactions. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# 物理世界とサイバー空間の整合性: 体操AIに関する包括的調査
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI ( http://arxiv.org/abs/2407.06886v6 ) ライセンス: Link先を確認 | Yang Liu, Weixing Chen, Yongjie Bai, Guanbin Li, Wen Gao, Liang Lin, | (参考訳) Embodied Artificial Intelligence (Embodied AI)は、AGI(Artificial General Intelligence)を達成するために不可欠であり、サイバースペースと物理世界を橋渡しする様々なアプリケーションの基盤として機能する。
近年,MLM(Multi-modal Large Models)やWM(World Models)の出現が注目されている。
しかし、MLMの時代には、Embodied AIに関する包括的な調査は行われていない。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
まず,ロボットとシミュレータの代表的な研究の最前線をナビゲートし,研究の焦点とその限界を十分に理解する。
そして、主な研究対象を4つ分析する。
1)知覚の具体化。
2) 相互作用の具体化。
3)具体化剤、及び
4)シム・トゥ・リアルな適応、最先端の手法、必須パラダイム、包括的なデータセットを網羅する。
さらに,仮想および実実施エージェントにおけるMLMの複雑さを考察し,動的デジタルおよび物理環境における相互作用を促進することの重要性を強調した。
最後に、具体化AIの課題と限界を要約し、今後の方向性について論じる。
この調査が研究コミュニティの基礎的な参考として役立ち、継続的なイノベーションを刺激することを期待しています。
関連するプロジェクトはhttps://github.com/HCPLab-SYSU/Embodied_AI_Paper_Listにある。
Embodied Artificial Intelligence (Embodied AI) is crucial for achieving Artificial General Intelligence (AGI) and serves as a foundation for various applications that bridge cyberspace and the physical world. Recently, the emergence of Multi-modal Large Models (MLMs) and World Models (WMs) have attracted significant attention due to their remarkable perception, interaction, and reasoning capabilities, making them a promising architecture for the brain of embodied agents. However, there is no comprehensive survey for Embodied AI in the era of MLMs. In this survey, we give a comprehensive exploration of the latest advancements in Embodied AI. Our analysis firstly navigates through the forefront of representative works of embodied robots and simulators, to fully understand the research focuses and their limitations. Then, we analyze four main research targets: 1) embodied perception, 2) embodied interaction, 3) embodied agent, and 4) sim-to-real adaptation, covering the state-of-the-art methods, essential paradigms, and comprehensive datasets. Additionally, we explore the complexities of MLMs in virtual and real embodied agents, highlighting their significance in facilitating interactions in dynamic digital and physical environments. Finally, we summarize the challenges and limitations of embodied AI and discuss their potential future directions. We hope this survey will serve as a foundational reference for the research community and inspire continued innovation. The associated project can be found at https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# 潜伏条件付き要約因果グラフにおけるマクロ条件の不依存性とマクロトータル効果の同定
Identifying macro conditional independencies and macro total effects in summary causal graphs with latent confounding ( http://arxiv.org/abs/2407.07934v3 ) ライセンス: Link先を確認 | Simon Ferreira, Charles K. Assaad, | (参考訳) ダイナミックシステムにおける因果関係を理解することは疫学において不可欠である。
因果推論法は広く研究されているが、しばしば完全に定義された因果グラフに依存しており、必ずしも複雑な力学系では利用できない。
要約因果グラフ(SCG)のような部分特定因果グラフは、因果関係の単純化、時間的情報の省略、高レベルの因果構造に焦点を当てる。
グラフ内の頂点として表されるクラスタ間の関係を含むマクロクエリと、グラフの頂点を通して直接見えない変数間の関係を含むマイクロクエリである。
本稿では,まず,マクロ条件の非依存性とマイクロ条件の非依存性と,マクロ効果とマイクロトータル効果を明確に区別する。
次に,SCGにおけるマクロ条件の不一致を識別するために,d-セパレーションの健全性と完全性を示す。
さらに,SCGにおけるマクロトータル効果を同定するために,do-calculusが健全かつ完全であることが確認された。
最後に、SCGにおけるマクロトータル効果の非識別性に関するグラフィカルな特徴について述べる。
Understanding causal relations in dynamic systems is essential in epidemiology. While causal inference methods have been extensively studied, they often rely on fully specified causal graphs, which may not always be available in complex dynamic systems. Partially specified causal graphs, such as summary causal graphs (SCGs), provide a simplified representation of causal relations, omitting temporal information and focusing on high-level causal structures. This simplification introduces new challenges concerning the types of queries of interest: macro queries, which involve relationships between clusters represented as vertices in the graph, and micro queries, which pertain to relationships between variables that are not directly visible through the vertices of the graph. In this paper, we first clearly distinguish between macro conditional independencies and micro conditional independencies and between macro total effects and micro total effects. Then, we demonstrate the soundness and completeness of the d-separation to identify macro conditional independencies in SCGs. Furthermore, we establish that the do-calculus is sound and complete for identifying macro total effects in SCGs. Finally, we give a graphical characterization for the non-identifiability of macro total effects in SCGs. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# 地形ビュー生成 -衛星ビューからの高分解能地上ビュー推定を考慮した幾何学的文脈-
Geospecific View Generation -- Geometry-Context Aware High-resolution Ground View Inference from Satellite Views ( http://arxiv.org/abs/2407.08061v2 ) ライセンス: Link先を確認 | Ningli Xu, Rongjun Qin, | (参考訳) 都市部における衛星画像からの現実的な地上映像の予測は、衛星画像と地上画像の間に大きな差があるため、難しい課題である。
本稿では, この課題に対処するための新しいパイプラインを提案し, 多視点衛星画像から, 弱幾何やテクスチャを最大限に尊重する地形ビューを生成する。
衛星画像から部分的意味論や幾何などの画像から画像に幻覚を与える既存の手法とは異なり,衛星画像からの包括的情報を用いて地上画像を直接推定し,分解能を10以上向上させる。
本研究では,地表面における衛星データの幾何歪みを低減し,拡散ネットワークを用いた視線合成のための正確な条件の作成を実現するために,新しい建物改良手法を利用する。
さらに,予測画像の位置に近い画像サンプルを尊重するため,拡散モデルの分布学習を促す新しい地理特化先行手法を提案する。
我々のパイプラインは、衛星画像のみに基づいて、実物に近い地上ビューを初めて生成したものであることを実証する。
Predicting realistic ground views from satellite imagery in urban scenes is a challenging task due to the significant view gaps between satellite and ground-view images. We propose a novel pipeline to tackle this challenge, by generating geospecifc views that maximally respect the weak geometry and texture from multi-view satellite images. Different from existing approaches that hallucinate images from cues such as partial semantics or geometry from overhead satellite images, our method directly predicts ground-view images at geolocation by using a comprehensive set of information from the satellite image, resulting in ground-level images with a resolution boost at a factor of ten or more. We leverage a novel building refinement method to reduce geometric distortions in satellite data at ground level, which ensures the creation of accurate conditions for view synthesis using diffusion networks. Moreover, we proposed a novel geospecific prior, which prompts distribution learning of diffusion models to respect image samples that are closer to the geolocation of the predicted images. We demonstrate our pipeline is the first to generate close-to-real and geospecific ground views merely based on satellite images. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# LLM App Storeの安全性について
On the (In)Security of LLM App Stores ( http://arxiv.org/abs/2407.08422v2 ) ライセンス: Link先を確認 | Xinyi Hou, Yanjie Zhao, Haoyu Wang, | (参考訳) LLMアプリストアは急速に成長し、多くのカスタムLDMアプリの普及につながった。
しかし、この拡張はセキュリティ上の懸念を引き起こす。
本研究では, LLMアプリの潜在的なセキュリティリスク,すなわち悪用可能性のLLMアプリ, 悪意のあるLLMアプリ, 悪用可能な脆弱性のLLMアプリの3層懸念フレームワークを提案する。
5ヶ月にわたって、GPT Store、FlowGPT、Poe、Coze、Cci、 character.AIという6つの主要なアプリストアから786,036個のLMアプリを収集しました。
本研究では,静的および動的解析,31,783以上の項目からなる大規模有毒単語辞書(ToxicDict)の開発,脅威を識別・緩和するための自動監視ツールを統合する。
15,146のアプリが誤解を招く説明をし、1,366件の個人情報をプライバシーポリシーに対して収集し、15,996件のヘイトスピーチ、自傷行為、過激主義などの有害なコンテンツを生成した。
さらに,LSMアプリが悪意ある活動を促進する可能性を評価し,マルウェア生成やフィッシングなどに616のアプリが使用できることを確認した。
本研究は,厳格な規制枠組みと強化された執行機構の必要性を浮き彫りにしている。
LLM app stores have seen rapid growth, leading to the proliferation of numerous custom LLM apps. However, this expansion raises security concerns. In this study, we propose a three-layer concern framework to identify the potential security risks of LLM apps, i.e., LLM apps with abusive potential, LLM apps with malicious intent, and LLM apps with exploitable vulnerabilities. Over five months, we collected 786,036 LLM apps from six major app stores: GPT Store, FlowGPT, Poe, Coze, Cici, and Character.AI. Our research integrates static and dynamic analysis, the development of a large-scale toxic word dictionary (i.e., ToxicDict) comprising over 31,783 entries, and automated monitoring tools to identify and mitigate threats. We uncovered that 15,146 apps had misleading descriptions, 1,366 collected sensitive personal information against their privacy policies, and 15,996 generated harmful content such as hate speech, self-harm, extremism, etc. Additionally, we evaluated the potential for LLM apps to facilitate malicious activities, finding that 616 apps could be used for malware generation, phishing, etc. Our findings highlight the urgent need for robust regulatory frameworks and enhanced enforcement mechanisms. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# 多次元比較のためのSurpassing Cosine similarity: Dimension Insensitive Euclidean Metric (DIEM)
Surpassing Cosine Similarity for Multidimensional Comparisons: Dimension Insensitive Euclidean Metric (DIEM) ( http://arxiv.org/abs/2407.08623v2 ) ライセンス: Link先を確認 | Federico Tessari, Neville Hogan, | (参考訳) 計算能力とハードウェア効率の進歩により、ますます複雑で高次元の問題に取り組むことができた。
人工知能(AI)は目覚ましい結果を得たが、高次元解の解釈可能性はまだ困難である。
重要な問題は、主成分分析(PCA)やk平均クラスタリング(k-means clustering)といった技術に欠かせない多次元量の比較である。
コサインの類似性、ユークリッド距離、マンハッタン距離といった一般的な指標は、例えばヒトの運動制御系の筋シナジーにおいて、このような比較にしばしば用いられる。
しかし、その適用性と解釈性は次元が増加するにつれて低下する。
本稿では,これらの指標に対する次元の影響を包括的に分析する。
以上の結果から,コサイン類似性,特にベクトルの次元依存性の著しい限界が明らかとなり,バイアスや解釈不能な結果が得られた。
これを解決するために、次元不感なユークリッド計量(DIEM)を導入する。
DIEMは、一貫した変動性を維持し、従来のメトリクスで観測されたバイアスを排除し、高次元比較のための信頼できるツールとなる。
この新しい計量はコサインの類似性を置き換える可能性を秘めており、神経運動制御から機械学習、深層学習に至るまでの分野における多次元データをより正確で洞察に富んだ分析方法を提供する。
The advancement in computational power and hardware efficiency enabled the tackling of increasingly complex and high-dimensional problems. While artificial intelligence (AI) achieved remarkable results, the interpretability of high-dimensional solutions remains challenging. A critical issue is the comparison of multidimensional quantities, which is essential in techniques like Principal Component Analysis (PCA), or k-means clustering. Common metrics such as cosine similarity, Euclidean distance, and Manhattan distance are often used for such comparisons - for example in muscular synergies of the human motor control system. However, their applicability and interpretability diminish as dimensionality increases. This paper provides a comprehensive analysis of the effects of dimensionality on these metrics. Our results reveal significant limitations of cosine similarity, particularly its dependency on the dimensionality of the vectors, leading to biased and less interpretable outcomes. To address this, we introduce the Dimension Insensitive Euclidean Metric (DIEM) which demonstrates superior robustness and generalizability across dimensions. DIEM maintains consistent variability and eliminates the biases observed in traditional metrics, making it a reliable tool for high-dimensional comparisons. This novel metric has the potential to replace cosine similarity, providing a more accurate and insightful method to analyze multidimensional data in fields ranging from neuromotor control to machine and deep learning. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# ビデオフレーム補間のための一般化可能なインシシタント・モーション・モデリング
Generalizable Implicit Motion Modeling for Video Frame Interpolation ( http://arxiv.org/abs/2407.08680v3 ) ライセンス: Link先を確認 | Zujin Guo, Wei Li, Chen Change Loy, | (参考訳) モーションモデリングは、フローベースのビデオフレーム補間(VFI)において重要である。
既存のパラダイムでは、双方向フローの線形結合を考慮するか、与えられたタイムスタンプの2方向フローを直接予測するが、適切な動きの先行を探索することはできず、現実の動画において時空間力学を効果的にモデル化する能力は欠如している。
この制限に対処するために,本研究では,VFIのための動きモデリングの新しい,効果的なアプローチであるGeneralizable Implicit Motion Modeling (GIMM)を紹介する。
具体的には,GIMMを効果的な動作モデリングパラダイムとして有効にするために,事前学習した流速推定器から抽出した双方向流の時空間運動潜時をモデル化する動き符号化パイプラインを設計し,入力固有の動き先行を効果的に表現する。
そして、適応座標ベースニューラルネットワークを用いて、2つの隣接する入力フレーム内の任意の時間ステップの光フローを暗黙的に予測し、時空間座標と動き潜時を入力とする。
我々のGIMMは、既存のフローベースのVFIワークとスムーズに統合できます。
GIMMは,現在のVFIベンチマークよりも性能がよいことを示す。
Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# Flashアテンションによるパッケージングによるトレーニング効率の向上
Enhancing Training Efficiency Using Packing with Flash Attention ( http://arxiv.org/abs/2407.09105v3 ) ライセンス: Link先を確認 | Achintya Kundu, Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti, Mayank Mishra, | (参考訳) パディングは、各バッチの最長シーケンスの長さに合わせて、短いトレーニング例に特別なトークンを追加することで、LLMモデルのチューニングによく使用される。
これはバッチ処理の統一性を保証するが、計算に無関係なパディングトークンを含め、GPUリソースを浪費することで非効率を導入する。
一方、Hugging Face SFTトレーナーは、最大シーケンス長まで複数のトレーニング例を組み合わせるためにパッキングを使用するオプションを提供する。
これにより、GPUリソースの最大活用が可能になる。
しかし、各充填トレーニング例の適切なマスキングがなければ、SFTトレーナーを使用する場合、注意は正しく計算されない。
私たちは、各例の適切な注意マスクで、パッキングとFlashアテンションを有効化し、分析し、このトレーニングパラダイムの利点を示します。
Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. On the other hand, the Hugging Face SFT trainer offers the option to use packing to combine multiple training examples up to the maximum sequence length. This allows for maximal utilization of GPU resources. However, without proper masking of each packed training example, attention will not be computed correctly when using SFT trainer. We enable and then analyse packing and Flash Attention with proper attention masking of each example and show the benefits of this training paradigm. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# DART: データ多様化,オープンボキャブラリバウンディングボックスアノテーション,擬似ラベルレビュー,モデルトレーニングを備えた自動エンドツーエンドオブジェクト検出パイプライン
DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training ( http://arxiv.org/abs/2407.09174v3 ) ライセンス: Link先を確認 | Chen Xin, Andreas Hartel, Enkelejda Kasneci, | (参考訳) 正確なリアルタイム物体検出は、安全監視から品質管理まで、多くの産業アプリケーションにおいて不可欠である。
しかし、従来のアプローチは手動のアノテーションやデータ収集によって妨げられ、絶えず変化する環境や新しいターゲットオブジェクトに適応するのに苦労している。
本稿では,データ収集からモデル評価に至るまでのオブジェクト検出ワークフローに革命をもたらす,革新的なエンドツーエンドパイプラインであるDARTを提案する。
多様なシナリオにまたがって優れた精度を達成しつつ、人間のラベル付けや広範なデータ収集の必要性を排除します。
DARTは,(1)対象駆動画像生成(SDXLを用いたDreamBooth)を用いたデータ多様化,(2)オープン語彙オブジェクト検出(DINO)によるアノテーションによるバウンディングボックスとクラスラベルの生成,(3)大規模マルチモーダルモデル(InternVL-1.5およびGPT-4o)による生成画像と擬似ラベルのレビュー,(4)検証データを用いたリアルタイムオブジェクト検出(YOLOv8およびYOLOv10)のトレーニング,の4段階を含む。
我々はDARTを、23のカテゴリにまたがる15K以上の高品質な画像を含む、Leebherr Productという名前の自己コンパイルされた建設機械のデータセットに適用する。
DARTの現在のインスタンス化は平均精度(AP)を0.064から0.832に大幅に向上させた。
モジュール化された設計は、交換性と拡張性を容易にし、将来のアルゴリズムのアップグレード、新しいオブジェクトカテゴリのシームレスな統合、手作業によるラベル付けや追加データ収集なしにカスタマイズされた環境への適応性を実現する。
コードとデータセットはhttps://github.com/chen-xin-94/DARTで公開されている。
Accurate real-time object detection is vital across numerous industrial applications, from safety monitoring to quality control. Traditional approaches, however, are hindered by arduous manual annotation and data collection, struggling to adapt to ever-changing environments and novel target objects. To address these limitations, this paper presents DART, an innovative automated end-to-end pipeline that revolutionizes object detection workflows from data collection to model evaluation. It eliminates the need for laborious human labeling and extensive data collection while achieving outstanding accuracy across diverse scenarios. DART encompasses four key stages: (1) Data Diversification using subject-driven image generation (DreamBooth with SDXL), (2) Annotation via open-vocabulary object detection (Grounding DINO) to generate bounding box and class labels, (3) Review of generated images and pseudo-labels by large multimodal models (InternVL-1.5 and GPT-4o) to guarantee credibility, and (4) Training of real-time object detectors (YOLOv8 and YOLOv10) using the verified data. We apply DART to a self-collected dataset of construction machines named Liebherr Product, which contains over 15K high-quality images across 23 categories. The current instantiation of DART significantly increases average precision (AP) from 0.064 to 0.832. Its modular design ensures easy exchangeability and extensibility, allowing for future algorithm upgrades, seamless integration of new object categories, and adaptability to customized environments without manual labeling and additional data collection. The code and dataset are released at https://github.com/chen-xin-94/DART. | 翻訳日:2024-07-30 20:51:41 公開日:2024-07-29 |
# 変圧器を用いた領域認識画像に基づく人間行動検索
Region-aware Image-based Human Action Retrieval with Transformers ( http://arxiv.org/abs/2407.09924v2 ) ライセンス: Link先を確認 | Hongsong Wang, Jianhua Zhao, Jie Gui, | (参考訳) 人間の行動理解はコンピュータビジョンの基本的な課題である。
この分野には膨大な研究があるが、ほとんどの研究は行動認識に焦点をあてているが、アクション検索はあまり注目されていない。
本稿では,検索画像と同一の動作を表現した画像を見つけることを目的とした,画像に基づく行動検索において,無視されるが重要な課題に焦点をあてる。
我々は,このタスクのベンチマークを作成し,公正な比較のための重要なベースライン手法を構築した。
本稿では,3つの側面からリッチな行動表現を学習するエンド・ツー・エンド・モデルを提案する。
新たな融合トランスモジュールは、異なる特徴間の関係をモデル化し、それらをアクション表現に効果的に融合するように設計されている。
Stanford-40 と PASCAL VOC 2012 Action データセットを用いた実験により,提案手法は従来の画像に基づく行動検索手法よりも有意に優れていた。
Human action understanding is a fundamental and challenging task in computer vision. Although there exists tremendous research on this area, most works focus on action recognition, while action retrieval has received less attention. In this paper, we focus on the neglected but important task of image-based action retrieval which aims to find images that depict the same action as a query image. We establish benchmarks for this task and set up important baseline methods for fair comparison. We present an end-to-end model that learns rich action representations from three aspects: the anchored person, contextual regions, and the global image. A novel fusion transformer module is designed to model the relationships among different features and effectively fuse them into an action representation. Experiments on the Stanford-40 and PASCAL VOC 2012 Action datasets show that the proposed method significantly outperforms previous approaches for image-based action retrieval. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-29 |
# MSegRNN:長期連続予測のためのMambaを用いたSegRNNモデルの拡張
MSegRNN:Enhanced SegRNN Model with Mamba for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2407.10768v3 ) ライセンス: Link先を確認 | GaoXiang Zhao, Li Zhou, XiaoQiang Wang, | (参考訳) 長期の時系列予測は、歴史情報を利用して将来の状態を予測することを目的としている。
従来のRNNベースのシリーズ予測手法は、長期連続問題において、長期依存や勾配問題に効果的に対処するのに苦労する。
最近、SegRNNは長期連続予測に適したRNNベースの主要なモデルとして登場し、革新的なセグメンテーションと並列デコード技術を通じて、合理化アーキテクチャを維持しながら最先端の性能を実証している。
しかし、SegRNNにはいくつかの制限がある: その固定されたセグメンテーションはデータの連続性を妨害し、異なるセグメンテーションにまたがる情報を効果的に活用できない。
これらの問題に対処するため,MSegRNN法では,時系列を分解してセグメント化された隠蔽状態にマッピングする暗黙のセグメンテーション構造を導入し,セグメンテーションフェーズ中により密な情報交換を行う。
さらに、符号化層に残余構造を組み込んで、繰り返し構造内の情報損失を軽減する。
より効果的に情報を抽出するために、我々はさらにMambaアーキテクチャを統合し、時系列情報抽出を強化する。
いくつかの実世界の時系列予測データセットの実験は、我々のモデルが現在の最先端モデルの性能を上回ることを示した。
Long time series forecasting aims to utilize historical information to forecast future states over extended horizons. Traditional RNN-based series forecasting methods struggle to effectively address long-term dependencies and gradient issues in long time series problems. Recently, SegRNN has emerged as a leading RNN-based model tailored for long-term series forecasting, demonstrating state-of-the-art performance while maintaining a streamlined architecture through innovative segmentation and parallel decoding techniques. Nevertheless, SegRNN has several limitations: its fixed segmentation disrupts data continuity and fails to effectively leverage information across different segments, the segmentation strategy employed by SegRNN does not fundamentally address the issue of information loss within the recurrent structure. To address these issues, we propose the MSegRNN method with three key enhancements: we introduce an implicit segmentation structure to decompose the time series and map it to segmented hidden states, resulting in denser information exchange during the segmentation phase. Additionally, we incorporate residual structures in the encoding layer to mitigate information loss within the recurrent structure. To extract information more effectively, we further integrate the Mamba architecture to enhance time series information extraction. Experiments on several real-world long time series forecasting datasets demonstrate that our model surpasses the performance of current state-of-the-art models. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-29 |
# 表面符号に対する改良された信念伝搬復号法
Improved Belief Propagation Decoding algorithms for surface codes ( http://arxiv.org/abs/2407.11523v2 ) ライセンス: Link先を確認 | Jiahan Chen, Zhengzhong Yi, Zhipeng Liang, Xuan Wang, | (参考訳) 量子誤り訂正は、普遍的なフォールトトレラント量子コンピューティングにとって不可欠である。
高精度で低時間複雑度復号アルゴリズムは、量子誤り訂正が動作するようにするためには不可欠である。
既存の復号アルゴリズムの中で、信念の伝播(BP)は、ほぼ線形時間的複雑さと安定化符号への一般的な適用性で有名である。
しかし、BPの復号精度は後処理なしでは殆どの状況では不十分である。
本稿では,表面符号のGF(4)よりもBPの復号精度を向上させることに焦点を当てる。
まず,機械学習最適化技術にヒントを得たMomentum-BPとAdaGrad-BPを提案する。
さらに、初期確率を適応的に更新し、平面曲面符号、トーリック符号、XZZX曲面符号に対する従来のBPよりも1~3桁の精度向上を提供するEWAInit-BPを提案し、並列スケジューリングにおいても高い復号精度を示す。
並列スケジューリングとEWAInit-BPの高精度による$O(1)$時間複雑性は、高精度リアルタイムデコーダの候補となる。
一方、Momentum-BP、AdaGrad-BP、EWAInit-BPのアイデアは、BPの復号精度を改善するための有望なアプローチを提供し、後処理への依存を取り除く。
Quantum error correction is crucial for universal fault-tolerant quantum computing. Highly accurate and low-time-complexity decoding algorithms play an indispensable role in making sure quantum error correction works. Among existing decoding algorithms, belief propagation (BP) is notable for its nearly linear time complexity and general applicability to stabilizer codes. However, BP's decoding accuracy without post-processing is unsatisfactory in most situations. This article focuses on improving the decoding accuracy of BP over GF(4) for surface codes. We first propose Momentum-BP and AdaGrad-BP, inspired by machine learning optimization techniques, to reduce oscillation in message updating and break the symmetric trapping sets. We further propose EWAInit-BP, which adaptively updates initial probabilities and provides a 1 to 3 orders of magnitude improvement over traditional BP for planar surface code, toric code, and XZZX surface code without any post-processing method, showing high decoding accuracy even under parallel scheduling. The theoretical $O(1)$ time complexity under parallel scheduling and high accuracy of EWAInit-BP make it a promising candidate for high-precision real-time decoders. Meanwhile, the ideas of the Momentum-BP, AdaGrad-BP and EWAInit-BP provide promising approaches to improve the decoding accuracy of BP to get rid of its reliance on post-processing. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-29 |
# 学習した画像の圧縮を再考する
Rethinking Learned Image Compression: Context is All You Need ( http://arxiv.org/abs/2407.11590v2 ) ライセンス: Link先を確認 | Jixiang Luo, | (参考訳) 近年,licは従来の方法と比較して急速に進歩しているため,本論文では「学習画像圧縮(lic)の境界線はどこにあるのか」という課題を主観的マストリクスで論じる。
以上の問題を2つのサブプロブレムに分割する: 1)PSNRの速度歪み性能の境界は何か?
2) 圧縮ゲインをさらに改善し、境界を達成するにはどうすればいいのか?
そこで本研究では,エンコーダ,デコーダ,コンテキストモデルのスケーリングパラメータの有効性を解析する。
そして、licのスケーリングは、lic内のコンテキストモデルとデコーダのスケーリングである、と結論付けます。
大規模な実験は、オーバーフィッティングが実際に効果的な文脈として機能することを示した。
文脈を最適化することにより、PSNRをさらに改善し、最先端のパフォーマンスを実現し、VVCよりもBD-RATEの方が14.39%向上したことを示す。
Since LIC has made rapid progress recently compared to traditional methods, this paper attempts to discuss the question about 'Where is the boundary of Learned Image Compression(LIC)?' with regard to subjective matrics. Thus this paper splits the above problem into two sub-problems:1)Where is the boundary of rate-distortion performance of PSNR? 2)How to further improve the compression gain and achieve the boundary? Therefore this paper analyzes the effectiveness of scaling parameters for encoder, decoder and context model, which are the three components of LIC. Then we conclude that scaling for LIC is to scale for context model and decoder within LIC. Extensive experiments demonstrate that overfitting can actually serve as an effective context. By optimizing the context, this paper further improves PSNR and achieves state-of-the-art performance, showing a performance gain of 14.39% with BD-RATE over VVC. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-29 |
# 絶滅危惧言語を活気づける人工知能の力:技術と経験
Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences ( http://arxiv.org/abs/2407.12620v2 ) ライセンス: Link先を確認 | Claudio Pinhanez, Paulo Cavalin, Luciana Storto, Thomas Finbow, Alexander Cobbinah, Julio Nogima, Marisa Vasconcelos, Pedro Domingues, Priscila de Souza Mizukami, Nicole Grell, Majoí Gongora, Isabel Gonçalves, | (参考訳) 2022年以降、我々はLarge Language Models (LLMs) のような人工知能(AI)と現代の自然言語処理(NLP)を応用し、その利用を奨励し、消滅の危機にある先住民言語の文書化を促進するための応用分野と技術を模索してきた。
私たちはまず、世界の言語の多様性の減少と、AIとNLPに固有の倫理的課題をいかにもたらすかについて議論する。
これらの課題に対処するため、コミュニティの関与と利用に基づいて、代替開発AIサイクルを提案する。
そこで,本研究では,少数のデータを用いた細調整型SOTA(State-of-the-art)トランスレータにより,インディジェネラル言語のための高品質な機械学習トランスレータの開発を奨励する結果を報告し,その過程で共通の落とし穴を避ける方法について論じる。
また、2023年と2024年にブラジルの先住民コミュニティが行ったプロジェクトで構築したプロトタイプについても紹介し、スペルチェッカー、次の単語予測器、その他のツールを作成するためのレプリカでスケーラブルな方法として、インディジェネラル言語モデル(ILM)の開発について論じています。
最後に,死語が対話型言語モデルとして保存される言語ドキュメントの将来について論じる。
Since 2022 we have been exploring application areas and technologies in which Artificial Intelligence (AI) and modern Natural Language Processing (NLP), such as Large Language Models (LLMs), can be employed to foster the usage and facilitate the documentation of Indigenous languages which are in danger of disappearing. We start by discussing the decreasing diversity of languages in the world and how working with Indigenous languages poses unique ethical challenges for AI and NLP. To address those challenges, we propose an alternative development AI cycle based on community engagement and usage. Then, we report encouraging results in the development of high-quality machine learning translators for Indigenous languages by fine-tuning state-of-the-art (SOTA) translators with tiny amounts of data and discuss how to avoid some common pitfalls in the process. We also present prototypes we have built in projects done in 2023 and 2024 with Indigenous communities in Brazil, aimed at facilitating writing, and discuss the development of Indigenous Language Models (ILMs) as a replicable and scalable way to create spell-checkers, next-word predictors, and similar tools. Finally, we discuss how we envision a future for language documentation where dying languages are preserved as interactive language models. | 翻訳日:2024-07-30 20:41:58 公開日:2024-07-29 |
# 読者をエンゲージする方法 : アクティブリーディングを促進するための指導的質問の生成
How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading ( http://arxiv.org/abs/2407.14309v2 ) ライセンス: Link先を確認 | Peng Cui, Vilém Zouhar, Xiaoyu Zhang, Mrinmaya Sachan, | (参考訳) テキストで質問を使うことは、読みやすさを高める効果的な戦略である。
しかし、アクティブ・リーディング・質問がよいもの、これらの質問の言語的役割がどのようなもので、人間の読書にどのような影響を及ぼすかは、いまだ検討されていない。
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。
データセットを解析することにより,これらの質問の使用,分布,言語的特徴を包括的に理解する。
そこで本稿では,言語モデルを用いてこのような質問を生成するための様々なアプローチについて検討する。
本研究は,質問間の関係を捉えることの重要性と,これらの質問を生成する上での質問位置識別の課題を強調した。
最後に,このような質問が読解に与える影響を理解するために人間による研究を行う。
生成した質問は高品質であり、読者の記憶と理解を改善するという意味では、人間による質問と同程度に効果的であることがわかった。
Using questions in written text is an effective strategy to enhance readability. However, what makes an active reading question good, what the linguistic role of these questions is, and what is their impact on human reading remains understudied. We introduce GuidingQ, a dataset of 10K in-text questions from textbooks and scientific articles. By analyzing the dataset, we present a comprehensive understanding of the use, distribution, and linguistic characteristics of these questions. Then, we explore various approaches to generate such questions using language models. Our results highlight the importance of capturing inter-question relationships and the challenge of question position identification in generating these questions. Finally, we conduct a human study to understand the implication of such questions on reading comprehension. We find that the generated questions are of high quality and are almost as effective as human-written questions in terms of improving readers' memorization and comprehension. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-29 |
# Jumping Ahead: JumpReLUスパースオートエンコーダによる再構成精度の向上
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders ( http://arxiv.org/abs/2407.14435v2 ) ライセンス: Link先を確認 | Senthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda, | (参考訳) スパースオートエンコーダ(SAE)は、言語モデル(LM)アクティベーションにおける因果関係および解釈可能な線形特徴を特定するための有望な教師なしアプローチである。
下流タスクに役立てるためには、SAEはLMアクティベーションを忠実に分解する必要がある。
本稿では,Gated や TopK SAE などの最近の進歩と比較して,Gemma 2 9B アクティベーションの間隔レベルにおいて,最先端の再現忠実度を達成するJumpReLU SAE を紹介する。
また、この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示した。
JumpReLU SAE はバニラ (ReLU) SAE の単純な修正であり、ReLU を不連続のJumpReLU アクティベーション関数に置き換える。
直線スルー推定器(STE)を原理的に利用することにより,SAEの前方通過で導入された不連続なJumpReLU関数にもかかわらず,JumpReLU SAEを効果的に訓練できることを示す。
同様に、私たちはSTEを使用して、L1のようなプロキシでトレーニングするのではなく、L0を直接スパースにトレーニングします。
Sparse autoencoders (SAEs) are a promising unsupervised approach for identifying causally relevant and interpretable linear features in a language model's (LM) activations. To be useful for downstream tasks, SAEs need to decompose LM activations faithfully; yet to be interpretable the decomposition must be sparse -- two objectives that are in tension. In this paper, we introduce JumpReLU SAEs, which achieve state-of-the-art reconstruction fidelity at a given sparsity level on Gemma 2 9B activations, compared to other recent advances such as Gated and TopK SAEs. We also show that this improvement does not come at the cost of interpretability through manual and automated interpretability studies. JumpReLU SAEs are a simple modification of vanilla (ReLU) SAEs -- where we replace the ReLU with a discontinuous JumpReLU activation function -- and are similarly efficient to train and run. By utilising straight-through-estimators (STEs) in a principled manner, we show how it is possible to train JumpReLU SAEs effectively despite the discontinuous JumpReLU function introduced in the SAE's forward pass. Similarly, we use STEs to directly train L0 to be sparse, instead of training on proxies such as L1, avoiding problems like shrinkage. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-29 |
# ViLLa: 大規模言語モデルによるビデオ推論セグメンテーション
ViLLa: Video Reasoning Segmentation with Large Language Model ( http://arxiv.org/abs/2407.14500v2 ) ライセンス: Link先を確認 | Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang Zhao, | (参考訳) 映像認識モデルは近年顕著な進歩を遂げているが、ビデオ認識タスクを実行する前にターゲットインスタンスを特定するために、明示的なテキスト記述や定義済みのカテゴリに大きく依存している。
しかし、これらのモデルは、テキスト入力によってユーザの意図を積極的に理解し、推論することができない。
以前の研究は、画像分割による推論を取り入れるための解決策を研究しようとしたが、ビデオのオブジェクトの動きの複雑さのために、ビデオの推論に失敗した。
本研究は,映像と映像のギャップを埋めるために,新しい映像分割タスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
さらに、この未調査領域の研究を促進するために、推論ビデオセグメンテーションベンチマークを構築します。
最後に、マルチモーダルなLarge Language Model(LLM)の言語生成機能と、複数のインスタンスの検出、セグメンテーション、追跡機能を備えたLarge Language Modelによるビデオ推論セグメンテーションを提案する。
我々は、時間的コンテキストアグリゲーションモジュールを使用して、コンテキストビジュアルキューをテキスト埋め込みに組み込むとともに、セグメンテーショントークン間の時間的相関を構築するためのビデオフレームデコーダを提案する。
注目すべきは、Villaは複雑な推論とビデオセグメンテーションの参照を処理できることを示しています。
また、このモデルでは時間的理解の異なるベンチマークで印象的な能力を示す。
定量的および定性的な実験は,マルチモーダルLLMのための新しいビデオ推論セグメンテーション機能を効果的に解き放つことを示す。
コードとデータセットはhttps://github.com/rkzheng99/ViLLa.comから入手できる。
Although video perception models have made remarkable advancements in recent years, they still heavily rely on explicit text descriptions or pre-defined categories to identify target instances before executing video perception tasks. These models, however, fail to proactively comprehend and reason the user's intentions via textual input. Even though previous works attempt to investigate solutions to incorporate reasoning with image segmentation, they fail to reason with videos due to the video's complexity in object motion. To bridge the gap between image and video, in this work, we propose a new video segmentation task - video reasoning segmentation. The task is designed to output tracklets of segmentation masks given a complex input text query. What's more, to promote research in this unexplored area, we construct a reasoning video segmentation benchmark. Finally, we present ViLLa: Video reasoning segmentation with a Large Language Model, which incorporates the language generation capabilities of multimodal Large Language Models (LLMs) while retaining the capabilities of detecting, segmenting, and tracking multiple instances. We use a temporal-aware context aggregation module to incorporate contextual visual cues to text embeddings and propose a video-frame decoder to build temporal correlations across segmentation tokens. Remarkably, our ViLLa demonstrates capability in handling complex reasoning and referring video segmentation. Also, our model shows impressive ability in different temporal understanding benchmarks. Both quantitative and qualitative experiments show our method effectively unlocks new video reasoning segmentation capabilities for multimodal LLMs. The code and dataset will be available at https://github.com/rkzheng99/ViLLa. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-29 |
# 制限のないフィードバック遅延を伴うメリットベースのFair Combinatorial Semi-Bandit
Merit-based Fair Combinatorial Semi-Bandit with Unrestricted Feedback Delays ( http://arxiv.org/abs/2407.15439v3 ) ライセンス: Link先を確認 | Ziqun Chen, Kechao Cai, Zhuoyue Chen, Jinbei Zhang, John C. S. Lui, | (参考訳) 本研究では, 確率的組合せ半帯域問題と, 有益性制約の下での非制限フィードバック遅延について検討する。
これはクラウドソーシングやオンライン広告などのアプリケーションによって動機付けられており、即時にフィードバックが得られず、さまざまな選択肢(または武器)の公平性が不可欠である。
本稿では,報酬非依存の遅延と報酬非依存の遅延と,報酬非依存の遅延と,報酬非依存の遅延とを考察する。
さらに、腕の公平な選択を保証するために、有益性に基づく公正性制約を導入する。
我々は、報酬の後悔と公平さの後悔を定義し、そのメリットに基づいて、制限のないフィードバック遅延の下で武器を選択するための新しいバンディットアルゴリズムを提示する。
我々のアルゴリズムはいずれも,遅延分布の量子化に依拠して,サブ線形で期待される報酬の後悔と期待される公平さの後悔を達成できることを証明している。
我々はまた、合成データと実世界のデータを用いて広範な実験を行い、我々のアルゴリズムがフィードバック遅延の異なる腕を適切に選択できることを示します。
We study the stochastic combinatorial semi-bandit problem with unrestricted feedback delays under merit-based fairness constraints. This is motivated by applications such as crowdsourcing, and online advertising, where immediate feedback is not immediately available and fairness among different choices (or arms) is crucial. We consider two types of unrestricted feedback delays: reward-independent delays where the feedback delays are independent of the rewards, and reward-dependent delays where the feedback delays are correlated with the rewards. Furthermore, we introduce merit-based fairness constraints to ensure a fair selection of the arms. We define the reward regret and the fairness regret and present new bandit algorithms to select arms under unrestricted feedback delays based on their merits. We prove that our algorithms all achieve sublinear expected reward regret and expected fairness regret, with a dependence on the quantiles of the delay distribution. We also conduct extensive experiments using synthetic and real-world data and show that our algorithms can fairly select arms with different feedback delays. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-29 |
# 特定可能な潜伏包帯:観察データとパーソナライズされた医療のための探索を組み合わせる
Identifiable latent bandits: Combining observational data and exploration for personalized healthcare ( http://arxiv.org/abs/2407.16239v2 ) ライセンス: Link先を確認 | Ahmet Zahid Balcıoğlu, Emil Carlsson, Fredrik D. Johansson, | (参考訳) Banditのアルゴリズムは、パーソナライズされた意思決定を改善することを大いに約束している。
多くの健康アプリケーションでは、各患者に新しい包帯を適合させることは不可能であり、観察可能な変数はしばしば最適な治療法を決定するのに不十分であり、複数の患者から学んだ文脈的包帯の適用を除外する。
潜伏帯域は、どの文脈変数が明らかになるかを超えて、迅速な探索とパーソナライズの両方を提供するが、潜伏変数モデルは一貫して学習する必要がある。
本研究では, 非線形独立成分分析に基づく帯域幅アルゴリズムを提案する。これは観測データから, 新しい帯域幅インスタンスの最適動作を連続的に推測するのに十分な程度まで, 確実に識別できる。
我々は、この戦略をシミュレーションデータで検証し、各インスタンスで独立したマルチアームバンディットを学習するよりも大幅に改善したことを示す。
Bandit algorithms hold great promise for improving personalized decision-making but are notoriously sample-hungry. In most health applications, it is infeasible to fit a new bandit for each patient, and observable variables are often insufficient to determine optimal treatments, ruling out applying contextual bandits learned from multiple patients. Latent bandits offer both rapid exploration and personalization beyond what context variables can reveal but require that a latent variable model can be learned consistently. In this work, we propose bandit algorithms based on nonlinear independent component analysis that can be provably identified from observational data to a degree sufficient to infer the optimal action in a new bandit instance consistently. We verify this strategy in simulated data, showing substantial improvement over learning independent multi-armed bandits for every instance. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-29 |
# DHGS:ハイブリッド・ガウシアン・スプレイティングを分離して運転シーンを撮影
DHGS: Decoupled Hybrid Gaussian Splatting for Driving Scene ( http://arxiv.org/abs/2407.16600v2 ) ライセンス: Link先を確認 | Xi Shi, Lingli Chen, Peng Wei, Xi Wu, Tian Jiang, Yonggang Luo, Lecheng Xie, | (参考訳) 既存のガウシアン・スプレイティング法は、駆動シーンにおいて満足のいく斬新なビュー・シンセサイザーを実現するのに不足することが多いが、それは主に、工芸的なデザインや、関連する要素の幾何学的制約が欠如しているためである。
本稿では,DHGS(Decoupled Hybrid Gaussian Splatting)と呼ばれるニューラルレンダリング手法を提案する。
この研究の斬新さは、道路層と非道路層のための分離されたハイブリッドピクセルレベルブレンダーであり、従来の一様微分可能レンダリングロジックをシーン全体に含まない一方で、提案した深度順序ハイブリッドレンダリング戦略による一貫性と連続的な重ね合わせを維持している。
さらに,SDF(Signed Distance Field)からなる暗黙の道路表現を訓練し,微妙な幾何学的特性で道路表面を監督する。
補助透過率損失と整合性損失とを併用して、知覚不能境界と高次忠実度を有する新規な画像を得る。
Waymoデータセットの実質的な実験は、DHGSが最先端の手法より優れていることを証明している。
より多くのビデオ証拠が与えられるプロジェクトページは、https://ironbrotherstyle.github.io/dhgs_webである。
Existing Gaussian splatting methods often fall short in achieving satisfactory novel view synthesis in driving scenes, primarily due to the absence of crafty design and geometric constraints for the involved elements. This paper introduces a novel neural rendering method termed Decoupled Hybrid Gaussian Splatting (DHGS), targeting at promoting the rendering quality of novel view synthesis for static driving scenes. The novelty of this work lies in the decoupled and hybrid pixel-level blender for road and non-road layers, without the conventional unified differentiable rendering logic for the entire scene, while still maintaining consistent and continuous superimposition through the proposed depth-ordered hybrid rendering strategy. Additionally, an implicit road representation comprised of a Signed Distance Field (SDF) is trained to supervise the road surface with subtle geometric attributes. Accompanied by the use of auxiliary transmittance loss and consistency loss, novel images with imperceptible boundary and elevated fidelity are ultimately obtained. Substantial experiments on the Waymo dataset prove that DHGS outperforms the state-of-the-art methods. The project page where more video evidences are given is: https://ironbrotherstyle.github.io/dhgs_web. | 翻訳日:2024-07-30 20:31:59 公開日:2024-07-29 |
# 事象と発生の両方のラベルノイズ下でのロバストな深部ホークス過程
Robust Deep Hawkes Process under Label Noise of Both Event and Occurrence ( http://arxiv.org/abs/2407.17164v2 ) ライセンス: Link先を確認 | Xiaoyu Tan, Bin Li, Xihe Qiu, Jingjing Huang, Yinghui Xu, Wei Chu, | (参考訳) ディープニューラルネットワークとホークスプロセスを統合することで、ファイナンス、健康情報学、情報技術における予測能力が大幅に向上した。
それにもかかわらず、これらのモデルは実世界の環境、特にかなりのラベルノイズのためにしばしば課題に直面している。
この問題は、電子カルテや誤診の遅れによってラベルノイズが発生し、予測リスクが増大する医療分野において重要な関心事である。
我々の研究は、ディープホークスプロセスモデルがラベルノイズを扱うとき、特にイベントタイプとタイミングに影響を及ぼすとき、ロバスト性を低下させることを示唆している。
これらの課題に対処するために、まず、近似強度関数におけるラベルノイズの影響について検討し、新しいフレームワークであるRDHP(Robust Deep Hawkes Process)を提案し、これらの事象とその発生を考慮し、ラベルノイズがホークスモデルの強度関数に与える影響を克服する。
我々は,複数のオープンソースベンチマークと合成ノイズを用いてRDHPを試験し,本質的なラベル付き実環境において閉塞性睡眠時無呼吸症候群(OSAHS)の症例的検討を行った。
その結果,RDHPはイベントやそのタイミングに関するノイズがあっても,分類や回帰処理を効果的に行うことができることがわかった。
私たちの知る限りでは、ディープホークスプロセスモデルにおけるイベントとタイムラベルのノイズに対処し、医療応用、特にOSAHSの診断において有望なソリューションを提供する最初の研究である。
Integrating deep neural networks with the Hawkes process has significantly improved predictive capabilities in finance, health informatics, and information technology. Nevertheless, these models often face challenges in real-world settings, particularly due to substantial label noise. This issue is of significant concern in the medical field, where label noise can arise from delayed updates in electronic medical records or misdiagnoses, leading to increased prediction risks. Our research indicates that deep Hawkes process models exhibit reduced robustness when dealing with label noise, particularly when it affects both event types and timing. To address these challenges, we first investigate the influence of label noise in approximated intensity functions and present a novel framework, the Robust Deep Hawkes Process (RDHP), to overcome the impact of label noise on the intensity function of Hawkes models, considering both the events and their occurrences. We tested RDHP using multiple open-source benchmarks with synthetic noise and conducted a case study on obstructive sleep apnea-hypopnea syndrome (OSAHS) in a real-world setting with inherent label noise. The results demonstrate that RDHP can effectively perform classification and regression tasks, even in the presence of noise related to events and their timing. To the best of our knowledge, this is the first study to successfully address both event and time label noise in deep Hawkes process models, offering a promising solution for medical applications, specifically in diagnosing OSAHS. | 翻訳日:2024-07-30 20:22:03 公開日:2024-07-29 |
# CityX: 無制限3D都市のための制御可能な手続き型コンテンツ生成
CityX: Controllable Procedural Content Generation for Unbounded 3D Cities ( http://arxiv.org/abs/2407.17572v2 ) ライセンス: Link先を確認 | Shougao Zhang, Mengqi Zhou, Yuxi Wang, Chuanchen Luo, Rongyu Wang, Yiwei Li, Xucheng Yin, Zhaoxiang Zhang, Junran Peng, | (参考訳) 現実的で大規模な3D仮想都市を生成することは、多くの3D資産、様々な都市スタイル、厳格なレイアウト制約が関与しているため、依然として複雑な課題である。
既存のアプローチは、Blenderエージェントを使用して大規模なシーンを作成するための手続き的コンテンツ生成のための有望な試みを提供する。
しかし、生成能力のスケールアップの難しさや、セマンティックレイアウトのレベルできめ細かい制御を実現するといった、重要な問題に直面している。
このような問題に対処するために,OSM,セマンティックマップ,衛星画像などを含む複数レイアウト条件でガイドされるリアルで非有界な3D都市生成を向上する,CityXという,マルチモーダル制御可能なプロシージャコンテンツ生成手法を提案する。
具体的には、様々なPCGプラグインを統合するための一般的なプロトコルと、命令を実行可能なBlenderアクションに変換するためのマルチエージェントフレームワークを含む。
この効果的な枠組みを通じて、CityXは、生成された資産の品質と産業要件のギャップを埋めることで、3Dシーン生成のための革新的なエコシステムを構築する可能性を示している。
マルチモーダル条件で案内された高品質・多様・無制限の都市を創出する上で,本手法の有効性を実証した。
プロジェクトページはhttps://cityx-lab.github.ioです。
Generating a realistic, large-scale 3D virtual city remains a complex challenge due to the involvement of numerous 3D assets, various city styles, and strict layout constraints. Existing approaches provide promising attempts at procedural content generation to create large-scale scenes using Blender agents. However, they face crucial issues such as difficulties in scaling up generation capability and achieving fine-grained control at the semantic layout level. To address these problems, we propose a novel multi-modal controllable procedural content generation method, named CityX, which enhances realistic, unbounded 3D city generation guided by multiple layout conditions, including OSM, semantic maps, and satellite images. Specifically, the proposed method contains a general protocol for integrating various PCG plugins and a multi-agent framework for transforming instructions into executable Blender actions. Through this effective framework, CityX shows the potential to build an innovative ecosystem for 3D scene generation by bridging the gap between the quality of generated assets and industrial requirements. Extensive experiments have demonstrated the effectiveness of our method in creating high-quality, diverse, and unbounded cities guided by multi-modal conditions. Our project page: https://cityx-lab.github.io. | 翻訳日:2024-07-30 20:22:03 公開日:2024-07-29 |
# データと知識の組み合わせの力:GPT-4oは肺癌リンパ節転移の予測に機械学習モデルを効果的に解釈する
The Power of Combining Data and Knowledge: GPT-4o is an Effective Interpreter of Machine Learning Models in Predicting Lymph Node Metastasis of Lung Cancer ( http://arxiv.org/abs/2407.17900v2 ) ライセンス: Link先を確認 | Danqing Hu, Bing Liu, Xiaofeng Zhu, Nan Wu, | (参考訳) リンパ節転移 (LNM) は肺癌患者の早期治療を決定する重要な因子であるが, 正確な術前診断は困難である。
近年,大きな言語モデル (LLM) が注目されている。
巨大なコーパスから学んだ広範な医学知識を活用して、LLMは臨床上の問題に対する確率を推定できるが、その性能は歴史的にデータ駆動機械学習モデルよりも劣っている。
本稿では,LNM予測性能を向上させるために,LLMが取得した医療知識と機械学習モデルが同定した潜伏パターンを組み合わせた新しいアンサンブル手法を提案する。
当初,患者データを用いた機械学習モデルを開発した。
次に、患者データを機械学習モデルから予測される確率と統合するプロンプトテンプレートを設計した。
その後,OpenAIが開発した最も先進的なLCMであるGPT-4oに,患者データに基づいてLNMの確率を推定し,機械学習出力を用いて推定を調整するように指示した。
最後に,同じプロンプトを用いてGPT-4oから3つのアウトプットを収集し,これらの結果を最終予測としてアンサンブルした。
提案手法を用いて,LNM予測におけるAUC値0.765,AP値0.415を達成し,ベースライン機械学習モデルと比較して予測性能を著しく向上させた。
実験の結果, GPT-4oは, より正確なLNM予測を実現するために, 機械学習モデルによって予測される医療知識と確率を効果的に活用できることが示唆された。
これらの結果から,LSMは臨床リスク予測タスクにおいて良好に機能し,臨床リスク予測に医療知識と患者データを統合するための新たなパラダイムを提供することが明らかとなった。
Lymph node metastasis (LNM) is a crucial factor in determining the initial treatment for patients with lung cancer, yet accurate preoperative diagnosis of LNM remains challenging. Recently, large language models (LLMs) have garnered significant attention due to their remarkable text generation capabilities. Leveraging the extensive medical knowledge learned from vast corpora, LLMs can estimate probabilities for clinical problems, though their performance has historically been inferior to data-driven machine learning models. In this paper, we propose a novel ensemble method that combines the medical knowledge acquired by LLMs with the latent patterns identified by machine learning models to enhance LNM prediction performance. Initially, we developed machine learning models using patient data. We then designed a prompt template to integrate the patient data with the predicted probability from the machine learning model. Subsequently, we instructed GPT-4o, the most advanced LLM developed by OpenAI, to estimate the likelihood of LNM based on patient data and then adjust the estimate using the machine learning output. Finally, we collected three outputs from the GPT-4o using the same prompt and ensembled these results as the final prediction. Using the proposed method, our models achieved an AUC value of 0.765 and an AP value of 0.415 for LNM prediction, significantly improving predictive performance compared to baseline machine learning models. The experimental results indicate that GPT-4o can effectively leverage its medical knowledge and the probabilities predicted by machine learning models to achieve more accurate LNM predictions. These findings demonstrate that LLMs can perform well in clinical risk prediction tasks, offering a new paradigm for integrating medical knowledge and patient data in clinical predictions. | 翻訳日:2024-07-30 20:22:03 公開日:2024-07-29 |
# アフィン変換に対する深部画像品質指標の不変性
Invariance of deep image quality metrics to affine transformations ( http://arxiv.org/abs/2407.17927v2 ) ライセンス: Link先を確認 | Nuria Alabau-Bosque, Paula Daudén-Oliver, Jorge Vila-Tomás, Valero Laparra, Jesús Malo, | (参考訳) ディープアーキテクチャは、主観的な画像品質を予測する現在の最先端技術である。
通常、これらのモデルは、デジタルメディアに現れる様々な歪みを持つデータベースにおいて、人間の意見と相関する能力に基づいて評価される。
しかし、これらのアフィン変換は、自然条件下で実際に起こっている画像の変化をより良く表す可能性がある。
人間は、デジタルトランスフォーメーションとは対照的に、これらの自然なトランスフォーメーションに特に不変である。
本研究では,アフィン変換の不均一性,特に回転,変換,スケーリング,スペクトル照明の変化を評価することにより,最先端の深部画像品質指標を評価する。
ここでの計量の不変性は、値がしきい値以下であれば、ある距離を無視する(ゼロと見なす)という事実を指す。
これはメトリクスの可視性しきい値(invisibility threshold)と呼ばれるものです。
本稿では,このような視認性閾値を知覚的計量に割り当てる手法を提案する。
この方法論は、任意の計量に共通する距離空間への変換と、この共通空間におけるしきい値の心理物理学的な測定を含む。
これにより、分析されたメトリクスが実際の人間の閾値と直接比較できるようになります。
この強いテストの下では、最先端のメトリクスのどれも、可視性しきい値に基づいて人間のような結果を示さないことが分かりました。
これは、一般的な歪みの可視性を予測するためにのみモデルをチューニングすることは、例えば不変性や可視性しきい値のような人間の視覚の他の特性を無視する可能性があることを意味する。
Deep architectures are the current state-of-the-art in predicting subjective image quality. Usually, these models are evaluated according to their ability to correlate with human opinion in databases with a range of distortions that may appear in digital media. However, these oversee affine transformations which may represent better the changes in the images actually happening in natural conditions. Humans can be particularly invariant to these natural transformations, as opposed to the digital ones. In this work, we evaluate state-of-the-art deep image quality metrics by assessing their invariance to affine transformations, specifically: rotation, translation, scaling, and changes in spectral illumination. Here invariance of a metric refers to the fact that certain distances should be neglected (considered to be zero) if their values are below a threshold. This is what we call invisibility threshold of a metric. We propose a methodology to assign such invisibility thresholds for any perceptual metric. This methodology involves transformations to a distance space common to any metric, and psychophysical measurements of thresholds in this common space. By doing so, we allow the analyzed metrics to be directly comparable with actual human thresholds. We find that none of the state-of-the-art metrics shows human-like results under this strong test based on invisibility thresholds. This means that tuning the models exclusively to predict the visibility of generic distortions may disregard other properties of human vision as for instance invariances or invisibility thresholds. | 翻訳日:2024-07-30 20:22:03 公開日:2024-07-29 |
# 古典的非線形弾性グラニュラーにおけるベリー相による位相現象の研究
Study of Topological Phenomena Through Berry Phase in Classical Nonlinear Elastic Granules ( http://arxiv.org/abs/2407.18261v2 ) ライセンス: Link先を確認 | Kazi T. Mahmood, M. Arif Hasan, | (参考訳) ベリー位相の概念の幾何学は、伝統的に量子力学に根付いているが、古典力学、特に線形系と非線形系の力学を理解するために、ますます重要になっている。
本研究では,古典システムにおけるベリー位相の制御された蓄積を,量子ビットに類似した2レベル時間依存弾性ビットを用いて,二粒性ネットワークが生成する非線形環境下で実証する。
グラニュラービーズの非線形性は、外部高調波励起の周波数と振幅と静的プリロードによって変調される。
非線形応答の正規直交基底を用いて、ブロッホ状態の変位係数をマッピングすることにより、時間が弾性ビットとその状態の操作にどのように影響するかを明らかにする。
解析的および実験的研究により,古典的な粒状ネットワークの様々なトポロジカルな特性を明らかにする上で,ベリー相が果たす役割が明らかにされた。
この研究は、非コヒーレンスフリーで堅牢なデータ転送と情報処理に重要な意味を持つ、弾性ビットのベリー相を介して古典的および量子的領域と重要なリンクを確立する。
The geometric of Berry phase concept, traditionally rooted in quantum mechanics, has been found to be increasingly significant in classical mechanics, particularly for understanding the dynamics of linear and nonlinear systems. In this study, we demonstrate the controlled accumulation of the Berry phase in a classical system using a two-level time-dependent elastic bit, analogous to a quantum bit, within a nonlinear environment generated by a two-granular network. The nonlinearity of the granular beads is modulated through the frequency and amplitude of external harmonic excitation, along with static preloading. By employing the orthonormal basis of the nonlinear responses and mapping the displacement coefficients in Bloch states, we reveal how time influences the manipulation of the elastic bit and its states. Our analytical and experimental investigations uncover the Berry phase's role in exposing the various topological characteristics of the classical granular network. This research establishes a crucial link between classical and quantum realms via the Berry phase of an elastic bit, with significant implications for decoherence-free and robust data transfer and information processing. | 翻訳日:2024-07-30 20:22:03 公開日:2024-07-29 |
# マルチGPU RI-HF エネルギーと解析勾配-高スループット \textit{Ab Initio} 分子動力学を目指して
Multi-GPU RI-HF Energies and Analytic Gradients -- Towards High Throughput \textit{Ab Initio} Molecular Dynamics ( http://arxiv.org/abs/2407.19614v1 ) ライセンス: Link先を確認 | Ryan Stocks, Elise Palethorpe, Giuseppe M. J. Barca, | (参考訳) 本稿では,複数のグラフィックス処理ユニット(GPU)を用いて,自己同一性のあるハートリーフォック(RI-HF)エネルギーと解析勾配を計算するための最適化アルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループットな分子動力学シミュレーションのために設計されている。
この研究の主な革新は、マルチGPU並列処理の活用と、GPU間で効率的に計算タスクを分散するワークロード分散スキームである。
また, メモリ使用率と計算効率を最適化するために, 対称性利用, 積分スクリーニング, 空間性を活用した手法も採用している。
計算結果によると、従来のGPUアクセラレーションされたRI-HFや従来のHFメソッドと比較して、シングルGPU AIMDスループットの3ドル以上のスピードアップを含む、大幅なパフォーマンス向上を実現している。
さらに、複数のGPUを利用することで、追加の集約GPUメモリが圧縮された3中心積分のストレージを可能にする場合、超線形スピードアップを提供することができる。
さらに,1000塩基関数までのシステムに対する高いスケーリング効率を報告し,最大4/4$\zeta$プライマリベースセット上での広範なパフォーマンスベンチマークを通じて,4$\times$A100 GPUノード上の理論ピークの最大47/%の浮動小数点性能を実現する。
This article presents an optimized algorithm and implementation for calculating resolution-of-the-identity Hartree-Fock (RI-HF) energies and analytic gradients using multiple Graphics Processing Units (GPUs). The algorithm is especially designed for high throughput \emph{ab initio} molecular dynamics simulations of small and medium size molecules (10-100 atoms). Key innovations of this work include the exploitation of multi-GPU parallelism and a workload balancing scheme that efficiently distributes computational tasks among GPUs. Our implementation also employs techniques for symmetry utilization, integral screening and leveraging sparsity to optimize memory usage and computational efficiency. Computational results show that the implementation achieves significant performance improvements, including over $3\times$ speedups in single GPU AIMD throughput compared to previous GPU-accelerated RI-HF and traditional HF methods. Furthermore, utilizing multiple GPUs can provide super-linear speedup when the additional aggregate GPU memory allows for the storage of decompressed three-center integrals. Additionally, we report strong scaling efficiencies for systems up to 1000 basis functions and demonstrate practical applications through extensive performance benchmarks on up to quadruple-$\zeta$ primary basis sets, achieving floating-point performance of up to 47\% of the theoretical peak on a 4$\times$A100 GPU node. | 翻訳日:2024-07-30 15:35:33 公開日:2024-07-29 |
# TopicTag: 思考の連鎖とLPMによるプロンプトチューニングを用いたNMFトピックモデルの自動アノテーション
TopicTag: Automatic Annotation of NMF Topic Models Using Chain of Thought and Prompt Tuning with LLMs ( http://arxiv.org/abs/2407.19616v1 ) ライセンス: Link先を確認 | Selma Wanna, Ryan Barron, Nick Solovyev, Maksim E. Eren, Manish Bhattarai, Kim Rasmussen, Boian S. Alexandrov, | (参考訳) トピックモデリングは、構造化されていない大量のテキストからテーマを整理し抽出する手法である。
非負行列因数分解(Non- negative matrix factorization、NMF)は、周波数逆文書周波数(TF-IDF)行列を分解して潜在トピックを発見し、それに従ってデータセットを分割する、一般的な教師なしの手法である。
パターンのハイライトや文書のクラスタリングには便利だが、NMFは明確なトピックラベルを提供していない。
提案手法は,NMF(Automatic Model determination, NMFk)を用いてNMFを介してクラスタ化された文書中のトピックラベリングを自動化する手法である。
そこで我々は,NMFkの出力を利用して,大規模言語モデル(LLM)を用いて正確なトピックラベルを生成する。
知識グラフに関する34,000以上の科学的抽象化に関するケーススタディは、知識管理と文書化の強化における手法の有効性を実証するものである。
Topic modeling is a technique for organizing and extracting themes from large collections of unstructured text. Non-negative matrix factorization (NMF) is a common unsupervised approach that decomposes a term frequency-inverse document frequency (TF-IDF) matrix to uncover latent topics and segment the dataset accordingly. While useful for highlighting patterns and clustering documents, NMF does not provide explicit topic labels, necessitating subject matter experts (SMEs) to assign labels manually. We present a methodology for automating topic labeling in documents clustered via NMF with automatic model determination (NMFk). By leveraging the output of NMFk and employing prompt engineering, we utilize large language models (LLMs) to generate accurate topic labels. Our case study on over 34,000 scientific abstracts on Knowledge Graphs demonstrates the effectiveness of our method in enhancing knowledge management and document organization. | 翻訳日:2024-07-30 15:35:33 公開日:2024-07-29 |
# AgEval: マルチモーダルLCMを用いたゼロショットプラントストレス評価ベンチマーク
AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs ( http://arxiv.org/abs/2407.19617v1 ) ライセンス: Link先を確認 | Muhammad Arbab Arshad, Talukder Zaki Jubery, Tirtho Roy, Rim Nassiri, Asheesh K. Singh, Arti Singh, Chinmay Hegde, Baskar Ganapathysubramanian, Aditya Balu, Adarsh Krishnamurthy, Soumik Sarkar, | (参考訳) 植物ストレスの表現型付けは伝統的に専門家の評価と専門モデルに依存しており、農業のスケーラビリティを制限している。
マルチモーダル大規模言語モデル(LLM)の最近の進歩は、この問題に対する潜在的な解決策を提供する。
本稿では,12種類の植物ストレス表現タスクからなるベンチマークであるAgEvalについて,これらのモデルの性能評価を行う。
本研究は,Claude,GPT,Gemini,LLaVAを含む最先端モデルのゼロショットおよび少数ショットのインコンテキスト学習性能を評価する。
F1スコアは46.24%から73.37%に向上した。
データセット内の他のクラスからのショット例は無視または否定的な影響があるが、正確なカテゴリ例を持つことでパフォーマンスが15.38%向上する。
また、各タスク内の異なるクラス間でのモデル性能の一貫性を定量化し、分散係数(CV)がモデル間で26.02%から58.03%の範囲であり、性能の信頼性を達成するためには「難易度」クラスにおいて主題の専門知識が必要であることを示唆する。
AgEvalは、農業応用におけるマルチモーダルLLMの基準指標を確立し、大規模に植物ストレスの表現力を高めるという彼らの約束に関する洞察を提供する。
ベンチマークとコードは、https://anonymous.4open.science/r/AgEval/でアクセスできます。
Plant stress phenotyping traditionally relies on expert assessments and specialized models, limiting scalability in agriculture. Recent advances in multimodal large language models (LLMs) offer potential solutions to this challenge. We present AgEval, a benchmark comprising 12 diverse plant stress phenotyping tasks, to evaluate these models' capabilities. Our study assesses zero-shot and few-shot in-context learning performance of state-of-the-art models, including Claude, GPT, Gemini, and LLaVA. Results show significant performance improvements with few-shot learning, with F1 scores increasing from 46.24% to 73.37% in 8-shot identification for the best-performing model. Few-shot examples from other classes in the dataset have negligible or negative impacts, although having the exact category example helps to increase performance by 15.38%. We also quantify the consistency of model performance across different classes within each task, finding that the coefficient of variance (CV) ranges from 26.02% to 58.03% across models, implying that subject matter expertise is needed - of 'difficult' classes - to achieve reliability in performance. AgEval establishes baseline metrics for multimodal LLMs in agricultural applications, offering insights into their promise for enhancing plant stress phenotyping at scale. Benchmark and code can be accessed at: https://anonymous.4open.science/r/AgEval/ | 翻訳日:2024-07-30 15:35:33 公開日:2024-07-29 |
# 局所処理によるマルコフ決定過程の実験
Experimenting on Markov Decision Processes with Local Treatments ( http://arxiv.org/abs/2407.19618v1 ) ライセンス: Link先を確認 | Shuze Chen, David Simchi-Levi, Chonghuan Wang, | (参考訳) サービスシステムがますます複雑でダイナミックになるにつれて、多くの介入が局所化され、利用可能になり、特定の状態に限られる。
本稿では,マルコフ決定過程 (MDP) を用いた局所処理実験について検討する。
特に,局所構造を利用して平均処理効果の推論効率を向上させることに焦点を当てた。
まず、モデルに基づく推定や時間差分学習などの古典的推論手法の効率性や、一般的な治療による古典的A/Bテストの実施から始める。
次に, 処理方針の影響を受けない状態の情報を共有することで, 局所的な処理構造を利用した分散低減手法を提案する。
我々の新しい推定器は局所的な処理構造を組み込んだより厳密な下界をマッチングしながら、一般的な処理に対する分散下界を効果的に克服する。
さらに, 推定器は, 分散の大きな部分に対して, 試験アーム数の線形化を最適に行うことができる。
最後に、制御アームの完全な知識と推論効率をさらに向上させる設計推定器を用いてシナリオを探索する。
As service systems grow increasingly complex and dynamic, many interventions become localized, available and taking effect only in specific states. This paper investigates experiments with local treatments on a widely-used class of dynamic models, Markov Decision Processes (MDPs). Particularly, we focus on utilizing the local structure to improve the inference efficiency of the average treatment effect. We begin by demonstrating the efficiency of classical inference methods, including model-based estimation and temporal difference learning under a fixed policy, as well as classical A/B testing with general treatments. We then introduce a variance reduction technique that exploits the local treatment structure by sharing information for states unaffected by the treatment policy. Our new estimator effectively overcomes the variance lower bound for general treatments while matching the more stringent lower bound incorporating the local treatment structure. Furthermore, our estimator can optimally achieve a linear reduction with the number of test arms for a major part of the variance. Finally, we explore scenarios with perfect knowledge of the control arm and design estimators that further improve inference efficiency. | 翻訳日:2024-07-30 15:35:33 公開日:2024-07-29 |
# Retrieval-Augmented GenerationによるFew-Shot Learningを用いた言語モデルにおけるコード翻訳の強化
Enhancing Code Translation in Language Models with Few-Shot Learning via Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.19619v1 ) ライセンス: Link先を確認 | Manish Bhattarai, Javier E. Santos, Shawn Jones, Ayan Biswas, Boian Alexandrov, Daniel O'Malley, | (参考訳) 大規模言語モデル(LLM)の出現は、コード翻訳の分野を大幅に進歩させ、プログラミング言語間の自動翻訳を可能にした。
しかし、これらのモデルは文脈的理解が不十分なため、複雑な翻訳タスクに苦しむことが多い。
本稿では,Few-Shot Learningによるコード翻訳を改良する新しい手法を提案する。
既存のコード翻訳のレポジトリを活用することで、最も関連性の高い例を動的に検索し、新しいコードセグメントを翻訳する際にモデルをガイドします。
提案手法は,Retrieval-Augmented Generation (RAG)に基づいて,リアルタイムに学習可能な文脈例を提供することで,翻訳品質を大幅に向上させる。
既存のコードベースやローカルに保存されたコードコーパスを活用できるため,従来の微調整方式よりもRAGを選択した。
Starcoder、Llama3-70B Instruct、CodeLlama-34B Instruct、Granite-34B Code Instruct、Mixtral-8x22BといったオープンLLMモデルや、GPT-3.5 TurboやGPT-4oといった商用LLMモデルによる大規模な実験では、FortranとCPPの翻訳において、従来のゼロショットメソッドよりもアプローチの方が優れていることが示されている。
また,提案手法のロバスト性や有効性を評価するため,推論中に提供される例,特に1,2,3ショット,Nomic-Embed,Starencoder,CodeBERTなどのRAGの埋め込みモデルについて検討した。
The advent of large language models (LLMs) has significantly advanced the field of code translation, enabling automated translation between programming languages. However, these models often struggle with complex translation tasks due to inadequate contextual understanding. This paper introduces a novel approach that enhances code translation through Few-Shot Learning, augmented with retrieval-based techniques. By leveraging a repository of existing code translations, we dynamically retrieve the most relevant examples to guide the model in translating new code segments. Our method, based on Retrieval-Augmented Generation (RAG), substantially improves translation quality by providing contextual examples from which the model can learn in real-time. We selected RAG over traditional fine-tuning methods due to its ability to utilize existing codebases or a locally stored corpus of code, which allows for dynamic adaptation to diverse translation tasks without extensive retraining. Extensive experiments on diverse datasets with open LLM models such as Starcoder, Llama3-70B Instruct, CodeLlama-34B Instruct, Granite-34B Code Instruct, and Mixtral-8x22B, as well as commercial LLM models like GPT-3.5 Turbo and GPT-4o, demonstrate our approach's superiority over traditional zero-shot methods, especially in translating between Fortran and CPP. We also explored varying numbers of shots i.e. examples provided during inference, specifically 1, 2, and 3 shots and different embedding models for RAG, including Nomic-Embed, Starencoder, and CodeBERT, to assess the robustness and effectiveness of our approach. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# 高次元環境における非パラメトリック独立試験と複雑疾患の遺伝学への応用
Nonparametric independence tests in high-dimensional settings, with applications to the genetics of complex disease ( http://arxiv.org/abs/2407.19624v1 ) ライセンス: Link先を確認 | Fernando Castro-Prado, | (参考訳) 現在、遺伝学的には多種多様な変数が研究されている。
数学統計学はその応用と平行して進化し、近年では高次元の設定が注目されている。
ヒト共通疾患の遺伝学では、多くの関連する問題を独立性の検査として定式化することができる。
遺伝子データの支持空間における適切な事前測定構造の定義が,このような検査に新たなアプローチをもたらすことを示す。
これは、基礎となる生物学を反映し、計算効率の良い実装を可能にする、しっかりとした理論的な枠組みをもたらす。
各問題に対して、数学的結果、シミュレーションおよび実データへの適用を提供する。
[PhD thesis of FCP.] Nowadays, genetics studies large amounts of very diverse variables. Mathematical statistics has evolved in parallel to its applications, with much recent interest high-dimensional settings. In the genetics of human common disease, a number of relevant problems can be formulated as tests of independence. We show how defining adequate premetric structures on the support spaces of the genetic data allows for novel approaches to such testing. This yields a solid theoretical framework, which reflects the underlying biology, and allows for computationally-efficient implementations. For each problem, we provide mathematical results, simulations and the application to real data. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# LoginMEA:マルチモーダルエンティティアライメントのためのローカル-グローバルインタラクションネットワーク
LoginMEA: Local-to-Global Interaction Network for Multi-modal Entity Alignment ( http://arxiv.org/abs/2407.19625v1 ) ライセンス: Link先を確認 | Taoyu Su, Xinghua Zhang, Jiawei Sheng, Zhenyu Zhang, Tingwen Liu, | (参考訳) マルチモーダル・エンティティ・アライメント(MMEA)は、2つのマルチモーダル・ナレッジ・グラフ(MMKG)間の等価なエンティティを識別することを目的としている。
これまでのほとんどの研究では、グラフ構造を特別なモダリティとして扱い、異なるモダリティ情報を別のユニモーダルエンコーダと融合させ、モダリティにおける貴重なリレーショナルな関連性を無視している。
他の研究では、各ユニモーダル情報をグラフ構造で洗練するが、特定のモダリティに不要な関係を導入することもある。
そこで本稿では,ロギンメA(LoginMEA)と呼ばれるMMEAのためのローカル・グローバル・インタラクション・ネットワークを提案する。
特に,まず局所的なマルチモーダル相互作用を融合させて,全体論的実体意味論を生成し,その上で,その関係をグローバルな関係的相互作用で洗練する。
この設計では、ユニモーダル情報は適応的に融合され、それに応じて洗練される。
マルチモーダルな実体情報の局所的な相互作用を強化するため、モーダル間の多様な影響や要素レベルの相互作用を可能にする、モダリティ重みと低ランクなインタラクティブな融合を行う。
グラフ構造のグローバルな相互作用を捉えるために,関係リフレクショングラフアテンションネットワークを導入し,エンティティ間の関係関係を網羅する。
広汎な実験により,5つのクロスKGまたはバイリンガルベンチマークデータセットよりも優れた結果が得られ,局所的およびグローバルな相互作用を捉える効果が示された。
Multi-modal entity alignment (MMEA) aims to identify equivalent entities between two multi-modal knowledge graphs (MMKGs), whose entities can be associated with relational triples and related images. Most previous studies treat the graph structure as a special modality, and fuse different modality information with separate uni-modal encoders, neglecting valuable relational associations in modalities. Other studies refine each uni-modal information with graph structures, but may introduce unnecessary relations in specific modalities. To this end, we propose a novel local-to-global interaction network for MMEA, termed as LoginMEA. Particularly, we first fuse local multi-modal interactions to generate holistic entity semantics and then refine them with global relational interactions of entity neighbors. In this design, the uni-modal information is fused adaptively, and can be refined with relations accordingly. To enrich local interactions of multi-modal entity information, we device modality weights and low-rank interactive fusion, allowing diverse impacts and element-level interactions among modalities. To capture global interactions of graph structures, we adopt relation reflection graph attention networks, which fully capture relational associations between entities. Extensive experiments demonstrate superior results of our method over 5 cross-KG or bilingual benchmark datasets, indicating the effectiveness of capturing local and global interactions. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# CHIME:エネルギー効率の良い STT-RAM を用いた並列階層型インメモリ処理
CHIME: Energy-Efficient STT-RAM-based Concurrent Hierarchical In-Memory Processing ( http://arxiv.org/abs/2407.19627v1 ) ライセンス: Link先を確認 | Dhruv Gajaria, Tosiron Adegbija, Kevin Gomez, | (参考訳) Processing-in-cache(PiC)とProcessing-in-Memory(PiM)アーキテクチャ、特にビットラインコンピューティングを利用するアーキテクチャは、メモリ階層内のデータ移動ボトルネックを軽減するための有望なソリューションを提供する。
以前の研究では、個々のメモリレベルにおける計算ユニットの統合について検討されてきたが、これらの設計に関連する複雑さと潜在的なオーバーヘッドは、しばしばその能力を制限している。
本稿では、メモリ階層の複数のレベルにまたがる異種計算ユニットを戦略的に組み込んだ、新しいPiC/PiMアーキテクチャである Concurrent Hierarchical In-Memory Processing (CHIME)を紹介する。
この設計は、パフォーマンス、エネルギー消費、データ移動コスト、および領域を最適化するデータに最も近い計算を配置することで、多様なドメイン固有のワークロードの効率的な実行を目標としている。
CHIMEは、高密度、低リーク、複数ワードラインの活性化によるデータの破損に対する回復力の向上など、PiC/PiMコンピューティングにおける様々な利点のためにSTT-RAMを採用している。
我々は,CHIMEが並列性を高め,メモリ階層のレベルごとの計算単位利用を改善することを実証した。
設計空間を探索し、グループ化し、メモリ階層全体にわたって計算ユニットを配置するための戦略を示す。
実験によると、CHIMEは最先端のビット線コンピューティングアプローチと比較して、様々なドメイン固有のワークロードに対して57.95%と78.23%の大幅なスピードアップと省エネを実現し、シングルレベルの計算設計に関連するオーバーヘッドを低減している。
Processing-in-cache (PiC) and Processing-in-memory (PiM) architectures, especially those utilizing bit-line computing, offer promising solutions to mitigate data movement bottlenecks within the memory hierarchy. While previous studies have explored the integration of compute units within individual memory levels, the complexity and potential overheads associated with these designs have often limited their capabilities. This paper introduces a novel PiC/PiM architecture, Concurrent Hierarchical In-Memory Processing (CHIME), which strategically incorporates heterogeneous compute units across multiple levels of the memory hierarchy. This design targets the efficient execution of diverse, domain-specific workloads by placing computations closest to the data where it optimizes performance, energy consumption, data movement costs, and area. CHIME employs STT-RAM due to its various advantages in PiC/PiM computing, such as high density, low leakage, and better resiliency to data corruption from activating multiple word lines. We demonstrate that CHIME enhances concurrency and improves compute unit utilization at each level of the memory hierarchy. We present strategies for exploring the design space, grouping, and placing the compute units across the memory hierarchy. Experiments reveal that, compared to the state-of-the-art bit-line computing approaches, CHIME achieves significant speedup and energy savings of 57.95% and 78.23% for various domain-specific workloads, while reducing the overheads associated with single-level compute designs. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# Text2LiDAR: 等角変換器によるテキスト誘導LiDARポイントクラウド生成
Text2LiDAR: Text-guided LiDAR Point Cloud Generation via Equirectangular Transformer ( http://arxiv.org/abs/2407.19628v1 ) ライセンス: Link先を確認 | Yang Wu, Kaihua Zhang, Jianjun Qian, Jin Xie, Jian Yang, | (参考訳) 複雑な交通環境と様々な気象条件により、LiDARデータの収集は高価で困難である。
高品質で制御可能なLiDARデータ生成を実現するためには,テキストによる制御が一般的であるが,この分野ではほとんど研究されていない。
そこで本研究では,テキスト制御可能なLiDARデータ生成モデルであるText2LiDARを提案する。
具体的には、設計した等方形アテンションを利用して、データ特性に応じてLiDAR特徴を捕捉する等方形トランスアーキテクチャを設計する。
そこで我々は,グローバル・ツー・フォーカスの注意機構を通じて制御信号を効率的に統合する制御信号埋め込みインジェクタを設計する。
さらに、周波数変調器を考案し、高頻度の細部を復元し、生成した点雲の明度を確実にする。
850シーンから34,149のLiDAR点雲に対して多様なテキスト記述子を提供するnuLiDARtextを構築した。
KITTI-360 および nuScenes データセットの様々な形態における制御不能およびテキスト制御による生成実験は、我々のアプローチの優位性を示している。
The complex traffic environment and various weather conditions make the collection of LiDAR data expensive and challenging. Achieving high-quality and controllable LiDAR data generation is urgently needed, controlling with text is a common practice, but there is little research in this field. To this end, we propose Text2LiDAR, the first efficient, diverse, and text-controllable LiDAR data generation model. Specifically, we design an equirectangular transformer architecture, utilizing the designed equirectangular attention to capture LiDAR features in a manner with data characteristics. Then, we design a control-signal embedding injector to efficiently integrate control signals through the global-to-focused attention mechanism. Additionally, we devise a frequency modulator to assist the model in recovering high-frequency details, ensuring the clarity of the generated point cloud. To foster development in the field and optimize text-controlled generation performance, we construct nuLiDARtext which offers diverse text descriptors for 34,149 LiDAR point clouds from 850 scenes. Experiments on uncontrolled and text-controlled generation in various forms on KITTI-360 and nuScenes datasets demonstrate the superiority of our approach. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# LLMの自然言語理解
LLMs' Understanding of Natural Language Revealed ( http://arxiv.org/abs/2407.19630v1 ) ライセンス: Link先を確認 | Walid S. Saba, | (参考訳) 大規模言語モデル(LLM)は、大規模言語におけるボトムアップ、データ駆動のリバースエンジニアリングにおける大規模な実験の結果である。
下流のNLPタスクで多用されているにもかかわらず、LLMは量子化を必要とするタスクやシンボル変数の操作(例えば、計画と問題解決)において推論を行うことができない。
しかし,本稿では,LLMの言語理解能力の検証に焦点をあてる。
ここで示すように、LLMの言語理解能力は、広く誇張されている。
LLMは人間のようなコヒーレントな言語を生成することが証明されているが、言語理解能力は適切にテストされていない。
特に、LLMの言語理解能力は、"テキスト生成"とは逆の操作を実行し、具体的にはテキストのLLMスニペットを入力として与え、LLMの"理解"を問うことで検証されるべきであると考えている。
ここで示すように、LLMが言語を真に理解していないことは明らかになるでしょう。
Large language models (LLMs) are the result of a massive experiment in bottom-up, data-driven reverse engineering of language at scale. Despite their utility in a number of downstream NLP tasks, ample research has shown that LLMs are incapable of performing reasoning in tasks that require quantification over and the manipulation of symbolic variables (e.g., planning and problem solving); see for example [25][26]. In this document, however, we will focus on testing LLMs for their language understanding capabilities, their supposed forte. As we will show here, the language understanding capabilities of LLMs have been widely exaggerated. While LLMs have proven to generate human-like coherent language (since that's how they were designed), their language understanding capabilities have not been properly tested. In particular, we believe that the language understanding capabilities of LLMs should be tested by performing an operation that is the opposite of 'text generation' and specifically by giving the LLM snippets of text as input and then querying what the LLM "understood". As we show here, when doing so it will become apparent that LLMs do not truly understand language, beyond very superficial inferences that are essentially the byproduct of the memorization of massive amounts of ingested text. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# 『良きボットが常に限界を知る』:機械の自己自信による自律的なシステム決定能力の評価
"A Good Bot Always Knows Its Limitations": Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence ( http://arxiv.org/abs/2407.19631v1 ) ライセンス: Link先を確認 | Brett Israelsen, Nisar R. Ahmed, Matthew Aitken, Eric W. Frew, Dale A. Lawrence, Brian M. Argrow, | (参考訳) インテリジェントマシンは、タスク完了時の能力を評価するにはどうすればよいか?
この問題は、アルゴリズムで推論し、不確実性の下で決定する自律システムに焦点が当てられている。
ここでは、機械の自信 - エージェントの世界の状況とそれ自身に関する知識の自己評価に基づくメタ推論の形式、およびタスクの推論と実行能力 - が、そのようなエージェントに多くの卓越した計算可能で有用な能力指標をもたらすと論じられている。
本稿では,この概念をFactized Machine Self-confidence (FaMSeC) という計算フレームワークの形で実現し,結果評価,ソルバ品質,モデル品質,アライメント品質,過去の経験など,アルゴリズム決定過程を駆動する要因の総括的記述を提供する。
FaMSeCでは、自己自信指標はマルコフ決定プロセスのような確率的意思決定アルゴリズムの幅広いクラスに埋め込まれた階層的な「確率問題解決統計」から導かれる。
本発明の問題解決統計は、情報提供者(例えば、専門家でないユーザまたはエキスパートシステム設計者)によって、各意思決定能力要因に規定される所定の能力基準に対する確率的超越マージンを評価して評価することにより得られる。
このアプローチにより、人間の解釈可能な能力自己評価レポートを通じて、多様な自律エージェントの設計に「適合のアルゴリズム的良さ」の評価を組み込むことができる。
マルコフ決定プロセスエージェントの詳細な説明とアプリケーションの実行例は、メタユーティリティ関数、行動シミュレーション、代理予測モデルを用いて、2つのFMSeC因子(アウトカムアセスメントと問題解決の質)を現実的に計算し、可能なタスクコンテキストに対してレポートする方法を示している。
How can intelligent machines assess their competencies in completing tasks? This question has come into focus for autonomous systems that algorithmically reason and make decisions under uncertainty. It is argued here that machine self-confidence -- a form of meta-reasoning based on self-assessments of an agent's knowledge about the state of the world and itself, as well as its ability to reason about and execute tasks -- leads to many eminently computable and useful competency indicators for such agents. This paper presents a culmination of work on this concept in the form of a computational framework called Factorized Machine Self-confidence (FaMSeC), which provides an engineering-focused holistic description of factors driving an algorithmic decision-making process, including outcome assessment, solver quality, model quality, alignment quality, and past experience. In FaMSeC, self-confidence indicators are derived from hierarchical `problem-solving statistics' embedded within broad classes of probabilistic decision-making algorithms such as Markov decision processes. The problem-solving statistics are obtained by evaluating and grading probabilistic exceedance margins with respect to given competency standards, which are specified for each decision-making competency factor by the informee (e.g. a non-expert user or an expert system designer). This approach allows `algorithmic goodness of fit' evaluations to be easily incorporated into the design of many kinds of autonomous agents via human-interpretable competency self-assessment reports. Detailed descriptions and running application examples for a Markov decision process agent show how two FaMSeC factors (outcome assessment and solver quality) can be practically computed and reported for a range of possible tasking contexts through novel use of meta-utility functions, behavior simulations, and surrogate prediction models. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# OptiMUS-0.3:大規模言語モデルを用いた大規模最適化問題のモデル化と解決
OptiMUS-0.3: Using Large Language Models to Model and Solve Optimization Problems at Scale ( http://arxiv.org/abs/2407.19633v1 ) ライセンス: Link先を確認 | Ali AhmadiTeshnizi, Wenzhi Gao, Herman Brunborg, Shayan Talaei, Madeleine Udell, | (参考訳) 最適化問題は製造や流通から医療まで幅広い分野に及んでいる。
しかし、これらの問題の多くは、最適化ツールやテクニックを広く採用することを制限するため、最先端の問題解決者によって最適ではなく、手でヒューリスティックに解決される。
本稿では,Large Language Model (LLM) ベースのシステムを導入し,その自然言語記述から線形プログラミング問題(混合整数)を定式化し,解決する。
本システムは,数理モデルの開発,ソルバコードの記述とデバッギング,生成したソリューションの評価,およびこれらの評価に基づいてモデルとコードの効率と正確性を向上させることができる。
OptiMUS-0.3はモジュール構造を利用して問題を処理し、長い説明や複雑なデータを長いプロンプトなしで処理できる。
実験によると、OptiMUS-0.3は、簡単なデータセットの既存の最先端メソッドを12%以上、ハードデータセット(新しいデータセットであるNLP4LPを含む)を8%以上上回っている。
Optimization problems are pervasive in sectors from manufacturing and distribution to healthcare. However, most such problems are still solved heuristically by hand rather than optimally by state-of-the art solvers because the expertise required to formulate and solve these problems limits the widespread adoption of optimization tools and techniques. We introduce a Large Language Model (LLM)-based system designed to formulate and solve (mixed integer) linear programming problems from their natural language descriptions. Our system is capable of developing mathematical models, writing and debugging solver code, evaluating the generated solutions, and improving efficiency and correctness of its model and code based on these evaluations. OptiMUS-0.3 utilizes a modular structure to process problems, allowing it to handle problems with long descriptions and complex data without long prompts. Experiments demonstrate that OptiMUS-0.3 outperforms existing state-of-the-art methods on easy datasets by more than 12% and on hard datasets (including a new dataset, NLP4LP, released with this paper that features long and complex problems) by more than 8%. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# STT-RAMを用いた階層型インメモリコンピューティング
STT-RAM-based Hierarchical In-Memory Computing ( http://arxiv.org/abs/2407.19637v1 ) ライセンス: Link先を確認 | Dhruv Gajaria, Kevin Antony Gomez, Tosiron Adegbija, | (参考訳) インメモリコンピューティングは、メモリ内で直接計算を行うことで、コンピュータシステムにおけるフォン・ノイマンのボトルネックを克服することを約束する。
これまでの研究では、非揮発性、低リーク電力、高密度、耐久性、商業的生存性などの理由から、インメモリコンピューティングにSpin-Transfer Torque RAM(STT-RAM)を使うことが提案されている。
本稿では、メモリ階層の異なるレベルを処理要素で拡張し、ワークロード実行を最適化する階層型インメモリコンピューティングについて検討する。
本稿では,不揮発性 STT-RAM を用いたメモリ(PiM)の処理と,不揮発性 STT-RAM によるキャッシュ(PiC)の処理について検討する。
我々は、様々なワークロードでSTT-RAMを使用して、PiCのデータ移動に伴うトレードオフとオーバーヘッドと、PiMの書き込みオーバーヘッドを分析した。
本稿では,命令レベルの並列性に制限のある計算強度やCPU依存ワークロードなどのワークロード特性と,PiC/PiMトレードオフへの影響について検討する。
これらのワークロードを用いて、異なるキャッシュ階層レベルでのSTT-RAMとSRAMの計算を評価し、PiCおよびCPUベースの計算に様々な保持時間を持つ異種STT-RAMキャッシュアーキテクチャの可能性を探る。
実験により,特定のワークロードに対して,STT-RAMをベースとしたPiCよりも優れたメリットが示された。
最後に、このパラダイムをさらに強化するために、階層型インメモリコンピューティングアーキテクチャにおけるオープンな研究問題を述べる。
In-memory computing promises to overcome the von Neumann bottleneck in computer systems by performing computations directly within the memory. Previous research has suggested using Spin-Transfer Torque RAM (STT-RAM) for in-memory computing due to its non-volatility, low leakage power, high density, endurance, and commercial viability. This paper explores hierarchical in-memory computing, where different levels of the memory hierarchy are augmented with processing elements to optimize workload execution. The paper investigates processing in memory (PiM) using non-volatile STT-RAM and processing in cache (PiC) using volatile STT-RAM with relaxed retention, which helps mitigate STT-RAM's write latency and energy overheads. We analyze tradeoffs and overheads associated with data movement for PiC versus write overheads for PiM using STT-RAMs for various workloads. We examine workload characteristics, such as computational intensity and CPU-dependent workloads with limited instruction-level parallelism, and their impact on PiC/PiM tradeoffs. Using these workloads, we evaluate computing in STT-RAM versus SRAM at different cache hierarchy levels and explore the potential of heterogeneous STT-RAM cache architectures with various retention times for PiC and CPU-based computing. Our experiments reveal significant advantages of STT-RAM-based PiC over PiM for specific workloads. Finally, we describe open research problems in hierarchical in-memory computing architectures to further enhance this paradigm. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# コーパスの事前学習から大規模言語モデル:因果探索作業におけるLLM性能に影響を与える要因は何か?
From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks? ( http://arxiv.org/abs/2407.19638v1 ) ライセンス: Link先を確認 | Tao Feng, Lizhen Qu, Niket Tandon, Zhuang Li, Xiaoxi Kang, Gholamreza Haffari, | (参考訳) 人工知能の最近の進歩は、大言語モデル(LLM)が因果発見タスクにおいて顕著な習熟性を示していることを示している。
本研究では, 因果発見タスクにおけるLCMの性能に影響する要因について検討した。
オープンソースLLMを用いて,学習前のコーパス内の因果関係の頻度が因果発見クエリに正確に応答する能力にどのように影響するかを検討する。
以上の結果から, 因果関係の頻度は, より優れたモデル性能と相関し, 訓練中の因果関係の広範囲な露出は, 因果関係の発見能力を高めることが示唆された。
さらに,文脈が因果関係の妥当性に及ぼす影響についても検討した。
以上の結果から,LLMは異なる文脈で表される場合,同一因果関係の分岐予測を示す可能性が示唆された。
本稿では、原因発見タスクにおいて、異なる要因がLLM性能にどのように寄与するかを包括的に分析する。
Recent advances in artificial intelligence have seen Large Language Models (LLMs) demonstrate notable proficiency in causal discovery tasks. This study explores the factors influencing the performance of LLMs in causal discovery tasks. Utilizing open-source LLMs, we examine how the frequency of causal relations within their pre-training corpora affects their ability to accurately respond to causal discovery queries. Our findings reveal that a higher frequency of causal mentions correlates with better model performance, suggesting that extensive exposure to causal information during training enhances the models' causal discovery capabilities. Additionally, we investigate the impact of context on the validity of causal relations. Our results indicate that LLMs might exhibit divergent predictions for identical causal relations when presented in different contexts. This paper provides the first comprehensive analysis of how different factors contribute to LLM performance in causal discovery tasks. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# マルチメッセージシャッフルモデルにおけるセグメンテッド・プライベート・データ・アグリゲーション
Segmented Private Data Aggregation in the Multi-message Shuffle Model ( http://arxiv.org/abs/2407.19639v1 ) ライセンス: Link先を確認 | Shaowei Wang, Ruilin Yang, Sufen Zeng, Kaiqi Yu, Rundong Mei, Shaozheng Huang, Wei Yang, | (参考訳) ディファレンシャルプライバシ(DP)のシャッフルモデルは、分散された設定(モノのインターネット、モバイルエッジネットワークなど)において、魅力的なプライバシとユーティリティのトレードオフを提供します。
特に、各ユーザが複数のメッセージにコントリビュートできるマルチメッセージシャッフルモデルでは、DPの中央モデルに精度がアプローチできることが示されている。
しかし、既存の研究では、保守的なユーザーがより多くの情報を提供するのを妨げ、その結果、集計された統計の正確さなどの全体的なデータの有用性を低下させる可能性があるため、すべてのユーザーに対して一様にプライバシー保護レベルを仮定している。
本研究では,DPのマルチメッセージシャッフルモデルにおけるセグメント化されたプライベートデータアグリゲーションの研究の先駆者であり,ユーザに対するフレキシブルなプライバシ保護とアグリゲーションサーバのための拡張ユーティリティを導入している。
当社のフレームワークは,ユーザのデータを保護するだけでなく,プライバシレベルの選択を匿名化して,潜在的なデータ漏洩を防止する。
プライバシ・ユーティリティ・コミュニケーションのトレードオフを最適化するために,スクラッチメッセージ数に対するほぼ最適な設定を検討し,シャッフルモデル内でほぼ厳密なプライバシの増幅分析を行う。
広範にわたる実験により,我々のセグメント化されたマルチメッセージシャッフルフレームワークは,既存手法と比較して推定誤差を約50%削減し,プライバシとユーティリティの両方を大幅に向上させることを示した。
The shuffle model of differential privacy (DP) offers compelling privacy-utility trade-offs in decentralized settings (e.g., internet of things, mobile edge networks). Particularly, the multi-message shuffle model, where each user may contribute multiple messages, has shown that accuracy can approach that of the central model of DP. However, existing studies typically assume a uniform privacy protection level for all users, which may deter conservative users from participating and prevent liberal users from contributing more information, thereby reducing the overall data utility, such as the accuracy of aggregated statistics. In this work, we pioneer the study of segmented private data aggregation within the multi-message shuffle model of DP, introducing flexible privacy protection for users and enhanced utility for the aggregation server. Our framework not only protects users' data but also anonymizes their privacy level choices to prevent potential data leakage from these choices. To optimize the privacy-utility-communication trade-offs, we explore approximately optimal configurations for the number of blanket messages and conduct almost tight privacy amplification analyses within the shuffle model. Through extensive experiments, we demonstrate that our segmented multi-message shuffle framework achieves a reduction of about 50\% in estimation error compared to existing approaches, significantly enhancing both privacy and utility. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# Prometheus Chatbot:コンピュータコンポーネント推奨のための知識グラフ協調大規模言語モデル
Prometheus Chatbot: Knowledge Graph Collaborative Large Language Model for Computer Components Recommendation ( http://arxiv.org/abs/2407.19643v1 ) ライセンス: Link先を確認 | Yunsheng Wang, Songhao Chen, Kevin Jin, | (参考訳) 知識グラフ(KG)は、間接関係の推論を容易にする構造化された関係データを提供するため、ネットワークアライメント、質問応答、レコメンダシステム(RS)などのアプリケーションに必須である。
しかし、自然言語でユーザ入力を処理できるKGベースのRSの開発は、大きな課題に直面している。
まず、自然言語処理ユニットは、ユーザの意図を正確に解釈するために、人間の言語におけるあいまいさと可変性を効果的に処理する必要がある。
第二に、システムは製品名のようなエンティティをKG内の対応するノードに正確に識別し、リンクする必要がある。
Lenovoがサポートしたこれらの課題を克服するため,我々は,コンピュータコンポーネントを推奨するKGと大規模言語モデル(LLM)を統合した,"Prometheus"という新しいチャットボットを開発した。
このチャットボットは、ユーザの要求を正確にデコードし、KGから派生したパーソナライズされたレコメンデーションを提供し、コンピュータのセットアップニーズに対する正確な理解と応答を保証する。
Knowledge graphs (KGs) are essential in applications such as network alignment, question-answering, and recommender systems (RSs) since they offer structured relational data that facilitate the inference of indirect relationships. However, the development of KG-based RSs capable of processing user inputs in natural language faces significant challenges. Firstly, natural language processing units must effectively handle the ambiguity and variability in human language to interpret user intents accurately. Secondly, the system must precisely identify and link entities, like product names, to their corresponding nodes in KGs. To overcome these challenges, supported by Lenovo, we developed a novel chatbot called "Prometheus," which integrates a KG with a large language model (LLM), specifically designed for recommending computer components. This chatbot can accurately decode user requests and deliver personalized recommendations derived from KGs, ensuring precise comprehension and response to their computer setup needs. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# モバイルデバイス上でのDNN高速化のための非整合ブロックワイドプルーニングの実現
Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices ( http://arxiv.org/abs/2407.19644v1 ) ライセンス: Link先を確認 | Hayun Lee, Dongkun Shin, | (参考訳) 近年のオンデバイスAIの普及に伴い、モバイルデバイス上で計算集約的なDNNを直接実行する必要性が高まっている。
しかし、これらのデバイスの限られた計算資源とメモリ資源は、効果的なプルーニング技術を必要とする。
ブロックワイドプルーニングは、スピードアップゲインに対する低い精度のドロップトレードオフのため有望であるが、ブロック位置をブロックサイズに合わせる必要があるため、モデルの精度低下を最小限に抑えるために最適な位置選択を妨げている。
Unaligned block pruning (UBP) はブロックを任意の位置に選択可能にすることでこの問題に対処するが、その実用性は最適なブロック選択アルゴリズムと効率的な推論カーネルの欠如によって制限される。
本稿では,Block Expansion and Division (BED)と呼ばれる,擬似最適かつ高速なブロック選択アルゴリズムを提案する。
さらに,モバイル端末向けの効率的な推論カーネル実装を導入し,協調ブロックプルーニングにより圧縮されたDNNモデルと同様のレイテンシを実現する。
我々は,MobileNet と ResNet モデルを用いた実携帯電話において,我々の手法の優位性を実証する。
With the recent proliferation of on-device AI, there is an increasing need to run computationally intensive DNNs directly on mobile devices. However, the limited computing and memory resources of these devices necessitate effective pruning techniques. Block-wise pruning is promising due to its low accuracy drop tradeoff for speedup gains, but it requires block positions to be aligned with block size, hindering optimal position selection to minimize model accuracy drop. Unaligned block pruning (UBP) addresses this by allowing blocks to be selected at arbitrary positions, yet its practical use is limited by a time-consuming optimal block selection algorithm and lack of efficient inference kernels. In this paper, we propose a pseudo-optimal yet fast block selection algorithm called Block Expansion and Division (BED), which can be integrated into an iterative model training process. Additionally, we introduce an efficient inference kernel implementation for mobile devices, enabling a UBP-based model to achieve similar latency to a DNN model compressed by aligned block pruning. We demonstrate the superiority of our techniques on a real mobile phone with MobileNet and ResNet models. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# 異常検出における異常の基礎 --顔画像データにおけるケーススタディ
Foundations for Unfairness in Anomaly Detection -- Case Studies in Facial Imaging Data ( http://arxiv.org/abs/2407.19646v1 ) ライセンス: Link先を確認 | Michael Livanos, Ian Davidson, | (参考訳) 深部異常検出(Deep Anomaly Detection, AD)は、データ分析タスクの中でも最も議論を呼んでいる。
また、顔画像データへのAIの応用についても議論がある。
この研究は、これらの2つの領域の交わりを探索し、2つの中核的な問題を理解する:「なぜ」これらのアルゴリズムは不公平であり、同様に重要な「なぜ」である。
最近の研究は、深部ADは異なるグループに対して不公平であることを示しているが、近年の研究では、人々の肖像画について、色のある男性はより不公平に選択される可能性がはるかに高いことが示されている。
我々は,ADアルゴリズムの2つの主要なカテゴリについて検討する。オートエンコーダベースと単一クラスベースで,すべてのインスタンスを,容易に圧縮できないもので効果的に圧縮しようとする。
我々は,集団の低表現(例えば,有色人種は比較的稀),刺激的なグループ特徴(例えば,男性は帽子で撮影されることが多い),グループラベリングノイズ(例えば,人種は主観的である)などの不公平な情報源を実験的に検証した。
我々は圧縮性の欠如が主な基礎であり、他のものはそれを引き起こすと推測するが、実験の結果はそうでなければ示し、それらの間に自然な階層が現れる。
Deep anomaly detection (AD) is perhaps the most controversial of data analytic tasks as it identifies entities that are then specifically targeted for further investigation or exclusion. Also controversial is the application of AI to facial imaging data. This work explores the intersection of these two areas to understand two core questions: "Who" these algorithms are being unfair to and equally important "Why". Recent work has shown that deep AD can be unfair to different groups despite being unsupervised with a recent study showing that for portraits of people: men of color are far more likely to be chosen to be outliers. We study the two main categories of AD algorithms: autoencoder-based and single-class-based which effectively try to compress all the instances with those that can not be easily compressed being deemed to be outliers. We experimentally verify sources of unfairness such as the under-representation of a group (e.g. people of color are relatively rare), spurious group features (e.g. men are often photographed with hats), and group labeling noise (e.g. race is subjective). We conjecture that lack of compressibility is the main foundation and the others cause it but experimental results show otherwise and we present a natural hierarchy amongst them. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# 特徴選択とアグリゲーションによる実用的なビデオオブジェクト検出
Practical Video Object Detection via Feature Selection and Aggregation ( http://arxiv.org/abs/2407.19650v1 ) ライセンス: Link先を確認 | Yuheng Shi, Tong Zhang, Xiaojie Guo, | (参考訳) 静止画像オブジェクト検出と比較して、ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多彩な劣化を特に懸念する必要がある。
原則として、ビデオの特定のフレームにおける検出は他のフレームの情報から恩恵を受けることができる。
このように、異なるフレームにまたがって機能を効果的に集約する方法が、ターゲット問題にとって鍵となる。
現代のアグリゲーション法のほとんどは、2段検出器用に調整されており、二重段の性質のために計算コストが高い。
一方、1段検出器は静止画像の処理を継続的に進めてきたが、VODへの適用性は十分でない。
上記の課題に対処するため,本研究では,特徴選択とアグリゲーションの極めて単純かつ強力な戦略を考案し,限界計算コストでかなりの精度を達成した。
具体的には, 1段物体検出器の高密度予測特性から大規模計算とメモリ消費を削減するために, まず高密度予測マップから高密度候補特徴を導出する。
そして、対象フレームとその参照フレームの関係を評価し、アグリゲーションを誘導する。
本設計の有効性を検証するため, 包括的実験およびアブレーション実験を行い, 他の最先端VOD法と比較して, 有効性と有効性の両方において優位性を示す。
特に、私たちのモデルは、新しいレコードパフォーマンス、すなわち、イメージネットVIDデータセットの30FPS以上で92.9\% AP50に達する。
実装はシンプルで、 \url{https://github.com/YuHengss/YOLOV} でアクセスできる。
Compared with still image object detection, video object detection (VOD) needs to particularly concern the high across-frame variation in object appearance, and the diverse deterioration in some frames. In principle, the detection in a certain frame of a video can benefit from information in other frames. Thus, how to effectively aggregate features across different frames is key to the target problem. Most of contemporary aggregation methods are tailored for two-stage detectors, suffering from high computational costs due to the dual-stage nature. On the other hand, although one-stage detectors have made continuous progress in handling static images, their applicability to VOD lacks sufficient exploration. To tackle the above issues, this study invents a very simple yet potent strategy of feature selection and aggregation, gaining significant accuracy at marginal computational expense. Concretely, for cutting the massive computation and memory consumption from the dense prediction characteristic of one-stage object detectors, we first condense candidate features from dense prediction maps. Then, the relationship between a target frame and its reference frames is evaluated to guide the aggregation. Comprehensive experiments and ablation studies are conducted to validate the efficacy of our design, and showcase its advantage over other cutting-edge VOD methods in both effectiveness and efficiency. Notably, our model reaches \emph{a new record performance, i.e., 92.9\% AP50 at over 30 FPS on the ImageNet VID dataset on a single 3090 GPU}, making it a compelling option for large-scale or real-time applications. The implementation is simple, and accessible at \url{https://github.com/YuHengsss/YOLOV}. | 翻訳日:2024-07-30 15:25:50 公開日:2024-07-29 |
# ComNeck:Universal Transform-Neckによる圧縮画像とマルチモーダルLCMのブリッジ
ComNeck: Bridging Compressed Image Latents and Multimodal LLMs via Universal Transform-Neck ( http://arxiv.org/abs/2407.19651v1 ) ライセンス: Link先を確認 | Chia-Hao Kao, Cheng Chien, Yu-Jen Tseng, Yi-Hsin Chen, Alessandro Gnutti, Shao-Yuan Lo, Wen-Hsiao Peng, Riccardo Leonardi, | (参考訳) 本稿では,マルチモーダル大言語モデル(MLLM)を応用した下流視覚タスクのニーズに適合する圧縮画像潜在者を適応させる最初の研究について述べる。
MLLMは大規模言語モデルの成功を、テキスト以外のモダリティ(例:画像)にまで拡大してきたが、その数十億ドルのスケールは、リソースに制約のあるエンドデバイスへのデプロイメントを妨げる。
クラウドでホストされるMLLMは利用可能だが、エンドデバイスによってキャプチャされた生の非圧縮イメージをクラウドに送信するには、効率的な画像圧縮システムが必要である。
そこで我々は,新しいニューラルイメージ圧縮に焦点をあて,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を適応させる新しいフレームワークを提案する。
提案フレームワークは汎用的で複数のアプリケーションシナリオに適用可能であり,(1)人間の知覚のために事前訓練されたニューラルイメージコーデック,(2)人間と機械の知覚のための完全更新,(3)機械の知覚のみのための完全更新などが可能である。
代理損失で訓練された変換ネックは普遍的であり、同じ視覚エンコーダを共有する様々なMLLMによって実現される様々な下流視覚タスクに役立てることができる。
我々のフレームワークは、トランスネックのトレーニングから下流MLLMを排除し、ニューラルイメージコーデックも取り除くという目覚ましい特徴を持っている。
これは、トレーニング中に下流ネットワークを含むマシンアプローチのための既存のほとんどのコーディングと異なり、ネットワークがMLLMである場合、現実的ではない可能性がある。
様々なニューラルイメージコーデックと様々なMLLMベースの視覚タスクに対する広範囲な実験により、我々の手法は、非常に少ない複雑さで高いレート精度のパフォーマンスを達成し、その効果を実証している。
This paper presents the first-ever study of adapting compressed image latents to suit the needs of downstream vision tasks that adopt Multimodal Large Language Models (MLLMs). MLLMs have extended the success of large language models to modalities (e.g. images) beyond text, but their billion scale hinders deployment on resource-constrained end devices. While cloud-hosted MLLMs could be available, transmitting raw, uncompressed images captured by end devices to the cloud requires an efficient image compression system. To address this, we focus on emerging neural image compression and propose a novel framework with a lightweight transform-neck and a surrogate loss to adapt compressed image latents for MLLM-based vision tasks. The proposed framework is generic and applicable to multiple application scenarios, where the neural image codec can be (1) pre-trained for human perception without updating, (2) fully updated for joint human and machine perception, or (3) fully updated for only machine perception. The transform-neck trained with the surrogate loss is universal, for it can serve various downstream vision tasks enabled by a variety of MLLMs that share the same visual encoder. Our framework has the striking feature of excluding the downstream MLLMs from training the transform-neck, and potentially the neural image codec as well. This stands out from most existing coding for machine approaches that involve downstream networks in training and thus could be impractical when the networks are MLLMs. Extensive experiments on different neural image codecs and various MLLM-based vision tasks show that our method achieves great rate-accuracy performance with much less complexity, demonstrating its effectiveness. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# SALVE:消費者向けビデオの3D再構築ベンチマーク
SALVE: A 3D Reconstruction Benchmark of Wounds from Consumer-grade Videos ( http://arxiv.org/abs/2407.19652v1 ) ライセンス: Link先を確認 | Remi Chierchia, Leo Lebrat, David Ahmedt-Aristizabal, Olivier Salvado, Clinton Fookes, Rodrigo Santa Cruz, | (参考訳) 慢性的な創傷の管理は、コンシューマグレードのビデオから臨床創傷評価を行うための自動システムの導入によって緩和される、世界的な課題である。
創部の3次元特徴を扱うには2次元画像解析手法が不十分であるが,既存の3次元再構成手法は十分に評価されていない。
このギャップに対処するため,本研究では,コンシューマ級映像からの3次元創傷再建に関する包括的研究を行った。
具体的には、異なるカメラで捉えた現実的な創傷ファントムのビデオ記録を含むSALVEデータセットを紹介する。
このデータセットを用いて、従来のフォトグラフィーパイプラインから高度なニューラルレンダリングアプローチまで、最先端の3D再構成手法の精度と精度を評価する。
本実験では, 創傷の精密な臨床的測定に適したスムーズな表面を提供していない。
ニューラルレンダリングアプローチは、この問題に対処し、創傷治療の実践におけるこの技術の使用を推進している。
Managing chronic wounds is a global challenge that can be alleviated by the adoption of automatic systems for clinical wound assessment from consumer-grade videos. While 2D image analysis approaches are insufficient for handling the 3D features of wounds, existing approaches utilizing 3D reconstruction methods have not been thoroughly evaluated. To address this gap, this paper presents a comprehensive study on 3D wound reconstruction from consumer-grade videos. Specifically, we introduce the SALVE dataset, comprising video recordings of realistic wound phantoms captured with different cameras. Using this dataset, we assess the accuracy and precision of state-of-the-art methods for 3D reconstruction, ranging from traditional photogrammetry pipelines to advanced neural rendering approaches. In our experiments, we observe that photogrammetry approaches do not provide smooth surfaces suitable for precise clinical measurements of wounds. Neural rendering approaches show promise in addressing this issue, advancing the use of this technology in wound care practices. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# AI駆動型ヘルスケア - 公正性とバイアスの緩和に関する調査
AI-Driven Healthcare: A Survey on Ensuring Fairness and Mitigating Bias ( http://arxiv.org/abs/2407.19655v1 ) ライセンス: Link先を確認 | Sribala Vidyadhari Chinta, Zichong Wang, Xingyu Zhang, Thang Doan Viet, Ayesha Kashif, Monique Antoinette Smith, Wenbin Zhang, | (参考訳) 人工知能(AI)は、医療分野で急速に進歩し、心臓科、眼科、皮膚科、救急医療など、様々な専門分野におけるサービスの効率と効果を高めている。
AIアプリケーションは、機械学習、ニューラルネットワーク、自然言語処理などの技術を活用することで、診断精度、治療のパーソナライゼーション、患者の結果予測を大幅に改善した。
しかし、これらの進歩は、特にデータやアルゴリズムのバイアスに関連する、重大な倫理的および公正性の課題も引き起こす。
これらのバイアスは、医療提供の格差をもたらし、異なる人口集団の診断精度と治療結果に影響を与える可能性がある。
本稿では、医療におけるAIの統合について検討し、バイアスに関連する重要な課題と緩和戦略を検討する。
公平な医療提供を確保するためには、多様なデータセット、公平性に配慮したアルゴリズム、規制フレームワークの必要性を強調します。
論文は、今後の研究への推奨、学際的アプローチの提唱、AI意思決定における透明性、革新的で包括的なAIアプリケーションの開発で締めくくっている。
Artificial intelligence (AI) is rapidly advancing in healthcare, enhancing the efficiency and effectiveness of services across various specialties, including cardiology, ophthalmology, dermatology, emergency medicine, etc. AI applications have significantly improved diagnostic accuracy, treatment personalization, and patient outcome predictions by leveraging technologies such as machine learning, neural networks, and natural language processing. However, these advancements also introduce substantial ethical and fairness challenges, particularly related to biases in data and algorithms. These biases can lead to disparities in healthcare delivery, affecting diagnostic accuracy and treatment outcomes across different demographic groups. This survey paper examines the integration of AI in healthcare, highlighting critical challenges related to bias and exploring strategies for mitigation. We emphasize the necessity of diverse datasets, fairness-aware algorithms, and regulatory frameworks to ensure equitable healthcare delivery. The paper concludes with recommendations for future research, advocating for interdisciplinary approaches, transparency in AI decision-making, and the development of innovative and inclusive AI applications. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# 時空間リモートセンシングのための知識ガイド型マルチモーダルファンデーションモデルの実現に向けて
Towards a Knowledge guided Multimodal Foundation Model for Spatio-Temporal Remote Sensing Applications ( http://arxiv.org/abs/2407.19660v1 ) ライセンス: Link先を確認 | Praveen Ravirathinam, Ankush Khandelwal, Rahul Ghosh, Vipin Kumar, | (参考訳) 近年,衛星画像が大量に観測されているため,地球科学の基礎モデルへの関心が高まっている。
既存のリモートセンシング基盤モデルは、様々なスペクトル画像源を用いて、マスク付き再構成作業で事前訓練された大きなモデルを作成する。
これらの基礎モデルからの埋め込みは、様々な下流リモートセンシングアプリケーションに使用される。
本稿では,従来の単一モードマスマスマスキングオートエンコーダのファウンデーションモデルであるファウンデーションモデルを超えた,リモートセンシング地学応用のための基礎モデリングフレームワークを提案する。
この枠組みは、スペクトル画像が物理的ドライバが環境システムに与える影響を捉え、それらの関係がシステムの特性によって支配されるという知識的原則を活用する。
具体的には,MultiModal Variable Step Forecasting (MM-VSF) と呼ばれる本手法では,その入力としてマルチモーダルデータ(スペクトル画像と天気)を使用し,事前学習対象として可変ステップ予測タスクを用いる。
本評価では,気象を用いた衛星画像の予測を基礎モデルの効果的な事前学習作業として利用できることを示す。
さらに,MM-VSFからの埋め込みが画素ワイドマッピングの下流作業に与える影響を,従来の単一モード入力とマスク付き再構成による事前学習で訓練されたモデルと比較した。
In recent years, there is increased interest in foundation models for geoscience due to vast amount of earth observing satellite imagery. Existing remote sensing foundation models make use of the various sources of spectral imagery to create large models pretrained on masked reconstruction task. The embeddings from these foundation models are then used for various downstream remote sensing applications. In this paper we propose a foundational modeling framework for remote sensing geoscience applications, that goes beyond these traditional single modality masked autoencoder family of foundation models. This framework leverages the knowledge guided principles that the spectral imagery captures the impact of the physical drivers on the environmental system, and that the relationship between them is governed by the characteristics of the system. Specifically, our method, called MultiModal Variable Step Forecasting (MM-VSF), uses mutlimodal data (spectral imagery and weather) as its input and a variable step forecasting task as its pretraining objective. In our evaluation we show forecasting of satellite imagery using weather can be used as an effective pretraining task for foundation models. We further show the effectiveness of the embeddings from MM-VSF on the downstream task of pixel wise crop mapping, when compared with a model trained in the traditional setting of single modality input and masked reconstruction based pretraining. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# スピン鎖に結合した2量子系の絡み合いダイナミクス
Entanglement dynamics of a two-qutrits system coupled to a spin chain ( http://arxiv.org/abs/2407.19661v1 ) ライセンス: Link先を確認 | Seyed Mohsen Moosavi Khansari, Fazlollah Kazemi Hasanvand, | (参考訳) 本稿では,スピン環境と相互作用する2つのクォート系の絡み合いダイナミクスについて検討する。
エンタングルメント尺度としてネガティビティを用いて,システムのエンタングルメントダイナミクスについて検討する。
計算により、絡み合いが急速に崩壊した場合、環境は量子相転移を持つことが示された。
In this paper, we investigate the entanglement dynamics of a two qutrits system interacting with a spin environment. Using negativity as the entanglement measure, we study the entanglement dynamics of the system. The calculations show that in cases where the entanglement decays quickly, the environment will have a quantum phase transition. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# 時系列分類を用いたIoTイベントスポフィング攻撃の検出に向けて
Towards Detecting IoT Event Spoofing Attacks Using Time-Series Classification ( http://arxiv.org/abs/2407.19662v1 ) ライセンス: Link先を確認 | Uzma Maroof, Gustavo Batista, Arash Shaghaghi, Sanjay Jha, | (参考訳) モノのインターネット(IoT)デバイスは、現実世界と直接対話できるため、人気が高まっている。
ホームオートメーションシステムはこれらのインタラクションを自動化する。
IoTイベントは、これらのシステムの意思決定に不可欠だが、しばしば信頼性が低い。
セキュリティ上の脆弱性により、攻撃者はイベントを偽装することができる。
統計的機械学習を使用して、デプロイされたセンサーからのIoTイベント指紋を使用して、偽造イベントを検出する。
これらのセンサからの多変量時間データは、統計的機械学習が学習できない構造的および時間的特性を持つ。
これらのスキームの精度は知識ベースに依存する。
しかし、IoTの初期段階において、各IoTイベントの十分なサンプルを持つ巨大なデータセットが欠如していることは、ボトルネックになる可能性がある。
本研究では、イベントスプーフィング攻撃を検出するために、高度な機械学習をデプロイした。
センサデータの時間的性質により、より少ないイベントで重要なパターンを見つけることができる。
公開されている実世界のデータセットを厳格に調査した結果、時系列ベースのソリューション技術は、100倍ないし500倍の小さなトレーニングサンプルであっても、以前の作業よりも早く、センサデータから時間的特徴を学習し、現実的なIoTソリューションになります。
Internet of Things (IoT) devices have grown in popularity since they can directly interact with the real world. Home automation systems automate these interactions. IoT events are crucial to these systems' decision-making but are often unreliable. Security vulnerabilities allow attackers to impersonate events. Using statistical machine learning, IoT event fingerprints from deployed sensors have been used to detect spoofed events. Multivariate temporal data from these sensors has structural and temporal properties that statistical machine learning cannot learn. These schemes' accuracy depends on the knowledge base; the larger, the more accurate. However, the lack of huge datasets with enough samples of each IoT event in the nascent field of IoT can be a bottleneck. In this work, we deployed advanced machine learning to detect event-spoofing assaults. The temporal nature of sensor data lets us discover important patterns with fewer events. Our rigorous investigation of a publicly available real-world dataset indicates that our time-series-based solution technique learns temporal features from sensor data faster than earlier work, even with a 100- or 500-fold smaller training sample, making it a realistic IoT solution. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# 冬期のエントロピーに基づく太陽光発電の短期予測
Short-Term Forecasting of Photovoltaic Power Generation Based on Entropy during the Foggy Winter ( http://arxiv.org/abs/2407.19663v1 ) ライセンス: Link先を確認 | Xuan Yang, Yunxuan Dong, Thomas Wu, | (参考訳) 太陽エネルギーは最も有望な再生可能エネルギー資源の1つである。
太陽光発電の予測は、太陽光発電の浸透を増大させる重要な方法である。
しかし、特に霧の多い冬の特定の地域では、不確かさが原因で、光エネルギー予測の課題は複雑である。
本稿では,この問題を実現するための新しいモデルを提案する。
発達したエントロピーは、霧の冬の間に不確実性を評価するために作成される。
クラスタリング法と改良された保持ネットワークを適用して,複雑性と予測を低減した。
我々はハイパーパラメーターを最適化するために最適化を採用する。
中国江蘇省の太陽光発電発電所から得られたデータを用いて,多変量予測モデルを用いて評価を行った。
実験により,霧の冬の各種モデルと比較して予測精度が向上することが示された。
Solar energy is one of the most promising renewable energy resources. Forecasting photovoltaic power generation is an important way to increase photovoltaic penetration. However, the task of photovoltaic forecasting is complicated due to its property of uncertainty, especially in specific regions during the foggy winter. This paper proposes a novel model to accomplish the problem. A developed entropy is created to qualify the uncertainty during the foggy winter. The clustering method and modified retention network are applied to reduce complexity and forecast, respectively. We adopt an optimization to optimize the hyperparameters. Results are validated from the multivariate forecasting model using the dataset from a photovoltaic power station in Jiangsu Province, China. Experiments show that the proposed model improves the forecasting accuracy compared to various models during the foggy winter. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# 深層学習のための適応型ソフトエラー対策
Adaptive Soft Error Protection for Deep Learning ( http://arxiv.org/abs/2407.19664v1 ) ライセンス: Link先を確認 | Xinghua Xue, Cheng Liu, | (参考訳) ハードウェアシステムにおけるソフトエラーの発生は、ディープラーニングシステムの信頼性にかなりのリスクをもたらし、深刻な故障を発生させる可能性がある。
ソフトエラーの緩和は必須ではあるが、計算とメモリの点で本質的に要求されるディープラーニングシステムにかなりのコストを課す可能性がある。
従来の研究は、主に、保護オーバーヘッドを最小限に抑えるために選択的な保護を目的とした、コンピューティングエンジンやニューラルネットワークのさまざまなコンポーネント間の脆弱性のバリエーションを調査してきた。
本手法は,深層学習タスクのソフトエラーに対する感受性が入力依存性が大きいことを認識することによって,これらの研究から分岐する。
特に、いくつかの入力は深層学習モデルでは単純で、本質的にソフトエラーに対する耐性が高い。
逆に、より複雑な入力はソフトエラーの影響を受けやすい。
これらの知見に基づいて,個々の入力の計算要求に応じて保護を調整できる適応型ソフトエラー保護戦略を導入する。
この戦略を実現するために、入力の複雑さを評価するためのメトリクスを開発し、入力の難易度を評価するための軽量機械学習アルゴリズムをデプロイする。
続いて、挑戦的な入力に対する堅牢な保護と、より単純な入力に対する最小限の保護を採用します。
各種データセットおよびディープラーニングタスクに対する実験評価の結果,適応戦略により,システムの信頼性を損なうことなく,ソフトエラー保護オーバーヘッドを平均46.9%削減できることがわかった。
The rising incidence of soft errors in hardware systems represents a considerable risk to the reliability of deep learning systems and can precipitate severe malfunctions. Although essential, soft error mitigation can impose substantial costs on deep learning systems that are inherently demanding in terms of computation and memory. Previous research has primarily explored variations in vulnerability among different components of computing engines or neural networks, aiming for selective protection to minimize protection overhead. Our approach diverges from these studies by recognizing that the susceptibility of deep learning tasks to soft errors is heavily input-dependent. Notably, some inputs are simpler for deep learning models and inherently exhibit greater tolerance to soft errors. Conversely, more complex inputs are prone to soft error impact. Based on these insights, we introduce an adaptive soft error protection strategy that tailors protection to the computational demands of individual inputs. To implement this strategy, we develop a metric for assessing the complexity of inputs and deploy a lightweight machine learning algorithm to gauge input difficulty. Subsequently, we employ robust protection for challenging inputs and minimal protection for simpler ones. Our experimental evaluation across diverse datasets and deep learning tasks reveals that our adaptive strategy reduces the soft error protection overhead by an average of 46.9%, without compromising system reliability. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# 一歩後退して - ビジュアル推論の2つのステージを再考する
Take A Step Back: Rethinking the Two Stages in Visual Reasoning ( http://arxiv.org/abs/2407.19666v1 ) ライセンス: Link先を確認 | Mingyu Zhang, Jiting Cai, Mingyu Liu, Yue Xu, Cewu Lu, Yong-Lu Li, | (参考訳) 視覚的推論は、顕著な研究領域として、概念の形成と世界との相互作用を促進することによって、AIにおいて重要な役割を担っている。
しかし、現在の研究は通常、小さなデータセットで別々に行われ、一般化能力に欠ける。
多様なベンチマークの厳密な評価を通じて、クロスドメイン推論の実現における既存のアドホック手法の欠点とそのデータバイアス適合性を示す。
本稿では,(1)記号化と(2)与えられた記号やそれらの表現に対する論理的推論という2段階の視点で視覚的推論を再考する。
推論段階は記号化よりも一般化が優れていることが分かる。
したがって、共有推論を用いて、異なるデータドメインに対する分離エンコーダによるシンボル化を実装する方が効率的である。
そこで我々は,視覚的推論フレームワークの設計原則を,分離されたシンボル化と共有推論に従って確立した。
提案する2段階のフレームワークは,パズル,物理予測,視覚的質問応答(VQA)などの視覚的推論タスクにおいて,2次元と3次元の両方のモダリティを含む印象的な一般化能力を実現する。
私たちは私たちの洞察が、一般化可能な視覚的推論の道を開くと信じています。
Visual reasoning, as a prominent research area, plays a crucial role in AI by facilitating concept formation and interaction with the world. However, current works are usually carried out separately on small datasets thus lacking generalization ability. Through rigorous evaluation of diverse benchmarks, we demonstrate the shortcomings of existing ad-hoc methods in achieving cross-domain reasoning and their tendency to data bias fitting. In this paper, we revisit visual reasoning with a two-stage perspective: (1) symbolization and (2) logical reasoning given symbols or their representations. We find that the reasoning stage is better at generalization than symbolization. Thus, it is more efficient to implement symbolization via separated encoders for different data domains while using a shared reasoner. Given our findings, we establish design principles for visual reasoning frameworks following the separated symbolization and shared reasoning. The proposed two-stage framework achieves impressive generalization ability on various visual reasoning tasks, including puzzles, physical prediction, and visual question answering (VQA), encompassing both 2D and 3D modalities. We believe our insights will pave the way for generalizable visual reasoning. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# 実世界の計画におけるスマート言語エージェント
Smart Language Agents in Real-World Planning ( http://arxiv.org/abs/2407.19667v1 ) ライセンス: Link先を確認 | Annabelle Miin, Timothy Wei, | (参考訳) 包括的計画エージェントは、人工知能分野における長期的な目標である。
近年の自然言語処理の革新は、Large Language Models (LLMs) の出現によって成功している。
我々は,従来の論文TravelPlannerの成果を拡張して,そのようなLCMの旅行計画能力の向上を目指す。
本研究の目的は, LLM を用いた旅行計画改善手法を検討することである。
旅行計画の「ソールプランニング」モード,すなわち,エージェントに必要な参照情報を与え,その目的は,参照情報から包括的な計画を作成することである。
これは現実世界をシミュレートするものではないが、旅行計画エージェントの単独計画能力の最適化は、ユーザーエクスペリエンス全体を強化することができるだろうと感じている。
LLM自動プロンプトと「Human-in-the-loop」を組み合わせた半自動プロンプト生成フレームワークを提案する。
以上の結果から,LLM自動プロンプトには制限があり,"Human-in-the-loop"は1回のイテレーションで139.%の大幅な性能向上を実現している。
Comprehensive planning agents have been a long term goal in the field of artificial intelligence. Recent innovations in Natural Language Processing have yielded success through the advent of Large Language Models (LLMs). We seek to improve the travel-planning capability of such LLMs by extending upon the work of the previous paper TravelPlanner. Our objective is to explore a new method of using LLMs to improve the travel planning experience. We focus specifically on the "sole-planning" mode of travel planning; that is, the agent is given necessary reference information, and its goal is to create a comprehensive plan from the reference information. While this does not simulate the real-world we feel that an optimization of the sole-planning capability of a travel planning agent will still be able to enhance the overall user experience. We propose a semi-automated prompt generation framework which combines the LLM-automated prompt and "human-in-the-loop" to iteratively refine the prompt to improve the LLM performance. Our result shows that LLM automated prompt has its limitations and "human-in-the-loop" greatly improves the performance by $139\%$ with one single iteration. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# 都市交通事故リスク予測の再検討 : 地域性, 近縁性, 類似性, 空間性
Urban Traffic Accident Risk Prediction Revisited: Regionality, Proximity, Similarity and Sparsity ( http://arxiv.org/abs/2407.19668v1 ) ライセンス: Link先を確認 | Minxiao Chen, Haitao Yuan, Nan Jiang, Zhifeng Bao, Shangguang Wang, | (参考訳) 交通事故は人間の健康と財産の安全に重大な危険をもたらす。
そのため、交通事故を防止するため、リスクを予測することが関心を高めている。
望ましい予測ソリューションは、交通事故の複雑さに対するレジリエンスを示すべきである、と我々は主張する。
特に、地域背景を適切に考慮し、空間的近接性と意味的類似性の両方を正確に把握し、交通事故の空間性に効果的に対処すべきである。
しかし、これらの要因はしばしば見過ごされるか、組み込むのが困難である。
本稿では,新しい階層型階層型時空間ネットワークを提案する。
当初、リモートセンシングデータを導入し、階層的多粒度構造の構築と地域背景の理解を促進する。
我々は,複数の高レベルリスク予測タスクを構築し,空間性に対処するモデルの能力を高める。
その後、空間的近接性と意味的類似性の両方を捉えるため、領域特徴と多視点グラフは、効率的な表現を抽出するエンコーディングプロセスを実行する。
さらに、異なる粒度をブリッジし、交通事故パターン固有の時間相関を動的にキャプチャするメッセージパッシングおよび適応時間アテンションモジュールを提案する。
最後に,予測目的の複雑さを考慮した多変量階層的損失関数を考案した。
2つの実際のデータセットに対する大規模な実験は、最先端の手法に対する我々のモデルの優位性を検証する。
Traffic accidents pose a significant risk to human health and property safety. Therefore, to prevent traffic accidents, predicting their risks has garnered growing interest. We argue that a desired prediction solution should demonstrate resilience to the complexity of traffic accidents. In particular, it should adequately consider the regional background, accurately capture both spatial proximity and semantic similarity, and effectively address the sparsity of traffic accidents. However, these factors are often overlooked or difficult to incorporate. In this paper, we propose a novel multi-granularity hierarchical spatio-temporal network. Initially, we innovate by incorporating remote sensing data, facilitating the creation of hierarchical multi-granularity structure and the comprehension of regional background. We construct multiple high-level risk prediction tasks to enhance model's ability to cope with sparsity. Subsequently, to capture both spatial proximity and semantic similarity, region feature and multi-view graph undergo encoding processes to distill effective representations. Additionally, we propose message passing and adaptive temporal attention module that bridges different granularities and dynamically captures time correlations inherent in traffic accident patterns. At last, a multivariate hierarchical loss function is devised considering the complexity of the prediction purpose. Extensive experiments on two real datasets verify the superiority of our model against the state-of-the-art methods. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# mGTE:多言語テキスト検索のための一般化長文表現と階調モデル
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval ( http://arxiv.org/abs/2407.19669v1 ) ライセンス: Link先を確認 | Xin Zhang, Yanzhao Zhang, Dingkun Long, Wen Xie, Ziqi Dai, Jialong Tang, Huan Lin, Baosong Yang, Pengjun Xie, Fei Huang, Meishan Zhang, Wenjie Li, Min Zhang, | (参考訳) 長文多言語テキスト表現モデル(TRM)と再ランカをスクラッチから構築し,テキスト検索を行う。
テキストエンコーダ(ベースサイズ)をRoPEとアンパディングで拡張し,ネイティブな8192-tokenコンテキスト(以前の多言語エンコーダの512以上)で事前訓練した。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
評価の結果,テキストエンコーダは従来と同じ大きさのXLM-Rよりも優れていた。
一方,我々のTRMとリランカは大規模BGE-M3モデルの性能に適合し,長期コンテキスト検索ベンチマークでより良い結果が得られる。
さらに分析した結果,提案モデルでは,トレーニングと推論の双方において,高い効率性を示すことがわかった。
その効率性と有効性は、様々な研究や工業的応用に役立つと信じている。
We present systematic efforts in building long-context multilingual text representation model (TRM) and reranker from scratch for text retrieval. We first introduce a text encoder (base size) enhanced with RoPE and unpadding, pre-trained in a native 8192-token context (longer than 512 of previous multilingual encoders). Then we construct a hybrid TRM and a cross-encoder reranker by contrastive learning. Evaluations show that our text encoder outperforms the same-sized previous state-of-the-art XLM-R. Meanwhile, our TRM and reranker match the performance of large-sized state-of-the-art BGE-M3 models and achieve better results on long-context retrieval benchmarks. Further analysis demonstrate that our proposed models exhibit higher efficiency during both training and inference. We believe their efficiency and effectiveness could benefit various researches and industrial applications. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# PerpectiveArg2024の概要:パースペクティブ引数検索における最初の共有タスク
Overview of PerpectiveArg2024: The First Shared Task on Perspective Argument Retrieval ( http://arxiv.org/abs/2407.19670v1 ) ライセンス: Link先を確認 | Neele Falk, Andreas Waldis, Iryna Gurevych, | (参考訳) 引数検索は、あるクエリに関する関連する引数を見つけるタスクである。
既存のアプローチは、クエリと引数のセマンティックアライメントのみに依存しているが、このパースペクティブ引数検索における最初の共有タスクは、検索中の視点を取り入れ、議論における潜在的影響を考慮に入れている。
本稿では,社会における少数派・多数派を代表する年齢,性別,政治的態度など,人口・社会文化(社会)の多様性を包括する多言語データセットを提案する。
検索システムが明示的に(クエリとコーパスの両方において)どう考えるか、そして暗黙的に(クエリのみにおいて)定式化された視点を探索する3つのシナリオを区別する。
本稿では,この共有タスクの概要と,提案した6つのシステムの結果について概説する。
パースペクティビズムを取り入れる上での重大な課題は、特に社会的なプロファイルを明示的に提供せずに、議論のテキストのみに基づくパーソナライズを目指す場合である。
さらに、検索システムは多数派に偏っている傾向にあるが、女性の性別に対する偏見を部分的に緩和する傾向にある。
パーソナライズと分極の低減を図るため, パーソナライズを最適化するためには, パーソナライズされた論証検索をブートストラップするが, さらなる研究が不可欠である。
Argument retrieval is the task of finding relevant arguments for a given query. While existing approaches rely solely on the semantic alignment of queries and arguments, this first shared task on perspective argument retrieval incorporates perspectives during retrieval, accounting for latent influences in argumentation. We present a novel multilingual dataset covering demographic and socio-cultural (socio) variables, such as age, gender, and political attitude, representing minority and majority groups in society. We distinguish between three scenarios to explore how retrieval systems consider explicitly (in both query and corpus) and implicitly (only in query) formulated perspectives. This paper provides an overview of this shared task and summarizes the results of the six submitted systems. We find substantial challenges in incorporating perspectivism, especially when aiming for personalization based solely on the text of arguments without explicitly providing socio profiles. Moreover, retrieval systems tend to be biased towards the majority group but partially mitigate bias for the female gender. While we bootstrap perspective argument retrieval, further research is essential to optimize retrieval systems to facilitate personalization and reduce polarization. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# SeaLLMs 3: 東南アジア言語のためのオープンファンデーションとチャット多言語大言語モデル
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages ( http://arxiv.org/abs/2407.19672v1 ) ライセンス: Link先を確認 | Wenxuan Zhang, Hou Pong Chan, Yiran Zhao, Mahani Aljunied, Jianyu Wang, Chaoqun Liu, Yue Deng, Zhiqiang Hu, Weiwen Xu, Yew Ken Chia, Xin Li, Lidong Bing, | (参考訳) 大きな言語モデル(LLM)は様々なタスクにおいて顕著な能力を示してきたが、その開発は主に英語や中国語のような高リソース言語に焦点を当てており、低リソース言語は保存されていない。
この格差に対処するため、東南アジア言語向けに設計されたSeaLLMsモデルファミリーの最新版であるSeaLLMs 3を紹介します。
豊かな言語多様性を特徴とするこの地域は、適切な言語技術のサポートが欠如している。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
効率的な言語拡張技術と特別に構築された命令チューニングデータセットを活用することで、SeaLLMs 3は、高いパフォーマンスと汎用性を維持しながら、トレーニングコストを大幅に削減する。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
さらに,一般と文化に特有な考察と幻覚の軽減のための機構を取り入れることで,安全性と信頼性を優先した。
この研究は包括的AIの重要性を浮き彫りにして、先進的なLLM能力が未保存の言語と文化のコミュニティに利益をもたらすことを示した。
Large Language Models (LLMs) have shown remarkable abilities across various tasks, yet their development has predominantly centered on high-resource languages like English and Chinese, leaving low-resource languages underserved. To address this disparity, we present SeaLLMs 3, the latest iteration of the SeaLLMs model family, tailored for Southeast Asian languages. This region, characterized by its rich linguistic diversity, has lacked adequate language technology support. SeaLLMs 3 aims to bridge this gap by covering a comprehensive range of languages spoken in this region, including English, Chinese, Indonesian, Vietnamese, Thai, Tagalog, Malay, Burmese, Khmer, Lao, Tamil, and Javanese. Leveraging efficient language enhancement techniques and a specially constructed instruction tuning dataset, SeaLLMs 3 significantly reduces training costs while maintaining high performance and versatility. Our model excels in tasks such as world knowledge, mathematical reasoning, translation, and instruction following, achieving state-of-the-art performance among similarly sized models. Additionally, we prioritized safety and reliability by addressing both general and culture-specific considerations and incorporated mechanisms to reduce hallucinations. This work underscores the importance of inclusive AI, showing that advanced LLM capabilities can benefit underserved linguistic and cultural communities. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# 外部層によるプロンプト学習の促進
Advancing Prompt Learning through an External Layer ( http://arxiv.org/abs/2407.19674v1 ) ライセンス: Link先を確認 | Fangming Cui, Xun Yang, Chao Wu, Liang Xiao, Xinmei Tian, | (参考訳) Prompt Learningは、テキスト埋め込みの集合を学習することで、訓練済みの視覚言語モデル(VLM)を様々な下流タスクに適用するための有望な方法である。
これらの手法に固有の課題の1つは、未知のタスクに対する学習されたテキスト埋め込みの無効性による一般化性能の低下である。
このギャップを埋めるための直接的なアプローチは、プロンプトにテキストの埋め込みを凍結することであり、結果として、下流タスクにVLMを適用する能力が欠如している。
このジレンマに対処するために、テキストブランチの外部層(EnLa)と、VLMを下流タスクに適用するための視覚ブランチの学習可能な視覚埋め込みを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
この設計は2つのブランチ間の学習能力のバランスを考慮する。
テキスト的特徴と視覚的特徴を整合させるために,我々は新しい2段階のアプローチを提案する。
一 視覚とテキストのモダリティを整合させるための相違指標として最適輸送を導入すること。
二 この二つのモダリティ間の相互作用を強化するために、新しい強化機能を導入する。
実験の結果,提案手法は既存の素早い学習法と比較して,11個のデータセットにまたがる4種類の代表タスクに対して良好に動作することがわかった。
Prompt learning represents a promising method for adapting pre-trained visual-language models (VLMs) to various downstream tasks by learning a set of text embeddings. One challenge inherent to these methods is the poor generalization performance due to the invalidity of the learned text embeddings for unseen tasks. A straightforward approach to bridge this gap is to freeze the text embeddings in prompts, which results in a lack of capacity to adapt VLMs for downstream tasks. To address this dilemma, we proposeto introduce an External Layer (EnLa) of text branch and learnable visual embeddings of the visual branch for adapting VLMs to downstream tasks. The learnable external layer is built upon valid embeddings of pre-trained CLIP. This design considers the balance of learning capabilities between the two branches. To align the textual and visual features, we propose a novel two-pronged approach: i) we introduce the optimal transport as the discrepancy metric to align the vision and text modalities, and ii) we introducea novel strengthening feature to enhance the interaction between these two modalities. Extensive experiments show that our method performs favorably well on 4 types of representative tasks across 11 datasets compared to the existing prompt learning methods. | 翻訳日:2024-07-30 15:16:04 公開日:2024-07-29 |
# 行動品質評価のための半監督型教師参照学習型アーキテクチャ
Semi-Supervised Teacher-Reference-Student Architecture for Action Quality Assessment ( http://arxiv.org/abs/2407.19675v1 ) ライセンス: Link先を確認 | Wulian Yun, Mengshi Qi, Fei Peng, Huadong Ma, | (参考訳) 既存の行動品質評価(AQA)手法は、多くのラベルアノテーションを必要とすることが多い。
実際には、AQAアノテーションプロセスはドメイン固有の専門知識を必要とするため、ラベル付きデータは入手が困難である。
本稿では,大量のラベル付きデータと少量のラベル付きデータを活用することで,AQAタスクのより良い評価に利用できる新しい半教師付き手法を提案する。
そこで,教師ネットワークと参照ネットワークを併用して,教師ネットワークと教師ネットワークの擬似ラベルを生成し,学生ネットワークを監督する。
具体的には、教師は、未ラベルデータの高レベルな特徴を捉えて擬似ラベルを予測する。
参照ネットワークは、追加のアクション情報を参照して、学生ネットワークの適切な監視を提供する。
さらに,教師ネットワークと参照ネットワークの最も正確な出力を記憶することで,疑似ラベルの信頼性を向上させるための信頼性メモリを導入する。
提案手法を検証するため,3つのAQAベンチマークデータセットについて広範な実験を行った。
実験結果から,本手法は既存の半教師付きAQA法よりも大幅に改善され,性能が向上することが示された。
Existing action quality assessment (AQA) methods often require a large number of label annotations for fully supervised learning, which are laborious and expensive. In practice, the labeled data are difficult to obtain because the AQA annotation process requires domain-specific expertise. In this paper, we propose a novel semi-supervised method, which can be utilized for better assessment of the AQA task by exploiting a large amount of unlabeled data and a small portion of labeled data. Differing from the traditional teacher-student network, we propose a teacher-reference-student architecture to learn both unlabeled and labeled data, where the teacher network and the reference network are used to generate pseudo-labels for unlabeled data to supervise the student network. Specifically, the teacher predicts pseudo-labels by capturing high-level features of unlabeled data. The reference network provides adequate supervision of the student network by referring to additional action information. Moreover, we introduce confidence memory to improve the reliability of pseudo-labels by storing the most accurate ever output of the teacher network and reference network. To validate our method, we conduct extensive experiments on three AQA benchmark datasets. Experimental results show that our method achieves significant improvements and outperforms existing semi-supervised AQA methods. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# ボイスプライバシに関する米国法定ランドスケープのナビゲーション:既存の法律、提案された法案、子供の保護、AIのための合成データ
Navigating the United States Legislative Landscape on Voice Privacy: Existing Laws, Proposed Bills, Protection for Children, and Synthetic Data for AI ( http://arxiv.org/abs/2407.19677v1 ) ライセンス: Link先を確認 | Satwik Dutta, John H. L. Hansen, | (参考訳) プライバシーは、米国を含む世界中の政策立案者にとってホットな話題だ。
AIの進歩と個人データの誤用に関する懸念の高まりにより、政策立案者は、信頼できるAIと市民のためのプライバシー保護に関する法案を起草せざるを得なくなった。
本稿は、米国議会におけるプライバシーに関する法律の状況を説明し、音声データが法律の定義の一部としてどう扱われるかを概説する。
また,子どものプライバシー保護についても検討する。
本稿では、アメリカ合衆国50州における児童データ処理のガイドラインを含む音声データについて、法制化および提案されたプライバシー法に関する総括的なレビューを行う。
実際の人間のデータに代わる画期的な代替手段として、倫理的に生成された合成データは、AIのイノベーションを前進させ続けるための柔軟性を大いにもたらします。
政策立案者によるAI法における合成データの考察は、プライバシ法と比較して比較的新しいものであることを考慮し、合成データの規制に関する考察をレビューする。
Privacy is a hot topic for policymakers across the globe, including the United States. Evolving advances in AI and emerging concerns about the misuse of personal data have pushed policymakers to draft legislation on trustworthy AI and privacy protection for its citizens. This paper presents the state of the privacy legislation at the U.S. Congress and outlines how voice data is considered as part of the legislation definition. This paper also reviews additional privacy protection for children. This paper presents a holistic review of enacted and proposed privacy laws, and consideration for voice data, including guidelines for processing children's data, in those laws across the fifty U.S. states. As a groundbreaking alternative to actual human data, ethically generated synthetic data allows much flexibility to keep AI innovation in progress. Given the consideration of synthetic data in AI legislation by policymakers to be relatively new, as compared to that of privacy laws, this paper reviews regulatory considerations for synthetic data. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# 農業における大規模ビジョンと言語モデル
Harnessing Large Vision and Language Models in Agriculture: A Review ( http://arxiv.org/abs/2407.19679v1 ) ライセンス: Link先を確認 | Hongyan Zhu, Shuai Qin, Min Su, Chengzhi Lin, Anjie Li, Junfeng Gao, | (参考訳) 大規模なモデルは、多くの領域で重要な役割を果たす。
農業は世界中の人々の生活に影響を及ぼす重要な要因である。
食料、織物、石炭を人類に供給している。
しかし、害虫や病気、土壌の劣化、地球温暖化、食料安全保障といった多くの課題に直面し、農業セクターの収量を着実に増やす方法は、人間がまだ解決しなければならない問題である。
大規模なモデルは、農夫が害虫や病気、土壌の品質、種子の品質といった一連の農業生産タスクを検出することによって、生産効率と収穫効率を向上させるのに役立つ。
また、画像やテキストなど、さまざまな情報を通じて、農家の賢明な意思決定を支援することもできる。
本稿では,大規模言語モデル (LLM) や大規模視覚モデル (LVM) から大規模視覚言語モデル (LVLM) まで,農業における大規模モデルの可能性を探る。
マルチモーダル大規模言語モデル (MLLM) の理解を深めた上で, 農業画像処理, 農業質問応答システム, 農業機械自動化といった問題はすべて, 大規模モデルで解決できることが認識できる。
大型モデルは農業の分野で大きな可能性を秘めている。
我々は,農業大モデルの現状を概説し,農業分野における大規模モデルの重要性を強調することを目的とする。
最後に,MLLMを農業における多くの課題に活用し,農業生産効率と収量を大幅に向上させる未来を思い起こさせる。
Large models can play important roles in many domains. Agriculture is another key factor affecting the lives of people around the world. It provides food, fabric, and coal for humanity. However, facing many challenges such as pests and diseases, soil degradation, global warming, and food security, how to steadily increase the yield in the agricultural sector is a problem that humans still need to solve. Large models can help farmers improve production efficiency and harvest by detecting a series of agricultural production tasks such as pests and diseases, soil quality, and seed quality. It can also help farmers make wise decisions through a variety of information, such as images, text, etc. Herein, we delve into the potential applications of large models in agriculture, from large language model (LLM) and large vision model (LVM) to large vision-language models (LVLM). After gaining a deeper understanding of multimodal large language models (MLLM), it can be recognized that problems such as agricultural image processing, agricultural question answering systems, and agricultural machine automation can all be solved by large models. Large models have great potential in the field of agriculture. We outline the current applications of agricultural large models, and aims to emphasize the importance of large models in the domain of agriculture. In the end, we envisage a future in which famers use MLLM to accomplish many tasks in agriculture, which can greatly improve agricultural production efficiency and yield. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# 言語誘導軌道生成のための運動マニフォールドフロープリミティブ
Motion Manifold Flow Primitives for Language-Guided Trajectory Generation ( http://arxiv.org/abs/2407.19681v1 ) ライセンス: Link先を確認 | Yonghyeon Lee, Byeongho Lee, Seungyeon Kim, Frank C. Park, | (参考訳) テキストベースのロボット軌道生成モデルの開発は、小さなデータセットのサイズ、軌道空間の高次元性、およびテキスト条件運動分布の本質的な複雑さにより、特に困難である。
近年の多様体学習法は, 次元とデータセットサイズの問題に部分的に対処しているが, 複雑なテキスト条件分布に苦慮している。
本稿では,3つの課題すべてに対処する上で,少数の実演軌跡データのみに依存したテキストベーストラジェクトリ生成モデルを提案する。
我々のキーとなる考え方は、高次元軌跡空間ではなく、運動多様体の低次元潜在座標空間において、複雑な条件分布を捉えることができる最近のフローベースモデルを活用することである。
筆者らのMMFPフレームワークは,広範囲のテキスト入力に対して,定性的に異なる動作を正確に生成し,既存の手法よりもはるかに優れていることを示す。
Developing text-based robot trajectory generation models is made particularly difficult by the small dataset size, high dimensionality of the trajectory space, and the inherent complexity of the text-conditional motion distribution. Recent manifold learning-based methods have partially addressed the dimensionality and dataset size issues, but struggle with the complex text-conditional distribution. In this paper we propose a text-based trajectory generation model that attempts to address all three challenges while relying on only a handful of demonstration trajectory data. Our key idea is to leverage recent flow-based models capable of capturing complex conditional distributions, not directly in the high-dimensional trajectory space, but rather in the low-dimensional latent coordinate space of the motion manifold, with deliberately designed regularization terms to ensure smoothness of motions and robustness to text variations. We show that our {\it Motion Manifold Flow Primitive (MMFP)} framework can accurately generate qualitatively distinct motions for a wide range of text inputs, significantly outperforming existing methods. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# ポストホック解釈可能性法のロバスト性を再考する
Revisiting the robustness of post-hoc interpretability methods ( http://arxiv.org/abs/2407.19683v1 ) ライセンス: Link先を確認 | Jiawen Wei, Hugues Turbé, Gianmarco Mengaldo, | (参考訳) ポストホックの解釈可能性法は、訓練されたディープラーニングモデルが決定を下す上で重要であると判断したデータの一部を特定するため、説明可能な人工知能(XAI)において重要な役割を担っている。
しかし、様々なポストホック解釈可能性法は、しばしば異なる結果をもたらし、その正確性に疑問を投げかける。
このため、ポストホック解釈の精度を理解するために、いくつかの評価戦略が提案されている。
これらの評価戦略の多くは、粗大な評価を提供する -- すなわち、複数のサンプルにまたがる異なるデータポイントを破損させることで、モデルの性能が平均的に低下するかを評価する。
これらの戦略は、平均的に最も信頼性の高いポストホック解釈可能性法を選択するのに有効であるが、サンプルレベルの提供に失敗し、詳細評価とも呼ばれる。
言い換えれば、それらはポストホック解釈可能性法の堅牢性を測定するものではない。
本稿では,ポストホック解釈可能性法を詳細に評価するためのアプローチと2つの新しい指標を提案する。
このロバスト性は一般に粗い粒度の性能と関係していることを示す。
Post-hoc interpretability methods play a critical role in explainable artificial intelligence (XAI), as they pinpoint portions of data that a trained deep learning model deemed important to make a decision. However, different post-hoc interpretability methods often provide different results, casting doubts on their accuracy. For this reason, several evaluation strategies have been proposed to understand the accuracy of post-hoc interpretability. Many of these evaluation strategies provide a coarse-grained assessment -- i.e., they evaluate how the performance of the model degrades on average by corrupting different data points across multiple samples. While these strategies are effective in selecting the post-hoc interpretability method that is most reliable on average, they fail to provide a sample-level, also referred to as fine-grained, assessment. In other words, they do not measure the robustness of post-hoc interpretability methods. We propose an approach and two new metrics to provide a fine-grained assessment of post-hoc interpretability methods. We show that the robustness is generally linked to its coarse-grained performance. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# 効率的かつ効果的に:交通分類のための平文と暗号化テキストのバランスをとるための2段階的アプローチ
Efficiently and Effectively: A Two-stage Approach to Balance Plaintext and Encrypted Text for Traffic Classification ( http://arxiv.org/abs/2407.19687v1 ) ライセンス: Link先を確認 | Wei Peng, | (参考訳) 暗号化されたトラフィック分類は、暗号化されたネットワークトラフィックに関連するアプリケーションまたはサービスを特定するタスクである。
このタスクの効果的なアプローチは、ディープラーニングを使って生のトラフィックバイトを直接エンコードし、分類のための機能(バイトベースモデル)を自動的に抽出することである。
しかし、現在のバイトベースのモデルでは、平文や暗号化されたテキストのいずれでも、平文や暗号化されたテキストが下流タスクに与える影響を無視して、自動的な特徴抽出のために生のトラフィックバイトを入力している。
さらに、これらのモデルは主に分類精度の改善に重点を置いており、モデルの効率にはほとんど重点を置いていない。
本稿では,原文と暗号化されたテキストがモデルの有効性と効率に与える影響を初めて分析する。
そこで本研究では,トラフィック分類における平文と暗号化テキストのトレードオフを両立させる2段階の手法を提案する。
具体的には、提案したDPCセレクタを用いて、Plainテキストが正確に分類(DPC)できるかどうかを決定する。
この段階では、平文で分類できるサンプルを素早く特定し、平文で明示的なバイト機能を活用してモデルの効率を高める。
ステージ2は、ステージ1の結果を適応的に分類することを目的としている。
この段階では、平文だけで分類できないサンプルに対して暗号化されたテキスト情報を組み込み、トラフィック分類タスクにおけるモデルの有効性を保証する。
2つのデータセットに対する実験により,提案モデルが有効性と効率の両面で最先端の結果が得られることを示した。
Encrypted traffic classification is the task of identifying the application or service associated with encrypted network traffic. One effective approach for this task is to use deep learning methods to encode the raw traffic bytes directly and automatically extract features for classification (byte-based models). However, current byte-based models input raw traffic bytes, whether plaintext or encrypted text, for automated feature extraction, neglecting the distinct impacts of plaintext and encrypted text on downstream tasks. Additionally, these models primarily focus on improving classification accuracy, with little emphasis on the efficiency of models. In this paper, for the first time, we analyze the impact of plaintext and encrypted text on the model's effectiveness and efficiency. Based on our observations and findings, we propose a two-phase approach to balance the trade-off between plaintext and encrypted text in traffic classification. Specifically, Stage one is to Determine whether the Plain text is enough to be accurately Classified (DPC) using the proposed DPC Selector. This stage quickly identifies samples that can be classified using plaintext, leveraging explicit byte features in plaintext to enhance model's efficiency. Stage two aims to adaptively make a classification with the result from stage one. This stage incorporates encrypted text information for samples that cannot be classified using plaintext alone, ensuring the model's effectiveness on traffic classification tasks. Experiments on two datasets demonstrate that our proposed model achieves state-of-the-art results in both effectiveness and efficiency. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# ロバスト・説明可能な効果予測のための因果干渉予測システム
Causal Interventional Prediction System for Robust and Explainable Effect Forecasting ( http://arxiv.org/abs/2407.19688v1 ) ライセンス: Link先を確認 | Zhixuan Chu, Hui Ding, Guang Zeng, Shiyu Wang, Yiming Li, | (参考訳) 今日の世界でAIシステムが広く利用されているが、多くの現在のAIシステムは、特に最も一般的に使われている予測システムにおいて、隠れバイアスと不足した情報のために脆弱である。
本研究では,AIに基づく予測システムの堅牢性と説明可能性について検討する。
本稿では,効果予測タスクの根底にある因果関係を詳細に分析し,治療,調整変数,共同設立者,成果に基づいて因果グラフを確立する。
そこで我々は,変分オートエンコーダと複数命令の完全条件仕様に基づく因果介入予測システム(CIPS)を設計した。
その結果,本システムは最先端手法よりも優れていることが示され,実際は優れた汎用性と拡張性を示している。
Although the widespread use of AI systems in today's world is growing, many current AI systems are found vulnerable due to hidden bias and missing information, especially in the most commonly used forecasting system. In this work, we explore the robustness and explainability of AI-based forecasting systems. We provide an in-depth analysis of the underlying causality involved in the effect prediction task and further establish a causal graph based on treatment, adjustment variable, confounder, and outcome. Correspondingly, we design a causal interventional prediction system (CIPS) based on a variational autoencoder and fully conditional specification of multiple imputations. Extensive results demonstrate the superiority of our system over state-of-the-art methods and show remarkable versatility and extensibility in practice. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# ボース・アインシュタイン凝縮体における半整数磁気電荷を持つ合成モノポール
Synthetic monopole with half-integer magnetic charge in Bose-Einstein condensates ( http://arxiv.org/abs/2407.19690v1 ) ライセンス: Link先を確認 | Xi-Yu Chen, Lijia Jiang, Wen-Kai Bai, Tao Yang, Jun-Hui Zheng, | (参考訳) スピンフルコールド原子系における半整数磁気電荷を持つモノポールの生成手法を提案する。
中心に極小単極を配置することにより、球面上の基底状態単渦波関数を導出し、外部電磁場の存在下で渦の運動方程式を開発する。
渦の軌跡は一般にシステムの優越性によって描写される。
我々はさらに渦間相互作用を定式化し、高電荷モノポール系における多渦力学の理論を構築した。
両渦系における渦の軌跡を予測し,多渦系における安定渦(直線)パターンを導出する。
本研究は, 磁気モノポールと渦の性質を深く把握し, 実験的検証の道を開くものである。
We propose a scheme to create monopoles with half-integer magnetic charges in a spinful cold atom system. With a minimal monopole in the center, we derive the ground-state single-vortex wave function on the sphere and develop the vortex's kinematic equation in the presence of an external electromagnetic field. The vortex's trajectory is generally depicted by the precession of the system. We further formulate the inter-vortex interaction and build up a theory of multi-vortex dynamics in high-charge monopole systems. We predict the vortices'trajectory in the bi-vortex system and figure out stable vortex (line) patterns in multi-vortex systems. Our study provides deep insights into properties of magnetic monopoles and vortices and paves the way for experimental verification. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# ダイヤモンド中の単一NV中心を用いた2つの電子スピンの電子常磁性共鳴の検出
Detection of Electron Paramagnetic Resonance of Two Electron Spins Using a Single NV Center in Diamond ( http://arxiv.org/abs/2407.19691v1 ) ライセンス: Link先を確認 | Yuhang Ren, Susumu Takahashi, | (参考訳) 相互作用するスピン系は、基本的な量子物理学と量子センシングと量子シミュレーションへの応用のための優れたテストベッドである。
これらの研究のためには、例えばスピンの数とその相互作用強度など、相互作用の詳細な情報が必要である。
本研究では、2つの電子スピンに結合した1つの窒素空孔(NV)中心の同定と特性について述べる。
実験では、まず孤立した単一NV中心を同定し、スピンデコヒーレンス時間を特徴付ける。
そして、NV検出電子常磁性共鳴(EPR)分光を行い、周囲の電子スピンを検出する。
NV-EPR信号の解析から,検出されたスピンの数とその相互作用強度を正確に決定する。
さらに、スペクトル分析により、検出されたスピンがダイヤモンド表面スピンである可能性が示唆された。
本研究は、電子スピンを量子レポーターとして用い、絡み合ったセンシングを実現するための相互作用するスピンシステムの同定とキャラクタリゼーションのための有望なアプローチを示す。
An interacting spin system is a great testbed for fundamental quantum physics and applications in quantum sensing and quantum simulation. For these investigations, detailed information of the interactions, e.g. the number of spins and their interaction strengths, is often required. In this study, we present the identification and characterization of a single nitrogen-vacancy (NV) center coupled to two electron spins. In the experiment, we first identify a well isolated single NV center, and characterize its spin decoherence time. Then we perform NV-detected electron paramagnetic resonance (EPR) spectroscopy to detect surrounding electron spins. From the analysis of the NV-EPR signal, we determine the number of detected spins and their interaction strengths precisely. Moreover, the spectral analysis indicates candidates of the detected spins to be diamond surface spins. This study demonstrates a promising approach for the identification and characterization of an interacting spin system for realizing entangled sensing, using the electron spin as quantum reporters. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# 体積評価を伴う階層的損傷情報による構造的損傷検出
Structural damage detection via hierarchical damage information with volumetric assessment ( http://arxiv.org/abs/2407.19694v1 ) ライセンス: Link先を確認 | Isaac Osei Agyemang, Jianwen Chen, Liaoyuan Zeng, Isaac Adjei-Mensah, Daniel Acheampong, Gordon Owusu Boateng, Adu Asare Baffour, | (参考訳) 画像環境とノイズラベルは、構造的損傷検出における深層学習に基づく推論モデルを妨げる。
検出後、検出された損傷のマニュアル評価に依存することが課題である。
その結果,GAM(Generative Attention Module),HEA(Hierarchical Elimination Algorithm),VCVA(Volumetric Contour Visual Assessment)を特徴とする Guided-DetNet が提案され,複雑な画像環境,ノイズラベリング,および後手による構造損傷の評価を行う。
GAMは、クロス水平およびクロス垂直のパッチマージとクロスフォアグラウンド・バックグラウンド機能融合を利用して、複雑な画像環境を緩和する様々な特徴を生成する。
HEAは、クラス間の階層的関係を用いたノイズラベリングに対処し、不可能なクラスカテゴリを排除することで、画像のインスタンスを洗練する。
VCVAは、ディラックデルタ分布を利用した体積表現と定量化によって検出された損傷の重症度を評価する。
包括的な定量的研究と2つの堅牢性テスト、PEER Hub Image-Netデータセットに基づくアプリケーションシナリオは、 Guided-DetNetの有望なパフォーマンスを裏付けている。
Guided-DetNetは、トリプル分類タスクにおいて最もよく比較されたモデルよりも3%以下で、メトリクスの異なる二重検出タスクでは2%以下で優れていた。
Image environments and noisy labels hinder deep learning-based inference models in structural damage detection. Post-detection, there is the challenge of reliance on manual assessments of detected damages. As a result, Guided-DetNet, characterized by Generative Attention Module (GAM), Hierarchical Elimination Algorithm (HEA), and Volumetric Contour Visual Assessment (VCVA), is proposed to mitigate complex image environments, noisy labeling, and post-detection manual assessment of structural damages. GAM leverages cross-horizontal and cross-vertical patch merging and cross foreground-background feature fusion to generate varied features to mitigate complex image environments. HEA addresses noisy labeling using hierarchical relationships among classes to refine instances given an image by eliminating unlikely class categories. VCVA assesses the severity of detected damages via volumetric representation and quantification leveraging the Dirac delta distribution. A comprehensive quantitative study, two robustness tests, and an application scenario based on the PEER Hub Image-Net dataset substantiate Guided-DetNet's promising performances. Guided-DetNet outperformed the best-compared models in a triple classification task by a difference of not less than 3% and not less than 2% in a dual detection task under varying metrics. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# 空中画像における小型物体検出用クロス層型ピラミッド変圧器
Cross-Layer Feature Pyramid Transformer for Small Object Detection in Aerial Images ( http://arxiv.org/abs/2407.19696v1 ) ライセンス: Link先を確認 | Zewen Du, Zhenjiang Hu, Guiyu Zhao, Ying Jin, Hongbin Ma, | (参考訳) 空中画像における物体検出は、通常、物体のサイズが小さいため、常に困難な作業であった。
現在の検出器の多くは新しい検出フレームワークを優先しており、しばしば特徴ピラミッドネットワークのような基本的なコンポーネントの研究を見落としている。
本稿では,空中画像における小物体検出に特化して設計された,新しいアップサンプラーレス特徴ピラミッドネットワークであるCFPTについて紹介する。
CFPTには、CCA(Cross-Layer Channel-Wise Attention)とCSA(Cross-Layer Space-Wise Attention)という2つの細心の注意ブロックが組み込まれている。
CCAは、チャネル単位のトークン群を分割して、空間次元に沿った層間グローバル情報を知覚し、CSAは、チャネル次元に沿った層間グローバル情報を知覚することで、層間インタラクションを実現する。
これらのモジュールを統合することで、CFPTは1ステップで層間相互作用を可能にし、要素の和や層間伝達に関連する意味的ギャップや情報損失を回避することができる。
さらに、CFPTにはグローバルなコンテキスト情報が含まれており、小さなオブジェクトに対する検出性能が向上する。
層間相互作用における位置認識をさらに高めるため,層間相互受容場に基づくCCPE(Cross-Layer Consistent Relative Positional Encoding)を提案する。
CFPTの空中画像における2つの困難な物体検出データセット(VisDrone2019-DETとTinyPerson)に対する有効性を評価する。
計算コストの低減を図りながら、最先端のピラミッドネットワークよりも優れたCFPTの有効性を示す大規模な実験を行った。
コードはhttps://github.com/duzw9311/CFPTで公開される。
Object detection in aerial images has always been a challenging task due to the generally small size of the objects. Most current detectors prioritize novel detection frameworks, often overlooking research on fundamental components such as feature pyramid networks. In this paper, we introduce the Cross-Layer Feature Pyramid Transformer (CFPT), a novel upsampler-free feature pyramid network designed specifically for small object detection in aerial images. CFPT incorporates two meticulously designed attention blocks with linear computational complexity: the Cross-Layer Channel-Wise Attention (CCA) and the Cross-Layer Spatial-Wise Attention (CSA). CCA achieves cross-layer interaction by dividing channel-wise token groups to perceive cross-layer global information along the spatial dimension, while CSA completes cross-layer interaction by dividing spatial-wise token groups to perceive cross-layer global information along the channel dimension. By integrating these modules, CFPT enables cross-layer interaction in one step, thereby avoiding the semantic gap and information loss associated with element-wise summation and layer-by-layer transmission. Furthermore, CFPT incorporates global contextual information, which enhances detection performance for small objects. To further enhance location awareness during cross-layer interaction, we propose the Cross-Layer Consistent Relative Positional Encoding (CCPE) based on inter-layer mutual receptive fields. We evaluate the effectiveness of CFPT on two challenging object detection datasets in aerial images, namely VisDrone2019-DET and TinyPerson. Extensive experiments demonstrate the effectiveness of CFPT, which outperforms state-of-the-art feature pyramid networks while incurring lower computational costs. The code will be released at https://github.com/duzw9311/CFPT. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# 長期作業負荷予測のためのマルチスケール表現強化時流融合モデル
Multiscale Representation Enhanced Temporal Flow Fusion Model for Long-Term Workload Forecasting ( http://arxiv.org/abs/2407.19697v1 ) ライセンス: Link先を確認 | Shiyu Wang, Zhixuan Chu, Yinbo Sun, Yu Liu, Yuliang Guo, Yang Chen, Huiyang Jian, Lintao Ma, Xingyu Lu, Jun Zhou, | (参考訳) 正確なワークロード予測は、クラウドコンピューティングシステムにおける効率的なリソース管理に不可欠であり、効率的なスケジューリングと自動スケーリングを可能にする。
トランスフォーマーベースの予測モデルによる最近の進歩にもかかわらず、ワークロード時系列の非定常的、非線形特性と長期的依存関係による課題が残っている。
特に、長期履歴と短期予測の矛盾した性能は、長距離予測を妨げる。
本稿では,自己指導型マルチスケール表現学習を利用して,長期および短期のワークロードパターンを抽出する新しいフレームワークを提案する。
長期履歴はマルチスケール表現によって符号化され、短期観測は時流融合によってモデル化される。
これらの異なるスケールの表現は、注意機構を用いて融合され、時系列の非ガウス的/非線形分布を扱うための正規化フローが特徴である。
9つのベンチマークの大規模な実験は、既存の方法よりも優れていることを示している。
Accurate workload forecasting is critical for efficient resource management in cloud computing systems, enabling effective scheduling and autoscaling. Despite recent advances with transformer-based forecasting models, challenges remain due to the non-stationary, nonlinear characteristics of workload time series and the long-term dependencies. In particular, inconsistent performance between long-term history and near-term forecasts hinders long-range predictions. This paper proposes a novel framework leveraging self-supervised multiscale representation learning to capture both long-term and near-term workload patterns. The long-term history is encoded through multiscale representations while the near-term observations are modeled via temporal flow fusion. These representations of different scales are fused using an attention mechanism and characterized with normalizing flows to handle non-Gaussian/non-linear distributions of time series. Extensive experiments on 9 benchmarks demonstrate superiority over existing methods. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# 分類事項:クラス別注意による映像行動検出の改善
Classification Matters: Improving Video Action Detection with Class-Specific Attention ( http://arxiv.org/abs/2407.19698v1 ) ライセンス: Link先を確認 | Jinsung Lee, Taeoh Kim, Inwoong Lee, Minho Shim, Dongyoon Wee, Minsu Cho, Suha Kwak, | (参考訳) ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。
VADはアクターのローカライゼーションよりも分類に苦しむ。
そこで,本研究では,一般的な手法が分類のための特徴をどう形成するかを分析し,それらがアクター領域を優先するが,正確な分類に必要なコンテキスト情報を見越すことが多い。
そこで我々は,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。
クラス指定クエリを各アクションクラスに割り当てることで、モデルが効果的に分類する場所を動的に決定できる。
提案モデルでは,パラメータが大幅に少なく,計算量も少ない3つのベンチマークにおいて,優れた性能を示す。
Video action detection (VAD) aims to detect actors and classify their actions in a video. We figure that VAD suffers more from classification rather than localization of actors. Hence, we analyze how prevailing methods form features for classification and find that they prioritize actor regions, yet often overlooking the essential contextual information necessary for accurate classification. Accordingly, we propose to reduce the bias toward actor and encourage paying attention to the context that is relevant to each action class. By assigning a class-dedicated query to each action class, our model can dynamically determine where to focus for effective classification. The proposed model demonstrates superior performance on three challenging benchmarks with significantly fewer parameters and less computation. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# 効率的なビザンチン・ロバストと多分プライバシー保護フェデレーション学習
Efficient Byzantine-Robust and Provably Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2407.19703v1 ) ライセンス: Link先を確認 | Chenfei Nie, Qiang Li, Yuxin Yang, Yuede Ji, Binghui Wang, | (参考訳) フェデレートラーニング(FL)は、クライアントのプライベートデータを共有せずに、新たな分散ラーニングパラダイムである。
しかし、既存の研究によると、FLはビザンツ(セキュリティ)攻撃とデータ再構築(プライバシ)攻撃の両方に脆弱である。
既存のFL守備隊はほとんどが2つの攻撃のうちの1つに対処している。
いくつかの防衛策は2つの攻撃に対処するが、効果は高く、効果は十分ではない。
本稿では,Byzantine-robust の効率的な BPFL 法を提案する。
具体的には、最先端のByzantine-robust FL法と類似度を用いて、FLにおける各クライアントのロバスト性を測定する。
クライアントの妥当性は、類似度指標の回路制約として定式化され、ゼロ知識証明によって検証される。
さらに、クライアントモデルは、同型暗号化に基づいて生成される共有ランダムベクトルによって隠蔽される。
そうすることで、サーバは、プライベートであることが証明された真のクライアントモデルではなく、マスキングされたクライアントモデルを受け取る。
BPFLは非相互作用ゼロ知識証明の使用により効率的である。
BPFLはByzantine-robust, およびプライバシ保存が効果的であることを示す。
Federated learning (FL) is an emerging distributed learning paradigm without sharing participating clients' private data. However, existing works show that FL is vulnerable to both Byzantine (security) attacks and data reconstruction (privacy) attacks. Almost all the existing FL defenses only address one of the two attacks. A few defenses address the two attacks, but they are not efficient and effective enough. We propose BPFL, an efficient Byzantine-robust and provably privacy-preserving FL method that addresses all the issues. Specifically, we draw on state-of-the-art Byzantine-robust FL methods and use similarity metrics to measure the robustness of each participating client in FL. The validity of clients are formulated as circuit constraints on similarity metrics and verified via a zero-knowledge proof. Moreover, the client models are masked by a shared random vector, which is generated based on homomorphic encryption. In doing so, the server receives the masked client models rather than the true ones, which are proven to be private. BPFL is also efficient due to the usage of non-interactive zero-knowledge proof. Experimental results on various datasets show that our BPFL is efficient, Byzantine-robust, and privacy-preserving. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# CollectiveSFT:中国医学ベンチマークのための大規模言語モデルのスケーリングと医療における集団指導
CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare ( http://arxiv.org/abs/2407.19705v1 ) ライセンス: Link先を確認 | Jingwei Zhu, Minghuan Tan, Min Yang, Ruixue Li, Hamid Alinejad-Rokny, | (参考訳) LLM(Large Language Models)の急速な進歩は、その能力を評価するための多数のベンチマークの作成を促している。この研究は、中国語(CMB)の包括的医療ベンチマーク(Comprehensive Medical Benchmark)に焦点を当て、教師付き微調整(SFT)におけるデータセットの多様性と分散がLLMのパフォーマンスを向上する可能性を示している。
以上の結果から,より広い範囲のトレーニングデータにより,データセットの品質と微調整プロセスにおける多様性の重要性を浮き彫りにして,さまざまな医療シナリオをまたがってモデルを一般化し,効果的に実行する能力が向上する可能性が示唆された。
The rapid progress in Large Language Models (LLMs) has prompted the creation of numerous benchmarks to evaluate their capabilities.This study focuses on the Comprehensive Medical Benchmark in Chinese (CMB), showcasing how dataset diversity and distribution in supervised fine-tuning (SFT) may enhance LLM performance.Remarkably, We successfully trained a smaller base model to achieve scores comparable to larger models, indicating that a diverse and well-distributed dataset can optimize performance regardless of model size.This study suggests that even smaller models may reach high performance levels with carefully curated and varied datasets.By integrating a wide range of instructional content, our approach addresses potential issues such as data quality inconsistencies. Our results imply that a broader spectrum of training data may enhance a model's ability to generalize and perform effectively across different medical scenarios, highlighting the importance of dataset quality and diversity in fine-tuning processes. | 翻訳日:2024-07-30 15:06:20 公開日:2024-07-29 |
# 不均一拡大による光空洞内スピン自己組織化
Spin-self-organization in an optical cavity facilitated by inhomogeneous broadening ( http://arxiv.org/abs/2407.19706v1 ) ライセンス: Link先を確認 | Marc Nairn, Luigi Giannelli, Giovanna Morigi, Sebastian Slama, Beatriz Olmos, Simon B. Jäger, | (参考訳) 光キャビティに閉じ込められた駆動二層原子の熱アンサンブルにおける集合スピン自己組織化の開始について検討した。
原子は自発的に臨界駆動強度の上にスピンパターンを形成し、しきい値を設定し、空洞パラメータ、初期温度、原子スピンの遷移周波数によって決定される。
顕著なことに、不均一なドップラー拡張はスピン自己組織化の開始を促進する。
特に、スピン遷移周波数を増大させるときの閾値は非単調であり、ドップラー拡大が同じ大きさであるときの最小値に達する。
この特徴はドップラー誘発性共鳴によって生じる。
しきい値を超えると、密度変調、運動エネルギーの高速化、非熱状態の出現につながるスピン、空間、運動量自由度の協調力学が見つかる。
より広範に、我々の研究は、多体システムにおける強力な光-物質相互作用をいかに促進するかを示す。
We study the onset of collective spin-self-organization in a thermal ensemble of driven two-level atoms confined in an optical cavity. The atoms spontaneously form a spin-pattern above a critical driving strength that sets a threshold and is determined by the cavity parameters, the initial temperature, and the transition frequency of the atomic spin. Remarkably, we find that inhomogeneous Doppler broadening facilitates the onset of spin-self-organization. In particular, the threshold is non-monotonic when increasing the spin transition frequency and reaches a minimum when the Doppler broadening is of similar magnitude. This feature emerges due to Doppler-induced resonances. Above the threshold, we find cooperative dynamics of spin, spatial, and momentum degrees of freedom leading to density modulations, fast reduction of kinetic energy, and the emergence of non-thermal states. More broadly, our work demonstrates how broadening can facilitate strong light-matter interactions in many-body systems. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# 偏微分方程式における定常状態の分岐・線形安定解析のためのニューラルネットワーク
Neural networks for bifurcation and linear stability analysis of steady states in partial differential equations ( http://arxiv.org/abs/2407.19707v1 ) ライセンス: Link先を確認 | Muhammad Luthfi Shahab, Hadi Susanto, | (参考訳) 本研究では、非線形偏微分方程式(PDE)の解法にニューラルネットワークを応用した。
パラメータ化された非線形PDEから分岐図を構築するために、擬弧継続と組み合わせたニューラルネットワークを提案する。
さらに、解の線形安定性を分析するために固有値問題を解くニューラルネットワークアプローチも提示され、最大の固有値の同定に焦点が当てられている。
提案したニューラルネットワークの有効性は、ブラトゥー方程式とバーガース方程式の実験を通して検証される。
有限差分法の結果も比較として示す。
各ケースにおいて、ニューラルネットワークと有限差分法の両方の挙動と精度を評価するために、格子点のバリアリング数を用いる。
実験の結果、提案したニューラルネットワークはより良い解を生成し、より正確な分岐図を生成し、合理的な計算時間を持ち、線形安定性解析に有効であることを証明した。
This research introduces an extended application of neural networks for solving nonlinear partial differential equations (PDEs). A neural network, combined with a pseudo-arclength continuation, is proposed to construct bifurcation diagrams from parameterized nonlinear PDEs. Additionally, a neural network approach is also presented for solving eigenvalue problems to analyze solution linear stability, focusing on identifying the largest eigenvalue. The effectiveness of the proposed neural network is examined through experiments on the Bratu equation and the Burgers equation. Results from a finite difference method are also presented as comparison. Varying numbers of grid points are employed in each case to assess the behavior and accuracy of both the neural network and the finite difference method. The experimental results demonstrate that the proposed neural network produces better solutions, generates more accurate bifurcation diagrams, has reasonable computational times, and proves effective for linear stability analysis. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# ALEN: 均一かつ非均一な低光画像強調のためのデュアルアプリケーション
ALEN: A Dual-Approach for Uniform and Non-Uniform Low-Light Image Enhancement ( http://arxiv.org/abs/2407.19708v1 ) ライセンス: Link先を確認 | Ezequiel Perez-Zarate, Oscar Ramos-Soto, Diego Oliva, Marco Perez-Cisneros, | (参考訳) 低照度画像強調はコンピュータビジョンにおいて重要な課題であり、最適でない照明条件下で撮影された画像の可視性と品質を向上させるために不可欠である。
不適切な照明は、情報損失や画質の低下を招き、監視などの様々な応用に影響を及ぼす可能性がある。
写真とか自動運転とか
この点に関して、画像の照明を自動的に調整して視覚的知覚を改善する自動手法が開発されている。
現在の拡張技術は、しばしば特定のデータセットを使用して低照度画像を強化するが、照明劣化が特定の領域に局所化されるような様々な現実世界の条件に適応する際には、依然として課題が存在する。
この課題に対処するために、アダプティブ・ライト・エンハンスメント・ネットワーク(ALEN)を導入し、その主なアプローチは、局所照明とグローバル照明の強化が必要であるかどうかを決定するための分類機構を使用することである。
その後、推定器ネットワークは、この分類に基づいて照明を調整し、同時に色の忠実度を向上する。
ALENは、発光分類のための光分類ネットワーク(LCNet)を統合し、SCNet(Single-Channel Network)とMCNet(Multi-Channel Network)によって補完され、それぞれ照明と色を正確に推定する。
ALENの堅牢な一般化能力を評価するために、低照度条件下での公開データセットに関する大規模な実験を行い、最近の最先端手法と比較して、定量測定と定性評価の両方において優れた性能を示した。
ALENは、視覚的知覚の観点から画像品質を高めるだけでなく、この研究で示された意味的セグメンテーションのような高レベルの視覚タスクの進歩も表している。
このメソッドのコードはhttps://github.com/xingyumex/ALENで公開されている。
Low-light image enhancement is an important task in computer vision, essential for improving the visibility and quality of images captured in non-optimal lighting conditions. Inadequate illumination can lead to significant information loss and poor image quality, impacting various applications such as surveillance. photography, or even autonomous driving. In this regard, automated methods have been developed to automatically adjust illumination in the image for a better visual perception. Current enhancement techniques often use specific datasets to enhance low-light images, but still present challenges when adapting to diverse real-world conditions, where illumination degradation may be localized to specific regions. To address this challenge, the Adaptive Light Enhancement Network (ALEN) is introduced, whose main approach is the use of a classification mechanism to determine whether local or global illumination enhancement is required. Subsequently, estimator networks adjust illumination based on this classification and simultaneously enhance color fidelity. ALEN integrates the Light Classification Network (LCNet) for illuminance categorization, complemented by the Single-Channel Network (SCNet), and Multi-Channel Network (MCNet) for precise estimation of illumination and color, respectively. Extensive experiments on publicly available datasets for low-light conditions were carried out to underscore ALEN's robust generalization capabilities, demonstrating superior performance in both quantitative metrics and qualitative assessments when compared to recent state-of-the-art methods. The ALEN not only enhances image quality in terms of visual perception but also represents an advancement in high-level vision tasks, such as semantic segmentation, as presented in this work. The code of this method is available at https://github.com/xingyumex/ALEN. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# TVDiag:マルチモーダルデータを用いたタスク指向・ビュー不変の故障診断フレームワーク
TVDiag: A Task-oriented and View-invariant Failure Diagnosis Framework with Multimodal Data ( http://arxiv.org/abs/2407.19711v1 ) ライセンス: Link先を確認 | Shuaiyu Xie, Jian Wang, Hanbin He, Zhihao Wang, Yuqi Zhao, Neng Zhang, Bing Li, | (参考訳) マイクロサービスベースのシステムは、複雑なインタラクションとスケールの拡大によって、信頼性上の問題に悩まされることが多い。
観測可能性技術の急速な成長に伴い、ログやメトリクス、トレースといった多様なモニタリングデータを活用することにより、根本原因のローカライゼーションや障害タイプ識別など、さまざまな障害診断を実現する方法が提案されている。
しかし、単一モーダルデータを使用する従来の障害診断手法では、制限された情報のため、すべての障害シナリオをほとんどカバーできない。
近年,深層学習に基づくマルチモーダルデータ統合のための故障診断手法が提案されている。
しかしながら、これらの手法は、特定のモダリティと異なる診断タスクとの関係を無視して、非差別的にモダリティを結合し、障害診断においてそれらを等しく扱う傾向にある。
この監視は、各モダリティが提供するユニークな利点の有効利用を妨げる。
この制限に対処するため、我々は、マイクロサービスベースのシステムにおいて、犯人のマイクロサービスインスタンスを特定し、それらの障害タイプ(Net-packets Corruptionなど)を特定するためのマルチモーダルな障害診断フレームワークである、‘textit{TVDiag}’を提案する。
\textit{TVDiag} はタスク指向学習を用いて各モダリティの潜在的な優位性を高め、対照的な学習に基づくクロスモーダルなアソシエーションを確立し、ビュー不変の障害情報を抽出する。
さらに、トレーニング中の通常のマイクロサービスインスタンスの可観測性をランダムに不活性化するグラフレベルのデータ拡張戦略を開発し、トレーニングデータの不足を軽減する。
実験結果によると、‘textit{TVDiag} はマルチモーダル故障診断における最先端の手法よりも優れており、2つのデータセットで F1スコアが4.08 %以上上昇し、少なくとも55.94 %高いHR@1$精度を達成した。
Microservice-based systems often suffer from reliability issues due to their intricate interactions and expanding scale. With the rapid growth of observability techniques, various methods have been proposed to achieve failure diagnosis, including root cause localization and failure type identification, by leveraging diverse monitoring data such as logs, metrics, or traces. However, traditional failure diagnosis methods that use single-modal data can hardly cover all failure scenarios due to the restricted information. Several failure diagnosis methods have been recently proposed to integrate multimodal data based on deep learning. These methods, however, tend to combine modalities indiscriminately and treat them equally in failure diagnosis, ignoring the relationship between specific modalities and different diagnostic tasks. This oversight hinders the effective utilization of the unique advantages offered by each modality. To address the limitation, we propose \textit{TVDiag}, a multimodal failure diagnosis framework for locating culprit microservice instances and identifying their failure types (e.g., Net-packets Corruption) in microservice-based systems. \textit{TVDiag} employs task-oriented learning to enhance the potential advantages of each modality and establishes cross-modal associations based on contrastive learning to extract view-invariant failure information. Furthermore, we develop a graph-level data augmentation strategy that randomly inactivates the observability of some normal microservice instances during training to mitigate the shortage of training data. Experimental results show that \textit{TVDiag} outperforms state-of-the-art methods in multimodal failure diagnosis, achieving at least a 55.94\% higher $HR@1$ accuracy and over a 4.08\% increase in F1-score across two datasets. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# 外科的データセットのセマンティックセグメンテーションにおけるRGB-Dフュージョンの再考
Rethinking RGB-D Fusion for Semantic Segmentation in Surgical Datasets ( http://arxiv.org/abs/2407.19714v1 ) ライセンス: Link先を確認 | Muhammad Abdullah Jamal, Omid Mohareri, | (参考訳) 外科的シーン理解は、外科的介入の様々な側面を変換できるインテリジェントでコンテキストを認識したシステムを実現するための重要な技術要素である。
本研究では、セマンティックセグメンテーションタスクに着目し、SurgDepthと呼ばれるシンプルで効果的なマルチモーダル(RGBと深さ)トレーニングフレームワークを提案し、このタスクに適用可能なすべての公開データセットに対して、最先端(SOTA)結果を示す。
自然画像で訓練されたSOTAセグメンテーションモデルやRGBまたはRGB-D情報を事前に訓練されたバックボーンのみを用いてエンコードする従来のアプローチとは異なり、ViT(Vision Transformer)上に構築されたSurgDepthは、単純な融合機構によってRGBと深度の両方の情報をエンコードするように設計されている。
我々は、SurgDepthの有効性を検証するために、EndoVis2022、AutoLapro、LapI2I、EndoVis2017などのベンチマークデータセットに対して広範な実験を行った。
具体的には、SurgDepthはEndoVis 2022 SAR-RARP50チャレンジで0.86の新しいSOTA IoUを達成し、ConvNeXtブロックからなる浅く効率的なデコーダを使用して、現在のベストメソッドを少なくとも4%上回っている。
Surgical scene understanding is a key technical component for enabling intelligent and context aware systems that can transform various aspects of surgical interventions. In this work, we focus on the semantic segmentation task, propose a simple yet effective multi-modal (RGB and depth) training framework called SurgDepth, and show state-of-the-art (SOTA) results on all publicly available datasets applicable for this task. Unlike previous approaches, which either fine-tune SOTA segmentation models trained on natural images, or encode RGB or RGB-D information using RGB only pre-trained backbones, SurgDepth, which is built on top of Vision Transformers (ViTs), is designed to encode both RGB and depth information through a simple fusion mechanism. We conduct extensive experiments on benchmark datasets including EndoVis2022, AutoLapro, LapI2I and EndoVis2017 to verify the efficacy of SurgDepth. Specifically, SurgDepth achieves a new SOTA IoU of 0.86 on EndoVis 2022 SAR-RARP50 challenge and outperforms the current best method by at least 4%, using a shallow and compute efficient decoder consisting of ConvNeXt blocks. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# 適応被覆入力領域の回帰と分類のための一般化境界
Generalization bounds for regression and classification on adaptive covering input domains ( http://arxiv.org/abs/2407.19715v1 ) ライセンス: Link先を確認 | Wen-Liang Hwang, | (参考訳) 我々の主な焦点は一般化境界であり、一般化誤差の上限となる。
我々の分析は、徹底的な検査を確保するために、回帰と分類のタスクを別々に検討する。
対象関数は実数値であり、回帰タスクに対してはリプシッツが連続的であると仮定する。
予測値と実値の差を測定するために, 2-norm と root-mean-square-error (RMSE) の変種を用いる。
分類タスクの場合、対象関数を1ホットの分類器として扱い、断片的定数関数を表現し、誤差測定に0/1の損失を用いる。
本分析は、一般化境界の濃度不等式を達成するために必要なサンプルの複雑さの相違を明らかにし、回帰および分類タスクにおける学習効率のばらつきを浮き彫りにする。
さらに、回帰関数と分類関数の一般化境界は、ネットワーク内のパラメータ数の多項式に逆比例することを示した。
これらの知見は、過パラメータ化ネットワークの利点を強調し、これらのシステムにおける良性オーバーフィッティングの条件を明らかにする。
Our main focus is on the generalization bound, which serves as an upper limit for the generalization error. Our analysis delves into regression and classification tasks separately to ensure a thorough examination. We assume the target function is real-valued and Lipschitz continuous for regression tasks. We use the 2-norm and a root-mean-square-error (RMSE) variant to measure the disparities between predictions and actual values. In the case of classification tasks, we treat the target function as a one-hot classifier, representing a piece-wise constant function, and employ 0/1 loss for error measurement. Our analysis underscores the differing sample complexity required to achieve a concentration inequality of generalization bounds, highlighting the variation in learning efficiency for regression and classification tasks. Furthermore, we demonstrate that the generalization bounds for regression and classification functions are inversely proportional to a polynomial of the number of parameters in a network, with the degree depending on the hypothesis class and the network architecture. These findings emphasize the advantages of over-parameterized networks and elucidate the conditions for benign overfitting in such systems. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# 都市安全知覚評価の革新化:ストリートビュー画像による多モーダル大言語モデルの統合
Revolutionizing Urban Safety Perception Assessments: Integrating Multimodal Large Language Models with Street View Images ( http://arxiv.org/abs/2407.19719v1 ) ライセンス: Link先を確認 | Jiaxin Zhanga, Yunqin Lia, Tomohiro Fukudab, Bowen Wang, | (参考訳) 都市の安全知覚を測定することは、伝統的に人的資源に大きく依存する重要かつ複雑な作業である。
このプロセスには、広範囲にわたるフィールドサーベイ、手動データ収集、主観的評価が含まれており、時間を要する、コストがかかる、時には矛盾することもある。
ストリートビュー画像(SVI)は、ディープラーニング手法とともに、大規模な都市安全検出を実現する手段を提供する。
しかし、この目標を達成するには、安全ランキングモデルをトレーニングするための広範囲な人的アノテーションが必要であることが多く、都市間の建築的差異は、これらのモデルの転送可能性を妨げる。
したがって,安全性評価を行う完全自動化手法が不可欠である。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、強力な推論と分析能力を示している。
カットエッジモデル、例えば、GPT-4は、多くのタスクにおいて驚くべきパフォーマンスを示している。
これらのモデルを用いて、人間の注釈付きアンカーセット上での安全性評価を行い、MLLMの結果が人間の知覚と密接に一致していることを検証する。
さらに, 都市全体の安全指標を迅速に評価するために, CLIP機能とK-Nearest Neighbors(K-NN)検索に基づく手法を提案する。
実験の結果,提案手法は既存の学習方法よりも優れており,効率的かつ正確な都市安全評価を実現することができることがわかった。
都市安全認識評価のための自動化は、都市計画者、政策立案者、都市環境改善を目的とした研究者にとって貴重なツールである。
Measuring urban safety perception is an important and complex task that traditionally relies heavily on human resources. This process often involves extensive field surveys, manual data collection, and subjective assessments, which can be time-consuming, costly, and sometimes inconsistent. Street View Images (SVIs), along with deep learning methods, provide a way to realize large-scale urban safety detection. However, achieving this goal often requires extensive human annotation to train safety ranking models, and the architectural differences between cities hinder the transferability of these models. Thus, a fully automated method for conducting safety evaluations is essential. Recent advances in multimodal large language models (MLLMs) have demonstrated powerful reasoning and analytical capabilities. Cutting-edge models, e.g., GPT-4 have shown surprising performance in many tasks. We employed these models for urban safety ranking on a human-annotated anchor set and validated that the results from MLLMs align closely with human perceptions. Additionally, we proposed a method based on the pre-trained Contrastive Language-Image Pre-training (CLIP) feature and K-Nearest Neighbors (K-NN) retrieval to quickly assess the safety index of the entire city. Experimental results show that our method outperforms existing training needed deep learning approaches, achieving efficient and accurate urban safety evaluations. The proposed automation for urban safety perception assessment is a valuable tool for city planners, policymakers, and researchers aiming to improve urban environments. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# Rina: 分散モデルトレーニングにおけるネットワーク内のアグリゲーションによるRing-All Reduceの強化
Rina: Enhancing Ring-AllReduce with In-network Aggregation in Distributed Model Training ( http://arxiv.org/abs/2407.19721v1 ) ライセンス: Link先を確認 | Zixuan Chen, Xuandong Liu, Minglin Li, Yinfan Hu, Hao Mei, Huifeng Xing, Hao Wang, Wanxin Shi, Sen Liu, Yang Xu, | (参考訳) パラメータサーバ (PS) と Ring-AllReduce (RAR) は、分散ディープラーニング (DDL) とも呼ばれる多人数のDeep Learning (DL) において広く使われている同期アーキテクチャである。
しかし、PSは 'incast' 問題で問題に遭遇し、RARは長い依存関係チェーンによって引き起こされる問題に苦労する。
新たなIn-network Aggregation (INA) は、PSと統合してインキャスト問題を緩和するために提案されている。
しかし、PSベースのINAは、コスト効率の悪い大幅なパフォーマンス向上を示すためにすべてのスイッチを交換する必要があるため、インクリメンタルなデプロイメント能力が劣っている。
本研究では、上記2つの問題に対処するため、RAR with In-Network Aggregation (Rina) と呼ばれる INA 機能を RAR に組み込むことを提案する。
リナはエージェント・ワーカー・メカニズムを特徴としている。
INA対応のToRスイッチがデプロイされると、このラック内のすべてのワーカーはエージェントの助けを借りてひとつの抽象化されたワーカーとして実行される。
我々は,既存のDDL学習同期構造よりもRinaのスループットの利点を実証するために,広範囲なテストベッドおよびシミュレーション評価を行った。
最先端のPSベースのINAメソッドATPと比較して、Rinaは同じハードウェアコストで50\%以上のスループットを達成することができる。
Parameter Server (PS) and Ring-AllReduce (RAR) are two widely utilized synchronization architectures in multi-worker Deep Learning (DL), also referred to as Distributed Deep Learning (DDL). However, PS encounters challenges with the ``incast'' issue, while RAR struggles with problems caused by the long dependency chain. The emerging In-network Aggregation (INA) has been proposed to integrate with PS to mitigate its incast issue. However, such PS-based INA has poor incremental deployment abilities as it requires replacing all the switches to show significant performance improvement, which is not cost-effective. In this study, we present the incorporation of INA capabilities into RAR, called RAR with In-Network Aggregation (Rina), to tackle both the problems above. Rina features its agent-worker mechanism. When an INA-capable ToR switch is deployed, all workers in this rack run as one abstracted worker with the help of the agent, resulting in both excellent incremental deployment capabilities and better throughput. We conducted extensive testbed and simulation evaluations to substantiate the throughput advantages of Rina over existing DDL training synchronization structures. Compared with the state-of-the-art PS-based INA methods ATP, Rina can achieve more than 50\% throughput with the same hardware cost. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# Deep AndersoNNを用いたAIによる人工生命と材料科学者の構築
Constructing artificial life and materials scientists with accelerated AI using Deep AndersoNN ( http://arxiv.org/abs/2407.19724v1 ) ライセンス: Link先を確認 | Saleem Abdul Fattah Ahmed Al Dajani, David Keyes, | (参考訳) Deep AndersoNNは、ニューラルネットワーク内の明示的なレイヤ数が無限に近づき、ディープ均衡モデルとして知られる単一の暗黙的なレイヤとして捉えることができるため、継続限界を活用することで、AIを加速する。
深い平衡モデルパラメータの解法は、非線形な固定点反復問題に還元され、ベクトル-ベクトル反復解法とアンダーソン補間のようなウィンドウ化技術を用いることで、固定点の深い平衡への収束を加速することができる。
ここでは、Deep AndersoNNがトレーニングおよび推論において最大で1桁のスピードアップを達成することを示す。
本手法は, 金属, 半導体, 絶縁体などの結晶材料を金属, 半導体, 絶縁体として, 原子結合ネットワークから変換されたノード近傍の表現のグラフ画像を用いて, 医薬品を強極性あるいは弱極性に分類できる「科学者」と, 医薬品を細孔径で分類し, 工業応用のための密度汎関数論の結果を示す。
結果は、Deep AndersoNNとGPUのような現代のコンピューティングアーキテクチャの機械学習機能との相乗効果を示し、構造とプロパティの関係を素早く特定することで、計算寿命と材料科学を加速させる。
これにより、AIに必要な計算量の最大90%を節約し、2030年までにカーボンフットプリントを最大60ギガトン削減し、ライフサイエンスやマテリアルサイエンスなどにおける明示的なニューラルネットワークのメモリ限界を超えてスケールアップすることが可能になる。
Deep AndersoNN accelerates AI by exploiting the continuum limit as the number of explicit layers in a neural network approaches infinity and can be taken as a single implicit layer, known as a deep equilibrium model. Solving for deep equilibrium model parameters reduces to a nonlinear fixed point iteration problem, enabling the use of vector-to-vector iterative solvers and windowing techniques, such as Anderson extrapolation, for accelerating convergence to the fixed point deep equilibrium. Here we show that Deep AndersoNN achieves up to an order of magnitude of speed-up in training and inference. The method is demonstrated on density functional theory results for industrial applications by constructing artificial life and materials `scientists' capable of classifying drugs as strongly or weakly polar, metal-organic frameworks by pore size, and crystalline materials as metals, semiconductors, and insulators, using graph images of node-neighbor representations transformed from atom-bond networks. Results exhibit accuracy up to 98\% and showcase synergy between Deep AndersoNN and machine learning capabilities of modern computing architectures, such as GPUs, for accelerated computational life and materials science by quickly identifying structure-property relationships. This paves the way for saving up to 90\% of compute required for AI, reducing its carbon footprint by up to 60 gigatons per year by 2030, and scaling above memory limits of explicit neural networks in life and materials science, and beyond. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# テキストと視覚のベンチマークはビジュアル化の実使用をテストするか?
Do Text-to-Vis Benchmarks Test Real Use of Visualisations? ( http://arxiv.org/abs/2407.19726v1 ) ライセンス: Link先を確認 | Hy Nguyen, Xuefei He, Andrew Reeson, Cecile Paris, Josiah Poon, Jonathan K. Kummerfeld, | (参考訳) 大規模な言語モデルは、ユーザの要求に応じて、視覚化のためのコードを生成することができる。
これは有用な応用であり、データプロットが言語の基礎を提供するため、NLP研究にとって魅力的な応用である。
しかし、ベンチマークは比較的少ないため、実際に行われていることを表すものかどうかは不明である。
本稿では,公開リポジトリのベンチマークデータセットとコードを比較した実証的研究を通じて,その質問に答えることを目的とする。
この結果から,グラフの種類や属性,アクション数など,同じ分布をテストせずに評価した結果,データセットの実質的なギャップが明らかとなった。
唯一の代表的データセットは、エンドツーエンドで実用的なベンチマークになるために修正が必要である。
これは、ユーザの視覚的ニーズに真に対処するシステムの開発をサポートするために、新しい、より多くのベンチマークが必要であることを示している。
これらの観察は、将来のデータ生成をガイドし、どの機能がユーザにとって真に重要なのかを強調します。
Large language models are able to generate code for visualisations in response to user requests. This is a useful application, and an appealing one for NLP research because plots of data provide grounding for language. However, there are relatively few benchmarks, and it is unknown whether those that exist are representative of what people do in practice. This paper aims to answer that question through an empirical study comparing benchmark datasets and code from public repositories. Our findings reveal a substantial gap in datasets, with evaluations not testing the same distribution of chart types, attributes, and the number of actions. The only representative dataset requires modification to become an end-to-end and practical benchmark. This shows that new, more benchmarks are needed to support the development of systems that truly address users' visualisation needs. These observations will guide future data creation, highlighting which features hold genuine significance for users. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# パーソナリティスキャナ:バーチャルリアリティにおけるマルチモーダル信号に基づくパーソナリティ評価の妥当性の検討
PersonalityScanner: Exploring the Validity of Personality Assessment Based on Multimodal Signals in Virtual Reality ( http://arxiv.org/abs/2407.19728v1 ) ライセンス: Link先を確認 | Xintong Zhang, Di Lu, Huiqi Hu, Nan Jiang, Xianhao Yu, Jinan Xu, Yujia Peng, Qing Li, Wenjuan Han, | (参考訳) 人間の認知は表現された行動に大きく影響を与え、本質的に真の性格特性と結びついている。
個性評価は、心理学、教育、ソーシャルメディアなど、様々な分野で重要な役割を果たしている。
しかし、従来の自己報告型アンケートでは、個人が何を開示し得るかに基づいたデータしか提供できないため、目的を欠いている。
さらに、自動測定とピアアセスメントは、多大な人的努力とリソースを必要とする。
本稿では,VR(VR)技術の利点を生かして,VRシミュレーターであるPersonalityScannerを開発し,没入型対話型シミュレーション環境に基づく日常行動のシミュレーションを行った。
本シミュレータを用いて,第1/第3者ビデオ,音声,テキスト,アイトラッキング,顔のマイクロ圧縮,ポーズ,深度データ,ログ,慣性測定ユニットを含む10つのモードの同期マルチモーダルデータセットを収集する。
個性を明らかにするための様々なモダリティの貢献を体系的に検討することにより、パーソナリティスキャナーの優れた性能と効果を実証する。
Human cognition significantly influences expressed behavior and is intrinsically tied to authentic personality traits. Personality assessment plays a pivotal role in various fields, including psychology, education, social media, etc. However, traditional self-report questionnaires can only provide data based on what individuals are willing and able to disclose, thereby lacking objective. Moreover, automated measurements and peer assessments demand significant human effort and resources. In this paper, given the advantages of the Virtual Reality (VR) technique, we develop a VR simulator -- PersonalityScanner, to stimulate cognitive processes and simulate daily behaviors based on an immersive and interactive simulation environment, in which participants carry out a battery of engaging tasks that formulate a natural story of first-day at work. Through this simulator, we collect a synchronous multi-modal dataset with ten modalities, including first/third-person video, audio, text, eye tracking, facial microexpression, pose, depth data, log, and inertial measurement unit. By systematically examining the contributions of different modalities on revealing personality, we demonstrate the superior performance and effectiveness of PersonalityScanner. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# トラップイオンによるスケーラブルな高次元マルチパーティライトエンタングルメント
Scalable High-Dimensional Multipartite Entanglement with Trapped Ions ( http://arxiv.org/abs/2407.19735v1 ) ライセンス: Link先を確認 | Harsh Vardhan Upadhyay, Sanket Kumar Tripathy, Ting Rei Tan, Baladitya Suri, Athreya Shankar, | (参考訳) 一般化されたグリーンベルガー・ホルン・ザイリンガー状態(GHZ)を、それぞれ$d=3$または$4$の内部準位を持つ$N$原子で作成するためのプロトコルを提案する。
我々は、キューディットに対して1軸ツイスト(OAT)ハミルトニアンを1対のキューディットレベル間の等しい強度のOAT相互作用を含むことで一般化し、このプロトコルをバランスドOAT(BOAT)と呼ぶ。
量子ビットの OAT と類似して、任意の原子数$N$ の積状態から、BOAT の下での力学は、クォート(d=3$)およびクォート(d=4$)の GHZ 状態を形成する。
BOATは、オール・ツー・オールの結合が可能な複数のプラットフォームで実現可能であるが、ここでは、トラップされたイオンシステムを用いた特定の実装を提案する。
しきい値以上の忠実度でこれらの状態を作成することは、一般化されたGHZ状態よりも低次元の絡み合いを規定することを示します。
また, イオン結晶のグローバルアドレス化と1つのレベルの単発読み出ししか必要としない忠実度を束縛するプロトコルを提案する。
本研究の結果は,現在の原子ベースの量子ハードウェア上での高次元多部絡みのスケーラブルな生成と証明の道を開くものである。
We propose a protocol for the preparation of generalized Greenberger-Horne-Zeilinger (GHZ) states of $N$ atoms each with $d=3$ or $4$ internal levels. We generalize the celebrated one-axis twisting (OAT) Hamiltonian for $N$ qubits to qudits by including OAT interactions of equal strengths between every pair of qudit levels, a protocol we call as balanced OAT (BOAT). Analogous to OAT for qubits, we find that starting from a product state of an arbitrary number of atoms $N$, dynamics under BOAT leads to the formation of GHZ states for qutrits ($d=3$) and ququarts ($d=4$). While BOAT could potentially be realized on several platforms where all-to-all coupling is possible, here we propose specific implementations using trapped ion systems. We show that preparing these states with a fidelity above a threshold value rules out lower dimensional entanglement than that of the generalized GHZ states. For qutrits, we also propose a protocol to bound the fidelity that requires only global addressing of the ion crystal and single-shot readout of one of the levels. Our results open a path for the scalable generation and certification of high-dimensional multipartite entanglement on current atom-based quantum hardware. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# GFlowNetsによるセンサ選択: コンビネーションの複雑さをナビゲートする深層生成モデリングフレームワーク
Sensor Selection via GFlowNets: A Deep Generative Modeling Framework to Navigate Combinatorial Complexity ( http://arxiv.org/abs/2407.19736v1 ) ライセンス: Link先を確認 | Spilios Evmorfos, Zhaoyi Xu, Athina Petropulu, | (参考訳) センシングや無線通信におけるセンサアレイの性能は、より多くの要素で向上するが、これはエネルギー消費とハードウェアコストの増大によるものである。
この作業は、一般的なQuality-of-Serviceメトリックを最適化するために、$m$のセットから$k$のセンサー要素を選択するという課題に対処する。
すべての$\binom{m}{k}$のセンサー部分集合を評価することは現実的ではなく、凸緩和、欲求的アルゴリズム、教師あり学習アプローチを使った事前解につながる。
本論文は,センサ選択を決定論的マルコフ決定プロセスとして扱い,センササブセットが終端状態として生じる,深部生成モデルを用いた新しいフレームワークを提案する。
生成フローネットワーク(GFlowNets)は、状態に条件付きアクション分散をモデル化するために使用される。
上記の分布からアクションをサンプリングすることで、端末状態に到達する確率が対応するサブセットのパフォーマンスに比例することを保証する。
標準的なセンサ選択シナリオに適用し,凸最適化とグレディアルゴリズムに基づく一般的な手法より優れた手法を提案する。
最後に,提案手法の多目的定式化を,統合センシング通信(ISAC)システムのためのスパースアンテナアレイ設計に適用した。
多目的変動は,レーダと通信性能のトレードオフ管理において良好に機能することを示す。
The performance of sensor arrays in sensing and wireless communications improves with more elements, but this comes at the cost of increased energy consumption and hardware expense. This work addresses the challenge of selecting $k$ sensor elements from a set of $m$ to optimize a generic Quality-of-Service metric. Evaluating all $\binom{m}{k}$ possible sensor subsets is impractical, leading to prior solutions using convex relaxations, greedy algorithms, and supervised learning approaches. The current paper proposes a new framework that employs deep generative modeling, treating sensor selection as a deterministic Markov Decision Process where sensor subsets of size $k$ arise as terminal states. Generative Flow Networks (GFlowNets) are employed to model an action distribution conditioned on the state. Sampling actions from the aforementioned distribution ensures that the probability of arriving at a terminal state is proportional to the performance of the corresponding subset. Applied to a standard sensor selection scenario, the developed approach outperforms popular methods which are based on convex optimization and greedy algorithms. Finally, a multiobjective formulation of the proposed approach is adopted and applied on the sparse antenna array design for Integrated Sensing and Communication (ISAC) systems. The multiobjective variation is shown to perform well in managing the trade-off between radar and communication performance. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# KNOWCOMP POKEMON Team at DialAM-2024: An Two-Stage Pipeline for Detecting Relations in Dialogical Argument Mining
KNOWCOMP POKEMON Team at DialAM-2024: A Two-Stage Pipeline for Detecting Relations in Dialogical Argument Mining ( http://arxiv.org/abs/2407.19740v1 ) ライセンス: Link先を確認 | Zihao Zheng, Zhaowei Wang, Qing Zong, Yangqiu Song, | (参考訳) ダイアロジカルArgument Mining(DialAM)は、Argument Mining(AM)の重要なブランチである。
DialAM-2024は,対話型議論マイニングに焦点を当てた共有タスクであり,提案ノードとロカティオンノード間の議論的関係と不正関係を識別する必要がある。
そこで我々は,ステージ1の2ステップSノード予測モデルとステージ2のYAノード予測モデルを含む2段階パイプラインを提案する。
また、両方のステージでトレーニングデータを増強し、ステージ2でコンテキストを導入します。
私たちはその仕事を成功させ、良い結果を得た。
我がチームPokemonはARIのFocusedスコアで1位、Global Focusedスコアで4位にランクインしました。
Dialogical Argument Mining(DialAM) is an important branch of Argument Mining(AM). DialAM-2024 is a shared task focusing on dialogical argument mining, which requires us to identify argumentative relations and illocutionary relations among proposition nodes and locution nodes. To accomplish this, we propose a two-stage pipeline, which includes the Two-Step S-Node Prediction Model in Stage 1 and the YA-Node Prediction Model in Stage 2. We also augment the training data in both stages and introduce context in Stage 2. We successfully completed the task and achieved good results. Our team Pokemon ranked 1st in the ARI Focused score and 4th in the Global Focused score. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# オクターブ・ヨロ:オクターブ畳み込みを用いたクロス周波数検出ネットワーク
Octave-YOLO: Cross frequency detection network with octave convolution ( http://arxiv.org/abs/2407.19746v1 ) ライセンス: Link先を確認 | Sangjune Shin, Dongkun Shin, | (参考訳) オブジェクト検出アルゴリズムの急速な進歩にもかかわらず、組み込みデバイス上で高解像度の画像を処理することは依然として大きな課題である。
理論的には、現在のリアルタイムオブジェクト検出器で使用される完全な畳み込みネットワークアーキテクチャは、全ての入力解像度を処理できる。
しかし、高解像度画像の処理に必要なかなりの計算要求により、リアルタイムアプリケーションでは現実的ではない。
この問題に対処するため、リアルタイムオブジェクト検出モデルは通常、入力画像の推論をダウンサンプルし、詳細が失われ、精度が低下する。
そこで我々は,組込みシステムの制約下で高解像度画像をリアルタイムに処理するOcave-YOLOを開発した。
我々は、入力特徴マップを低分解能、低周波数、高分解能、高周波数に分割するクロス周波数部分ネットワーク(CFPNet)を導入することでこれを達成した。
この構成により、畳み込みボトルネックや自己注意のような複雑な操作を、高解像度の地図で詳細を同時に保存しながら、低解像度の特徴写像でのみ行うことができる。
特に、このアプローチは畳み込みタスクの計算要求を劇的に削減するだけでなく、注意モジュールの統合を可能にする。
さらに、コアビルディングブロックとダウンサンプリング層に深く分離可能な畳み込みを組み込んで、レイテンシをさらに削減しました。
実験の結果,Ocave-YOLO は YOLOv8 の性能とよく一致し,計算要求を大幅に低減した。
例えば1080x1080の解像度では、Ocave-YOLO-NはYOLOv8の1.56倍の速度であり、約40%のパラメータとFLOPを持つCOデータセットでほぼ同じ精度を実現している。
Despite the rapid advancement of object detection algorithms, processing high-resolution images on embedded devices remains a significant challenge. Theoretically, the fully convolutional network architecture used in current real-time object detectors can handle all input resolutions. However, the substantial computational demands required to process high-resolution images render them impractical for real-time applications. To address this issue, real-time object detection models typically downsample the input image for inference, leading to a loss of detail and decreased accuracy. In response, we developed Octave-YOLO, designed to process high-resolution images in real-time within the constraints of embedded systems. We achieved this through the introduction of the cross frequency partial network (CFPNet), which divides the input feature map into low-resolution, low-frequency, and high-resolution, high-frequency sections. This configuration enables complex operations such as convolution bottlenecks and self-attention to be conducted exclusively on low-resolution feature maps while simultaneously preserving the details in high-resolution maps. Notably, this approach not only dramatically reduces the computational demands of convolution tasks but also allows for the integration of attention modules, which are typically challenging to implement in real-time applications, with minimal additional cost. Additionally, we have incorporated depthwise separable convolution into the core building blocks and downsampling layers to further decrease latency. Experimental results have shown that Octave-YOLO matches the performance of YOLOv8 while significantly reducing computational demands. For example, in 1080x1080 resolution, Octave-YOLO-N is 1.56 times faster than YOLOv8, achieving nearly the same accuracy on the COCO dataset with approximately 40 percent fewer parameters and FLOPs. | 翻訳日:2024-07-30 14:56:26 公開日:2024-07-29 |
# 一般化カテゴリー発見のための表現学習を支援するコンテキスト性
Contextuality Helps Representation Learning for Generalized Category Discovery ( http://arxiv.org/abs/2407.19752v1 ) ライセンス: Link先を確認 | Tingzhang Luo, Mingxuan Du, Jiatao Shi, Xinxiang Chen, Bingchen Zhao, Shaoguang Huang, | (参考訳) 本稿では、文脈性の概念を活用し、ラベルなしデータセットにおけるカテゴリの識別と分類を強化することによって、一般化カテゴリー発見(GCD)への新たなアプローチを提案する。
人間の認識能力からインスピレーションを得て,そのコンテキスト内で物体を認識する手法を提案する。
本モデルでは, 最寄りのコンテキストをコントラスト学習に活用するインスタンスレベルと, カテゴリプロトタイプに基づくプロトタイプ型コントラスト学習を用いたクラスタレベルという,2つのコンテキストレベルを統合した。
文脈情報の統合は、機能学習を効果的に改善し、現実世界のデータセットをよりよく扱う全てのカテゴリの分類精度を向上させる。
従来の半教師付き・斬新なカテゴリー発見技術とは異なり、本モデルは、未知のデータに既知のカテゴリと新規カテゴリの両方が存在する、より現実的で困難なシナリオに焦点を当てている。
いくつかのベンチマークデータセットの大規模な実験結果から、提案モデルが最先端のモデルよりも優れていることが示された。
コードは、https://github.com/Clarence-CV/Contexuality-GCDで入手できる。
This paper introduces a novel approach to Generalized Category Discovery (GCD) by leveraging the concept of contextuality to enhance the identification and classification of categories in unlabeled datasets. Drawing inspiration from human cognition's ability to recognize objects within their context, we propose a dual-context based method. Our model integrates two levels of contextuality: instance-level, where nearest-neighbor contexts are utilized for contrastive learning, and cluster-level, employing prototypical contrastive learning based on category prototypes. The integration of the contextual information effectively improves the feature learning and thereby the classification accuracy of all categories, which better deals with the real-world datasets. Different from the traditional semi-supervised and novel category discovery techniques, our model focuses on a more realistic and challenging scenario where both known and novel categories are present in the unlabeled data. Extensive experimental results on several benchmark data sets demonstrate that the proposed model outperforms the state-of-the-art. Code is available at: https://github.com/Clarence-CV/Contexuality-GCD | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# PredIN: 予測整合性によるオープンセットジェスチャー認識を目指して
PredIN: Towards Open-Set Gesture Recognition via Prediction Inconsistency ( http://arxiv.org/abs/2407.19753v1 ) ライセンス: Link先を確認 | Chen Liu, Can Han, Chengfeng Zhou, Crystal Cai, Dahong Qian, | (参考訳) 表面筋電図(sEMG)に基づくジェスチャー認識は,ヒトと機械の相互作用(HMI)において大きな進歩を遂げている。
しかし、クローズドセット内の事前定義されたジェスチャーを正確に認識することは、実際はまだ不十分であり、堅牢なオープンセットシステムは、未知のジェスチャーを効果的に否定し、既知のジェスチャーを正しく分類する必要がある。
この課題に対処するために,まず,未知のクラスに対するアンサンブルの多様性による不整合の予測を報告し,未知のクラスの検出を著しく促進する。
そこで本研究では,アンサンブル学習手法であるPredINを提案する。
具体的には、PredINは、アンサンブルメンバー間のクラス特徴分布の不整合を最大化し、多様性を高める。
一方、個々のアンサンブルメンバー内のクラス間セパビリティを最適化し、個々のパフォーマンスを維持する。
提案手法は,事前定義されたジェスチャーに対する正確なクローズドセット分類と未知のジェスチャーに対する効果的な拒絶を同時に達成し,sEMGに基づくオープンセットジェスチャー認識の有効性と優位性を示す。
Gesture recognition based on surface electromyography (sEMG) has achieved significant progress in human-machine interaction (HMI). However, accurately recognizing predefined gestures within a closed set is still inadequate in practice; a robust open-set system needs to effectively reject unknown gestures while correctly classifying known ones. To handle this challenge, we first report prediction inconsistency discovered for unknown classes due to ensemble diversity, which can significantly facilitate the detection of unknown classes. Based on this insight, we propose an ensemble learning approach, PredIN, to explicitly magnify the prediction inconsistency by enhancing ensemble diversity. Specifically, PredIN maximizes the class feature distribution inconsistency among ensemble members to enhance diversity. Meanwhile, it optimizes inter-class separability within an individual ensemble member to maintain individual performance. Comprehensive experiments on various benchmark datasets demonstrate that the PredIN outperforms state-of-the-art methods by a clear margin.Our proposed method simultaneously achieves accurate closed-set classification for predefined gestures and effective rejection for unknown gestures, exhibiting its efficacy and superiority in open-set gesture recognition based on sEMG. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# 浮遊微小粒子による核磁気共鳴
Nuclear Magnetic Resonance with a Levitating Micro-Particle ( http://arxiv.org/abs/2407.19754v1 ) ライセンス: Link先を確認 | J. Voisin, A. Durand, T. Copie, M. Perdriat, G. Hétet, | (参考訳) 核磁気共鳴(NMR)は生物学から量子科学まで様々な分野にまたがる。
浮動小数点体にNMRを用いると、従来の運用パラダイムを超える新たな可能性を明らかにする可能性がある。
ここでは、窒素14原子の核スピンを用いて、浮遊する微小ダイヤモンドの中で核磁気共鳴(NMR)を観測する。
ポールトラップでダイヤモンドの角度を密閉することにより、窒素空孔中心の光学偏光電子スピンと$^{14}$N核スピンとの効率的な超微粒子相互作用を実現し、核スピンの偏光と量子状態の読み出しを可能にし、数百マイクロ秒までのコヒーレンス倍のコヒーレンスを露呈する。
これは、浮遊系で記録された最長のスピンコヒーレンス時間であり、過去の記録を3桁の規模で上回っている。
この結果から, 粒子の運動状態への冷却, ジャイロスコープの幾何学的位相の探索など, 様々な応用が期待できる。
Nuclear Magnetic Resonance (NMR) spans diverse fields from biology to quantum science. Employing NMR on a floating object could unveil novel possibilities beyond conventional operational paradigms. Here, we observe Nuclear Magnetic Resonance (NMR) within a levitating micro-diamond using the nuclear spins of nitrogen-14 atoms. By tightly confining the angular degrees of freedom of the diamond in a Paul trap, we achieve efficient hyperfine interaction between optically polarized electronic spins of nitrogen-vacancy centers and the $^{14}$N nuclear spin, enabling nuclear spin polarization and quantum state read-out revealing coherence times up to hundreds of microseconds. This represents the longest recorded spin coherence time in a levitated system, surpassing previous records by three orders of magnitude. Our results offer promise for various applications, including cooling macroscopic particles to their motional ground state and exploring geometric phases for gyroscopy. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# トランモン量子ビットと量子回路を用いたQCDアクシオンダークマターの探索
Search for QCD axion dark matter with transmon qubits and quantum circuit ( http://arxiv.org/abs/2407.19755v1 ) ライセンス: Link先を確認 | Shion Chen, Hajime Fukuda, Toshiaki Inada, Takeo Moroi, Tatsumi Nitta, Thanaporn Sichanugrist, | (参考訳) 超伝導トランスモン量子ビットを量子センサとして用いた直接アクシオンダークマター(DM)探索を提案する。
外部磁場が印加された場合、アクシオンDMは、クビットの励起を引き起こす振動電場を生成し、そのような励起をアクシオンDMの信号とみなすことができる。
量子ビットを囲む遮蔽空洞の影響を考慮に入れた量子ビットの励起過程の理論的考察を行い、軸方向DM検出の信号速度を推定する。
また、共振器共振器と量子回路によって実現された絡み合った量子センサを用いて、DM信号の増強についても検討する。
これら2つの効果を組み合わせることで、QCDアクシオンモデルによって提案されるパラメータ領域に到達することができる。
We propose a direct axion dark matter (DM) search using superconducting transmon qubits as quantum sensors. With an external magnetic field applied, axion DM generates an oscillating electric field which causes the excitation of the qubit; such an excitation can be regarded as a signal of the axion DM. We provide a theoretical consideration of the excitation process of the qubits taking into account the effects of the shielding cavity surrounding the qubits and estimate the signal rate for the axion DM detection. We also discuss the enhancement of the DM signal by using cavity resonance and entangled quantum sensors realized by a quantum circuit. Combining these two effects, we can reach the parameter region suggested by QCD axion models. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# 法的な心とアルゴリズム的決定 - 複雑なシナリオにおけるLLMの憲法的原則の適用方法
Legal Minds, Algorithmic Decisions: How LLMs Apply Constitutional Principles in Complex Scenarios ( http://arxiv.org/abs/2407.19760v1 ) ライセンス: Link先を確認 | Camilla Bignotti, Carolina Camassa, | (参考訳) 本稿では,大規模言語モデル(LLM),特にGPT-4が,複雑な意思決定シナリオにおける構成原理をどう解釈するかを実証的に分析する。
イタリア憲法裁判所から、競合する価値間のトレードオフを含む生物倫理問題に関する判決を審査し、これらの問題に関するモデル生成法的議論を、国、裁判所、及び出願人によって提示されたものと比較する。
我々の結果は、GPT-4は憲法の進歩的な解釈と一貫して一致しており、しばしば競合する価値を見落とし、国家の保守的な視点や裁判所の穏健な立場よりも、応募者の見解を反映していることを示している。
本実験により, GPT-4は, 先進的な法的解釈を優先する傾向を示し, 基礎となるデータバイアスの影響を浮き彫りにしている。
そこで本研究では,実世界のシナリオにおけるアライメントテストの重要性と,意思決定プロセスにおけるLCMの展開の重要性を考察する。
In this paper, we conduct an empirical analysis of how large language models (LLMs), specifically GPT-4, interpret constitutional principles in complex decision-making scenarios. We examine rulings from the Italian Constitutional Court on bioethics issues that involve trade-offs between competing values and compare model-generated legal arguments on these issues to those presented by the State, the Court, and the applicants. Our results indicate that GPT-4 consistently aligns more closely with progressive interpretations of the Constitution, often overlooking competing values and mirroring the applicants' views rather than the more conservative perspectives of the State or the Court's moderate positions. Our experiments reveal a distinct tendency of GPT-4 to favor progressive legal interpretations, underscoring the influence of underlying data biases. We thus underscore the importance of testing alignment in real-world scenarios and considering the implications of deploying LLMs in decision-making processes. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# TeleOR:フルシーン手術室のためのリアルタイム遠隔医療システム
TeleOR: Real-time Telemedicine System for Full-Scene Operating Room ( http://arxiv.org/abs/2407.19763v1 ) ライセンス: Link先を確認 | Yixuan Wu, Kaiyuan Hu, Qian Shao, Jintai Chen, Danny Z. Chen, Jian Wu, | (参考訳) 遠隔医療の出現は、専門家指導の即時性が最重要となる分野である遠隔手術への専門専門医のリーチを拡大するためにテクノロジーを活用する変革的な発展を象徴している。
しかし、オペレーティング・ルーム(OR)シーンの複雑なダイナミクスは、特に障害や帯域幅の制限の中で、高忠実でリアルタイムなシーン再構築と伝送を実現する上で、遠隔医療にユニークな課題をもたらす。
本稿では,遠隔操作のためのリアルタイムORシーン再構築を通じて,これらの課題に対処する先駆的システムであるTeleORを紹介する。
動的自己校正(Dynamic Self-calibration)は、事前に設定されたマーカーを使わずにシーンのキャリブレーションに固有の特徴を活用し、障害物回避とリアルタイムカメラの調整を可能にする。
4D-OR手術シーンデータセットの総合的な実験は、遠隔手術誘導に固有の空間的および技術的障壁を克服することで遠隔操作に革命をもたらす可能性を明らかにした。
The advent of telemedicine represents a transformative development in leveraging technology to extend the reach of specialized medical expertise to remote surgeries, a field where the immediacy of expert guidance is paramount. However, the intricate dynamics of Operating Room (OR) scene pose unique challenges for telemedicine, particularly in achieving high-fidelity, real-time scene reconstruction and transmission amidst obstructions and bandwidth limitations. This paper introduces TeleOR, a pioneering system designed to address these challenges through real-time OR scene reconstruction for Tele-intervention. TeleOR distinguishes itself with three innovative approaches: dynamic self-calibration, which leverages inherent scene features for calibration without the need for preset markers, allowing for obstacle avoidance and real-time camera adjustment; selective OR reconstruction, focusing on dynamically changing scene segments to reduce reconstruction complexity; and viewport-adaptive transmission, optimizing data transmission based on real-time client feedback to efficiently deliver high-quality 3D reconstructions within bandwidth constraints. Comprehensive experiments on the 4D-OR surgical scene dataset demostrate the superiority and applicability of TeleOR, illuminating the potential to revolutionize tele-interventions by overcoming the spatial and technical barriers inherent in remote surgical guidance. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# Map2Traj: 拡散モデルを用いたストリートマップ試験ゼロショット軌道生成
Map2Traj: Street Map Piloted Zero-shot Trajectory Generation with Diffusion Model ( http://arxiv.org/abs/2407.19765v1 ) ライセンス: Link先を確認 | Zhenyu Tao, Wei Xu, Xiaohu You, | (参考訳) ユーザモビリティモデリングは、現代の無線ネットワークの分析と最適化において重要な役割を果たす。
典型的な確率的モビリティモデル、例えばランダムなウェイポイントモデルとガウスマルコフモデルでは、現実世界の領域におけるユーザの分布特性をほとんど捉えない。
しかし、現在最先端のトレースベースモビリティモデルと既存の学習ベーストラジェクトリ生成手法は、プライバシの懸念による実質的なトラジェクトリへのアクセスが不可能なため、しばしば制約される。
本稿では,道路地図と軌跡の内在的相関を利用して,拡散モデルを利用して,新しいゼロショット軌跡生成手法であるMap2Trajを開発した。
道路地図は,中国・西安の様々な地域やそれに対応する街路地図から,絶え間なくデノナイジング過程を操縦し,様々な実軌道上でモデルを訓練するための条件として組み込まれている。
Map2Trajは、観測されていない領域のストリートマップのみを用いて、現実世界のモビリティパターンによく似ているだけでなく、同等の有効性を提供する合成軌道を生成する。
トラジェクトリと分布の類似性の両方の観点から,提案手法がゼロショットトラジェクトリ生成タスクに与える影響を検証した。
さらに,無線ネットワーク最適化におけるMap2Trajの利用事例を,下流アプリケーションの有効性を検証するために提示した。
User mobility modeling serves a crucial role in analysis and optimization of contemporary wireless networks. Typical stochastic mobility models, e.g., random waypoint model and Gauss Markov model, can hardly capture the distribution characteristics of users within real-world areas. State-of-the-art trace-based mobility models and existing learning-based trajectory generation methods, however, are frequently constrained by the inaccessibility of substantial real trajectories due to privacy concerns. In this paper, we harness the intrinsic correlation between street maps and trajectories and develop a novel zero-shot trajectory generation method, named Map2Traj, by exploiting the diffusion model. We incorporate street maps as a condition to consistently pilot the denoising process and train our model on diverse sets of real trajectories from various regions in Xi'an, China, and their corresponding street maps. With solely the street map of an unobserved area, Map2Traj generates synthetic trajectories that not only closely resemble the real-world mobility pattern but also offer comparable efficacy. Extensive experiments validate the efficacy of our proposed method on zero-shot trajectory generation tasks in terms of both trajectory and distribution similarities. In addition, a case study of employing Map2Traj in wireless network optimization is presented to validate its efficacy for downstream applications. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# 一次元非エルミート格子系における皮膚効果の異常対称性による抑制
Anomalous symmetry protected blockade of skin effect in one-dimensional non-Hermitian lattice systems ( http://arxiv.org/abs/2407.19766v1 ) ライセンス: Link先を確認 | Shuai Li, Min Liu, Yue Zhang, Rui Tian, Maksims Arzamasovs, Bo Liu, | (参考訳) バルク状態の異常な局在挙動である非エルミート皮膚効果(NHSE)は本質的に非エルミート現象であり、エルミート系ではその逆は見つからない。
しかし、近年、境界感度などのNHSEの不安定性が明らかにされ、その運命を議論する研究が盛んに行われている。
ここでは、複合空間反射対称性が一次元非エルミート系における基準とみなすことができ、NHSEが存在するか否かを決定する定理を示す。
従来の研究とは違って、提案された基準は系の対称性の分析にのみ依存し、エネルギースペクトルの情報などの他の要件を解き放つ。
さらに、非エルミート・キータエフ連鎖を例にとり、非ブロックバンド理論と正確な対角化数値研究による数学的証明を通して、我々の定理を検証する。
以上の結果から, NHSEの対称性と運命との深い関係が明らかとなった。
The non-Hermitian skin effect (NHSE), an anomalous localization behavior of the bulk states, is an inherently non-Hermitian phenomenon, which can not find a counterpart in Hermitian systems. However, the fragility of NHSE has been revealed recently, such as the boundary sensitivity, and it stimulates a lot of studies on discussing the fate of that. Here we present a theorem which shows that the combined spatial reflection symmetry can be considered as a criterion in one-dimensional non-Hermitian systems to determine whether the NHSE can exist or not. Distinct from previous studies, our proposed criterion only relies on analyzing the symmetry of the system, freeing out other requirements, such as the information of the energy spectrum. Furthermore, by taking the non-Hermitian Kitaev chain as an example, we verify our theorem through both a mathematical proof via the non-Bloch band theory and the exact diagonalization numerical studies. Our results reveal a profound connection between the symmetry and the fate of NHSE. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# ウェーブレット型特徴強調ネットワークによる高能率顔超解像
Efficient Face Super-Resolution via Wavelet-based Feature Enhancement Network ( http://arxiv.org/abs/2407.19768v1 ) ライセンス: Link先を確認 | Wenjie Li, Heng Guo, Xuannan Liu, Kongming Liang, Jiani Hu, Zhanyu Ma, Jun Guo, | (参考訳) 顔超解像は、低解像度の顔画像から高解像度の顔画像を再構成することを目的としている。
従来はエンコーダ・デコーダ構造を用いて顔の構造的特徴を抽出し、特にエッジのような高周波の特徴に対して直接のダウンサンプリングは必然的に歪みをもたらす。
この問題を解決するために、ウェーブレット変換を用いて入力特徴を高周波数成分に無作為に分解し、別々に処理することで特徴歪みを軽減できるウェーブレットベースの特徴拡張ネットワークを提案する。
顔特徴抽出の効率を向上させるために、局所的、局所的、グローバルな顔特徴を高めるために、フルドメイントランスフォーマーが提案されている。
このような設計により、従来の方法と同じように多くのモジュールを積み重ねることなく、メソッドのパフォーマンスが向上する。
実験の結果,本手法は性能,モデルサイズ,速度のバランスを効果的に保っていることがわかった。
コードリンク:https://github.com/PRIS-CV/WFEN。
Face super-resolution aims to reconstruct a high-resolution face image from a low-resolution face image. Previous methods typically employ an encoder-decoder structure to extract facial structural features, where the direct downsampling inevitably introduces distortions, especially to high-frequency features such as edges. To address this issue, we propose a wavelet-based feature enhancement network, which mitigates feature distortion by losslessly decomposing the input feature into high and low-frequency components using the wavelet transform and processing them separately. To improve the efficiency of facial feature extraction, a full domain Transformer is further proposed to enhance local, regional, and global facial features. Such designs allow our method to perform better without stacking many modules as previous methods did. Experiments show that our method effectively balances performance, model size, and speed. Code link: https://github.com/PRIS-CV/WFEN. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# Infinitumで見知らぬコードテストを生成する
Generating Unseen Code Tests In Infinitum ( http://arxiv.org/abs/2407.19772v1 ) ライセンス: Link先を確認 | Marcel Zalmanovici, Orna Raz, Eitan Farchi, Iftach Freund, | (参考訳) 大きな言語モデル(LLM)は、コーディングに関連するものを含む多くのタスクに使用される。
LLMを利用する上で重要な側面は、特定の用途に適合性を評価する能力である。
一般的な実践は、一連のベンチマークに対してLLMを評価することである。
ベンチマークは代替品の評価と比較のための健全な基盤を提供するが、トレーニングデータ \cite{Xu2024Benchmarking} にリークすることのよく知られた弱点に悩まされている。
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化し,社内のコードベースにも適用可能なベンチマークのバリエーションを作成する手法を提案する。
当社のアプローチは,テストデータの生成を継続することで,トレーニングデータ問題へのリークを軽減します。
我々は,Pythonでテキストからコードを生成するタスクに対して,‘textit{auto-regression}’というベンチマークを実装した。
自動回帰は、LSM回帰テストプロセスの一部として、デバッグやモデル生成の変更の追跡を支援するために特別に作成されている。
Large Language Models (LLMs) are used for many tasks, including those related to coding. An important aspect of being able to utilize LLMs is the ability to assess their fitness for specific usages. The common practice is to evaluate LLMs against a set of benchmarks. While benchmarks provide a sound foundation for evaluation and comparison of alternatives, they suffer from the well-known weakness of leaking into the training data \cite{Xu2024Benchmarking}. We present a method for creating benchmark variations that generalize across coding tasks and programming languages, and may also be applied to in-house code bases. Our approach enables ongoing generation of test-data thus mitigating the leaking into the training data issue. We implement one benchmark, called \textit{auto-regression}, for the task of text-to-code generation in Python. Auto-regression is specifically created to aid in debugging and in tracking model generation changes as part of the LLM regression testing process. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# 未学習モデル--可視的手がかりのないバイオメディカル画像の分類問題
Unmasking unlearnable models: a classification challenge for biomedical images without visible cues ( http://arxiv.org/abs/2407.19773v1 ) ライセンス: Link先を確認 | Shivam Kumar, Samrat Chatterjee, | (参考訳) 視覚的手がかりを欠いた画像の特徴を予測することは困難であり、アルゴリズムは視覚的に相関した地上の真実を捉えるように設計されている。
この問題はバイオメディカルサイエンスにおいて重要であり、そのソリューションは非侵襲的な方法の有効性を向上させることができる。
例えば、MRI画像からMGMTメチル化状態を予測するという最近の課題は、グリオーマ患者の治療決定に重要である。
よりロバストなモデルの使用は、これらの重要なシナリオにおいて重大なリスクをもたらし、この問題に対処する緊急性を強調します。
多くの努力にもかかわらず、現代モデルは最適以下の性能を示しており、この制限の根底にある理由はいまだ解明されていない。
本研究では,移動学習に付随する既存モデルのベンチマークを実行することで,MGMT状態予測の複雑さを包括的探索によって解明する。
それらの構造は層をまたいだ勾配流を観察することによってさらに分断された。
さらに、モデル解釈性を改善するために特徴選択戦略を適用した。
我々の発見は、現在のモデルは学習不可能であり、現実世界のアプリケーションを調べるために新しいアーキテクチャを必要とする可能性があることを強調した。
本研究は, 予測モデルと非可視的手法の即時的注意を惹きつけるとともに, 予測モデルの進歩を触媒するものであると考えている。
Predicting traits from images lacking visual cues is challenging, as algorithms are designed to capture visually correlated ground truth. This problem is critical in biomedical sciences, and their solution can improve the efficacy of non-invasive methods. For example, a recent challenge of predicting MGMT methylation status from MRI images is critical for treatment decisions of glioma patients. Using less robust models poses a significant risk in these critical scenarios and underscores the urgency of addressing this issue. Despite numerous efforts, contemporary models exhibit suboptimal performance, and underlying reasons for this limitation remain elusive. In this study, we demystify the complexity of MGMT status prediction through a comprehensive exploration by performing benchmarks of existing models adjoining transfer learning. Their architectures were further dissected by observing gradient flow across layers. Additionally, a feature selection strategy was applied to improve model interpretability. Our finding highlighted that current models are unlearnable and may require new architectures to explore applications in the real world. We believe our study will draw immediate attention and catalyse advancements in predictive modelling with non-visible cues. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# カラー編集によるガーメントアニメーションNeRF
Garment Animation NeRF with Color Editing ( http://arxiv.org/abs/2407.19774v1 ) ライセンス: Link先を確認 | Renke Wang, Meng Zhang, Jun Li, Jian Yan, | (参考訳) モデリングからレンダリングまで、伝統的なワークフローを通じて、高忠実な衣料アニメーションを生成するのは面倒で費用もかかる。
これらのワークフローは、しばしば、キャラクターの動きの更新、視点の変化のレンダリング、または外観の編集に対する反復的なステップを必要とする。
最近のニューラルレンダリングは、計算集約的なプロセスに効率的なソリューションを提供するが、フレーム間の構造的一貫性を維持しながら、細かなしわの細部とリアルな衣服とボディの閉塞を含む複雑な衣料アニメーションのレンダリングに苦慮している。
本稿では, 明示的な衣料プロキシを必要とせずに, 身体動作系列から衣料アニメーションを直接合成する手法を提案する。
本手法は, 体の動きから衣服の動的特徴を推定し, 衣服構造を概観する。
同時に、事前に訓練された画像モデルによって生成された衣服の前と後ろの合成参照画像から、詳細な特徴を捉える。
これらの特徴は、衣料アニメーションビデオをレンダリングする神経放射場を構築するために使用される。
さらに,視覚的要素を分解することで衣料の塗り替えが可能となった。
身体の動きやカメラの視界にまたがる手法の一般化性を実証し、詳細な構造的整合性を確保する。
さらに,実物および合成衣料データにおける色編集の適用性を示す。
本手法は,既存のニューラルネットワークレンダリング技術と比較して,衣服のダイナミックスやしわのディテールモデリングの質的,定量的な改善を示す。
コードは \url{https://github.com/wrk226/GarmentAnimationNeRF} で公開されている。
Generating high-fidelity garment animations through traditional workflows, from modeling to rendering, is both tedious and expensive. These workflows often require repetitive steps in response to updates in character motion, rendering viewpoint changes, or appearance edits. Although recent neural rendering offers an efficient solution for computationally intensive processes, it struggles with rendering complex garment animations containing fine wrinkle details and realistic garment-and-body occlusions, while maintaining structural consistency across frames and dense view rendering. In this paper, we propose a novel approach to directly synthesize garment animations from body motion sequences without the need for an explicit garment proxy. Our approach infers garment dynamic features from body motion, providing a preliminary overview of garment structure. Simultaneously, we capture detailed features from synthesized reference images of the garment's front and back, generated by a pre-trained image model. These features are then used to construct a neural radiance field that renders the garment animation video. Additionally, our technique enables garment recoloring by decomposing its visual elements. We demonstrate the generalizability of our method across unseen body motions and camera views, ensuring detailed structural consistency. Furthermore, we showcase its applicability to color editing on both real and synthetic garment data. Compared to existing neural rendering techniques, our method exhibits qualitative and quantitative improvements in garment dynamics and wrinkle detail modeling. Code is available at \url{https://github.com/wrk226/GarmentAnimationNeRF}. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# 不均一分散推論のためのモデル非依存ハイブリッドシャーディング
Model Agnostic Hybrid Sharding For Heterogeneous Distributed Inference ( http://arxiv.org/abs/2407.19775v1 ) ライセンス: Link先を確認 | Claudio Angione, Yue Zhao, Harry Yang, Ahmad Farhan, Fielding Johnston, James Buban, Patrick Colangelo, | (参考訳) 大規模AIモデル、特に大規模言語モデルの急速な成長は、データのプライバシ、計算リソース、アクセシビリティに重大な課題をもたらしている。
従来の集中型アーキテクチャは、AIシステムの民主化を妨げるデータセキュリティとスケーラビリティのニーズを満たすのに苦労することが多い。
Nesaは、分散AI推論用に設計されたモデルに依存しないシャーディングフレームワークを導入した。
我々のフレームワークはブロックチェーンベースのシーケンシャルディープニューラルネットワークシャーディングを使用して、パーソナライズされたヒューリスティックなルーティング機構に基づいて、さまざまなノードのネットワークに計算タスクを分散する。
これにより、コンシューマグレードのハードウェアでも、最近の大規模モデルの効率的な分散トレーニングと推論が可能になる。
動的ブロックワイド量子化や混合行列分解のような圧縮技術を用いて、データ転送とメモリ要求を減らす。
データ完全性と機密性を保証するため、ハードウェアベースの信頼できる実行環境を含む堅牢なセキュリティ対策も統合しています。
様々な自然言語処理や視覚タスクにまたがってシステムを評価することで,これらの圧縮戦略がモデルの精度を損なわないことを示す。
我々の結果は、分散化されたネットワーク上でセキュアで効率的な推論を可能にすることによって、最先端のAI技術へのアクセスを民主化する可能性を強調します。
The rapid growth of large-scale AI models, particularly large language models has brought significant challenges in data privacy, computational resources, and accessibility. Traditional centralized architectures often struggle to meet required data security and scalability needs which hinders the democratization of AI systems. Nesa introduces a model-agnostic sharding framework designed for decentralized AI inference. Our framework uses blockchain-based sequential deep neural network sharding to distribute computational tasks across a diverse network of nodes based on a personalised heuristic and routing mechanism. This enables efficient distributed training and inference for recent large-scale models even on consumer-grade hardware. We use compression techniques like dynamic blockwise quantization and mixed matrix decomposition to reduce data transfer and memory needs. We also integrate robust security measures, including hardware-based trusted execution environments to ensure data integrity and confidentiality. Evaluating our system across various natural language processing and vision tasks shows that these compression strategies do not compromise model accuracy. Our results highlight the potential to democratize access to cutting-edge AI technologies by enabling secure and efficient inference on a decentralized network. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# Agnostic PAC学習の再考
Revisiting Agnostic PAC Learning ( http://arxiv.org/abs/2407.19777v1 ) ライセンス: Link先を確認 | Steve Hanneke, Kasper Green Larsen, Nikita Zhivotovskiy, | (参考訳) PAC学習は、Valiant'84とVapnik and Chervonenkis'64,'74にさかのぼる、教師あり学習を研究するための古典的なモデルである。
agnostic setでは、$\mathcal{H}$ とラベル付きサンプルのトレーニングセット $(x_1,y_1),\dots,(x_n,y_n) \in \mathcal{X} \times \{-1,1\}$ にアクセスする。
目的は分類子 $h : \mathcal{X} \to \{-1,1\}$ を、新しいサンプル $(x,y)\sim \mathcal{D}$ のラベル $y$ を誤予測する確率が最小である仮説 $h^\star_{\mathcal{D}} \in \mathcal{H}$ と競合する。
経験的リスク最小化(英: Empirical Risk Minimization、ERM)は、訓練データに最も少ない誤りを犯すために、$\mathcal{H}$から仮説を単に出力する自然学習アルゴリズムである。
この単純なアルゴリズムは、VC次元の$\mathcal{H}$とサンプル数$n$の点で最適な誤差を持つことが知られている。
本研究は,非依存的PAC学習を再考し,まず,最適な仮説の性能を扱えば,ERMが実際は準最適であることを示し,パラメータとして$\tau:=\Pr_{\mathcal{D}}[h^\star_{\mathcal{D}}(x) \neq y]$と表記する。
具体的には、ERMや他の任意の適切な学習アルゴリズムは、$\sqrt{\ln(1/\tau)}$ factorによって最適化されていることを示す。
次に、この下限を、ほぼ全範囲の$\tau$に対して最適な誤差を達成する最初の学習アルゴリズムで補う。
我々のアルゴリズムは、学習理論にさらなる応用が期待できる新しいアイデアをいくつか導入する。
PAC learning, dating back to Valiant'84 and Vapnik and Chervonenkis'64,'74, is a classic model for studying supervised learning. In the agnostic setting, we have access to a hypothesis set $\mathcal{H}$ and a training set of labeled samples $(x_1,y_1),\dots,(x_n,y_n) \in \mathcal{X} \times \{-1,1\}$ drawn i.i.d. from an unknown distribution $\mathcal{D}$. The goal is to produce a classifier $h : \mathcal{X} \to \{-1,1\}$ that is competitive with the hypothesis $h^\star_{\mathcal{D}} \in \mathcal{H}$ having the least probability of mispredicting the label $y$ of a new sample $(x,y)\sim \mathcal{D}$. Empirical Risk Minimization (ERM) is a natural learning algorithm, where one simply outputs the hypothesis from $\mathcal{H}$ making the fewest mistakes on the training data. This simple algorithm is known to have an optimal error in terms of the VC-dimension of $\mathcal{H}$ and the number of samples $n$. In this work, we revisit agnostic PAC learning and first show that ERM is in fact sub-optimal if we treat the performance of the best hypothesis, denoted $\tau:=\Pr_{\mathcal{D}}[h^\star_{\mathcal{D}}(x) \neq y]$, as a parameter. Concretely we show that ERM, and any other proper learning algorithm, is sub-optimal by a $\sqrt{\ln(1/\tau)}$ factor. We then complement this lower bound with the first learning algorithm achieving an optimal error for nearly the full range of $\tau$. Our algorithm introduces several new ideas that we hope may find further applications in learning theory. | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# 生体像解析のための多モーダル大言語モデル
Multimodal Large Language Models for Bioimage Analysis ( http://arxiv.org/abs/2407.19778v1 ) ライセンス: Link先を確認 | Shanghang Zhang, Gaole Dai, Tiejun Huang, Jianxu Chen, | (参考訳) 過去10年間のイメージング技術と分析手法の急速な進歩は、生体分子のタイプ、量、位置、さらには時間的ダイナミクスを指摘しながら、生物世界を複数のスケールで包括的に探査する能力に革命をもたらした。
データ複雑性とボリュームの急増は、この豊富な情報を知識に翻訳する上で、大きな課題をもたらしている。
最近登場したMLLM(Multimodal Large Language Models)は、理解、分析、推論、一般化など、創発的な能力を示す。
これらの能力により、MLLMは様々なモダリティを通して得られた生物学的画像やデータから複雑な情報を抽出し、我々の生物学的理解を迅速化し、新しい計算フレームワークの開発を支援することを約束する。
以前は、このような能力は、生物学的画像の包括的観察と分析から意味のある結論を解釈し、要約した人間に起因していた。
しかし、MLLMの現況は、生物学研究における人間の研究者を増強するためのインテリジェントアシスタントやエージェントとしての役割において、期待が増していることを示している。
Rapid advancements in imaging techniques and analytical methods over the past decade have revolutionized our ability to comprehensively probe the biological world at multiple scales, pinpointing the type, quantity, location, and even temporal dynamics of biomolecules. The surge in data complexity and volume presents significant challenges in translating this wealth of information into knowledge. The recently emerged Multimodal Large Language Models (MLLMs) exhibit strong emergent capacities, such as understanding, analyzing, reasoning, and generalization. With these capabilities, MLLMs hold promise to extract intricate information from biological images and data obtained through various modalities, thereby expediting our biological understanding and aiding in the development of novel computational frameworks. Previously, such capabilities were mostly attributed to humans for interpreting and summarizing meaningful conclusions from comprehensive observations and analysis of biological images. However, the current development of MLLMs shows increasing promise in serving as intelligent assistants or agents for augmenting human researchers in biology research | 翻訳日:2024-07-30 14:45:43 公開日:2024-07-29 |
# 科学サマリの合成 : 抽出的・抽象的アプローチ
Synthesizing Scientific Summaries: An Extractive and Abstractive Approach ( http://arxiv.org/abs/2407.19779v1 ) ライセンス: Link先を確認 | Grishma Sharma, Aditi Paretkar, Deepak Sharma, | (参考訳) あらゆる分野の研究論文が利用可能になるためには、重要な研究とそれに対応する知見を提示できる自動要約システムが必要である。
科学論文の要約は、現代のトランスフォーマーモデルにおけるトークン長制限や、長文に対する対応するメモリおよび計算要求など、様々な理由から難しい課題である。
この分野では、既存のトランスフォーマーモデルの注意機構を変更するアプローチや、談話情報を利用して研究論文の長距離依存関係をキャプチャする手法など、かなりの量の研究がなされている。
本稿では,抽出的,抽象的アプローチを取り入れた研究論文要約のためのハイブリッド手法を提案する。
本研究では, 抽出手法を用いて研究の要点を抽出し, 研究のモチベーションを捉える論文の導入と組み合わせる。
抽出段階では教師なし学習に基づく2つのモデルとトランスフォーマー言語モデルを用いており、結果としてハイブリッドアプローチでは4つの組み合わせが得られる。
モデルの性能を3つの指標で評価し,本研究で得られた知見を報告する。
ハイパーパラメータの特定の組み合わせを用いることで、自動要約システムが人間によって書かれた要約の抽象性を超えることが可能であることが判明した。
最後に、この方法論を一般化された長い文書の要約に拡張する研究の今後の範囲について述べる。
The availability of a vast array of research papers in any area of study, necessitates the need of automated summarisation systems that can present the key research conducted and their corresponding findings. Scientific paper summarisation is a challenging task for various reasons including token length limits in modern transformer models and corresponding memory and compute requirements for long text. A significant amount of work has been conducted in this area, with approaches that modify the attention mechanisms of existing transformer models and others that utilise discourse information to capture long range dependencies in research papers. In this paper, we propose a hybrid methodology for research paper summarisation which incorporates an extractive and abstractive approach. We use the extractive approach to capture the key findings of research, and pair it with the introduction of the paper which captures the motivation for research. We use two models based on unsupervised learning for the extraction stage and two transformer language models, resulting in four combinations for our hybrid approach. The performances of the models are evaluated on three metrics and we present our findings in this paper. We find that using certain combinations of hyper parameters, it is possible for automated summarisation systems to exceed the abstractiveness of summaries written by humans. Finally, we state our future scope of research in extending this methodology to summarisation of generalised long documents. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# 二次帯域交差を伴う位相相転移におけるキブル・ズールクの挙動
Kibble-Zurek behavior in a topological phase transition with a quadratic band crossing ( http://arxiv.org/abs/2407.19780v1 ) ライセンス: Link先を確認 | Huan Yuan, Jinyi Zhang, Shuai Chen, Xiaotian Nie, | (参考訳) Kibble-Zurek (KZ) メカニズムは、連続対称性を破る遷移でシステムを駆動する際のスケーリングの振る舞いを記述している。
従来の研究では、KZ様のスケーリング挙動はQi-Wu-Zhangモデル (2D) とSu-Schrieffer-Heegerモデル (1D) のトポロジ的遷移にも関係していることが示されたが、対称性の破れはここでは存在しない。
線形帯域交差を持つどちらのモデルも$\nu=1$と$z=1$を与える。
線形帯域通過を超えるトポロジカル遷移において、異なる臨界指数が取得できるかどうか疑問である。
本研究では,2次帯域交差を持つトポロジカル2次元チェッカーボード格子のKZ挙動について検討する。
クリーンシステムにおけるベリー曲率の運動量分布の単純さと、従来のKZ記述とより直感的な類似である混乱系における領域様局所チャーンマーカー構成の実空間解析の2点から検討する。
平衡では、相関長は$\nu\simeq 1/2$で分岐する。
そして、トポロジカル位相遷移でゆっくりと系を焼くことで、フリーズアウト時間 $t_\mathrm{f}$ と未凍長スケール $\xi(t_\mathrm{f})$ が KZ のスケーリングを満足し、$z\simeq 2$ を検証できることが分かる。
その後、他の高次帯域通過と位相相転移におけるKZ挙動を探索し、臨界指数と順序の関係を見出す。
我々の結果は、KZ機構と非平衡トポロジカル相転移の理解を拡大する。
Kibble-Zurek (KZ) mechanism describes the scaling behavior when driving a system across a continuous symmetry-breaking transition. Previous studies have shown that the KZ-like scaling behavior also lies in the topological transitions in the Qi-Wu-Zhang model (2D) and the Su-Schrieffer-Heeger model (1D), although symmetry breaking does not exist here. Both models with linear band crossings give that $\nu=1$ and $z=1$. We wonder whether different critical exponents can be acquired in topological transitions beyond linear band crossing. In this work, we look into the KZ behavior in a topological 2D checkerboard lattice with a quadratic band crossing. We investigate from dual perspectives: momentum distribution of the Berry curvature in clean systems for simplicity, and real-space analysis of domain-like local Chern marker configurations in disordered systems, which is a more intuitive analog to conventional KZ description. In equilibrium, we find the correlation length diverges with a power $\nu\simeq 1/2$. Then, by slowly quenching the system across the topological phase transition, we find that the freeze-out time $t_\mathrm{f}$ and the unfrozen length scale $\xi(t_\mathrm{f})$ both satisfy the KZ scaling, verifying $z\simeq 2$. We subsequently explore KZ behavior in topological phase transitions with other higher-order band crossing and find the relationship between the critical exponents and the order. Our results extend the understanding of the KZ mechanism and non-equilibrium topological phase transitions. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# 調査と分類:トランスフォーマーによる時系列予測におけるデータ中心AIの役割
Survey and Taxonomy: The Role of Data-Centric AI in Transformer-Based Time Series Forecasting ( http://arxiv.org/abs/2407.19784v1 ) ライセンス: Link先を確認 | Jingjing Xu, Caesar Wu, Yuan-Fang Li, Gregoire Danoy, Pascal Bouvry, | (参考訳) より洗練されたモデルの開発を通じてAIのパフォーマンスを改善する継続的なプロセスに加えて、研究者たちは、体系的な機械学習トレーニングプロセスにおけるデータの重要な役割を強調する、データ中心AIの新たな概念にも注意を向けている。
しかし、モデルの開発も継続している。
この進歩の結果として、自然言語処理(NLP)、コンピュータビジョン(CV)、時系列予測(TSF)といった複数の領域で高い能力を持つTransformer Architectureが開発された。
しかし、その性能は入力データ前処理と出力データ評価に大きく依存しており、将来の研究におけるデータ中心のアプローチを正当化している。
データ中心のAIは、AIモデルのトレーニング、特にトランスフォーマーベースのTSFモデルの効率的なトレーニングに不可欠である、と私たちは主張する。
しかし、トランスフォーマーベースのTSFとデータ中心のAIの統合にはギャップがある。
本調査は,提案された分類学に基づく広範な文献レビューを通じて,このギャップを埋めることを目的としている。
我々は、データ中心のAIの観点から、これまでの研究成果をレビューし、トランスフォーマーベースのアーキテクチャとデータ中心のAIの将来の開発のための基礎的な作業を行うつもりです。
Alongside the continuous process of improving AI performance through the development of more sophisticated models, researchers have also focused their attention to the emerging concept of data-centric AI, which emphasizes the important role of data in a systematic machine learning training process. Nonetheless, the development of models has also continued apace. One result of this progress is the development of the Transformer Architecture, which possesses a high level of capability in multiple domains such as Natural Language Processing (NLP), Computer Vision (CV) and Time Series Forecasting (TSF). Its performance is, however, heavily dependent on input data preprocessing and output data evaluation, justifying a data-centric approach to future research. We argue that data-centric AI is essential for training AI models, particularly for transformer-based TSF models efficiently. However, there is a gap regarding the integration of transformer-based TSF and data-centric AI. This survey aims to pin down this gap via the extensive literature review based on the proposed taxonomy. We review the previous research works from a data-centric AI perspective and we intend to lay the foundation work for the future development of transformer-based architecture and data-centric AI. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# SciPostLayout:科学ポスターのレイアウト分析とレイアウト生成のためのデータセット
SciPostLayout: A Dataset for Layout Analysis and Layout Generation of Scientific Posters ( http://arxiv.org/abs/2407.19787v1 ) ライセンス: Link先を確認 | Shohei Tanaka, Hao Wang, Yoshitaka Ushiku, | (参考訳) 科学的ポスターは、科学論文の貢献をグラフィカルな形式で効果的に提示するために使用される。
しかし、紙のコアを効率的に要約するよく設計されたポスターを作ることは、労働集約的かつ時間を要する。
科学論文からよく設計されたポスターを自動的に生成できるシステムは、著者の作業量を減らし、読者が論文の概要を視覚的に理解できるようにする。
ポスター生成システムへの需要にもかかわらず、公開されているデータセットが不足しているため、限られた研究しか行われていない。
そこで本研究では,SciPostLayoutデータセットを構築した。SciPostLayoutデータセットは7,855の科学的ポスターと,レイアウト解析と生成のための手動レイアウトアノテーションで構成されている。
SciPostLayoutには、ポスターと組み合わせた100の科学論文も含まれている。
私たちのデータセットにあるポスターや論文はすべてCC-BYライセンスで公開されています。
収集したデータセットのベンチマークテストとして,既存のコンピュータビジョンモデルを用いたレイアウト解析と生成の実験を行い,SciPostLayoutを用いたレイアウト解析とポスター生成が科学論文よりも困難であることが判明した。
また,学術論文からレイアウトを生成する実験を行い,LLMを科学的ポスター生成システムとして活用する可能性を実証した。
データセットはhttps://huggingface.co/datasets/omron-sinicx/scipostlayout_v2で公開されている。
コードはhttps://github.com/omron-sinicx/scipostlayout.comで公開されている。
Scientific posters are used to present the contributions of scientific papers effectively in a graphical format. However, creating a well-designed poster that efficiently summarizes the core of a paper is both labor-intensive and time-consuming. A system that can automatically generate well-designed posters from scientific papers would reduce the workload of authors and help readers understand the outline of the paper visually. Despite the demand for poster generation systems, only a limited research has been conduced due to the lack of publicly available datasets. Thus, in this study, we built the SciPostLayout dataset, which consists of 7,855 scientific posters and manual layout annotations for layout analysis and generation. SciPostLayout also contains 100 scientific papers paired with the posters. All of the posters and papers in our dataset are under the CC-BY license and are publicly available. As benchmark tests for the collected dataset, we conducted experiments for layout analysis and generation utilizing existing computer vision models and found that both layout analysis and generation of posters using SciPostLayout are more challenging than with scientific papers. We also conducted experiments on generating layouts from scientific papers to demonstrate the potential of utilizing LLM as a scientific poster generation system. The dataset is publicly available at https://huggingface.co/datasets/omron-sinicx/scipostlayout_v2. The code is also publicly available at https://github.com/omron-sinicx/scipostlayout. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# 因果効果マップを用いた低レベル視覚モデルの解析
Interpreting Low-level Vision Models with Causal Effect Maps ( http://arxiv.org/abs/2407.19789v1 ) ライセンス: Link先を確認 | Jinfan Hu, Jinjin Gu, Shiyao Yu, Fanghua Yu, Zheyuan Li, Zhiyuan You, Chaochao Lu, Chao Dong, | (参考訳) ディープニューラルネットワークは低レベルの視覚タスクの性能を大幅に向上させたが、解釈の難しさも増した。
ディープモデルに対する深い理解は、ネットワーク設計と実用的な信頼性の両方に有益である。
この課題を克服するために、低レベル視覚モデルを理解するために因果理論を導入し、因果効果マップ(CEM)と呼ばれるモデル/タスクに依存しない手法を提案する。
CEMでは、正か負かのいずれかの効果で入力と出力の関係を可視化し、定量化することができる。
CEMを用いて様々な低レベル視覚タスクを分析した後、(1)入力画像(例えば、より大きな受容野)のより多くの情報を使用することで、必ずしも肯定的な結果が得られない、といった興味深い知見を得た。
2)大域的受容野(例えばチャネルアテンション)に機構を組み込もうとする試みは,画像のデノナイジングに無駄である可能性が示唆された。
(3) 汎用モデルを訓練するために複数のタスクを統合することで,グローバルなコンテキストよりもローカル情報を優先するネットワークが促進される可能性がある。
因果効果理論に基づいて、提案した診断ツールは、私たちの共通知識をリフレッシュし、低レベルの視覚モデルについてより深い理解をもたらすことができる。
コードはhttps://github.com/J-FHu/CEMで入手できる。
Deep neural networks have significantly improved the performance of low-level vision tasks but also increased the difficulty of interpretability. A deep understanding of deep models is beneficial for both network design and practical reliability. To take up this challenge, we introduce causality theory to interpret low-level vision models and propose a model-/task-agnostic method called Causal Effect Map (CEM). With CEM, we can visualize and quantify the input-output relationships on either positive or negative effects. After analyzing various low-level vision tasks with CEM, we have reached several interesting insights, such as: (1) Using more information of input images (e.g., larger receptive field) does NOT always yield positive outcomes. (2) Attempting to incorporate mechanisms with a global receptive field (e.g., channel attention) into image denoising may prove futile. (3) Integrating multiple tasks to train a general model could encourage the network to prioritize local information over global context. Based on the causal effect theory, the proposed diagnostic tool can refresh our common knowledge and bring a deeper understanding of low-level vision models. Codes are available at https://github.com/J-FHu/CEM. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# ハッシュに基づく仮想スクリーニングのためのコントラスト学習
Hashing based Contrastive Learning for Virtual Screening ( http://arxiv.org/abs/2407.19790v1 ) ライセンス: Link先を確認 | Jin Han, Yun Hong, Wu-Jun Li, | (参考訳) 仮想スクリーニング(VS)は、タンパク質のような特定の標的受容体に結合する分子を同定することを目的として、コンピュータ支援薬の発見において重要なステップである。
ドッキングのような従来のVSメソッドは、しばしば大規模な分子データベースのスクリーニングに時間がかかりすぎる。
深層学習の最近の進歩は、対照的な学習を用いたタンパク質と分子の学習ベクトル表現が従来のドッキング法より優れていることを示した。
しかし,対象データベースには数十億の分子が含まれていることを考えると,既存の手法で採用されている実数値ベクトル表現は,VSにおいて依然としてかなりのメモリと時間コストを発生させる可能性がある。
特に、DarmHashは、タンパク質と分子のモダリティの両方のバイナリハッシュコードのエンドツーエンド学習を可能にするシンプルな効果的なハッシュ戦略を設計し、既存の方法と比較してメモリと時間コストを劇的に削減できる。
実験結果から、DragonHashは、32$\times$のメモリ節約と3.5$\times$のスピード改善により、最先端の精度を達成するために既存の手法よりも優れていることが示された。
Virtual screening (VS) is a critical step in computer-aided drug discovery, aiming to identify molecules that bind to a specific target receptor like protein. Traditional VS methods, such as docking, are often too time-consuming for screening large-scale molecular databases. Recent advances in deep learning have demonstrated that learning vector representations for both proteins and molecules using contrastive learning can outperform traditional docking methods. However, given that target databases often contain billions of molecules, real-valued vector representations adopted by existing methods can still incur significant memory and time costs in VS. To address this problem, in this paper we propose a hashing-based contrastive learning method, called DrugHash, for VS. DrugHash treats VS as a retrieval task that uses efficient binary hash codes for retrieval. In particular, DrugHash designs a simple yet effective hashing strategy to enable end-to-end learning of binary hash codes for both protein and molecule modalities, which can dramatically reduce the memory and time costs with higher accuracy compared with existing methods. Experimental results show that DrugHash can outperform existing methods to achieve state-of-the-art accuracy, with a memory saving of 32$\times$ and a speed improvement of 3.5$\times$. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# RAGのための新しいハイパーパラメータの導入:コンテキストウィンドウの利用
Introducing a new hyper-parameter for RAG: Context Window Utilization ( http://arxiv.org/abs/2407.19794v1 ) ライセンス: Link先を確認 | Kush Juvekar, Anupam Purwar, | (参考訳) 本稿では、コンテキストウインドウ利用(Context Window utilization)と呼ばれるRAG(Retrieval-Augmented Generation)システムのための新しいハイパーパラメータを提案する。
RAGシステムは、外部知識ベースから取得した関連情報を組み込んで生成モデルを強化し、生成した応答の事実的正確性と文脈的関連性を改善する。
検索および処理されたテキストチャンクのサイズは、RAG性能に影響を与える重要な要因である。
本研究の目的は,回答生成品質を最大化する最適チャンクサイズを特定することである。
組織的な実験を通じて,RAGフレームワークの効率と有効性に及ぼすチャンクサイズの影響を解析した。
以上の結果から,最適なチャンクサイズは,適切なコンテキストの提供と無関係情報の最小化とのトレードオフをバランスさせることがわかった。
これらの知見はRAGシステムの設計と実装の強化に不可欠であり、優れた性能を達成するために適切なチャンクサイズを選択することの重要性を強調している。
This paper introduces a new hyper-parameter for Retrieval-Augmented Generation (RAG) systems called Context Window Utilization. RAG systems enhance generative models by incorporating relevant information retrieved from external knowledge bases, improving the factual accuracy and contextual relevance of generated responses. The size of the text chunks retrieved and processed is a critical factor influencing RAG performance. This study aims to identify the optimal chunk size that maximizes answer generation quality. Through systematic experimentation, we analyze the effects of varying chunk sizes on the efficiency and effectiveness of RAG frameworks. Our findings reveal that an optimal chunk size balances the trade-off between providing sufficient context and minimizing irrelevant information. These insights are crucial for enhancing the design and implementation of RAG systems, underscoring the importance of selecting an appropriate chunk size to achieve superior performance. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# VolDoGer:視覚言語タスクにおけるドメイン一般化のためのLLM支援データセット
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks ( http://arxiv.org/abs/2407.19795v1 ) ライセンス: Link先を確認 | Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim, | (参考訳) ドメインの一般化可能性(Domain generalizability)はディープラーニングモデルにおいて重要な側面である。
しかし、視覚言語タスクのためのディープラーニングモデルのドメイン一般化可能性に関する研究は、主に必要となるデータセットが欠如していることから、限定的なままである。
これらの課題に対処するために、VolDoGer: Vision-Language Dataset for Domain Generalizationを提案する。
我々は、LLMに基づくデータアノテーション技術を視覚言語タスクに拡張することで、VolDoGerを構築し、人間のアノテータを募集する負担を軽減する。
我々は、VolDoGerを用いて、細調整モデルから最近の多モーダル大言語モデルまで、様々なモデルのドメイン一般化性を評価した。
Domain generalizability is a crucial aspect of a deep learning model since it determines the capability of the model to perform well on data from unseen domains. However, research on the domain generalizability of deep learning models for vision-language tasks remains limited, primarily because of the lack of required datasets. To address these challenges, we propose VolDoGer: Vision-Language Dataset for Domain Generalization, a dedicated dataset designed for domain generalization that addresses three vision-language tasks: image captioning, visual question answering, and visual entailment. We constructed VolDoGer by extending LLM-based data annotation techniques to vision-language tasks, thereby alleviating the burden of recruiting human annotators. We evaluated the domain generalizability of various models, ranging from fine-tuned models to a recent multimodal large language model, through VolDoGer. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# チャールズ大学におけるLCM教育 : 課題と活動
Teaching LLMs at Charles University: Assignments and Activities ( http://arxiv.org/abs/2407.19798v1 ) ライセンス: Link先を確認 | Jindřich Helcl, Zdeněk Kasner, Ondřej Dušek, Tomasz Limisiewicz, Dominik Macháček, Tomáš Musil, Jindřich Libovický, | (参考訳) 本稿では,チャールズ大学における大規模言語モデル(LLM)の新しいコースから,授業活動のための教材,特に課題とアイデアを提示する。
この課題には、天気予報生成と機械翻訳のためのLLM推論の実験が含まれる。
教室の活動には、授業のクイズ、下流のタスクとデータセットに関する集中研究、研究論文の読解と理解を目的としたインタラクティブな「ベストペーパー」セッションが含まれる。
This paper presents teaching materials, particularly assignments and ideas for classroom activities, from a new course on large language models (LLMs) taught at Charles University. The assignments include experiments with LLM inference for weather report generation and machine translation. The classroom activities include class quizzes, focused research on downstream tasks and datasets, and an interactive "best paper" session aimed at reading and comprehension of research papers. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# 多原子分子のツイスト電子衝突弾性断面積:全活性電子マルチセンターアプローチ
Twisted electron impact elastic cross sections of polyatomic molecules: All active electron multicentered approach ( http://arxiv.org/abs/2407.19801v1 ) ライセンス: Link先を確認 | Raul Sheldon Pinto, Rakesh Choubisa, | (参考訳) 平面およびツイスト電子ビーム(ベッセルビーム)衝突による多原子分子の絶対弾性差分と積分(トータル)断面積は、例えば$CO_2$と$N_2O$で表される。
クロスセクションは理論上、FBA(First Born Approximation)で計算される。
対象分子は、ガウス型軌道(GTO)を持つ多中心波動関数を用いてモデル化され、密度汎関数理論によって最適化される。
空間座標の関数として得られる電子密度は、分子内の全ての電子の活性な役割を考慮しつつ弾性的なフォームファクターを計算するために用いられる。
クーロン直接ポテンシャルは、入射ビームと全ての電子と核との相互作用に使用される。
実験状況を模倣するために、差動断面の配向平均化を行う。
核によるヤングの干渉効果が考慮されている。
断面は300eVから1keVまでの中間エネルギーで計算される。
提案手法はどんな多原子分子にも確実に適用できる。
ベッセルビーム(ツイスト電子ビーム)と位相電荷$m_l$ = 1, 2, 3の相互作用を解析した。
また、ビームと多数の分子との相互作用を表す差分断断面積の平均オーバーインパクトパラメータについて検討し、提示した。
最後に、平面波とツイストビームによる分子の積分弾性断面積(ICS)を算出し、提示する。
The absolute elastic differential and Integral (total) cross-sections of polyatomic molecules by plane and twisted electron beam (Bessel Beam) impact are presented with $CO_2$ and $N_2O$ as examples. The cross sections are computed theoretically in the First Born Approximation(FBA). The target molecules are modeled using multicentered wavefunctions with Gaussian Type Orbitals(GTOs) and optimized through Density Functional Theory. The electron density obtained as a function of spatial coordinates is used to calculate the elastic form factor while considering the active role of all electrons in the molecule. Coulomb direct potentials are used for the interactions of the incident beam with all electrons and nuclei. An orientation averaging of the differential cross-section is performed to mimic experimental situations. The Young's interference effects due to the nuclei are considered. The cross sections are calculated at intermediate energies ranging from 300eV to 1keV. The proposed methodology can certainly be applied to any polyatomic molecule. The interactions of Bessel beams (Twisted Electron Beam) with topological charges $m_l$ = 1, 2, and 3 are analyzed. The average over impact parameters of the differential cross-sections representing the beam's interaction with a large number of molecules is also studied and presented. Finally, the Integral elastic cross-section (ICS) of the molecules by plane wave and twisted beams is calculated and presented. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# 予測の計算:リターンの低下に留意する
Imputation for prediction: beware of diminishing returns ( http://arxiv.org/abs/2407.19804v1 ) ライセンス: Link先を確認 | Marine Le Morvan, Gaël Varoquaux, | (参考訳) 失敗の値はさまざまな分野に分散しており、予測モデルをトレーニングしデプロイする上での課題を提起している。
この文脈では、正確な計算が予測を強化することを期待して、計算は一般的な慣習である。
しかし、最近の理論的および実証的な研究は、単純な定数計算は一貫性があり、競争力があることを示している。
この実証研究は、先進的な計算手法への投資が、より優れた予測をもたらすかどうかを明確化することを目的としている。
20データセット上でのインキュベーションモデルと予測モデルの組み合わせによるインキュベーションと予測精度の関係から,インキュベーション精度が重要であることを示す。
一 表現力のある模型を使用するとき。
二 相補的な入力として欠落指標を取り入れたとき。
三 実データ結果よりも、生成した線形結果の方がはるかに重要であること。
また, MCARシナリオにおいても, 異常指標の使用は予測性能に有益であることを示す。
全体として、強力なモデルを持つ実データでは、計算精度の向上は予測性能に小さな影響しか与えない。
したがって、予測を改善するためのより良い計算方法への投資は、しばしば限られた利益をもたらす。
Missing values are prevalent across various fields, posing challenges for training and deploying predictive models. In this context, imputation is a common practice, driven by the hope that accurate imputations will enhance predictions. However, recent theoretical and empirical studies indicate that simple constant imputation can be consistent and competitive. This empirical study aims at clarifying if and when investing in advanced imputation methods yields significantly better predictions. Relating imputation and predictive accuracies across combinations of imputation and predictive models on 20 datasets, we show that imputation accuracy matters less i) when using expressive models, ii) when incorporating missingness indicators as complementary inputs, iii) matters much more for generated linear outcomes than for real-data outcomes. Interestingly, we also show that the use of the missingness indicator is beneficial to the prediction performance, even in MCAR scenarios. Overall, on real-data with powerful models, improving imputation only has a minor effect on prediction performance. Thus, investing in better imputations for improved predictions often offers limited benefits. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# クールフュージョン:訓練なしの大規模言語モデルの使用
Cool-Fusion: Fuse Large Language Models without Training ( http://arxiv.org/abs/2407.19807v1 ) ライセンス: Link先を確認 | Cong Liu, Xiaojun Quan, Yan Pan, Liang Lin, Weigang Wu, Xu Chen, | (参考訳) 我々は,2つ以上の異種大言語モデル(LLM)を融合させ,それらの相補的強みを促進する問題に焦点をあてる。
モデル融合における課題の1つは高い計算負荷、すなわち微調整や組合せ最適化による語彙の整合である。
この目的のために,不均質なLLMの知識を融合させて相補的な強みを利用する,単純かつ効果的なアプローチである 'emph{Cool-Fusion} を提案する。
\emph{Cool-Fusion}は、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としない最初のメソッドである。
しかし、アンサンブル法とは異なり、異なる語彙を持つ任意のソースLLMに適用可能である。
基本的な考え方は、各ソース LLM がトークンを個別に生成し、トークンをすべてのソース LLM に共通するワード境界で終端するテキストセグメントにデコードできるようにすることである。
そして、ソースLLMは、生成したテキストセグメントを共同でリランクし、その1ステップで融合したテキスト生成であるベストテキストを選択する。
大規模な実験は、さまざまなベンチマークデータセットにわたって実施される。
\emph{GSM8K} では、emph{Cool-Fusion} は3つの強い光源 LLM の精度を 8 %-17.8 % 向上させる。
We focus on the problem of fusing two or more heterogeneous large language models (LLMs) to facilitate their complementary strengths. One of the challenges on model fusion is high computational load, i.e. to fine-tune or to align vocabularies via combinatorial optimization. To this end, we propose \emph{Cool-Fusion}, a simple yet effective approach that fuses the knowledge of heterogeneous source LLMs to leverage their complementary strengths. \emph{Cool-Fusion} is the first method that does not require any type of training like the ensemble approaches. But unlike ensemble methods, it is applicable to any set of source LLMs that have different vocabularies. The basic idea is to have each source LLM individually generate tokens until the tokens can be decoded into a text segment that ends at word boundaries common to all source LLMs. Then, the source LLMs jointly rerank the generated text segment and select the best one, which is the fused text generation in one step. Extensive experiments are conducted across a variety of benchmark datasets. On \emph{GSM8K}, \emph{Cool-Fusion} increases accuracy from three strong source LLMs by a significant 8\%-17.8\%. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# 語句の分節化 : 語句の分節化に就て
Segmentation en phrases : ouvrez les guillemets sans perdre le fil ( http://arxiv.org/abs/2407.19808v1 ) ライセンス: Link先を確認 | Sandrine Ollinger, Denis Maurel, | (参考訳) 本稿ではXML文書の文セグメンテーションのためのグラフカスケードを提案する。
本提案では,引用マークやハイフンによって導入された症例について,文中の文を提示すると共に,括弧による切開や,大腸で導入されたリストに特に注意を払っている。
テストコーパス上でのシステム性能の評価とともに,2019年に得られた結果と同一データセットを用いた結果との比較を行った。
This paper presents a graph cascade for sentence segmentation of XML documents. Our proposal offers sentences inside sentences for cases introduced by quotation marks and hyphens, and also pays particular attention to situations involving incises introduced by parentheses and lists introduced by colons. We present how the tool works and compare the results obtained with those available in 2019 on the same dataset, together with an evaluation of the system's performance on a test corpus | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# Twins-PainViT:顔画像とfNIRSを用いたマルチモーダル自動痛み評価のためのモダリティ非依存型視覚変換フレームワーク
Twins-PainViT: Towards a Modality-Agnostic Vision Transformer Framework for Multimodal Automatic Pain Assessment using Facial Videos and fNIRS ( http://arxiv.org/abs/2407.19809v1 ) ライセンス: Link先を確認 | Stefanos Gkikas, Manolis Tsiknakis, | (参考訳) 自動鎮痛評価は、医療の進歩と痛み管理戦略の最適化に重要な役割を果たす。
The First Multimodal Sensing Grand Challenge for Next-Gen Pain Assessment (AI4PAIN)に応募した。
提案するマルチモーダルフレームワークは,顔ビデオとfNIRSを利用して,ドメイン固有モデルの必要性を軽減し,モダリティに依存しないアプローチを提案する。
両ViT構成を採用し,fNIRSの波形表現と抽出した2つのモードの埋め込みを併用することにより,多段階の痛み評価タスクにおいて46.76%の精度を達成し,提案手法の有効性を実証する。
Automatic pain assessment plays a critical role for advancing healthcare and optimizing pain management strategies. This study has been submitted to the First Multimodal Sensing Grand Challenge for Next-Gen Pain Assessment (AI4PAIN). The proposed multimodal framework utilizes facial videos and fNIRS and presents a modality-agnostic approach, alleviating the need for domain-specific models. Employing a dual ViT configuration and adopting waveform representations for the fNIRS, as well as for the extracted embeddings from the two modalities, demonstrate the efficacy of the proposed method, achieving an accuracy of 46.76% in the multilevel pain assessment task. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# 視覚MLPアーキテクチャを用いた痛覚自動評価のための合成熱・RGBビデオ
Synthetic Thermal and RGB Videos for Automatic Pain Assessment utilizing a Vision-MLP Architecture ( http://arxiv.org/abs/2407.19811v1 ) ライセンス: Link先を確認 | Stefanos Gkikas, Manolis Tsiknakis, | (参考訳) 痛み評価は、患者の痛みを緩和し、機能低下を防ぐ最適な痛み管理プロトコルを開発するために不可欠である。
その結果, 持続的かつ効果的な患者モニタリングには, 信頼性, 正確な自動鎮痛評価システムが不可欠である。
本研究は, 鎮痛パイプラインに組み込まれたジェネレーティブ・アドバイサル・ネットワークが生成した合成熱ビデオについて検討し, その有効性を評価する。
Vision-MLPとTransformerベースのモジュールからなるフレームワークを使用し、RGBおよび合成熱ビデオを用いて、単調およびマルチモーダルな設定を行う。
BioVidデータベースによる顔ビデオ実験は、合成熱ビデオの有効性を実証し、その潜在的な利点を浮き彫りにした。
Pain assessment is essential in developing optimal pain management protocols to alleviate suffering and prevent functional decline in patients. Consequently, reliable and accurate automatic pain assessment systems are essential for continuous and effective patient monitoring. This study presents synthetic thermal videos generated by Generative Adversarial Networks integrated into the pain recognition pipeline and evaluates their efficacy. A framework consisting of a Vision-MLP and a Transformer-based module is utilized, employing RGB and synthetic thermal videos in unimodal and multimodal settings. Experiments conducted on facial videos from the BioVid database demonstrate the effectiveness of synthetic thermal videos and underline the potential advantages of it. | 翻訳日:2024-07-30 14:35:40 公開日:2024-07-29 |
# 大規模書籍コレクションのための画像テキストマッチング
Image-text matching for large-scale book collections ( http://arxiv.org/abs/2407.19812v1 ) ライセンス: Link先を確認 | Artemis Llabrés, Arka Ujjal Dey, Dimosthenis Karatzas, Ernest Valveny, | (参考訳) 本稿では,画像の集合内のすべての本を,ある書籍カタログのエントリにマッピングする問題に対処する。
検出された各書籍に対して独立検索を行う代わりに、画像テキストマッピング問題を多対多のマッチングプロセスとして扱い、この2つの集合の全体一致を最もよく求める。
我々は,本文の本軸の検出と,商用OCRを用いた書籍情報の抽出に,SAM(State-of-the-art segmentation method)を組み合わせる。
次に,2段階のテキスト画像マッチング手法を提案し,まずCLIP埋め込みを高速マッチングに使用し,次いでハンガリーのアルゴリズムとBERTベースのモデルを用いて雑音の多いOCR入力と部分テキストマッチングに対処する。
本手法を評価するため,スペインの公立図書館の蔵書コレクション全体をカバーする注釈付き本棚画像のデータセットを新たに公開した。
さらに,2つの書籍メタデータのターゲットリスト,既知の図書館目録に対応する15k冊の書籍タイトルのクローズドセット,オープンワールドシナリオをシミュレートする2.3M冊の書籍タイトルのオープンセットを提供する。
本稿では,本項目とOCRを付与し,対象リストに対して多対多のマッチングを行うことを目的とするマッチング専用タスクと,対象リストエントリにマッチする前に本を最初に検出・認識しなければならない検出・マッチングタスクの2つの設定について報告する。
ハンガリーのマッチングと提案したBERTベースのモデルの両方がファジィ文字列マッチングベースラインより優れており、ターゲットのサイズが大きくなるにつれてマッチングアルゴリズム固有の制限が強調され、いずれかのセット(検出された書籍や対象書籍リスト)が不完全である場合にも、その制約が強調される。
データセットとコードはhttps://github.com/llabres/library-datasetで公開されている。
We address the problem of detecting and mapping all books in a collection of images to entries in a given book catalogue. Instead of performing independent retrieval for each book detected, we treat the image-text mapping problem as a many-to-many matching process, looking for the best overall match between the two sets. We combine a state-of-the-art segmentation method (SAM) to detect book spines and extract book information using a commercial OCR. We then propose a two-stage approach for text-image matching, where CLIP embeddings are used first for fast matching, followed by a second slower stage to refine the matching, employing either the Hungarian Algorithm or a BERT-based model trained to cope with noisy OCR input and partial text matches. To evaluate our approach, we publish a new dataset of annotated bookshelf images that covers the whole book collection of a public library in Spain. In addition, we provide two target lists of book metadata, a closed-set of 15k book titles that corresponds to the known library inventory, and an open-set of 2.3M book titles to simulate an open-world scenario. We report results on two settings, on one hand on a matching-only task, where the book segments and OCR is given and the objective is to perform many-to-many matching against the target lists, and a combined detection and matching task, where books must be first detected and recognised before they are matched to the target list entries. We show that both the Hungarian Matching and the proposed BERT-based model outperform a fuzzy string matching baseline, and we highlight inherent limitations of the matching algorithms as the target increases in size, and when either of the two sets (detected books or target book list) is incomplete. The dataset and code are available at https://github.com/llabres/library-dataset | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# 自己推論による検索言語モデルの改善
Improving Retrieval Augmented Language Model with Self-Reasoning ( http://arxiv.org/abs/2407.19813v1 ) ライセンス: Link先を確認 | Yuan Xia, Jingbo Zhou, Zhenhui Shi, Jun Chen, Haifeng Huang, | (参考訳) Retrieval-Augmented Language Model (RALM) は、大規模言語モデル(LLM)で継承された事実幻覚を緩和する推論中に外部知識を取り入れることで、知識集約的なタスクにおいて顕著なパフォーマンスを示した。
これらの進歩にもかかわらず、ALMの実装には特に信頼性とトレーサビリティに関する課題が続いている。
具体的には、無関係な文書検索は、LLMの性能を損なう、あるいは悪化させる可能性があるが、生成した出力における適切な引用の欠如は、モデルの信頼性を検証する努力を複雑にする。
そこで本研究では,ALMの信頼性とトレーサビリティ向上を目的とした自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
我々は4つの公開データセット(ショートフォームQAデータセット2つ、ロングフォームQAデータセット1つ、ファクト検証データセット1つ)にまたがってフレームワークを評価し、既存の最先端モデルより優れ、GPT-4と同等のパフォーマンスを達成でき、2000のトレーニングサンプルのみを使用しながら、我々の手法の優位性を実証した。
The Retrieval-Augmented Language Model (RALM) has shown remarkable performance on knowledge-intensive tasks by incorporating external knowledge during inference, which mitigates the factual hallucinations inherited in large language models (LLMs). Despite these advancements, challenges persist in the implementation of RALMs, particularly concerning their reliability and traceability. To be specific, the irrelevant document retrieval may result in unhelpful response generation or even deteriorate the performance of LLMs, while the lack of proper citations in generated outputs complicates efforts to verify the trustworthiness of the models. To this end, we propose a novel self-reasoning framework aimed at improving the reliability and traceability of RALMs, whose core idea is to leverage reasoning trajectories generated by the LLM itself. The framework involves constructing self-reason trajectories with three processes: a relevance-aware process, an evidence-aware selective process, and a trajectory analysis process. We have evaluated our framework across four public datasets (two short-form QA datasets, one long-form QA dataset, and one fact verification dataset) to demonstrate the superiority of our method, which can outperform existing state-of-art models and can achieve comparable performance with GPT-4, while only using 2,000 training samples. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# エンコーダに基づくNERと大規模言語モデルの比較分析によるロシア求職者のスキル抽出
Comparative Analysis of Encoder-Based NER and Large Language Models for Skill Extraction from Russian Job Vacancies ( http://arxiv.org/abs/2407.19816v1 ) ライセンス: Link先を確認 | Nikita Matkin, Aleksei Smirnov, Mikhail Usanin, Egor Ivanov, Kirill Sobyanin, Sofiia Paklina, Petr Parshakov, | (参考訳) 労働市場は急速に変化しており、求職者への需要が増加し、求人数が急増している。
雇用主の要求や重要なスキルの欠如により、仕事の説明から本質的なスキルや能力の特定は困難である。
本研究では、エンコーダとLarge Language Models(LLM)を用いた従来の名前付きエンティティ認識(NER)手法を比較して、ロシアの職種からスキルを抽出することで、これらの課題に対処する。
トレーニングに4000の職種、テストに1,472のラベル付きデータセットを使用して、両方のアプローチのパフォーマンスを評価する。
その結果、従来のNERモデル、特にDeepPavlov RuBERT NERは、精度、精度、リコール、推測時間など、様々な指標でLLMを上回ります。
これらの結果から,従来のNERモデルは,スキル抽出,求職要件の明確化,求職者への求職者の求職能力と雇用者の期待の整合を支援するための,より効率的かつ効率的なソリューションを提供する可能性が示唆された。
この研究は、自然言語処理(NLP)の分野と労働市場、特に非英語の文脈におけるその応用に寄与する。
The labor market is undergoing rapid changes, with increasing demands on job seekers and a surge in job openings. Identifying essential skills and competencies from job descriptions is challenging due to varying employer requirements and the omission of key skills. This study addresses these challenges by comparing traditional Named Entity Recognition (NER) methods based on encoders with Large Language Models (LLMs) for extracting skills from Russian job vacancies. Using a labeled dataset of 4,000 job vacancies for training and 1,472 for testing, the performance of both approaches is evaluated. Results indicate that traditional NER models, especially DeepPavlov RuBERT NER tuned, outperform LLMs across various metrics including accuracy, precision, recall, and inference time. The findings suggest that traditional NER models provide more effective and efficient solutions for skill extraction, enhancing job requirement clarity and aiding job seekers in aligning their qualifications with employer expectations. This research contributes to the field of natural language processing (NLP) and its application in the labor market, particularly in non-English contexts. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# ActivityCLIP: テキストから補足情報から補足画像へのモダリティのマイニングによるグループ活動認識の強化
ActivityCLIP: Enhancing Group Activity Recognition by Mining Complementary Information from Text to Supplement Image Modality ( http://arxiv.org/abs/2407.19820v1 ) ライセンス: Link先を確認 | Guoliang Xu, Jianqin Yin, Feng Zhou, Yonghao Dang, | (参考訳) 以前の方法は、通常、画像モダリティの情報のみを抽出してグループ活動を認識する。
しかし、マイニング画像情報は飽和状態に近づき、よりリッチな情報を抽出することは困難である。
そのため、他のモダリティから補完情報を抽出して画像情報を補うことがますます重要になっている。
実際、アクションラベルは、アクションの意味を表現するために明確なテキスト情報を提供する。
そこで本研究では,アクションラベルに含まれるテキスト情報を抽出し,グループ活動認識を強化するための画像情報補完を行う,アクティベーションCLIPを提案する。
ActivityCLIPはテキストブランチとイメージブランチで構成されており、そこではテキストブランチがイメージブランチにプラグインされる(オフザシェルフ画像ベース方式)。
テキストブランチにはImage2Textとリレーショナルモデリングモジュールが含まれている。
具体的には,CLIP が抽出したテキスト情報に画像情報を適用する知識伝達モジュール Image2Text を提案する。
さらに,本手法を便利に保つため,テキストブランチのモデル相互作用関係に対して,画像ブランチの関係モジュールに基づくトレーニング可能なパラメータを少なくする。
提案手法の汎用性を示すために,訓練可能なパラメータのみを限定したActivityCLIPを用いて3つの代表的メソッドを複製し,各メソッドの性能改善を実現した。
我々はまた、広範囲にわたるアブレーション研究を行い、我々の方法と最先端の手法を比較して、ActivityCLIPの有効性を実証する。
Previous methods usually only extract the image modality's information to recognize group activity. However, mining image information is approaching saturation, making it difficult to extract richer information. Therefore, extracting complementary information from other modalities to supplement image information has become increasingly important. In fact, action labels provide clear text information to express the action's semantics, which existing methods often overlook. Thus, we propose ActivityCLIP, a plug-and-play method for mining the text information contained in the action labels to supplement the image information for enhancing group activity recognition. ActivityCLIP consists of text and image branches, where the text branch is plugged into the image branch (The off-the-shelf image-based method). The text branch includes Image2Text and relation modeling modules. Specifically, we propose the knowledge transfer module, Image2Text, which adapts image information into text information extracted by CLIP via knowledge distillation. Further, to keep our method convenient, we add fewer trainable parameters based on the relation module of the image branch to model interaction relation in the text branch. To show our method's generality, we replicate three representative methods by ActivityCLIP, which adds only limited trainable parameters, achieving favorable performance improvements for each method. We also conduct extensive ablation studies and compare our method with state-of-the-art methods to demonstrate the effectiveness of ActivityCLIP. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# 注意機構を用いた全スライド画像分類のための高診断値パッチの蒸留
Distilling High Diagnostic Value Patches for Whole Slide Image Classification Using Attention Mechanism ( http://arxiv.org/abs/2407.19821v1 ) ライセンス: Link先を確認 | Tianhang Nan, Hao Quan, Yong Ding, Xingyu Li, Kai Yang, Xiaoyu Cui, | (参考訳) MIL(Multiple Instance Learning)は、ピクセルレベルの手動アノテーションをラベルとして診断レポートに置き換え、労働コストを大幅に削減するため、WSI(Whole Slide Image)分類の分野で広く注目を集めている。
最近の研究で、バッグレベルのMILメソッドはWSIのすべてのパッチを全体として考慮できるため、より良い結果が得られることが示されている。
しかし、そのような手法の欠点は、より冗長なパッチが組み込まれ、干渉につながることである。
この問題に対処するため, 干渉パッチを除いた高い診断値のパッチを抽出するために, 注目型特徴蒸留マルチインスタンスラーニング (AFD-MIL) 手法を開発した。
提案手法は、弱い教師付き学習における前処理操作として冗長パッチを排除し、広い雑音からの干渉を直接軽減するものである。
また、すべてのパッチを無差別に強制的に統合する伝統的な慣習とは対照的に、高い診断価値で特徴を蒸留するための注意機構の使用も先駆的である。
さらに我々は, 機能蒸留モジュールを微調整するグローバル損失最適化を導入した。
AFD-MILは多くの既存のMILメソッドと直交しており、一貫した性能改善につながっている。
このアプローチは現在の最先端の手法を超え、キャメリオン16(キャメリオンチャレンジ2016)では91.47%のACC(精度)と94.29%のAUC(曲線下)を達成し、TCGA-NSCLC(がんゲノムアトラスプログラム:非小細胞肺癌)では93.33%のACCと98.17%のAUCを達成している。
異なる特徴蒸留法を2つのデータセットに用い, 特定の疾患に適応し, 性能と解釈性を向上させた。
Multiple Instance Learning (MIL) has garnered widespread attention in the field of Whole Slide Image (WSI) classification as it replaces pixel-level manual annotation with diagnostic reports as labels, significantly reducing labor costs. Recent research has shown that bag-level MIL methods often yield better results because they can consider all patches of the WSI as a whole. However, a drawback of such methods is the incorporation of more redundant patches, leading to interference. To extract patches with high diagnostic value while excluding interfering patches to address this issue, we developed an attention-based feature distillation multi-instance learning (AFD-MIL) approach. This approach proposed the exclusion of redundant patches as a preprocessing operation in weakly supervised learning, directly mitigating interference from extensive noise. It also pioneers the use of attention mechanisms to distill features with high diagnostic value, as opposed to the traditional practice of indiscriminately and forcibly integrating all patches. Additionally, we introduced global loss optimization to finely control the feature distillation module. AFD-MIL is orthogonal to many existing MIL methods, leading to consistent performance improvements. This approach has surpassed the current state-of-the-art method, achieving 91.47% ACC (accuracy) and 94.29% AUC (area under the curve) on the Camelyon16 (Camelyon Challenge 2016, breast cancer), while 93.33% ACC and 98.17% AUC on the TCGA-NSCLC (The Cancer Genome Atlas Program: non-small cell lung cancer). Different feature distillation methods were used for the two datasets, tailored to the specific diseases, thereby improving performance and interpretability. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# 音楽情報検索における合成-現実間転送ギャップの分析と低減--自動ドラム転写の課題
Analyzing and reducing the synthetic-to-real transfer gap in Music Information Retrieval: the task of automatic drum transcription ( http://arxiv.org/abs/2407.19823v1 ) ライセンス: Link先を確認 | Mickaël Zehren, Marco Alunno, Paolo Bientinesi, | (参考訳) 自動ドラム文字起こしは、音楽情報検索において、音楽トラックのリズムを抽出し分析するための重要なツールであるが、トレーニング用に利用可能なデータセットのサイズによって制限されている。
データ量を増やすために使われる一般的な方法は、仮想楽器でレンダリングされた楽譜から合成的にデータを生成することである。
この方法では、ほぼ無限のトラックを生成できるが、以前に作成された合成データセットで訓練されたモデルが実際のトラックにうまく転送されないことを示す実証的な証拠がある。
本研究では,データ量の増加に加えて,実践者が生成したデータの現実性を改善するために利用できる3つの戦略を特定し,評価する。
それらの有効性を探るため、新しい合成データセットを構築し、モデルのパフォーマンスがどのようにスケールするか、具体的には、異なるデータセットのトレーニングトラック数を増やす際に、どの価値が停滞するかを測定しました。
これにより、前述の戦略が、我々のデータセットを最も現実的なデータ分布と、我々が評価した合成データセットの中で最も低い合成から現実的な転送ギャップを持つものにすることを証明することができた。
私たちは、ドラムの書き起こしにおける無限のデータによるトレーニングの限界を強調し、それを克服する方法を示します。
Automatic drum transcription is a critical tool in Music Information Retrieval for extracting and analyzing the rhythm of a music track, but it is limited by the size of the datasets available for training. A popular method used to increase the amount of data is by generating them synthetically from music scores rendered with virtual instruments. This method can produce a virtually infinite quantity of tracks, but empirical evidence shows that models trained on previously created synthetic datasets do not transfer well to real tracks. In this work, besides increasing the amount of data, we identify and evaluate three more strategies that practitioners can use to improve the realism of the generated data and, thus, narrow the synthetic-to-real transfer gap. To explore their efficacy, we used them to build a new synthetic dataset and then we measured how the performance of a model scales and, specifically, at what value it will stagnate when increasing the number of training tracks for different datasets. By doing this, we were able to prove that the aforementioned strategies contribute to make our dataset the one with the most realistic data distribution and the lowest synthetic-to-real transfer gap among the synthetic datasets we evaluated. We conclude by highlighting the limits of training with infinite data in drum transcription and we show how they can be overcome. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# 簡潔思考:LLM推論とコストに対する出力長の影響
Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost ( http://arxiv.org/abs/2407.19825v1 ) ライセンス: Link先を確認 | Sania Nayab, Giulio Rossolini, Giorgio Buttazzo, Nicolamaria Manes, Fabrizio Giacomelli, | (参考訳) 今日の大規模言語モデル(LLM)は、挑戦的な問合せタスクを解くことができ、チェーン・オブ・シント(CoT)のような技術技術が、アウトプットの説明と正確性の向上に注目を集めている。
それでも、モデルは長い推論の詳細で強化された回答を生成するのにかなりの時間を必要とします。
本稿では, LLM推論パイプラインにおける出力長の影響を解析し, それらを評価するための新しい指標を提案する。
また、モデルが出力長を制限することを奨励する改良されたプロンプトエンジニアリング戦略であるConstrained-CoT (CCoT) を通じて出力長を制御することの影響についても検討した。
事前学習したLLMの実験では、提案したメトリクスの利点と、異なるモデル間でのCCoTの有効性が示された。
例えば、LLaMA2-70bを100ワードに制限すると、GSM8Kデータセット上の36.01\%(CoT)から41.07\%(CCoT)に精度が向上し、平均出力長は28ワード削減される。
Today's large language models (LLMs) can solve challenging question-answering tasks, and prompt engineering techniques, such as chain-of-thought (CoT), have gained attention for enhancing the explanation and correctness of outputs. Nevertheless, models require significant time to generate answers augmented with lengthy reasoning details. To address this issue, this paper analyzes the impact of output lengths on LLM inference pipelines and proposes novel metrics to evaluate them in terms of \textit{correct conciseness}. It also examines the impact of controlling output length through a refined prompt engineering strategy, Constrained-CoT (CCoT), which encourages the model to limit output length. Experiments on pre-trained LLMs demonstrated the benefit of the proposed metrics and the effectiveness of CCoT across different models. For instance, constraining the reasoning of LLaMA2-70b to 100 words improves the accuracy from 36.01\% (CoT) to 41.07\% (CCoT) on the GSM8K dataset, while reducing the average output length by 28 words. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# フェデレーション学習に基づくプライバシ保護QoS予測のためのテンソルの潜在因子化
Federated Learning based Latent Factorization of Tensors for Privacy-Preserving QoS Prediction ( http://arxiv.org/abs/2407.19828v1 ) ライセンス: Link先を確認 | Shuai Zhong, Zengtong Tang, Di Wu, | (参考訳) ビッグデータやサービスコンピューティングに関連するアプリケーションでは、特にWebサービスにおけるユーザ・パースペクティブ・クオリティ(QoS)の動的データなど、動的接続に遭遇する傾向があります。
それらは、豊富な時間パターン情報を含む高次元かつ不完全(HDI)テンソルに変換される。
テンソルの潜在因子化(LFT)は、HDIテンソルからそのようなパターンを抽出するための極めて効率的で典型的なアプローチである。
しかしながら、現在のLFTモデルは、QoSデータを中央の場所(例えば、中央のサーバ)に保持する必要がある。
本稿では,テンソルの潜在因数分解(FL-LFT)に基づくフェデレーション学習を創造的に設計する。
データ密度指向のフェデレーション学習モデルを構築し、分離されたユーザがユーザのプライバシーを保護しながらグローバルなLFTモデルを協調的にトレーニングできるようにする。
実世界から収集されたQoSデータセットの大規模な実験により、FL-LFTは最先端のフェデレーションラーニング(FL)アプローチと比較して、予測精度が著しく向上していることが確認された。
In applications related to big data and service computing, dynamic connections tend to be encountered, especially the dynamic data of user-perspective quality of service (QoS) in Web services. They are transformed into high-dimensional and incomplete (HDI) tensors which include abundant temporal pattern information. Latent factorization of tensors (LFT) is an extremely efficient and typical approach for extracting such patterns from an HDI tensor. However, current LFT models require the QoS data to be maintained in a central place (e.g., a central server), which is impossible for increasingly privacy-sensitive users. To address this problem, this article creatively designs a federated learning based on latent factorization of tensors (FL-LFT). It builds a data-density -oriented federated learning model to enable isolated users to collaboratively train a global LFT model while protecting user's privacy. Extensive experiments on a QoS dataset collected from the real world verify that FL-LFT shows a remarkable increase in prediction accuracy when compared to state-of-the-art federated learning (FL) approaches. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# 電子商取引検索のための選好最適化を用いた生成検索
Generative Retrieval with Preference Optimization for E-commerce Search ( http://arxiv.org/abs/2407.19829v1 ) ライセンス: Link先を確認 | Mingming Li, Huimu Wang, Zuxu Chen, Guangtao Nie, Yiming Qiu, Binbin Wang, Guoyu Tang, Lin Liu, Jingwei Zhuo, | (参考訳) 生成検索は、特定のクエリに応答して、関連するドキュメントの識別子を直接生成することにより、文書検索に画期的なパラダイムを導入する。
このパラダイムは、特に表現と一般化の能力において、大きな言語モデルの文脈において、かなりの利点と可能性を示してきた。
しかし、簡単なクエリから詳細な項目タイトルを生成する複雑さ、言語順の弱い項目タイトルのノイズの存在、ロングテールクエリの問題、結果の解釈可能性など、Eコマースの検索シナリオにおいて大きな課題に直面している。
これらの課題に対処するため、我々は、優先最適化による生成検索と呼ばれる、Eコマース検索のための革新的なフレームワークを開発した。
このフレームワークは、自動回帰モデルとターゲットデータとを効果的に学習し、整列し、その後制約ベースのビームサーチにより最終項目を生成するように設計されている。
生のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクをクエリからマルチスパン識別子を生成するタスクに変換することにより、生成プロセスを簡素化することを目指している。
さらに、このフレームワークは、クリックデータを用いた人間の嗜好と整合し、最終項目を検索するためのキースパンを識別する制約付き検索手法を用いて、結果の解釈性を向上させる。
大規模な実験により,本フレームワークは実世界のデータセット上での競合性能を実証し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示す。
Generative retrieval introduces a groundbreaking paradigm to document retrieval by directly generating the identifier of a pertinent document in response to a specific query. This paradigm has demonstrated considerable benefits and potential, particularly in representation and generalization capabilities, within the context of large language models. However, it faces significant challenges in E-commerce search scenarios, including the complexity of generating detailed item titles from brief queries, the presence of noise in item titles with weak language order, issues with long-tail queries, and the interpretability of results. To address these challenges, we have developed an innovative framework for E-commerce search, called generative retrieval with preference optimization. This framework is designed to effectively learn and align an autoregressive model with target data, subsequently generating the final item through constraint-based beam search. By employing multi-span identifiers to represent raw item titles and transforming the task of generating titles from queries into the task of generating multi-span identifiers from queries, we aim to simplify the generation process. The framework further aligns with human preferences using click data and employs a constrained search method to identify key spans for retrieving the final item, thereby enhancing result interpretability. Our extensive experiments show that this framework achieves competitive performance on a real-world dataset, and online A/B tests demonstrate the superiority and effectiveness in improving conversion gains. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# ML-Mamba:Mamba-2を利用したマルチモーダル大言語モデル
ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 ( http://arxiv.org/abs/2407.19832v1 ) ライセンス: Link先を確認 | Wenjun Huang, Jianguo Hu, | (参考訳) MLLM(Multimodal Large Language Models)はその多機能性から注目されている。
しかし、従来のTransformerアーキテクチャは二次計算の複雑さのために大きなオーバーヘッドを発生させる。
この問題に対処するために,ML-Mambaを導入した。ML-Mambaは,最新の効率的なMamba-2モデルを用いて推論を行うマルチモーダル言語モデルである。
マンバ-2はその線形展開と長い配列の高速な処理で知られている。
トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
また、様々なビジュアルエンコーダやMamba-2モデルも試しています。
各種マルチモーダルベンチマーク実験において,ML-Mambaの競合性能を実証し,マルチモーダルタスクにおける状態空間モデルの可能性を強調した。
実験の結果,(1) ML-Mamba は線形逐次モデルを用いて,TinyLaVA や MobileVLM v2 などの最先端手法に匹敵する性能を達成し,さらに推論速度も速いこと,(2) ML-Mamba は閉集合ベンチマークテストにおける視覚幻覚や空間的関係判断に優れていること,(3) ML-Mamba は LLaVA に匹敵する性能を達成し,パラメータ数を 40 % 削減すること,などが示されている。
(4) もともとのMambaモデルを用いたマルチモーダルモデルと比較して,Mamba-2ベースの大規模マルチモーダル言語モデルの方が推論性能と有効性が高い。
Multimodal Large Language Models (MLLMs) have attracted much attention due to their multifunctionality. However, traditional Transformer architectures incur significant overhead due to their secondary computational complexity. To address this issue, we introduce ML-Mamba, a multimodal language model that utilizes the latest and efficient Mamba-2 model for inference. Mamba-2 is known for its linear extension and fast processing of long sequences. We replace the Transformer based backbone with a pre-trained Mamba-2 model and explore methods for integrating 2D visual selective scanning mechanisms into multimodal learning. We also try various visual encoders and Mamba-2 model variants. Our extensive experiments conducted in various multimodal benchmark tests have demonstrated the competitive performance of ML-Mamba and highlighted the potential of state space models in multimodal tasks. The experimental results show that: (1) ML-Mamba achieves performance comparable to state-of-the-art methods such as TinyLaVA and MobileVLM v2 through its linear sequential modeling, while also having faster inference speed; (2) ML-Mamba performs well in visual hallucinations and spatial relationship judgment in closed set benchmark tests; (3) ML-Mamba achieves performance comparable to LLaVA while reducing the number of parameters by 40\%.(4) Compared to the multimodal model using the original Mamba model, the Mamba-2 based large-scale multimodal language model has stronger inference performance and effectiveness. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# ATHAR: 古典アラビア語から英語への翻訳のための高品質・多言語データセット
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation ( http://arxiv.org/abs/2407.19835v1 ) ライセンス: Link先を確認 | Mohammed Khalil, Mohammed Sabry, | (参考訳) 古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。
コミュニティ間の知識の普及を促進するためにこれらの文献を翻訳することの重要性について広く合意された上で、大きな言語モデル(LLM)と翻訳システムの出現は、この目標を促進するための有望なツールを提供する。
しかし、古典アラビア語における翻訳データセットの不足は、しばしばスコープやトピックに制限されているため、高品質な翻訳システムの開発を妨げている。
ATHARデータセットは、66,000の高品質のアラビア語から英語への翻訳サンプルから構成され、科学、文化、哲学など幅広い分野をカバーする。
さらに,現状のLCMの性能を様々な設定で評価し,現在のシステムにそのようなデータセットが必要であると結論づけた。
私たちの研究結果は、データセットをトレーニング済みのパイプラインに微調整したり、組み込んだりすることで、モデルがどのようにメリットを享受できるかを強調しています。
データセットは、HuggingFace Data Hub at \url{https://huggingface.co/datasets/mohamed-khalil/ATHAR}で公開されている。
Classical Arabic represents a significant era, encompassing the golden age of Arab culture, philosophy, and scientific literature. With a broad consensus on the importance of translating these literatures to enrich knowledge dissemination across communities, the advent of large language models (LLMs) and translation systems offers promising tools to facilitate this goal. However, we have identified a scarcity of translation datasets in Classical Arabic, which are often limited in scope and topics, hindering the development of high-quality translation systems. In response, we present the ATHAR dataset, comprising 66,000 high-quality Classical Arabic to English translation samples that cover a wide array of subjects including science, culture, and philosophy. Furthermore, we assess the performance of current state-of-the-art LLMs under various settings, concluding that there is a need for such datasets in current systems. Our findings highlight how models can benefit from fine-tuning or incorporating this dataset into their pretraining pipelines. The dataset is publicly available on the HuggingFace Data Hub at \url{https://huggingface.co/datasets/mohamed-khalil/ATHAR}. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# VortSDF: 符号付き距離場における遠心性ボロノイ容器を用いた3次元モデリング
VortSDF: 3D Modeling with Centroidal Voronoi Tesselation on Signed Distance Field ( http://arxiv.org/abs/2407.19837v1 ) ライセンス: Link先を確認 | Diego Thomas, Briac Toussaint, Jean-Sebastien Franco, Edmond Boyer, | (参考訳) 容積形状表現は多視点再構成タスクにおいてユビキタス化されている。
彼らはしばしば、SDFや放射場のような3次元形状関数の離散表現として正規のボクセルグリッド上に構築され、ニューラルネットワークのように、完全な形状モデルや連続表現のサンプルインスタンス化として使用される。
その効果が証明されているにもかかわらず、ボクセル表現は精度と複雑性のトレードオフが伴う。
この固有の制限は、単純で散らかったシーンから離れる際のパフォーマンスに大きな影響を与える可能性がある。
本稿では,Centroidal Voronoi Tesselation (CVT) を用いた別の離散化戦略について検討する。
CVTは、形状占有率に関して観測空間をよりよく分割し、形状表面の偏差に集中することを可能にする。
この離散化戦略を多視点再構成に活用するために、四面体格子上の3次元形状特性を推定するために、明示的なSDFフィールドと浅いカラーネットワークを組み合わせた体積最適化フレームワークを導入する。
Chamfer統計による実験結果は、オブジェクト、オープンシーン、人間などの様々なシナリオにおいて、前例のない復元品質でこのアプローチを検証する。
Volumetric shape representations have become ubiquitous in multi-view reconstruction tasks. They often build on regular voxel grids as discrete representations of 3D shape functions, such as SDF or radiance fields, either as the full shape model or as sampled instantiations of continuous representations, as with neural networks. Despite their proven efficiency, voxel representations come with the precision versus complexity trade-off. This inherent limitation can significantly impact performance when moving away from simple and uncluttered scenes. In this paper we investigate an alternative discretization strategy with the Centroidal Voronoi Tesselation (CVT). CVTs allow to better partition the observation space with respect to shape occupancy and to focus the discretization around shape surfaces. To leverage this discretization strategy for multi-view reconstruction, we introduce a volumetric optimization framework that combines explicit SDF fields with a shallow color network, in order to estimate 3D shape properties over tetrahedral grids. Experimental results with Chamfer statistics validate this approach with unprecedented reconstruction quality on various scenarios such as objects, open scenes or human. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# RNACG:フローマッチングに基づくユニバーサルRNA配列条件生成モデル
RNACG: A Universal RNA Sequence Conditional Generation model based on Flow-Matching ( http://arxiv.org/abs/2407.19838v1 ) ライセンス: Link先を確認 | Letian Gao, Zhi John Lu, | (参考訳) RNAは多様な生命過程において重要な役割を担っている。
タンパク質設計法の急速な進歩とは対照的に、RNAに関する研究はより要求されている。
現在のRNA設計アプローチのほとんどは、特定のターゲット属性に集中しており、広範な実験的な探索に依存している。
しかし、これらの手法は実用的限界のため費用がかかり効率が悪いままである。
本稿では、全てのシーケンス設計問題を条件付き生成タスクとして特徴付け、複数の問題に対するパラメータ化表現を提供する。
これらの問題に対して,フローマッチング,すなわちRNACGに基づく普遍的なRNA配列生成モデルを開発した。
RNACGは様々な条件入力に対応でき、可搬性があり、ユーザーは要求に応じて符号化ネットワークをカスタマイズし、生成ネットワークに統合することができる。
RNA3次元構造逆折り畳み、2次元構造逆折り畳み、ファミリー特異的配列生成、および5'UTR翻訳効率予測におけるRNACGの評価を行った。
RNACGは、これらのタスクにおいて、他の方法と比較して、優れた、または競争的なパフォーマンスを得る。
RNACGは、配列生成およびプロパティ予測タスクに広範な適用性を示し、RNA配列設計への新しいアプローチと大規模なRNA配列データを用いたシミュレーション実験のための潜在的手法を提供する。
RNA plays a crucial role in diverse life processes. In contrast to the rapid advancement of protein design methods, the work related to RNA is more demanding. Most current RNA design approaches concentrate on specified target attributes and rely on extensive experimental searches. However, these methods remain costly and inefficient due to practical limitations. In this paper, we characterize all sequence design issues as conditional generation tasks and offer parameterized representations for multiple problems. For these problems, we have developed a universal RNA sequence generation model based on flow matching, namely RNACG. RNACG can accommodate various conditional inputs and is portable, enabling users to customize the encoding network for conditional inputs as per their requirements and integrate it into the generation network. We evaluated RNACG in RNA 3D structure inverse folding, 2D structure inverse folding, family-specific sequence generation, and 5'UTR translation efficiency prediction. RNACG attains superior or competitive performance on these tasks compared with other methods. RNACG exhibits extensive applicability in sequence generation and property prediction tasks, providing a novel approach to RNA sequence design and potential methods for simulation experiments with large-scale RNA sequence data. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# 機械的解釈可能性による言語モデルにおける脆弱性の検出と理解
Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability ( http://arxiv.org/abs/2407.19842v1 ) ライセンス: Link先を確認 | Jorge García-Carrasco, Alejandro Maté, Juan Trujillo, | (参考訳) 大規模言語モデル(LLM)は、広範囲のデータを自己管理的に訓練することが特徴で、広範囲のタスクで顕著なパフォーマンスを示している。
実際、それらの生成能力は、幅広い文脈におけるLSMの適用に対する関心を喚起した。
しかし、一般のニューラルネットワーク、特にLLMは、入力に対する知覚できない変更がモデルの出力を誤解させる可能性のある敵攻撃に対して脆弱であることが知られている。
これは、誤った予測が深刻な結果をもたらす、医療などの高リスクなアプリケーションにおけるLSMの使用を妨げる深刻な懸念である。
LLMを敵攻撃に対してより堅牢にするための取り組みは数多くあるが、これらの脆弱性について研究する研究はほとんどない。
これらの事実に触発され,脆弱性のローカライズと理解の方法について検討し,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
具体的には,具体的タスクに関連する脆弱性を検出する。
i)そのタスクに責任を持つモデルのサブセットを取得すること。
二 その業務のための敵のサンプルを作成すること、
三 脆弱性の発見及び理解のために、前のサンプルとともにMI技術を用いていること。
提案手法は,3文字の頭字語を予測するタスクを遂行する,事前訓練されたGPT-2小モデル上で実証し,そのモデルの具体的な脆弱性の特定と理解に有効であることを示す。
Large Language Models (LLMs), characterized by being trained on broad amounts of data in a self-supervised manner, have shown impressive performance across a wide range of tasks. Indeed, their generative abilities have aroused interest on the application of LLMs across a wide range of contexts. However, neural networks in general, and LLMs in particular, are known to be vulnerable to adversarial attacks, where an imperceptible change to the input can mislead the output of the model. This is a serious concern that impedes the use of LLMs on high-stakes applications, such as healthcare, where a wrong prediction can imply serious consequences. Even though there are many efforts on making LLMs more robust to adversarial attacks, there are almost no works that study \emph{how} and \emph{where} these vulnerabilities that make LLMs prone to adversarial attacks happen. Motivated by these facts, we explore how to localize and understand vulnerabilities, and propose a method, based on Mechanistic Interpretability (MI) techniques, to guide this process. Specifically, this method enables us to detect vulnerabilities related to a concrete task by (i) obtaining the subset of the model that is responsible for that task, (ii) generating adversarial samples for that task, and (iii) using MI techniques together with the previous samples to discover and understand the possible vulnerabilities. We showcase our method on a pretrained GPT-2 Small model carrying out the task of predicting 3-letter acronyms to demonstrate its effectiveness on locating and understanding concrete vulnerabilities of the model. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# BackdoorBench: バックドア学習の総合ベンチマークと分析
BackdoorBench: A Comprehensive Benchmark and Analysis of Backdoor Learning ( http://arxiv.org/abs/2407.19845v1 ) ライセンス: Link先を確認 | Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Mingli Zhu, Ruotong Wang, Li Liu, Chao Shen, | (参考訳) 近年,深層ニューラルネットワーク(DNN)の脆弱性を探究する新たなアプローチとして,バックドア学習が注目されている。
しかし、主に多様な設定と、既存の作品の実装と再現性の難しさのために、バックドア学習の統一的で標準化されたベンチマークが欠如しており、不公平な比較や信頼性の低い結論(例えば、誤解を招く、偏見を抱く、あるいは虚偽の結論さえも)を引き起こしている。
したがって、この文献の現在の進捗を評価し、今後の開発ロードマップを設計することは困難である。
このジレンマを軽減するために、BackdoorBenchというバックドア学習の包括的なベンチマークを構築しました。
我々のベンチマークは研究コミュニティに3つの貴重な貢献をしている。
1) 拡張可能なモジュラーベースコードベースに基づいて, 最先端(SOTA) バックドア学習アルゴリズム(現在は20の攻撃と32の防御アルゴリズムを含む)を統合的に実装する。
2)4つのモデルと4つのデータセットに基づいて5つの毒素比による包括的評価を行い,11,492対の攻撃・攻撃・防御評価を行った。
3) 以上の評価に基づき,10の視点から18の有用な分析ツールを用いて豊富な分析を行い, バックドア学習に関するいくつかの洞察を与えている。
既存のアルゴリズムを調査し、より革新的なアルゴリズムを開発し、バックドア学習の本質的なメカニズムを探るための、バックドア学習の強固な基盤を構築したいと考えています。
最後に、私たちはhttp://backdoorbench.comでユーザフレンドリーなWebサイトを作成しました。
As an emerging approach to explore the vulnerability of deep neural networks (DNNs), backdoor learning has attracted increasing interest in recent years, and many seminal backdoor attack and defense algorithms are being developed successively or concurrently, in the status of a rapid arms race. However, mainly due to the diverse settings, and the difficulties of implementation and reproducibility of existing works, there is a lack of a unified and standardized benchmark of backdoor learning, causing unfair comparisons or unreliable conclusions (e.g., misleading, biased or even false conclusions). Consequently, it is difficult to evaluate the current progress and design the future development roadmap of this literature. To alleviate this dilemma, we build a comprehensive benchmark of backdoor learning called BackdoorBench. Our benchmark makes three valuable contributions to the research community. 1) We provide an integrated implementation of state-of-the-art (SOTA) backdoor learning algorithms (currently including 20 attack and 32 defense algorithms), based on an extensible modular-based codebase. 2) We conduct comprehensive evaluations with 5 poisoning ratios, based on 4 models and 4 datasets, leading to 11,492 pairs of attack-against-defense evaluations in total. 3) Based on above evaluations, we present abundant analysis from 10 perspectives via 18 useful analysis tools, and provide several inspiring insights about backdoor learning. We hope that our efforts could build a solid foundation of backdoor learning to facilitate researchers to investigate existing algorithms, develop more innovative algorithms, and explore the intrinsic mechanism of backdoor learning. Finally, we have created a user-friendly website at http://backdoorbench.com, which collects all important information of BackdoorBench, including codebase, docs, leaderboard, and model Zoo. | 翻訳日:2024-07-30 14:25:55 公開日:2024-07-29 |
# 産業画像異常検出モデルにおける正規性検出による正規性付加
Normality Addition via Normality Detection in Industrial Image Anomaly Detection Models ( http://arxiv.org/abs/2407.19849v1 ) ライセンス: Link先を確認 | Jihun Yi, Dahuin Jung, Sungroh Yoon, | (参考訳) 画像異常検出(IAD)の課題は、画像データの正常性から逸脱を識別することである。
これらの異常は、トレーニング中のデータからIADモデルが学んだこととは大きく異なるパターンである。
しかし、現実のシナリオでは、通常性を構成する基準はしばしば変化し、以前の異常なインスタンスを再分類する必要がある。
この課題に対処するため、我々は「正規性追加」と呼ばれる新たなシナリオを提案し、新しい正規性を導入するための決定境界の訓練後調整を行う。
この課題に対処するために、視覚言語モデルを利用した正規性検出(NAND)と呼ばれる手法を提案する。
NANDは、テキスト記述に基づいて、画像内の意図された正規性に関連するパターンを検出する正規性検出を行う。
次に、この正規性追加を実装するために、事前訓練されたIADモデルの結果を変更します。
IAD,MVTec ADのベンチマークデータセットを用いて、正規性付加タスクの評価プロトコルを確立し、NAND法の有効性を実証的に示す。
The task of image anomaly detection (IAD) aims to identify deviations from normality in image data. These anomalies are patterns that deviate significantly from what the IAD model has learned from the data during training. However, in real-world scenarios, the criteria for what constitutes normality often change, necessitating the reclassification of previously anomalous instances as normal. To address this challenge, we propose a new scenario termed "normality addition," involving the post-training adjustment of decision boundaries to incorporate new normalities. To address this challenge, we propose a method called Normality Addition via Normality Detection (NAND), leveraging a vision-language model. NAND performs normality detection which detect patterns related to the intended normality within images based on textual descriptions. We then modify the results of a pre-trained IAD model to implement this normality addition. Using the benchmark dataset in IAD, MVTec AD, we establish an evaluation protocol for the normality addition task and empirically demonstrate the effectiveness of the NAND method. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# 薬物発見のための量子長期記憶
Quantum Long Short-Term Memory for Drug Discovery ( http://arxiv.org/abs/2407.19852v1 ) ライセンス: Link先を確認 | Liang Zhang, Yin Xu, Mohan Wu, Liang Wang, Hua Xu, | (参考訳) 量子コンピューティングと機械学習(ML)は極めて有望な研究分野であり、量子機械学習(QML)が古典的なMLよりも科学的問題を効果的に解決することを実証する研究が数多くある。
そこで本研究では,QMLを薬物発見に適用することにより,QMLがモデル性能を大幅に向上し,従来のMLよりも高速な収束を実現することを示す。
さらに,QMLのモデル精度は,キュービット数が増加するにつれて向上することを示した。
また、QMLモデルにノイズを導入し、QMLモデルの高ロバスト性を示す実験結果にほとんど影響を与えないことを見出した。
この研究は量子コンピューティングが将来、量子ビット量の増加と品質改善に大きく貢献する可能性を強調している。
Quantum computing combined with machine learning (ML) is an extremely promising research area, with numerous studies demonstrating that quantum machine learning (QML) is expected to solve scientific problems more effectively than classical ML. In this work, we successfully apply QML to drug discovery, showing that QML can significantly improve model performance and achieve faster convergence compared to classical ML. Moreover, we demonstrate that the model accuracy of the QML improves as the number of qubits increases. We also introduce noise to the QML model and find that it has little effect on our experimental conclusions, illustrating the high robustness of the QML model. This work highlights the potential application of quantum computing to yield significant benefits for scientific advancement as the qubit quantity increase and quality improvement in the future. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# ガウス混合とデータセット辞書学習によるオンラインマルチソースドメイン適応
Online Multi-Source Domain Adaptation through Gaussian Mixtures and Dataset Dictionary Learning ( http://arxiv.org/abs/2407.19853v1 ) ライセンス: Link先を確認 | Eduardo Fernandes Montesuma, Stevan Le Stanc, Fred Ngolè Mboula, | (参考訳) 本稿では,多種多様なソースドメインをストリームに含まれるターゲットドメインに適応させるシナリオとして,転送学習におけるMSDA(オンラインマルチソースドメイン適応)の課題に対処する。
本稿では,ガウス測度のワッサーシュタイン幾何に基づくガウス混合モデル(GMM)のオンライン適合性に対する新しいアプローチを提案する。
我々は,この手法と,オンラインMSDAにおける新たな戦略を提案するためのデータセット辞書学習の最近の発展について述べる。
挑戦的なテネシー・イーストマン・プロセス・ベンチマークの実験は、我々のアプローチがターゲットとなるドメインデータのストリームに 'emph{on the fly} を適用することができることを示した。
さらに、当社のオンラインGMMは、データのストリーム全体を表すメモリとして機能しています。
This paper addresses the challenge of online multi-source domain adaptation (MSDA) in transfer learning, a scenario where one needs to adapt multiple, heterogeneous source domains towards a target domain that comes in a stream. We introduce a novel approach for the online fit of a Gaussian Mixture Model (GMM), based on the Wasserstein geometry of Gaussian measures. We build upon this method and recent developments in dataset dictionary learning for proposing a novel strategy in online MSDA. Experiments on the challenging Tennessee Eastman Process benchmark demonstrate that our approach is able to adapt \emph{on the fly} to the stream of target domain data. Furthermore, our online GMM serves as a memory, representing the whole stream of data. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# PO-QA:量子アルゴリズムを用いたポートフォリオ最適化フレームワーク
PO-QA: A Framework for Portfolio Optimization using Quantum Algorithms ( http://arxiv.org/abs/2407.19857v1 ) ライセンス: Link先を確認 | Kamila Zaman, Alberto Marchisio, Muhammad Kashif, Muhammad Shafique, | (参考訳) ポートフォリオ最適化(PO)は、投資ポートフォリオのリスクを最小限に抑えつつ、純利益を最大化することを目的とした金融問題である。
量子アルゴリズムの斬新さは、基盤となる量子コンピューティング(QC)のインフラを考えると、複雑な問題を解く能力と能力の確立にある。
金融業界の問題(例えばPO)に対するQCの強みを利用することで、変分量子固有解法(VQE)や量子近似最適化アルゴリズム(QAOA)といった量子ベースのアルゴリズムを用いてこれらの問題を解決することができる。
金融に対する量子ポテンシャルは非常に影響が大きいが、量子回路のアーキテクチャと構成は、現在研究・設計目的の文献における最先端技術として、ロバストな金融フレームワークやアルゴリズムとして適切に定義されていない。
本研究では、量子パラメータの変動(回転ブロック、繰り返し、絡み合いタイプなど)を系統的に研究し、その微妙な効果が全体的な性能に与える影響を観察する、新しいスケーラブルなフレームワークPO-QAを提案する。
本稿では,QAOA と VQE に設定した各アルゴリズムの変動量を用いて,得られた最適解に対する同様の基底状態エネルギー値に収束させることにより,その性能を測定し,定式化する。
本結果は,古典解の収束性の観点から,量子機械学習のレンズからPOを解釈する上で有効な知見を提供する。
本研究は、POを解くための量子回路の効率的な構成を特定し、それらの固有な相互関係を明らかにする方法である。
Portfolio Optimization (PO) is a financial problem aiming to maximize the net gains while minimizing the risks in a given investment portfolio. The novelty of Quantum algorithms lies in their acclaimed potential and capability to solve complex problems given the underlying Quantum Computing (QC) infrastructure. Utilizing QC's applicable strengths to the finance industry's problems, such as PO, allows us to solve these problems using quantum-based algorithms such as Variational Quantum Eigensolver (VQE) and Quantum Approximate Optimization Algorithm (QAOA). While the Quantum potential for finance is highly impactful, the architecture and composition of the quantum circuits have not yet been properly defined as robust financial frameworks/algorithms as state of the art in present literature for research and design development purposes. In this work, we propose a novel scalable framework, denoted PO-QA, to systematically investigate the variation of quantum parameters (such as rotation blocks, repetitions, and entanglement types) to observe their subtle effect on the overall performance. In our paper, the performance is measured and dictated by convergence to similar ground-state energy values for resultant optimal solutions by each algorithm variation set for QAOA and VQE to the exact eigensolver (classical solution). Our results provide effective insights into comprehending PO from the lens of Quantum Machine Learning in terms of convergence to the classical solution, which is used as a benchmark. This study paves the way for identifying efficient configurations of quantum circuits for solving PO and unveiling their inherent inter-relationships. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# AI駆動のエネルギーアルゴリズムトレーディング:隠れマルコフモデルとニューラルネットワークの統合
AI-Powered Energy algorithmic Trading: Integrating Hidden Markov Models with Neural Networks ( http://arxiv.org/abs/2407.19858v1 ) ライセンス: Link先を確認 | Tiago Monteiro, | (参考訳) 定量的金融の分野では、機械学習手法がアルファ生成に欠かせないものとなっている。
本稿では,隠れマルコフモデル(HMM)とニューラルネットワークを一意に組み合わせ,ブラック・リッターマンポートフォリオ最適化と統合した2モデルアルファ生成システムを提案する。
QuantConnectプラットフォーム上に実装されたこの方法論は、将来の価格変動を予測し、取引戦略を最適化することを目的としている。
具体的には、高流動でトップキャップのエネルギーストックをフィルタリングし、ブローカー支払いも考慮しつつ、安定的で予測可能なパフォーマンスを確保する。
堅牢なフレームワークと実験的な再現性を保証するため、QuantConnectが選ばれた。
このアルゴリズムは2023年6月1日から2024年1月1日までの間に31%のリターンを達成し、シャープ比は1.669であった。
この結果から,HMMとニューラルネットワークの併用によるトレーディング戦略の性能向上が示唆された。
本研究では,アルゴリズムのアーキテクチャ,データ前処理技術,モデルトレーニング手順,性能評価について検討し,実世界の取引環境における実用性と有効性を明らかにする。
完全なコードとバックテストデータは、MITライセンス下で利用可能だ。
In the field of quantitative finance, machine learning methods have become essential for alpha generation. This paper presents a pioneering method that uniquely combines Hidden Markov Models (HMM) and neural networks, creating a dual-model alpha generation system integrated with Black-Litterman portfolio optimization. The methodology, implemented on the QuantConnect platform, aims to predict future price movements and optimize trading strategies. Specifically, it filters for highly liquid, top-cap energy stocks to ensure stable and predictable performance while also accounting for broker payments. QuantConnect was selected because of its robust framework and to guarantee experimental reproducibility. The algorithm achieved a 31% return between June 1, 2023, and January 1, 2024, with a Sharpe ratio of 1.669, demonstrating its potential. The findings suggest significant improvements in trading strategy performance through the combined use of the HMM and neural networks. This study explores the architecture of the algorithm, data pre-processing techniques, model training procedures, and performance evaluation, highlighting its practical applicability and effectiveness in real-world trading environments. The full code and backtesting data are available under the MIT license. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# 強化学習における安全性向上のための異常状態系列モデリング
Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning ( http://arxiv.org/abs/2407.19860v1 ) ライセンス: Link先を確認 | Leen Kweider, Maissa Abou Kassem, Ubai Sandouk, | (参考訳) 意思決定アプリケーションにおける人工知能(AI)の展開は、特に多くの未知の観測を含む環境の変化において、適切なレベルの安全性と信頼性を確保する必要がある。
この課題に対処するために, 異常状態列を利用した安全強化学習(RL)手法を提案する。
提案手法は,AnoSeqs (AnoSeqs) を用いたセーフ強化学習(Safe Reinforcement Learning) の2段階からなる。
まず、安全でないオフラインの"ソース"環境でエージェントを訓練し、安全な状態シーケンスを収集する。
次に、これらの安全なシーケンスを使用して、障害のコストが高い‘ターゲット’環境において、潜在的に安全でない状態シーケンスを検出可能な異常検出モデルを構築する。
異常検出モデルから推定されるリスクを目標環境におけるリスク・アバースRLポリシーのトレーニングに利用し、異常検出モデルによって安全でないとみなされた異常状態のエージェントをペナルティ化するために報酬関数を調整する。
自動運転車を含む複数の安全クリティカルなベンチマーク環境の実験において、我々のソリューションアプローチはより安全なポリシーを学習し、シーケンシャルな異常検出が安全を意識したRLエージェントを訓練するための効果的な監視信号を提供することを示す。
The deployment of artificial intelligence (AI) in decision-making applications requires ensuring an appropriate level of safety and reliability, particularly in changing environments that contain a large number of unknown observations. To address this challenge, we propose a novel safe reinforcement learning (RL) approach that utilizes an anomalous state sequence to enhance RL safety. Our proposed solution Safe Reinforcement Learning with Anomalous State Sequences (AnoSeqs) consists of two stages. First, we train an agent in a non-safety-critical offline 'source' environment to collect safe state sequences. Next, we use these safe sequences to build an anomaly detection model that can detect potentially unsafe state sequences in a 'target' safety-critical environment where failures can have high costs. The estimated risk from the anomaly detection model is utilized to train a risk-averse RL policy in the target environment; this involves adjusting the reward function to penalize the agent for visiting anomalous states deemed unsafe by our anomaly model. In experiments on multiple safety-critical benchmarking environments including self-driving cars, our solution approach successfully learns safer policies and proves that sequential anomaly detection can provide an effective supervisory signal for training safety-aware RL agents | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# トポロジー行動による日内電力グリッド運用のための模擬学習
Imitation Learning for Intra-Day Power Grid Operation through Topology Actions ( http://arxiv.org/abs/2407.19865v1 ) ライセンス: Link先を確認 | Matthijs de Jong, Jan Viebahn, Yuliya Shapovalova, | (参考訳) 再生可能エネルギーの発生の増加により電力グリッドの運用は複雑化しつつある。
近年のL2RPN(Learning To Run a Power Network)コンペティションでは、人間の送電網の運用を支援するために人工エージェントの使用が奨励されている。
本稿では,トポロジ動作による実時間電力グリッド動作における模擬学習の性能について検討する。
特に、グリージーエージェントとN-1エージェントの2つのルールベースの専門家エージェントについて検討する。
N-1の安全性を考慮に入れているため、後者の方が計算コストが高いが、運用性能ははるかに高い。
我々は、専門家のステートアクションペアに完全接続ニューラルネットワーク(FCNN)をトレーニングし、それを2つの方法で評価する。
まず,クラス不均衡とクラス重複のため,広範なハイパーパラメータチューニングにもかかわらず,分類精度が制限されていることを発見した。
第2に、パワーシステムエージェントとして、FCNNは専門家エージェントよりもわずかに劣っている。
さらに、最小限の追加シミュレーションを取り入れたハイブリッドエージェントは、専門家エージェントのパフォーマンスと大幅に低い計算コストで一致させる。
その結果、模倣学習は高速で高性能なグリッドエージェントの開発を約束し、将来のL2RPN研究におけるさらなる探索の動機となっている。
Power grid operation is becoming increasingly complex due to the increase in generation of renewable energy. The recent series of Learning To Run a Power Network (L2RPN) competitions have encouraged the use of artificial agents to assist human dispatchers in operating power grids. In this paper we study the performance of imitation learning for day-ahead power grid operation through topology actions. In particular, we consider two rule-based expert agents: a greedy agent and a N-1 agent. While the latter is more computationally expensive since it takes N-1 safety considerations into account, it exhibits a much higher operational performance. We train a fully-connected neural network (FCNN) on expert state-action pairs and evaluate it in two ways. First, we find that classification accuracy is limited despite extensive hyperparameter tuning, due to class imbalance and class overlap. Second, as a power system agent, the FCNN performs only slightly worse than expert agents. Furthermore, hybrid agents, which incorporate minimal additional simulations, match expert agents' performance with significantly lower computational cost. Consequently, imitation learning shows promise for developing fast, high-performing power grid agents, motivating its further exploration in future L2RPN studies. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# 予め訓練したBloch-Consistent denoising Autoencodersを用いた磁気共鳴フィンガープリントの深部画像優先
Deep Image Priors for Magnetic Resonance Fingerprinting with pretrained Bloch-consistent denoising autoencoders ( http://arxiv.org/abs/2407.19866v1 ) ライセンス: Link先を確認 | Perla Mayo, Matteo Cencini, Ketan Fatania, Carolin M. Pirkl, Marion I. Menzel, Bjoern H. Menze, Michela Tosetti, Mohammad Golbabaee, | (参考訳) 磁気共鳴フィンガープリント(MRF)圧縮試料からのマルチパラメトリック定量的マップの推定は成功したものの、画像再構成時に自然に発生するアンダーサンプリング率とアーティファクトが高いため、依然として課題である。
最先端のDLメソッドは、そのタスクにうまく対処できるが、それらの能力を完全に活用するためには、多くの場合、基底真理がほとんど利用できない領域において、ペア化されたデータセットでのトレーニングが必要である。
本研究では,DIP-MRFよりも高速で精度の高いDIP-MRFを実現する手法を提案する。
The estimation of multi-parametric quantitative maps from Magnetic Resonance Fingerprinting (MRF) compressed sampled acquisitions, albeit successful, remains a challenge due to the high underspampling rate and artifacts naturally occuring during image reconstruction. Whilst state-of-the-art DL methods can successfully address the task, to fully exploit their capabilities they often require training on a paired dataset, in an area where ground truth is seldom available. In this work, we propose a method that combines a deep image prior (DIP) module that, without ground truth and in conjunction with a Bloch consistency enforcing autoencoder, can tackle the problem, resulting in a method faster and of equivalent or better accuracy than DIP-MRF. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# 部分選好順序間の距離
Distances Between Partial Preference Orderings ( http://arxiv.org/abs/2407.19869v1 ) ライセンス: Link先を確認 | Jean Dezert, Andrii Shekhovtsov, Wojciech Salabun, | (参考訳) 本稿では,2つの非常に異なるアプローチに基づいて,部分的嗜好順序間の距離を確立することを提案する。
第1のアプローチは、組合せ論に基づくブルート力法に対応する。
部分的選好順序と互換性のある全ての可能な完全選好順序を生成し、完全に適合する選好順序間のフロベニウス距離を算出する。
残念なことに、この最初の方法は、その大きな組合せ複雑性のため、高次元の問題を解決するのにあまり効率的ではない。
そこで我々は,部分選好順序の欠落情報を適切にモデル化可能な,信念関数に基づく第2のアプローチを用いて,この問題を回避することを提案する。
距離の計算に対するこの第二のアプローチは、組合せ複雑性の制限に支障を来さない。
これら2つの理論手法がどのように機能するかを簡単な例で示す。
This paper proposes to establish the distance between partial preference orderings based on two very different approaches. The first approach corresponds to the brute force method based on combinatorics. It generates all possible complete preference orderings compatible with the partial preference orderings and calculates the Frobenius distance between all fully compatible preference orderings. Unfortunately, this first method is not very efficient in solving high-dimensional problems because of its big combinatorial complexity. That is why we propose to circumvent this problem by using a second approach based on belief functions, which can adequately model the missing information of partial preference orderings. This second approach to the calculation of distance does not suffer from combinatorial complexity limitation. We show through simple examples how these two theoretical methods work. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# 高速な位置情報に基づくトーラス上の情報検索
Fast Private Location-based Information Retrieval Over the Torus ( http://arxiv.org/abs/2407.19871v1 ) ライセンス: Link先を確認 | Joon Soo Yoo, Mi Yeon Hong, Ji Won Heo, Kang Hoon Lee, Ji Won Yoon, | (参考訳) 位置情報ベースのサービスは膨大なユーティリティを提供するが、プライバシーのリスクも大きい。
そこで本研究では,同相暗号(HE),特にTFHEスキームを用いた新しいフレームワークであるLocPIRを提案し,パブリッククラウドからデータを取得する際のユーザの位置情報のプライバシを保護する。
本システムでは, TFHEの専門知識を非ポリノミカルな評価に用い, 比較操作に不可欠である。
LocPIRでは、最小限のクライアントサーバ間インタラクション、メモリオーバーヘッドの削減、スループットの向上などが紹介されている。
パフォーマンステストは、その計算速度を確認し、実際のシナリオで実行可能なソリューションとなり、COVID-19アラートモデルの適用を通じて実証された。
したがって、LocPIRは位置情報ベースのサービスのプライバシー上の懸念に効果的に対処し、パブリッククラウドからセキュアなデータ共有を可能にする。
Location-based services offer immense utility, but also pose significant privacy risks. In response, we propose LocPIR, a novel framework using homomorphic encryption (HE), specifically the TFHE scheme, to preserve user location privacy when retrieving data from public clouds. Our system employs TFHE's expertise in non-polynomial evaluations, crucial for comparison operations. LocPIR showcases minimal client-server interaction, reduced memory overhead, and efficient throughput. Performance tests confirm its computational speed, making it a viable solution for practical scenarios, demonstrated via application to a COVID-19 alert model. Thus, LocPIR effectively addresses privacy concerns in location-based services, enabling secure data sharing from the public cloud. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# OpenUAS:地域利用パターンの都市横断分析のためのアンカーデータを用いた日本の都市埋め込み
OpenUAS: Embeddings of Cities in Japan with Anchor Data for Cross-city Analysis of Area Usage Patterns ( http://arxiv.org/abs/2407.19872v1 ) ライセンス: Link先を確認 | Naoki Tamura, Kazuyuki Shoji, Shin Katayama, Kenta Urano, Takuro Yonezawa, Nobuo Kawaguchi, | (参考訳) 都市利用パターンに基づいた地域埋め込みのデータセットであるOpenUASを公開し、総面積3300平方キロメートルをカバーする1300万平方メートルのメッシュに埋め込みます。
このデータセットは、市場分析、都市計画、交通インフラ、感染予測といった分野における地域機能の分析に有用である。
オフィス地区や住宅地区など市内各地区の特徴をGPSで取得した位置情報を利用した地域埋め込み技術を用いて把握する。
多くの領域埋め込み技術が提案されており、そのような埋め込みデータセットの公開リリースは技術的に実現可能であるが、実現されていない。
障害の1つは、異なる都市や時代からのデータを、生の位置情報を共有することなく統一された空間に統合することである。
共有埋め込み空間内にアンカーを確立するアンカー法を開発することでこの問題に対処する。
本研究では,このアンカーデータセットを,日本の8大都市における複数期間の地域埋め込みデータセットとともに公開する。
このデータセットは、日本の都市における都市利用パターンを分析し、アンカー方式を用いて都市データセットを同じ埋め込み空間に埋め込むことができる。
本研究の主な貢献は, アンカー法の開発, 地域埋め込みデータセットのリリース, 効果的なデータ活用のためのツールの提供等である。
We publicly release OpenUAS, a dataset of area embeddings based on urban usage patterns, including embeddings for over 1.3 million 50-meter square meshes covering a total area of 3,300 square kilometers. This dataset is valuable for analyzing area functions in fields such as market analysis, urban planning, transportation infrastructure, and infection prediction. It captures the characteristics of each area in the city, such as office districts and residential areas, by employing an area embedding technique that utilizes location information typically obtained by GPS. Numerous area embedding techniques have been proposed, and while the public release of such embedding datasets is technically feasible, it has not been realized. One of the obstacles has been the integration of data from different cities and periods into a unified space without sharing raw location data. We address this issue by developing an anchoring method that establishes anchors within a shared embedding space. We publicly release this anchor dataset along with area embedding datasets from several periods in eight major Japanese cities. This dataset allows users to analyze urban usage patterns in Japanese cities and embed their urban dataset into the same embedding space using the anchoring method. Our key contributions include the development of the anchoring method, releasing area embedding datasets for Japanese cities, and providing tools for effective data utilization. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# 多言語環境におけるロバストな顔-声マッチングの探索
Exploring Robust Face-Voice Matching in Multilingual Environments ( http://arxiv.org/abs/2407.19875v1 ) ライセンス: Link先を確認 | Jiehui Tang, Xiaofei Wang, Zhen Xiao, Jiayi Liu, Xueliang Liu, Richang Hong, | (参考訳) 本稿では,ACM Multimedia 2024において,FAME(Face-Voice Association in Multilingual Environments)を探求するチームXaiofeiの革新的なアプローチについて述べる。
We focus on the impact of different languages in face-voice matching by building on Fusion and Orthogonal Projection (FOP), introduced four key components: a dual-branch structure, dynamic sample pair weighting, robust data augmentation and score polarization strategy。
私たちの二重ブランチ構造は、より統合し、より包括的な情報を提供する補助的なメカニズムとして機能します。
また,様々なサンプルペアの動的重み付け機構を導入し,学習を最適化する。
データ拡張技術は、様々な条件にまたがってモデルの一般化を強化するために使用される。
さらに、年齢と性別の一致した信頼度に基づくスコア偏極戦略は、最終的な結果を明確化し、アクセントする。
提案手法は,V2-EHデータセットで20.07,V1-EUデータセットで21.76の誤差率(EER)を達成した。
This paper presents Team Xaiofei's innovative approach to exploring Face-Voice Association in Multilingual Environments (FAME) at ACM Multimedia 2024. We focus on the impact of different languages in face-voice matching by building upon Fusion and Orthogonal Projection (FOP), introducing four key components: a dual-branch structure, dynamic sample pair weighting, robust data augmentation, and score polarization strategy. Our dual-branch structure serves as an auxiliary mechanism to better integrate and provide more comprehensive information. We also introduce a dynamic weighting mechanism for various sample pairs to optimize learning. Data augmentation techniques are employed to enhance the model's generalization across diverse conditions. Additionally, score polarization strategy based on age and gender matching confidence clarifies and accentuates the final results. Our methods demonstrate significant effectiveness, achieving an equal error rate (EER) of 20.07 on the V2-EH dataset and 21.76 on the V1-EU dataset. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# Mask-guided Attention を用いた言語によるGrasp検出
Language-driven Grasp Detection with Mask-guided Attention ( http://arxiv.org/abs/2407.19877v1 ) ライセンス: Link先を確認 | Tuan Van Vo, Minh Nhat Vu, Baoru Huang, An Vuong, Ngan Le, Thieu Vo, Anh Nguyen, | (参考訳) Grasp検出は、様々な産業応用を持つロボティクスにおいて不可欠なタスクである。
しかし、伝統的な手法は隠蔽に苦しむことが多く、言語をつかむのに用いていない。
自然言語を把握検出に組み込むことは、依然として困難な課題であり、ほとんど探索されていない。
このギャップに対処するために,意味的セグメンテーション機能を備えたトランスフォーマーアテンション機構を利用して,マスク誘導型アテンションを用いた言語駆動型グリップ検出手法を提案する。
提案手法は,視覚データ,セグメンテーションマスク機能,自然言語命令を統合し,把握精度を大幅に向上させる。
我々の研究は、言語駆動型把握検出のための新しいフレームワークを導入し、言語駆動型ロボットアプリケーションへの道を開いた。
集中的な実験により,本手法は成功率を10.0%向上させるとともに,他の最近の基準よりも明確なマージンで優れていることが示された。
実世界のロボット実験において本手法をさらに検証し,本手法の有効性を確認した。
Grasp detection is an essential task in robotics with various industrial applications. However, traditional methods often struggle with occlusions and do not utilize language for grasping. Incorporating natural language into grasp detection remains a challenging task and largely unexplored. To address this gap, we propose a new method for language-driven grasp detection with mask-guided attention by utilizing the transformer attention mechanism with semantic segmentation features. Our approach integrates visual data, segmentation mask features, and natural language instructions, significantly improving grasp detection accuracy. Our work introduces a new framework for language-driven grasp detection, paving the way for language-driven robotic applications. Intensive experiments show that our method outperforms other recent baselines by a clear margin, with a 10.0% success score improvement. We further validate our method in real-world robotic experiments, confirming the effectiveness of our approach. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# ボース・アインシュタイン凝縮体の準周期ポテンシャルにおける二量体と離散呼吸器
Dimers and discrete breathers in Bose-Einstein condensates in a quasi-periodic potential ( http://arxiv.org/abs/2407.19880v1 ) ライセンス: Link先を確認 | Vladimir V. Konotop, | (参考訳) 準周期ポテンシャルに重畳された準1次元ボース・アインシュタイン凝縮体は、同値な振幅と非可換な周期の2つの部分格子によって生成される。
従来の強結合近似はこの設定では適用できないが、その記述はモビリティエッジの下のモードを考慮に入れた離散モデルに還元することができる。
線形ホッピングが存在しないそれぞれの離散格子において、解とその力学は、非線形相互作用によってのみ支配される。
線形極限のないものを含む非線形モードの族は、準周期ポテンシャルを持つグロス・ピタエフスキー方程式の呼吸解に対応する二量体に特化して記述される。
呼吸器は負の散乱長に対して安定である。
息の局在と安定な伝播は、比較的弱い中等度で正の散乱長で観察される。
A quasi-one-dimensional Bose-Einstein condensate loaded into a quasi-periodic potential created by two sub-lattices of comparable amplitudes and incommensurate periods is considered. Although the conventional tight-binding approximation is not applicable in this setting, the description can still be reduced to a discrete model that accounts for the modes below the mobility edge. In the respective discrete lattice, where no linear hopping exists, solutions and their dynamics are governed solely by nonlinear interactions. Families of nonlinear modes, including those with no linear limit, are described with a special focus on dimers, which correspond to breather solutions of the Gross-Pitaevskii equation with a quasi-periodic potential. The breathers are found to be stable for negative scattering lengths. Localization and stable propagation of breathers are also observed for positive scattering lengths at relatively weak and moderate nonlinearities. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# 一般MTシステムとLLMのWMT24序列
Preliminary WMT24 Ranking of General MT Systems and LLMs ( http://arxiv.org/abs/2407.19884v1 ) ライセンス: Link先を確認 | Tom Kocmi, Eleftherios Avramidis, Rachel Bawden, Ondrej Bojar, Anton Dvorkovich, Christian Federmann, Mark Fishel, Markus Freitag, Thamme Gowda, Roman Grundkiewicz, Barry Haddow, Marzena Karpinska, Philipp Koehn, Benjamin Marie, Kenton Murray, Masaaki Nagata, Martin Popel, Maja Popovic, Mariya Shmatova, Steinþór Steingrímsson, Vilém Zouhar, | (参考訳) 自動メトリクスに基づくWMT24一般MTシステムの序列である。
公式ランキングは人間による評価であり、自動ランキングよりも優れている。
本報告の目的は, 発見を解釈することではなく, システム提出の執筆において有用であると思われる一般MTタスクの参加者に対して, 予備的な結果を提供することである。
This is the preliminary ranking of WMT24 General MT systems based on automatic metrics. The official ranking will be a human evaluation, which is superior to the automatic ranking and supersedes it. The purpose of this report is not to interpret any findings but only provide preliminary results to the participants of the General MT task that may be useful during the writing of the system submission. | 翻訳日:2024-07-30 14:16:11 公開日:2024-07-29 |
# マルチモーダルレコメンデーションにおける孤立を克服するための統一グラフ変換器
A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation ( http://arxiv.org/abs/2407.19886v1 ) ライセンス: Link先を確認 | Zixuan Yi, Iadh Ounis, | (参考訳) オンラインマルチメディアサービスの急速な発展、特にeコマースプラットフォームでは、各商品に関連する多様なマルチモーダルコンテンツを効果的にエンコードできるパーソナライズされたレコメンデーションシステムの必要性が高まっている。
しかし,既存のマルチモーダルレコメンデータシステムは,特徴抽出とモダリティモデリングの両方に分離プロセスを使用するのが一般的である。
このような分離されたプロセスはレコメンデーションパフォーマンスを損なう可能性がある。
まず,複数モーダルレコメンデーションにおける効果的な特徴抽出の重要性を過小評価し,項目表現に有害な非関連情報を組み込むことが考えられる。
第2に、分離されたモダリティモデリングプロセスは、各モダリティの個別処理によるアイテムモダリティの非結合な埋め込みを生成する。
上記の分離プロセスの両処理に統一モデルを用いることで,結合型マルチモーダル特徴の一貫した抽出と凝集融合が可能となり,マルチモーダルレコメンデータシステムの有効性が向上する,という仮説を立てる。
本稿では,UGT(Unified Multi-modal Graph Transformer)と呼ばれる新しいモデルを提案する。
その後、UGTモデルに統一グラフニューラルネットワークを構築し、ユーザ/イテム表現と対応するマルチモーダル特徴を融合する。
UGTモデルのグラフトランスフォーマーアーキテクチャを用いて、UGTモデルが特に一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化された場合、大きな効果を得られることを示す。
With the rapid development of online multimedia services, especially in e-commerce platforms, there is a pressing need for personalised recommendation systems that can effectively encode the diverse multi-modal content associated with each item. However, we argue that existing multi-modal recommender systems typically use isolated processes for both feature extraction and modality modelling. Such isolated processes can harm the recommendation performance. Firstly, an isolated extraction process underestimates the importance of effective feature extraction in multi-modal recommendations, potentially incorporating non-relevant information, which is harmful to item representations. Second, an isolated modality modelling process produces disjointed embeddings for item modalities due to the individual processing of each modality, which leads to a suboptimal fusion of user/item representations for effective user preferences prediction. We hypothesise that the use of a unified model for addressing both aforementioned isolated processes will enable the consistent extraction and cohesive fusion of joint multi-modal features, thereby enhancing the effectiveness of multi-modal recommender systems. In this paper, we propose a novel model, called Unified Multi-modal Graph Transformer (UGT), which firstly leverages a multi-way transformer to extract aligned multi-modal features from raw data for top-k recommendation. Subsequently, we build a unified graph neural network in our UGT model to jointly fuse the user/item representations with their corresponding multi-modal features. Using the graph transformer architecture of our UGT model, we show that the UGT model can achieve significant effectiveness gains, especially when jointly optimised with the commonly-used multi-modal recommendation losses. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# Yucca: 医用画像分析のためのディープラーニングフレームワーク
Yucca: A Deep Learning Framework For Medical Image Analysis ( http://arxiv.org/abs/2407.19888v1 ) ライセンス: Link先を確認 | Sebastian Nørgaard Llambias, Julia Machnio, Asbjørn Munk, Jakob Ambsdorf, Mads Nielsen, Mostafa Mehdipour Ghazi, | (参考訳) ディープラーニングフレームワークを使用した医療画像分析は、複雑なタスクを自動化することによって、高度なヘルスケアを実現しているが、多くの既存のフレームワークには、柔軟性、モジュール性、ユーザフレンドリさがない。
これらの課題に対処するために、Yuccaを紹介します。https://github.com/Sllambias/yuccaで利用可能なオープンソースのAIフレームワークで、医療画像アプリケーション用に特別に設計され、PyTorchとPyTorch Lightning上に構築されています。
Yuccaには関数型、モジュール型、パイプライン型の3層アーキテクチャがあり、包括的なカスタマイズ可能なソリューションを提供する。
ユッカは、脳微小出血の検出、白質の超強度のセグメンテーション、海馬のセグメンテーションといった様々なタスクで評価され、その頑丈さと汎用性を示している。
Yuccaは、医療画像分析のための強力でフレキシブルでユーザフレンドリーなプラットフォームを提供し、コミュニティの貢献を招いて、その能力と影響を前進させる。
Medical image analysis using deep learning frameworks has advanced healthcare by automating complex tasks, but many existing frameworks lack flexibility, modularity, and user-friendliness. To address these challenges, we introduce Yucca, an open-source AI framework available at https://github.com/Sllambias/yucca, designed specifically for medical imaging applications and built on PyTorch and PyTorch Lightning. Yucca features a three-tiered architecture: Functional, Modules, and Pipeline, providing a comprehensive and customizable solution. Evaluated across diverse tasks such as cerebral microbleeds detection, white matter hyperintensity segmentation, and hippocampus segmentation, Yucca achieves state-of-the-art results, demonstrating its robustness and versatility. Yucca offers a powerful, flexible, and user-friendly platform for medical image analysis, inviting community contributions to advance its capabilities and impact. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# テキスト認識のための自己指導型学習 : 批判的調査
Self-Supervised Learning for Text Recognition: A Critical Survey ( http://arxiv.org/abs/2407.19889v1 ) ライセンス: Link先を確認 | Carlos Penarrubia, Jose J. Valero-Mas, Jorge Calvo-Zaragoza, | (参考訳) テキスト認識(英語: Text Recognition, TR)とは、画像からテキスト情報を取得することに焦点を当てた研究分野である。
しかし、これらのソリューションは、しばしば大量の手動ラベル付きまたは合成データを必要とする。
この課題に対処するため、自己監視学習(SSL)は、ラベルなしデータの大規模なデータセットを使用してDNNのトレーニングを行い、有意義で堅牢な表現を生成することで注目を集めている。
SSLは、その特徴から当初TRでは見落とされたが、近年は、この分野に特化したSSLメソッドの開発が急増しているのを目撃している。
しかし、この急速な発展は、方法論や比較において過去の努力を考慮せずに独立して多くの手法が研究され、研究分野の進歩を妨げている。
そこで本論文は,TR分野におけるSSLの利用を集約し,最先端技術に関する批判的かつ包括的な概要を提供する。
既存の手法をレビューし、分析し、その結果を比較し、現在の文献の矛盾を強調します。
この徹底的な分析は、分野に関する一般的な洞察を提供し、標準化を提案し、新しい研究方向を特定し、その適切な開発を促進することを目的としている。
Text Recognition (TR) refers to the research area that focuses on retrieving textual information from images, a topic that has seen significant advancements in the last decade due to the use of Deep Neural Networks (DNN). However, these solutions often necessitate vast amounts of manually labeled or synthetic data. Addressing this challenge, Self-Supervised Learning (SSL) has gained attention by utilizing large datasets of unlabeled data to train DNN, thereby generating meaningful and robust representations. Although SSL was initially overlooked in TR because of its unique characteristics, recent years have witnessed a surge in the development of SSL methods specifically for this field. This rapid development, however, has led to many methods being explored independently, without taking previous efforts in methodology or comparison into account, thereby hindering progress in the field of research. This paper, therefore, seeks to consolidate the use of SSL in the field of TR, offering a critical and comprehensive overview of the current state of the art. We will review and analyze the existing methods, compare their results, and highlight inconsistencies in the current literature. This thorough analysis aims to provide general insights into the field, propose standardizations, identify new research directions, and foster its proper development. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# 多軸ガウス図形モデルを数百万のサンプルと特徴に拡張する
Making Multi-Axis Gaussian Graphical Models Scalable to Millions of Samples and Features ( http://arxiv.org/abs/2407.19892v1 ) ライセンス: Link先を確認 | Bailey Andrew, David R. Westhead, Luisa Cutillo, | (参考訳) ガウスのグラフィカルモデルを使用して、データセットの特徴間の条件依存を抽出することができる。
これはサンプルについて独立的な仮定を行うことによって行われることが多いが、実際にこの仮定が満たされることは滅多にない。
しかし、この仮定を避ける最先端のアプローチは、$O(n^3)$ランタイムと$O(n^2)$スペースの複雑さによってスケーラブルではない。
本稿では,独立性を仮定することなく,$O(n^2)$ランタイムと$O(n)$スペース複雑性を持つ手法を提案する。
我々は、我々の手法が、実世界の1000,000セルのcRNA-seqデータセットのような前例のない大規模なデータセットで使用できることを示す。
提案手法は,マルチモーダルテンソル変量データセットの処理能力や,任意の周辺分布のデータを扱う能力など,先行作業の柔軟性を維持している。
我々の方法のもう1つの利点は、以前の研究とは異なり、我々のハイパーパラメータは容易に解釈可能であることである。
Gaussian graphical models can be used to extract conditional dependencies between the features of the dataset. This is often done by making an independence assumption about the samples, but this assumption is rarely satisfied in reality. However, state-of-the-art approaches that avoid this assumption are not scalable, with $O(n^3)$ runtime and $O(n^2)$ space complexity. In this paper, we introduce a method that has $O(n^2)$ runtime and $O(n)$ space complexity, without assuming independence. We validate our model on both synthetic and real-world datasets, showing that our method's accuracy is comparable to that of prior work We demonstrate that our approach can be used on unprecedentedly large datasets, such as a real-world 1,000,000-cell scRNA-seq dataset; this was impossible with previous approaches. Our method maintains the flexibility of prior work, such as the ability to handle multi-modal tensor-variate datasets and the ability to work with data of arbitrary marginal distributions. An additional advantage of our method is that, unlike prior work, our hyperparameters are easily interpretable. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# ゼロショットIoTセンシングのためのファンデーションモデルを活用する
Leveraging Foundation Models for Zero-Shot IoT Sensing ( http://arxiv.org/abs/2407.19893v1 ) ライセンス: Link先を確認 | Dinghao Xue, Xiaoran Fan, Tao Chen, Guohao Lan, Qun Song, | (参考訳) ディープラーニングモデルは、エッジIoT(Internet of Things)デバイスにますますデプロイされている。
しかしながら、これらのモデルは典型的には監督された条件下で動作し、トレーニングとは異なる目に見えないクラスを認識できない。
これを解決するため、ゼロショット学習(ZSL)は、意味情報の助けを借りて、目に見えないクラスのデータを分類することを目的としている。
Webスケールのデータに基づいてトレーニングされたファンデーションモデル(FM)は、自然言語処理と視覚的理解において印象的なZSL機能を示している。
しかし、FMの一般化された知識を活用して、mmWave、IMU、Wi-Fiなどの信号を用いたゼロショットIoTセンシングが完全には研究されていない。
本研究では、ゼロショットIoTセンシングのためのFMテキストエンコーダによって生成されたセマンティック埋め込みと、IoTデータの埋め込みを一致させる。
セマンティック埋め込み抽出のより効果的なプロンプトを導出するために,IoTセンサ信号の生成を規定する物理原理を活用するために,トレーニングデータに自動的に最適化される学習可能なソフトプロンプトと,IoTセンサタスクのドメイン知識を符号化する補助的ハードプロンプトを組み合わせるために,クロスアテンションを利用することを提案する。
トレーニング中に未確認のクラスデータが欠如しているため,授業に偏ったIoT埋め込みの問題に対処するために,データ拡張を用いて未確認クラスのIoTデータを合成し,IoT機能抽出器と埋め込みプロジェクタを微調整する手法を提案する。
我々は、複数のIoTセンシングタスクに対するアプローチを評価した。
提案手法は,様々なベースラインと比較して,より優れたオープンセット検出と一般化されたゼロショット学習性能を実現する。
私たちのコードはhttps://github.com/schrodingho/FM\_ZSL\_IoT.orgから入手可能です。
Deep learning models are increasingly deployed on edge Internet of Things (IoT) devices. However, these models typically operate under supervised conditions and fail to recognize unseen classes different from training. To address this, zero-shot learning (ZSL) aims to classify data of unseen classes with the help of semantic information. Foundation models (FMs) trained on web-scale data have shown impressive ZSL capability in natural language processing and visual understanding. However, leveraging FMs' generalized knowledge for zero-shot IoT sensing using signals such as mmWave, IMU, and Wi-Fi has not been fully investigated. In this work, we align the IoT data embeddings with the semantic embeddings generated by an FM's text encoder for zero-shot IoT sensing. To utilize the physics principles governing the generation of IoT sensor signals to derive more effective prompts for semantic embedding extraction, we propose to use cross-attention to combine a learnable soft prompt that is optimized automatically on training data and an auxiliary hard prompt that encodes domain knowledge of the IoT sensing task. To address the problem of IoT embeddings biasing to seen classes due to the lack of unseen class data during training, we propose using data augmentation to synthesize unseen class IoT data for fine-tuning the IoT feature extractor and embedding projector. We evaluate our approach on multiple IoT sensing tasks. Results show that our approach achieves superior open-set detection and generalized zero-shot learning performance compared with various baselines. Our code is available at https://github.com/schrodingho/FM\_ZSL\_IoT. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# エンドツーエンドSynTAXスコア予測:ベンチマークと方法
End-to-end SYNTAX score prediction: benchmark and methods ( http://arxiv.org/abs/2407.19894v1 ) ライセンス: Link先を確認 | Alexander Ponomarchuk, Ivan Kruzhilov, Galina Zubkova, Artem Shadrin, Ruslan Utegenov, Ivan Bessonov, Pavel Blinov, | (参考訳) SynTAXスコアは冠動脈疾患の重症度を測る指標として広く用いられている。
本稿では,冠動脈造影からSynTAXスコアを自動推定する医療レグレッションと分類問題を提案する。
本研究は,0得点と非0得点のバランスの取れた個人分布を特徴とする1,844人の包括的データセットを提示する。
このデータセットには、マルチビューのX線ビデオから得られた冠状血管造影サンプルが含まれており、複数の視点から冠状動脈を観察することができる。
さらに,SynTAXを推定する新しい完全自動エンドツーエンド手法を提案する。
このような困難な課題に対して、スコア予測において、決定R2の絶対係数0.51を達成した。
The SYNTAX score has become a widely used measure of coronary disease severity , crucial in selecting the optimal mode of revascularization. This paper introduces a new medical regression and classification problem - automatically estimating SYNTAX score from coronary angiography. Our study presents a comprehensive dataset of 1,844 patients, featuring a balanced distribution of individuals with zero and non-zero scores. This dataset includes a first-of-its-kind, complete coronary angiography samples captured through a multi-view X-ray video, allowing one to observe coronary arteries from multiple perspectives. Furthermore, we present a novel, fully automatic end-to-end method for estimating the SYNTAX. For such a difficult task, we have achieved a solid coefficient of determination R2 of 0.51 in score predictions. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# BEExAI: 説明可能なAIを評価するベンチマーク
BEExAI: Benchmark to Evaluate Explainable AI ( http://arxiv.org/abs/2407.19897v1 ) ライセンス: Link先を確認 | Samuel Sithakoul, Sara Meftah, Clément Feutry, | (参考訳) 近年,ブラックボックス機械学習モデルのアウトプットの理解を深めるためのポストホック帰属手法が数多く提案されている。
しかし、説明の質を評価するには、結合的なアプローチと、説明可能性のポストホック帰属法の有効性を評価する定量的なメトリクスを導出するための方法論の合意が欠如している。
さらに、多様なデータアプリケーションのための複雑なディープラーニングモデルの開発に伴い、説明の質と正確性を測定する信頼性の高い方法の必要性が高まっている。
提案するベンチマークツールであるBEExAIは,選択した評価指標を用いて,さまざまなポストホックXAI手法の大規模比較を可能にする。
Recent research in explainability has given rise to numerous post-hoc attribution methods aimed at enhancing our comprehension of the outputs of black-box machine learning models. However, evaluating the quality of explanations lacks a cohesive approach and a consensus on the methodology for deriving quantitative metrics that gauge the efficacy of explainability post-hoc attribution methods. Furthermore, with the development of increasingly complex deep learning models for diverse data applications, the need for a reliable way of measuring the quality and correctness of explanations is becoming critical. We address this by proposing BEExAI, a benchmark tool that allows large-scale comparison of different post-hoc XAI methods, employing a set of selected evaluation metrics. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# 量子ネットワーク制御入門
A Brief Introduction to Quantum Network Control ( http://arxiv.org/abs/2407.19899v1 ) ライセンス: Link先を確認 | Víctor Valls, Panagiotis Promponas, Leandros Tassiulas, | (参考訳) 量子ネットワーキングは、情報処理と通信を変革する可能性を持つ新興分野である。
本稿では,量子ネットワーク制御の一分野である量子ネットワーク制御について概説する。
まず、量子ビットと絡み合いと、エンタングルメントスワッピングやテレポーテーションなどの量子ネットワーク制御操作をどのように行うかを説明する。
これらの演算により、量子鍵分布や分散量子コンピューティングなどの応用を可能にするために、マルチホップ量子ネットワークにおいて絡み合いを分散するモデルを提案する。
本稿では、量子ネットワーク容量領域のキャパシティーやスループット最適化ポリシーの設計など、この分野におけるオープンな研究課題を提示して、論文を締めくくる。
Quantum networking is an emerging area with the potential to transform information processing and communications. In this paper, we present a brief introduction to quantum network control, an area in quantum networking dedicated to designing algorithms for distributing entanglement (i.e., entangled qubits). We start by explaining what qubits and entanglement are and how they furnish quantum network control operations such as entanglement swapping and teleportation. With those operations, we present a model for distributing entanglement in a multi-hop quantum network to enable applications such as quantum key distribution and distributed quantum computing. We conclude the paper by presenting open research problems in the field, including the characterization of the quantum network capacity region and the design of throughput-optimal policies. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# 構造埋め込みを持つ大規模言語モデルによる実用的・再現可能なシンボリック音楽生成
Practical and Reproducible Symbolic Music Generation by Large Language Models with Structural Embeddings ( http://arxiv.org/abs/2407.19900v1 ) ライセンス: Link先を確認 | Seungyeon Rhyu, Kichang Yang, Sungjun Cho, Jaehyeon Kim, Kyogu Lee, Moontae Lee, | (参考訳) 音楽生成は、大きな言語モデルに難しい複雑さをもたらす。
シンボリックな音楽構造には、垂直調和と水平対位法が含まれており、様々な適応と大規模トランスフォーマーの強化を奨励している。
しかし、現存する作品には3つの大きな欠点がある。
1)それらのトークン化には、通常、生のMIDIデータに欠けているバーやビートのようなドメイン固有のアノテーションが必要です。
2) ドメイン固有のアノテーションなしでは、トークンの埋め込み方法の拡張による純粋な影響は、ほとんど調べられません。
3) MuseNetのような前述の欠点を克服する既存の作業は再現性に欠ける。
このような制約に対処するため、我々はMuseNetにインスパイアされたMIDIベースの音楽生成フレームワークを開発し、ドメイン固有のアノテーションに依存しない2つの構造的埋め込みを実証的に研究した。
デプロイに適したエンコーディングをガイドできるさまざまなメトリクスと洞察を提供しています。
また、複数の埋め込み構成が特定の音楽的側面を選択的に強化できることを検証する。
HuggingFaceを通じてオープンソース実装を提供することで,大規模言語モデルを実用的で再現可能な音楽生成に活用することに光を当てた。
Music generation introduces challenging complexities to large language models. Symbolic structures of music often include vertical harmonization as well as horizontal counterpoint, urging various adaptations and enhancements for large-scale Transformers. However, existing works share three major drawbacks: 1) their tokenization requires domain-specific annotations, such as bars and beats, that are typically missing in raw MIDI data; 2) the pure impact of enhancing token embedding methods is hardly examined without domain-specific annotations; and 3) existing works to overcome the aforementioned drawbacks, such as MuseNet, lack reproducibility. To tackle such limitations, we develop a MIDI-based music generation framework inspired by MuseNet, empirically studying two structural embeddings that do not rely on domain-specific annotations. We provide various metrics and insights that can guide suitable encoding to deploy. We also verify that multiple embedding configurations can selectively boost certain musical aspects. By providing open-source implementations via HuggingFace, our findings shed light on leveraging large language models toward practical and reproducible music generation. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# 環境に持続可能なソフトウェア設計と開発: 体系的な文献レビュー
Environmentally Sustainable Software Design and Development: A Systematic Literature Review ( http://arxiv.org/abs/2407.19901v1 ) ライセンス: Link先を確認 | Ornela Danushi, Stefano Forti, Jacopo Soldani, | (参考訳) ICTセクターは、二酸化炭素排出量の2%とかなりのエネルギー消費を担っており、環境的に持続可能な方法でソフトウェアを設計・開発するための方法論やツールを精査している。
しかし、持続可能なソフトウェアを設計、開発するためのソフトウェア工学のソリューションは、現在、複数の異なる文献に分散しており、このトピックに関する知識の体系を参照することは困難である。
本稿では,持続可能なソフトウェアを設計・開発するための最先端の提案について,系統的な文献レビューを行う。
環境に優しいソフトウェア設計・開発に関する5W1Hの疑問に答えることを目的とした分類法により,65の初等研究を同定し,分析する。
まず、ソフトウェアにおけるエネルギー消費と炭素フットプリントを計測、削減、最小化するための既存のガイドライン、参照モデル、測定ソリューションおよび技術の概要と議論を行う。
最終的には、オープンな課題と研究のギャップを特定し、この分野における将来の仕事に対する洞察を提供します。
The ICT sector, responsible for 2% of global carbon emissions and significant energy consumption, is under scrutiny calling for methodologies and tools to design and develop software in an environmentally sustainable-by-design manner. However, the software engineering solutions for designing and developing sustainable software are currently scattered over multiple different pieces of literature, which makes it difficult to consult the body of knowledge on the topic. In this article, we precisely conduct a systematic literature review on state-of-the-art proposals for designing and developing sustainable software. We identify and analyse 65 primary studies by classifying them through a taxonomy aimed at answering the 5W1H questions of environmentally sustainable software design and development. We first provide a reasoned overview and discussion of the existing guidelines, reference models, measurement solutions and techniques for measuring, reducing, or minimising the energy consumption and carbon footprint of software. Ultimately, we identify open challenges and research gaps, offering insights for future work in this field. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# エンタングルメントデコヒーレンスをもつ量子スイッチの容量について
On the Capacity of the Quantum Switch with and without Entanglement Decoherence ( http://arxiv.org/abs/2407.19903v1 ) ライセンス: Link先を確認 | Víctor Valls, Panagiotis Promponas, Leandros Tassiulas, | (参考訳) 本稿では,2つのデコヒーレンスモデルにおける量子スイッチの容量について考察する。
(i)タイムスロット、または
(ii) 要求に供するために使用されるまで(すなわち、デコヒーレンスがない)
2つのモデルは、他のデコヒーレンスモデルに対してキャパシティ領域に下限と上限を設定するため重要である。
本論文の貢献は,両デコヒーレンスモデルにおけるスイッチ容量領域の特徴付けと,勾配勾配に基づくスループット最適ポリシの提案である。
This paper studies the capacity of the quantum switch for two decoherence models: when link-level entanglements last (i) for a time slot, or (ii) until they are used to serve a request (i.e., there is no decoherence). The two models are important as they set lower and upper bounds on the capacity region for any other decoherence model. The paper's contributions are to characterize the switch capacity region for both decoherence models and to propose throughput-optimal policies based on gradient descent. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# マルコフ決定過程を用いた局所探索メタヒューリスティックスのモデル化
Modeling Local Search Metaheuristics Using Markov Decision Processes ( http://arxiv.org/abs/2407.19904v1 ) ライセンス: Link先を確認 | Rubén Ruiz-Torrubiano, | (参考訳) タブサーチやシミュレートされたアニーリングのような局所探索メタヒューリスティックは、組合せ最適化問題に対する準最適解を見つけるための一般的なヒューリスティック最適化アルゴリズムである。
しかし、研究者や実践者が自身の行動を分析し、特定の問題に対する膨大なメタヒューリスティクスを体系的に選択することは依然として困難である。
本稿では,局所探索メタヒューリスティック解析のためのマルコフ決定過程(MDP)に基づく理論的枠組みを提案する。
このフレームワークは,個々のアルゴリズムに収束結果を提供するだけでなく,探索・探索トレードオフの明示的な特徴や,目の前にある問題に対して適切なメタヒューリスティックを選択するための理論的なガイダンスも提供する。
本枠組みを詳述し,ヒルクライミングとシミュレートされたアニーリングアルゴリズムに適用する方法を示す。
Local search metaheuristics like tabu search or simulated annealing are popular heuristic optimization algorithms for finding near-optimal solutions for combinatorial optimization problems. However, it is still challenging for researchers and practitioners to analyze their behaviour and systematically choose one over a vast set of possible metaheuristics for the particular problem at hand. In this paper, we introduce a theoretical framework based on Markov Decision Processes (MDP) for analyzing local search metaheuristics. This framework not only helps in providing convergence results for individual algorithms, but also provides an explicit characterization of the exploration-exploitation tradeoff and a theory-grounded guidance for practitioners for choosing an appropriate metaheuristic for the problem at hand. We present this framework in detail and show how to apply it in the case of hill climbing and the simulated annealing algorithm. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# 等価量子埋め込みとしての逆写像射影
Reverse Map Projections as Equivariant Quantum Embeddings ( http://arxiv.org/abs/2407.19906v1 ) ライセンス: Link先を確認 | Max Arnott, Dimitri Papaioannou, Kieran McDowall, | (参考訳) 古典データを量子状態に符号化するユニークな新しい方法を定義する逆写像射影埋め込みのクラス $(E_\alpha)_{\alpha \in [-\infty,1)} を導入する。
単位球面から接面へのよく知られた地図投影にインスパイアされたこれらの埋め込みは、振幅埋め込み法の共通の欠点に対処し、データポイントのスカラー多重を識別し、データのノルムに関する情報を失う。
逆写像射影を量子機械学習の同変埋め込みとして利用する方法を示す。
これらの手法を用いることで、古典的データセットの対称性を活用し、量子機械学習タスクの性能を大幅に向上させることができる。
最後に、簡単な分類タスクを実行するために$\alpha$の4つの値を選択し、$E_\alpha$を埋め込みとして、同変と非同変の両方のセットアップで実験する。
これらの結果と標準振幅埋め込みとの比較を行った。
We introduce the novel class $(E_\alpha)_{\alpha \in [-\infty,1)}$ of reverse map projection embeddings, each one defining a unique new method of encoding classical data into quantum states. Inspired by well-known map projections from the unit sphere onto its tangent planes, used in practice in cartography, these embeddings address the common drawback of the amplitude embedding method, wherein scalar multiples of data points are identified and information about the norm of data is lost. We show how reverse map projections can be utilised as equivariant embeddings for quantum machine learning. Using these methods, we can leverage symmetries in classical datasets to significantly strengthen performance on quantum machine learning tasks. Finally, we select four values of $\alpha$ with which to perform a simple classification task, taking $E_\alpha$ as the embedding and experimenting with both equivariant and non-equivariant setups. We compare their results alongside those of standard amplitude embedding. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# 状態空間変換による効率的なシールド合成
Efficient Shield Synthesis via State-Space Transformation ( http://arxiv.org/abs/2407.19911v1 ) ライセンス: Link先を確認 | Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling, | (参考訳) 制御システムの安全戦略を合成する問題、いわゆるシールドについて考察する。
状態空間は無限であるため、シールドは通常有限状態抽象上で計算され、最も一般的な抽象化は矩形格子である。
しかし、多くのシステムでは、そのようなグリッドは安全性やシステムのダイナミクスとうまく一致しない。
そのため、粗いグリッドはめったに十分ではないが、細いグリッドは一般に計算では得られない。
本稿では,計算オーバーヘッドのほとんどない粗いグリッドでも,適切な状態空間変換が可能であることを示す。
3つのケーススタディにおいて、変換に基づく合成は、数桁の精度で標準合成より優れていることを示す。
最初の2つのケーススタディでは、適切な変換を選択するためにドメイン知識を使用します。
第3のケーススタディでは、ドメイン知識のないトランスフォーメーションのエンジニアリング結果について報告します。
We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# 沈殿画像診断における細胞培養補助的応用
Cell Culture Assistive Application for Precipitation Image Diagnosis ( http://arxiv.org/abs/2407.19913v1 ) ライセンス: Link先を確認 | Takato Yasuno, | (参考訳) 再生医療研究において,我々は化学物質の組成を実験的に設計する。
384ウェルプレートに異なる成分を加え、生体細胞を培養する。
我々は, 細胞の状態を監視し, 時間分解バイオイメージングを用いて形態学的診断を行う。
特に、降水は画像の人工物として現れ、画像アッセイのノイズを汚染する。
沈殿物を調べることは観察者にとって面倒な作業であり、経験の違いは人から人への判断のバリエーションにつながる可能性がある。
機械学習のアプローチは、人間の検査の負担を取り除き、一貫した検査を提供する。
また、降水量は10-20 {\mu}m程度である。
1200ピクセルの2.82 m/ピクセルの解像度で再サイズされた正方形の井戸画像は、降水特性の低下をもたらす。
ウェルイメージを240ピクセルの正方形に分割し、元のイメージの解像度を小さくすることなく学習する。
本研究では,光学顕微鏡画像を用いた384ウェルプレートの降水を自動的に検出するアプリケーションを開発した。
約2万枚のパッチ画像から降水クラスを抽出するためにMNペアコントラストクラスタリングを適用した。
降水特性を検出するために、より深いFCDD検出器とオプションのバックボーンを比較し、異常スコアが0から1の範囲の分離フォレストアルゴリズムを用いて、四重項井戸画像の最大スコアから降水を検出する機械学習パイプラインを構築した。
さらに, この応用により, 384ウェルプレート上の降水シチューヒートマップを可視化することができる。
In regenerative medicine research, we experimentally design the composition of chemical medium. We add different components to 384-well plates and culture the biological cells. We monitor the condition of the cells and take time-lapse bioimages for morphological assay. In particular, precipitation can appear as artefacts in the image and contaminate the noise in the imaging assay. Inspecting precipitates is a tedious task for the observer, and differences in experience can lead to variations in judgement from person to person. The machine learning approach will remove the burden of human inspection and provide consistent inspection. In addition, precipitation features are as small as 10-20 {\mu}m. A 1200 pixel square well image resized under a resolution of 2.82 {\mu}m/pixel will result in a reduction in precipitation features. Dividing the well images into 240-pixel squares and learning without resizing preserves the resolution of the original image. In this study, we developed an application to automatically detect precipitation on 384-well plates utilising optical microscope images. We apply MN-pair contrastive clustering to extract precipitation classes from approximately 20,000 patch images. To detect precipitation features, we compare deeper FCDDs detectors with optional backbones and build a machine learning pipeline to detect precipitation from the maximum score of quadruplet well images using isolation Forest algorithm, where the anomaly score is ranged from zero to one. Furthermore, using this application we can visualise precipitation situ heatmap on a 384-well plate. | 翻訳日:2024-07-30 14:06:25 公開日:2024-07-29 |
# 大規模言語モデルを用いたリトアニア語オンラインレビューの感性分析
Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models ( http://arxiv.org/abs/2407.19914v1 ) ライセンス: Link先を確認 | Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius, | (参考訳) 感性分析は自然言語処理(NLP)において広く研究されている分野であり、自動化されたソリューションの出現によって大きな関心を集めている。
それにもかかわらず、言語の本質的な複雑さと感情の主観的な性質のために、この課題は依然として挑戦的である。
リトアニア語のような、研究の少ない、リソースの少ない言語にとっては、さらに困難である。
既存のリトアニアのNLP研究のレビューでは、従来の機械学習手法と分類アルゴリズムがタスクの有効性に限界があることが判明した。
本研究では,リトアニアの5つ星をベースとした複数のドメインによるオンラインレビューの感情分析について述べる。
このタスクにトランスフォーマーモデルを初めて適用し、特に細調整のBERTモデルとT5モデルに焦点を当てた、事前訓練された多言語言語モデル(LLM)の機能について検討する。
タスクの固有の難しさを考えると、微調整されたモデルは、特に感情自体が曖昧で、最も人気のある1つ星と5つ星のレビューの精度は80.74%と89.61%である。
現行の商業用汎用LCM GPT-4を著しく上回っている。
精巧なLLMをオンラインで公開しています。
Sentiment analysis is a widely researched area within Natural Language Processing (NLP), attracting significant interest due to the advent of automated solutions. Despite this, the task remains challenging because of the inherent complexity of languages and the subjective nature of sentiments. It is even more challenging for less-studied and less-resourced languages such as Lithuanian. Our review of existing Lithuanian NLP research reveals that traditional machine learning methods and classification algorithms have limited effectiveness for the task. In this work, we address sentiment analysis of Lithuanian five-star-based online reviews from multiple domains that we collect and clean. We apply transformer models to this task for the first time, exploring the capabilities of pre-trained multilingual Large Language Models (LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the inherent difficulty of the task, the fine-tuned models perform quite well, especially when the sentiments themselves are less ambiguous: 80.74% and 89.61% testing recognition accuracy of the most popular one- and five-star reviews respectively. They significantly outperform current commercial state-of-the-art general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# 高速空力シミュレーションのためのニューラルフィールド
Aero-Nef: Neural Fields for Rapid Aircraft Aerodynamics Simulations ( http://arxiv.org/abs/2407.19916v1 ) ライセンス: Link先を確認 | Giovanni Catalani, Siddhant Agarwal, Xavier Bertrand, Frederic Tost, Michael Bauerheim, Joseph Morlier, | (参考訳) 本稿では,Inmplicit Neural Representations (INRs)に基づいて,メッシュ領域上の定常流体力学シミュレーションの代理モデルを学習する手法を提案する。
提案したモデルは、異なる流れ条件の非構造領域に直接適用でき、非パラメトリックな3次元幾何学的変動を処理し、テスト時に見えない形状に一般化することができる。
座標に基づく定式化は、自然に離散化に関して堅牢性をもたらし、計算コスト(メモリフットプリントとトレーニング時間)と精度の優れたトレードオフを可能にする。
本手法は,超音速翼上における2次元圧縮性流れのRANSデータセットと,形状,流入条件,制御面偏差を含む3次元翼上における表面圧力分布のデータセットの2つの産業的応用について実証した。
検討されたテストケースでは,提案手法はテストエラーの3倍以上の低減を実現し,最先端のグラフニューラルネットワークアーキテクチャと比較して未確認領域の一般化誤差を大幅に改善する。
顕著なことに、RANS超音速翼データセット上の高忠実度解法よりも5桁高速な推論を行うことができる。
コードはhttps://gitlab.isae-supaero.fr/gi.catalani/aero-nepfで入手できる。
This paper presents a methodology to learn surrogate models of steady state fluid dynamics simulations on meshed domains, based on Implicit Neural Representations (INRs). The proposed models can be applied directly to unstructured domains for different flow conditions, handle non-parametric 3D geometric variations, and generalize to unseen shapes at test time. The coordinate-based formulation naturally leads to robustness with respect to discretization, allowing an excellent trade-off between computational cost (memory footprint and training time) and accuracy. The method is demonstrated on two industrially relevant applications: a RANS dataset of the two-dimensional compressible flow over a transonic airfoil and a dataset of the surface pressure distribution over 3D wings, including shape, inflow condition, and control surface deflection variations. On the considered test cases, our approach achieves a more than three times lower test error and significantly improves generalization error on unseen geometries compared to state-of-the-art Graph Neural Network architectures. Remarkably, the method can perform inference five order of magnitude faster than the high fidelity solver on the RANS transonic airfoil dataset. Code is available at https://gitlab.isae-supaero.fr/gi.catalani/aero-nepf | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# 不確実な量子臨界メトロロジー:単一から多パラメータセンシングへ
Uncertain Quantum Critical Metrology: From Single to Multi Parameter Sensing ( http://arxiv.org/abs/2407.19917v1 ) ライセンス: Link先を確認 | George Mihailescu, Steve Campbell, Karol Gietka, | (参考訳) 臨界量子量論は、ハミルトニアン摂動への量子相転移の臨界点付近の系の固有状態の極度感度に依存する。
これは、これらの固有状態がハミルトニアンの全てのパラメータに非常に敏感であることを意味する。
現実的な設定では、制御パラメータには、ほぼ既知の量である実験的な不確かさの程度が常に存在する。
このような不確実性は、臨界気象学において最も関係のあるノイズ源であるにもかかわらず、到達可能な精度への影響はほとんど見過ごされてきている。
本研究では,単一パラメータと複数パラメータの推定設定を補間し,関連するエラーの適切な予約を可能にする汎用フレームワークを提案する。
この枠組みをIsingおよびLipkin-Meshkov-Glickモデルに適用し、制御パラメータの不確かさが臨界センサーの感度に与える影響を明確に示す。
有限サイズのシステムでは、パラメータ推定における量子的優位性を維持しつつも、多体プローブが耐えうる不確実性の量の間にトレードオフが存在することが確かめられる。
Critical quantum metrology relies on the extreme sensitivity of a system's eigenstates near the critical point of a quantum phase transition to Hamiltonian perturbations. This means that these eigenstates are extremely sensitive to all the parameters of the Hamiltonian. In practical settings, there always exists a degree of experimental uncertainty in the control parameters - which are approximately known quantities. Despite such uncertainties representing the most relevant source of noise in critical metrology, their impact on the attainable precision has been largely overlooked. In this work we present a general framework, interpolating between the single and multi-parameter estimation settings, allowing for the proper bookkeeping of relevant errors. We apply this framework to the paradigmatic transverse field Ising and Lipkin-Meshkov-Glick models, explicitly showing how uncertainty in control parameters impacts the sensitivity of critical sensors. For finite-size systems, we establish that there exists a trade-off between the amount of uncertainty a many-body probe can withstand while still maintaining a quantum advantage in parameter estimation. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# FreeLong: スペクトルブレンドによるトレーニング不要の長時間ビデオ生成
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention ( http://arxiv.org/abs/2407.19918v1 ) ライセンス: Link先を確認 | Yu Lu, Yuanzhi Liang, Linchao Zhu, Yi Yang, | (参考訳) ビデオ拡散モデルは、様々なビデオ生成アプリケーションで大きく進歩している。
しかし、長いビデオ生成タスクのトレーニングモデルには、計算とデータ資源がかなり必要であり、長いビデオ拡散モデルの開発に挑戦している。
本稿では,既存の短ビデオ拡散モデル(例えば16フレームビデオで事前学習)を,一貫した長ビデオ生成(例えば128フレーム)に拡張するための,単純で訓練のないアプローチについて検討する。
予備的な観察の結果,短いビデオ拡散モデルを直接適用することで,映像の画質が著しく低下する可能性が示唆された。
さらに、この劣化は、主に、空間的高周波成分の減少と時間的高周波成分の増大を特徴とする長ビデオにおける高周波成分の歪みに起因することが判明した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
FreeLongは、全ビデオシーケンスをカプセル化したグローバルビデオ機能の低周波成分と、フレームの短いサブシーケンスに焦点を当てたローカルビデオ機能の高周波成分をブレンドする。
このアプローチは、ローカルビデオからの多彩で高品質な時空間的詳細を取り入れながら、グローバルな一貫性を維持し、長大なビデオ生成の一貫性と忠実さを両立させる。
マルチベースビデオ拡散モデルを用いてFreeLongを評価し,大幅な改善が認められた。
さらに,コヒーレントなマルチプロンプト生成をサポートし,シーン間の視覚的コヒーレンスとシームレスな遷移を保証する。
Video diffusion models have made substantial progress in various video generation applications. However, training models for long video generation tasks require significant computational and data resources, posing a challenge to developing long video diffusion models. This paper investigates a straightforward and training-free approach to extend an existing short video diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video generation (e.g. 128 frames). Our preliminary observation has found that directly applying the short video diffusion model to generate long videos can lead to severe video quality degradation. Further investigation reveals that this degradation is primarily due to the distortion of high-frequency components in long videos, characterized by a decrease in spatial high-frequency components and an increase in temporal high-frequency components. Motivated by this, we propose a novel solution named FreeLong to balance the frequency distribution of long video features during the denoising process. FreeLong blends the low-frequency components of global video features, which encapsulate the entire video sequence, with the high-frequency components of local video features that focus on shorter subsequences of frames. This approach maintains global consistency while incorporating diverse and high-quality spatiotemporal details from local videos, enhancing both the consistency and fidelity of long video generation. We evaluated FreeLong on multiple base video diffusion models and observed significant improvements. Additionally, our method supports coherent multi-prompt generation, ensuring both visual coherence and seamless transitions between scenes. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# LLM説明可能性による通貨ペア感の収益化
Monetizing Currency Pair Sentiments through LLM Explainability ( http://arxiv.org/abs/2407.19922v1 ) ライセンス: Link先を確認 | Lior Limonad, Fabiana Fournier, Juan Manuel Vera Díaz, Inna Skarbovsky, Shlomit Gur, Raquel Lazcano, | (参考訳) 大規模言語モデル(LLM)は、今日の組織のほとんどすべての領域において重要な役割を担います。
本研究の文脈では、感情分析(SA)と説明可能性にLLMを使うことを強調した。
具体的には, LLM をポストホックモデル非依存のツールとして利用し, SA の説明可能性の向上に寄与する。
本手法を金融分野に適用し,公開ニュースフィードデータと市場価格を融合した通貨対対価の予測を行った。
我々の応用は、この手法が従来のeXplainable AIの代替手段であるだけでなく、機械学習(ML)モデルへの入力を豊かにすることで、将来の通貨対価値をより正確に予測できることを示している。
我々は,MLの精度向上のために,従来のML入力のエンリッチメントとして説明可能性を活用することで,結果の一般化を期待する。
Large language models (LLMs) play a vital role in almost every domain in today's organizations. In the context of this work, we highlight the use of LLMs for sentiment analysis (SA) and explainability. Specifically, we contribute a novel technique to leverage LLMs as a post-hoc model-independent tool for the explainability of SA. We applied our technique in the financial domain for currency-pair price predictions using open news feed data merged with market prices. Our application shows that the developed technique is not only a viable alternative to using conventional eXplainable AI but can also be fed back to enrich the input to the machine learning (ML) model to better predict future currency-pair values. We envision our results could be generalized to employing explainability as a conventional enrichment for ML input for better ML predictions in general. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# IoTセキュリティを改善するためのデコイ開発のための軽量データセット
Lightweight Dataset for Decoy Development to Improve IoT Security ( http://arxiv.org/abs/2407.19926v1 ) ライセンス: Link先を確認 | David Weissman, Anura P. Jayasumana, | (参考訳) 本稿では,IoT(Internet of Things)アクティビティを解釈し,既知のデータトラフィックパターンを複製してデコイを生成するための,軽量データセットを提案する。
データセットは、実際のネットワーク設定で異なるシナリオから構成される。
本稿は、他のIoTデータセットに関連する情報と、データを価値あるものにする特徴についても調査する。
利用可能なデータセットの多くは、合成(シミュレート)されるか、産業アプリケーションに対処することが多いが、現在のIoTデータセットは、おそらくスマートホームシナリオに基づいています。
さらに、通常の操作とアタックシナリオの両方を含む、限られた数のIoTデータセットしかありません。
ネットワーク構成に関する議論と、このデータセットの作成に要するステップが示され、デコイ目的のために複製パターンを作成する準備が整った。
IoT Flex Dataと呼ばれるデータセットは、IoTビーンのアイドル、IoTビーンのアクティブ、IoTセットアップ、IoTデバイスを考慮中のシナリオに関連付ける悪意のある(アタック)トラフィックという、4つのカテゴリで構成されています。
In this paper, the authors introduce a lightweight dataset to interpret IoT (Internet of Things) activity in preparation to create decoys by replicating known data traffic patterns. The dataset comprises different scenarios in a real network setting. This paper also surveys information related to other IoT datasets along with the characteristics that make our data valuable. Many of the datasets available are synthesized (simulated) or often address industrial applications, while the IoT dataset we present is based on likely smart home scenarios. Further, there are only a limited number of IoT datasets that contain both normal operation and attack scenarios. A discussion of the network configuration and the steps taken to prepare this dataset are presented as we prepare to create replicative patterns for decoy purposes. The dataset, which we refer to as IoT Flex Data, consists of four categories, namely, IoT benign idle, IoT benign active, IoT setup, and malicious (attack) traffic associating the IoT devices with the scenarios under consideration. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# 2成分量子回路における固有状態相関:部分スペクトル形状因子
Eigenstate Correlations in Dual-Unitary Quantum Circuits: Partial Spectral Form Factor ( http://arxiv.org/abs/2407.19929v1 ) ライセンス: Link先を確認 | Felix Fritzsch, Maximilian F. I. Kieler, Arnd Bäcker, | (参考訳) 量子カオスの概念はランダムマトリクスのスペクトル相関と結びついているが、カオス系の固有状態の性質もしばしばランダムマトリクス理論によって説明される。
固有状態相関の解析的な洞察は、最近導入された部分スペクトル形状因子によって得られる。
本稿では,熱力学限界におけるカオス二重単位量子回路における部分スペクトル形状因子について検討する。
ブロックワーク回路における有限部分系に対して後者を計算し、無限補数に結合する。
初期時間において、サブシステムのサイズ、空間的局所性、(双対)ユニタリ性は、ランダム行列予測の線形ランプから明らかに逸脱した、一定の部分的なスペクトル形成因子を意味する。
対照的に、より大きな時間において、偏スペクトル形状因子がランダム行列に従うことが指数関数的に抑制された補正をもたらすことが証明される。
熱力学の限界における半解析計算と有限サイズ系の数値計算により, 正確な解析結果を補足する。
While the notion of quantum chaos is tied to random matrix spectral correlations, also eigenstate properties in chaotic systems are often assumed to be described by random matrix theory. Analytic insights into eigenstate correlations can be obtained by the recently introduced partial spectral form factor. Here, we study the partial spectral form factor in chaotic dual-unitary quantum circuits in the thermodynamic limit. We compute the latter for a finite subsystem in a brickwork circuit coupled to an infinite complement. For initial times, shorter than the subsystem's size, spatial locality and (dual) unitarity implies a constant partial spectral form factor, clearly deviating from the linear ramp of the random matrix prediction. In contrast, for larger times we prove, that the partial spectral form factor follows the random matrix result up to exponentially suppressed corrections. We supplement our exact analytical results by semi-analytic computations performed in the thermodynamic limit as well as with numerics for finite-size systems. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# AOTree: Aspect Order Tree-based Model for Explainable Recommendation
AOTree: Aspect Order Tree-based Model for Explainable Recommendation ( http://arxiv.org/abs/2407.19937v1 ) ライセンス: Link先を確認 | Wenxin Zhao, Peng Zhang, Hansu Gu, Dongsheng Li, Tun Lu, Ning Gu, | (参考訳) 近年のレコメンデーションシステムは、正確なレコメンデーションだけでなく、ユーザがより理解しやすい説明を提供することを目指している。
しかし、既存の説明可能なレコメンデーションのほとんどは、言葉やアスペクトなどのレビューにおけるコンテンツの重要性を考慮し、それら間の順序付け関係を無視するのみである。
この監視は、人間の意思決定プロセスにおいて重要な順序付けの次元を無視し、最適以下のパフォーマンスをもたらす。
そこで本稿では,認知・決定心理学のオーダーエフェクト理論にインスパイアされたAOTree(Aspect Order Tree-based, AOTree)の推奨手法を提案する。
まず,ユーザのレビューを分析し,推薦シナリオにおける理論の検証を行う。
そして,提案したAOTreeは,ユーザの意思決定プロセスにおけるアスペクトの順序を捉えるために決定木の構築を拡張し,アスペクトの順序に基づいてアテンションメカニズムを用いて予測を行う。
本手法は, 評価予測における評価の有効性を実証し, 特定の順序で説明を表示することによって, ユーザの意思決定プロセスと一貫した整合性を示し, 解釈可能性を高める。
Recent recommender systems aim to provide not only accurate recommendations but also explanations that help users understand them better. However, most existing explainable recommendations only consider the importance of content in reviews, such as words or aspects, and ignore the ordering relationship among them. This oversight neglects crucial ordering dimensions in the human decision-making process, leading to suboptimal performance. Therefore, in this paper, we propose Aspect Order Tree-based (AOTree) explainable recommendation method, inspired by the Order Effects Theory from cognitive and decision psychology, in order to capture the dependency relationships among decisive factors. We first validate the theory in the recommendation scenario by analyzing the reviews of the users. Then, according to the theory, the proposed AOTree expands the construction of the decision tree to capture aspect orders in users' decision-making processes, and use attention mechanisms to make predictions based on the aspect orders. Extensive experiments demonstrate our method's effectiveness on rating predictions, and our approach aligns more consistently with the user' s decision-making process by displaying explanations in a particular order, thereby enhancing interpretability. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# 3次元医用画像におけるロバストな等角体積推定
Robust Conformal Volume Estimation in 3D Medical Images ( http://arxiv.org/abs/2407.19938v1 ) ライセンス: Link先を確認 | Benjamin Lambert, Florence Forbes, Senan Doyle, Michel Dojat, | (参考訳) ボリュームトリは、例えば、異常な組織の成長を検知したり、手術計画のために、3次元の医用画像セグメンテーションの主要な下流の応用の1つである。
コンフォーマル予測は不確実性定量化のための有望なフレームワークであり、自動体積測定に関連するキャリブレーションされた予測間隔を提供する。
しかし、この手法は校正とテストサンプルが交換可能であるという仮説に基づいている。
整形予測の重み付けによる定式化はこの問題を軽減するために行われるが、医療領域における実証研究はいまだに不足している。
潜在的な理由は、キャリブレーションとテスト分布の密度比の推定に依存するためであり、これは高次元データを含むシナリオでは難解である可能性が高い。
これを回避するために,分割モデルにより生成された圧縮潜在表現に依存する密度比推定手法を提案する。
本実験は,共変量シフトの存在下での被覆誤差を,合成環境と実環境の両方で低減する手法の有効性を実証するものである。
私たちの実装はhttps://github.com/benolmbrt/wcp_miccaiで利用可能です。
Volumetry is one of the principal downstream applications of 3D medical image segmentation, for example, to detect abnormal tissue growth or for surgery planning. Conformal Prediction is a promising framework for uncertainty quantification, providing calibrated predictive intervals associated with automatic volume measurements. However, this methodology is based on the hypothesis that calibration and test samples are exchangeable, an assumption that is in practice often violated in medical image applications. A weighted formulation of Conformal Prediction can be framed to mitigate this issue, but its empirical investigation in the medical domain is still lacking. A potential reason is that it relies on the estimation of the density ratio between the calibration and test distributions, which is likely to be intractable in scenarios involving high-dimensional data. To circumvent this, we propose an efficient approach for density ratio estimation relying on the compressed latent representations generated by the segmentation model. Our experiments demonstrate the efficiency of our approach to reduce the coverage error in the presence of covariate shifts, in both synthetic and real-world settings. Our implementation is available at https://github.com/benolmbrt/wcp_miccai | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# 構造から見たグラフ基礎モデルの構築
Boosting Graph Foundation Model from Structural Perspective ( http://arxiv.org/abs/2407.19941v1 ) ライセンス: Link先を確認 | Yao Cheng, Yige Zhao, Jianxiang Yu, Xiang Li, | (参考訳) グラフ基盤モデルは、その強力な一般化性により、最近大きな注目を集めている。
既存の手法は言語モデルを用いてドメイン間の統一意味表現を学習するが、異なるドメインからのグラフのユニークな構造的特徴を無視する。
この問題に対処するため,本論文では,構造的観点からグラフ基盤モデルを強化し,BooGを提案する。
このモデルは仮想スーパーノードを構築し、異なる領域からのグラフデータの構造的特性を統一する。
具体的には、スーパーノードはアンカーノードの情報とクラスラベルを融合させ、各アンカーノードは分類対象のノードまたはグラフインスタンスの情報を取得する。
生グラフ構造を使う代わりに、仮想エッジによって近隣のすべてのノードにスーパーノードを接続する。
この新たな構造は、ドメイン間構造特性を統一しつつ、効果的な情報集約を可能にする。
さらに,グラフデータ表現をより表現的に学習し,異なる領域や下流タスクに効果的に一般化する,コントラスト学習に基づく新しい事前学習目標を提案する。
さまざまなデータセットやタスクの実験結果から,BooGの優れた性能が示された。
https://anonymous.4open.science/r/BooG-EE42/.com//////////////////////////////////////////////////// ////////////////////////////////////////////////////
Graph foundation models have recently attracted significant attention due to its strong generalizability. Although existing methods resort to language models to learn unified semantic representations across domains, they disregard the unique structural characteristics of graphs from different domains. To address the problem, in this paper, we boost graph foundation model from structural perspective and propose BooG. The model constructs virtual super nodes to unify structural characteristics of graph data from different domains. Specifically, the super nodes fuse the information of anchor nodes and class labels, where each anchor node captures the information of a node or a graph instance to be classified. Instead of using the raw graph structure, we connect super nodes to all nodes within their neighborhood by virtual edges. This new structure allows for effective information aggregation while unifying cross-domain structural characteristics. Additionally, we propose a novel pre-training objective based on contrastive learning, which learns more expressive representations for graph data and generalizes effectively to different domains and downstream tasks. Experimental results on various datasets and tasks demonstrate the superior performance of BooG. We provide our code and data here: https://anonymous.4open.science/r/BooG-EE42/. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# 先進的な対人学習のランク付けのための実践的かつロバストな安全保証
Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank ( http://arxiv.org/abs/2407.19943v1 ) ライセンス: Link先を確認 | Shashank Gupta, Harrie Oosterhuis, Maarten de Rijke, | (参考訳) CLTR(Counterfactual Learning to rank)はリスクがあり、様々な状況において、デプロイ時にパフォーマンスを損なうような準最適モデルを生成する可能性がある。
位置バイアスの補正に逆相対性スコアを用いた場合,これらのリスクを軽減するために安全CLTRを導入した。
しかし、CLTRの既存の安全対策は最先端のCLTRには適用されず、信頼バイアスに対処できず、その保証はユーザの行動に関する特定の仮定に依存している。
私たちの貢献は2倍です。
まず、既存の安全CLTRアプローチを一般化し、最先端の2重ロバスト(DR)CLTRと信頼バイアスに適用する。
第2に,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。
PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。
これにより、PRPOは、特定のユーザの仮定に頼ることなく、学習したモデルがパフォーマンスメトリクスをどれだけ劣化させるかに制限を課す。
提案手法とPRPOは, 従来の安全逆正則スコアリング手法よりも高い性能を示すことを示す。
しかし、状況が予期しない場合には、安全で二重に堅牢なアプローチは安全ではなく、有害なパフォーマンスをもたらす可能性がある。
対照的に、PRPOは常に安全を維持している。
PRPOは仮定を避けることで、デプロイにおいて無条件の安全性を持つ最初の方法であり、現実のアプリケーションにとって堅牢な安全性をもたらす。
Counterfactual learning to rank (CLTR ) can be risky; various circumstances can cause it to produce sub-optimal models that hurt performance when deployed. Safe CLTR was introduced to mitigate these risks when using inverse propensity scoring to correct for position bias. However, the existing safety measure for CLTR is not applicable to state-of-the-art CLTR, it cannot handle trust bias, and its guarantees rely on specific assumptions about user behavior. Our contributions are two-fold. First, we generalize the existing safe CLTR approach to make it applicable to state-of-the-art doubly robust (DR) CLTR and trust bias. Second, we propose a novel approach, proximal ranking policy optimization (PRPO ), that provides safety in deployment without assumptions about user behavior. PRPO removes incentives for learning ranking behavior that is too dissimilar to a safe ranking model. Thereby, PRPO imposes a limit on how much learned models can degrade performance metrics, without relying on any specific user assumptions. Our experiments show that both our novel safe doubly robust method and PRPO provide higher performance than the existing safe inverse propensity scoring approach. However, when circumstances are unexpected, the safe doubly robust approach can become unsafe and bring detrimental performance. In contrast, PRPO always maintains safety, even in maximally adversarial situations. By avoiding assumptions, PRPO is the first method with unconditional safety in deployment that translates to robust safety for real-world applications. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# マルチホップ特徴量推定による耐雑音性非教師付きグラフ表現学習
Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation ( http://arxiv.org/abs/2407.19944v1 ) ライセンス: Link先を確認 | Shiyuan Li, Yixin Liu, Qingfeng Chen, Geoffrey I. Webb, Shirui Pan, | (参考訳) グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)は,グラフ構造化データ処理の有効性から注目されている。
しかし、既存のUGRL法では、ノードの特徴がノイズフリーであると仮定し、ノイズのある特徴を持つ実データに適用した場合に有用な情報とノイズを区別できないため、学習された表現の品質に影響を及ぼす。
これにより、実世界のUGRLでノードノイズを考慮に入れます。
経験的分析により,GNNにおいて不可欠な機能である特徴伝搬が,ノイズに対処する上で「二重刃剣」として機能することを明らかにする。
この知見に基づいて,マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
伝播に基づくGNNを直接利用して表現を生成するほとんどのUGRLモデルとは異なり,提案手法は異なるホップにおける伝播特徴の質を推定することにより表現を学習することを目的としている。
具体的には,学習可能な"meta-representation"をニューラルネットワークによるマルチホップ伝搬特徴の期待と分散を推定する条件として用いたガウスモデルを提案する。
このようにして、"メタ表現"は複数の伝搬特徴の根底にある意味的および構造的情報をキャプチャするが、自然にノイズによる干渉の影響を受けにくいため、下流タスクに有用な高品質なノード表現として機能する。
複数の実世界のデータセットに対する大規模な実験では、様々なタイプの機能ノイズのあるシナリオにおいて、信頼できるノード表現を学習するMQEが示されている。
Unsupervised graph representation learning (UGRL) based on graph neural networks (GNNs), has received increasing attention owing to its efficacy in handling graph-structured data. However, existing UGRL methods ideally assume that the node features are noise-free, which makes them fail to distinguish between useful information and noise when applied to real data with noisy features, thus affecting the quality of learned representations. This urges us to take node noisy features into account in real-world UGRL. With empirical analysis, we reveal that feature propagation, the essential operation in GNNs, acts as a "double-edged sword" in handling noisy features - it can both denoise and diffuse noise, leading to varying feature quality across nodes, even within the same node at different hops. Building on this insight, we propose a novel UGRL method based on Multi-hop feature Quality Estimation (MQE for short). Unlike most UGRL models that directly utilize propagation-based GNNs to generate representations, our approach aims to learn representations through estimating the quality of propagated features at different hops. Specifically, we introduce a Gaussian model that utilizes a learnable "meta-representation" as a condition to estimate the expectation and variance of multi-hop propagated features via neural networks. In this way, the "meta representation" captures the semantic and structural information underlying multiple propagated features but is naturally less susceptible to interference by noise, thereby serving as high-quality node representations beneficial for downstream tasks. Extensive experiments on multiple real-world datasets demonstrate that MQE in learning reliable node representations in scenarios with diverse types of feature noise. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# 階段」支援欲求生成を用いた大規模言語モデルの推論高速化
Inference acceleration for large language models using "stairs" assisted greedy generation ( http://arxiv.org/abs/2407.19947v1 ) ライセンス: Link先を確認 | Domas Grigaliūnas, Mantas Lukoševičius, | (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、その印象的な予測能力で知られていますが、実行には多くのリソースが必要です。
人気が大幅に高まれば、必要なリソースの削減さえも環境に影響を及ぼす可能性がある。
一方、より小さなモデルは少ないリソースを必要とするが、精度を犠牲にする可能性がある。
本研究では,「階段」支援型欲望世代の実装を提案する。
これは、予測生成の高速化を達成するために、より小さなモデルの高速な生成、大きなモデルのバッチ予測、および"階段"バリデーションを利用する修正支援生成手法である。
その結果, テキスト生成タスクにおいて, 精度を損なうことなく, 9.58~17.24パーセントの推測時間短縮が可能となった。
Large Language Models (LLMs) with billions of parameters are known for their impressive predicting capabilities but require lots of resources to run. With their massive rise in popularity, even a small reduction in required resources could have an impact on environment. On the other hand, smaller models require fewer resources but may sacrifice accuracy. In this work, we are proposing an implementation of ``stairs'' assisted greedy generation. It is a modified assisted generation methodology that makes use of a smaller model's fast generation, large model's batch prediction, and "stairs" validation in order to achieve a speed up in prediction generation. Results show between 9.58 and 17.24 percent inference time reduction compared to a stand-alone large LLM prediction in a text generation task without a loss in accuracy. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# 異常検出システムを信頼できますか? : 説明可能なAIを用いたケーススタディ
Can I trust my anomaly detection system? A case study based on explainable AI ( http://arxiv.org/abs/2407.19951v1 ) ライセンス: Link先を確認 | Muhammad Rashid, Elvio Amparore, Enrico Ferrari, Damiano Verda, | (参考訳) 変分オートエンコーダに基づく生成モデルは、半教師付きコンテキストにおける画像の異常を検出する一般的な手法である。
一般的なアプローチでは、異常の有無を検出するために異常スコアを使用し、ベンチマークデータセット上で高いレベルの精度に達することが知られている。
しかし, 再建の相違から異常スコアが計算されるため, 種々の突発的特徴の検出を曖昧にし, 実際の有効性に対する懸念を提起することが多い。
本稿では,eXplainable AI法を用いた変分オートエンコーダ生成モデルに基づく異常検出システムのロバスト性について検討する。
目標は、再構成の違いを利用する異常検知器の実際の性能について、異なる視点を得ることです。
ケーススタディでは、多くの場合、サンプルは間違った要因や誤解を招く要因の異常として検出される。
Generative models based on variational autoencoders are a popular technique for detecting anomalies in images in a semi-supervised context. A common approach employs the anomaly score to detect the presence of anomalies, and it is known to reach high level of accuracy on benchmark datasets. However, since anomaly scores are computed from reconstruction disparities, they often obscure the detection of various spurious features, raising concerns regarding their actual efficacy. This case study explores the robustness of an anomaly detection system based on variational autoencoder generative models through the use of eXplainable AI methods. The goal is to get a different perspective on the real performances of anomaly detectors that use reconstruction differences. In our case study we discovered that, in many cases, samples are detected as anomalous for the wrong or misleading factors. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# 臨床面接によるうつ病・アルツハイマー病自動診断の信頼性評価
Confidence Estimation for Automatic Detection of Depression and Alzheimer's Disease Based on Clinical Interviews ( http://arxiv.org/abs/2407.19984v1 ) ライセンス: Link先を確認 | Wen Wu, Chao Zhang, Philip C. Woodland, | (参考訳) 音声によるアルツハイマー病(AD)とうつ病の自動検出が注目されている。
信頼度評価は, モデル予測の信頼性を臨床医に知らせ, 誤診リスクの低減を支援する, 信頼に値する自動診断システムにとって極めて重要である。
本稿では,臨床面接に基づくADとうつ病の自動検出のための信頼度推定について検討する。
動的ディリクレ事前分布を用いて予測分布の2次確率をモデル化する新しいベイズ的手法を提案する。
公開されているADReSSおよびDAIC-WOZデータセットによる実験結果から,提案手法は分類精度と信頼性推定の両方において,幅広いベースラインより優れていることが示された。
Speech-based automatic detection of Alzheimer's disease (AD) and depression has attracted increased attention. Confidence estimation is crucial for a trust-worthy automatic diagnostic system which informs the clinician about the confidence of model predictions and helps reduce the risk of misdiagnosis. This paper investigates confidence estimation for automatic detection of AD and depression based on clinical interviews. A novel Bayesian approach is proposed which uses a dynamic Dirichlet prior distribution to model the second-order probability of the predictive distribution. Experimental results on the publicly available ADReSS and DAIC-WOZ datasets demonstrate that the proposed method outperforms a range of baselines for both classification accuracy and confidence estimation. | 翻訳日:2024-07-30 13:56:27 公開日:2024-07-29 |
# FedDEO: 拡散モデルによる説明強化ワンショットフェデレーション学習
FedDEO: Description-Enhanced One-Shot Federated Learning with Diffusion Models ( http://arxiv.org/abs/2407.19953v1 ) ライセンス: Link先を確認 | Mingzhao Yang, Shangchao Su, Bin Li, Xiangyang Xue, | (参考訳) 近年,One-Shot Federated Learning (OSFL) への注目は,コミュニケーションを最小化する能力に支えられている。
拡散モデル(DM)の開発に伴い、いくつかの手法がOSFLのDMを使用し、モデルパラメータ、画像特徴、テキストプロンプトを媒体として、ローカルクライアントの知識をサーバに転送する。
しかし、これらの媒体は、しばしば公開データセットや一様特徴抽出器を必要とし、実用性を大幅に制限する。
本稿では, DMを用いた記述強化ワンショットフェデレート学習手法であるFedDEOを提案する。
本手法の中核となる考え方は,分散クライアントの知識をサーバに転送する媒体として,クライアント上でのローカル記述のトレーニングである。
まず、クライアントデータ上のローカル記述をトレーニングし、クライアント分布の特徴をキャプチャし、それをサーバにアップロードする。
サーバ上では、様々なクライアントの分布に応じて合成データセットを生成する際にDMを誘導する条件として記述を使用し、集約されたモデルのトレーニングを可能にする。
大規模実世界の3つのデータセットに関する理論的分析と十分な定量化および可視化実験により、サーバは局所的な記述のトレーニングを通じて、高品質で多様な合成データセットを生成することができることを示した。
その結果、通信とプライバシ保護の利点により、集約されたモデルはFL法や拡散ベースのOSFL法よりも優れており、一部のクライアントでは集中トレーニングのパフォーマンス天井よりも優れています。
In recent years, the attention towards One-Shot Federated Learning (OSFL) has been driven by its capacity to minimize communication. With the development of the diffusion model (DM), several methods employ the DM for OSFL, utilizing model parameters, image features, or textual prompts as mediums to transfer the local client knowledge to the server. However, these mediums often require public datasets or the uniform feature extractor, significantly limiting their practicality. In this paper, we propose FedDEO, a Description-Enhanced One-Shot Federated Learning Method with DMs, offering a novel exploration of utilizing the DM in OSFL. The core idea of our method involves training local descriptions on the clients, serving as the medium to transfer the knowledge of the distributed clients to the server. Firstly, we train local descriptions on the client data to capture the characteristics of client distributions, which are then uploaded to the server. On the server, the descriptions are used as conditions to guide the DM in generating synthetic datasets that comply with the distributions of various clients, enabling the training of the aggregated model. Theoretical analyses and sufficient quantitation and visualization experiments on three large-scale real-world datasets demonstrate that through the training of local descriptions, the server is capable of generating synthetic datasets with high quality and diversity. Consequently, with advantages in communication and privacy protection, the aggregated model outperforms compared FL or diffusion-based OSFL methods and, on some clients, outperforms the performance ceiling of centralized training. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# 統合通信とセキュリティ:RIS支援同時送信と秘密鍵の生成
Integrated Communications and Security: RIS-Assisted Simultaneous Transmission and Generation of Secret Keys ( http://arxiv.org/abs/2407.19960v1 ) ライセンス: Link先を確認 | Ning Gao, Yuze Yao, Shi Jin, Cen Li, Michail Matthaiou, | (参考訳) 我々は、再構成可能なインテリジェントサーフェス(RIS)の概念を活用することにより、ICAS(Integrated Communication and Security)設計パラダイムを新たに開発する。
特に、これらの2つのタスクに対してRISを共有することで、RIS支援同時送信と秘密鍵生成を提案する。
具体的には、正統なトランシーバは、スマートアタッカーの存在下でRISの位相シフトを設定することにより、データ送信率とキー生成率を共同で最適化する。
まず、RIS支援物理層鍵生成(PLKG)の鍵生成率を導出する。
そして、最適なRIS構成を得るために、安全な送信(ST)ゲームとして問題を定式化し、ナッシュ平衡(NE)の存在を証明し、静的ゲームのNE点を導出する。
動的STゲームでは,問題を有限マルコフ決定過程としてモデル化し,NE点を得るためのモデルフリー強化学習手法を提案する。
特に,攻撃者のチャネル状態情報 (CSI) を実環境において取得できないことを考えると,本手法はQ-network (DRQN) に基づく動的ST戦略を開発し,RIS構成を最適に学習する。
アルゴリズムの詳細が提供されると、システムの複雑さが分析される。
シミュレーションの結果,DRQNをベースとした動的ST戦略は,部分的な観測情報であってもベンチマークよりも優れた性能を示し,データ伝送とPLKGに適した重み係数を割り当てることで,"ワンタイムパッド"通信を実現している。
We develop a new integrated communications and security (ICAS) design paradigm by leveraging the concept of reconfigurable intelligent surfaces (RISs). In particular, we propose RIS-assisted simultaneous transmission and secret key generation by sharing the RIS for these two tasks. Specifically, the legitimate transceivers intend to jointly optimize the data transmission rate and the key generation rate by configuring the phase-shift of the RIS in the presence of a smart attacker. We first derive the key generation rate of the RIS-assisted physical layer key generation (PLKG). Then, to obtain the optimal RIS configuration, we formulate the problem as a secure transmission (ST) game and prove the existence of the Nash equilibrium (NE), and then derive the NE point of the static game. For the dynamic ST game, we model the problem as a finite Markov decision process and propose a model-free reinforcement learning approach to obtain the NE point. Particularly, considering that the legitimate transceivers cannot obtain the channel state information (CSI) of the attacker in real-world conditions, we develop a deep recurrent Q-network (DRQN) based dynamic ST strategy to learn the optimal RIS configuration. The details of the algorithm are provided, and then, the system complexity is analyzed. Our simulation results show that the proposed DRQN based dynamic ST strategy has a better performance than the benchmarks even with a partial observation information, and achieves "one time pad" communication by allocating a suitable weight factor for data transmission and PLKG. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# Prichain II: ブロックチェーンによるCloudGuardianクラウドセキュリティ提案
Prichain II: CloudGuardian Cloud Security Proposal with Blockchain ( http://arxiv.org/abs/2407.19961v1 ) ライセンス: Link先を確認 | Rodrigo Craveiro Rodrigues, Pedro Miguel Calhau Mateus, Valderi Reis Quietinho Leithardt, | (参考訳) クラウドコンピューティングの進歩により、データストレージ、セキュリティが重要になっている。
企業によるクラウドサービスの採用の増加とサイバーセキュリティの脅威の増加は、プライバシとユーザデータのオーナシップの重要性を強調している。
2022年から2023年の間に、クラウドセキュリティの脅威が約48%増加した。
これらの課題に対処するため、このプロジェクトでは、Ethereumネットワークのブロックチェーン技術をPostgreSQLクラウド内のデータベースに統合することを提案する。
提案手法は、双方向データ同期とアクセス機構の厳密な制御を提供することを目的としている。
ブロックチェーン技術はトランザクションの不変性と透過性を保証し、PostgreSQLは効率的でスケーラブルなストレージを提供する。
適応的なトラフィック制御シナリオでの厳密なテストを通じて得られた結果は、このソリューションがデータの分散化によるセキュリティを極めて高いレベルに提供することを示し、このソリューションが有効であることを確認し、クラウド環境のセキュリティを改善するための強力な新しいオプションにする。
結論として、このプロジェクトで提案されたソリューションは、情報セキュリティを高めるだけでなく、ブロックチェーンとクラウドリレーショナルデータベースを統合する現実的な実現可能性も示している。
この双方向アライメントは、サイバー攻撃に対する保護を改善し、ユーザデータが不正アクセスや悪意のある変更から保護されることを保証する。
With the advancement of cloud computing, data storage, and security have become crucial. The growing adoption of cloud services by companies, accompanied by increased threats from cybersecurity, highlights the importance of privacy and ownership of user data. Between 2022 and 2023, there has been an increase of around 48% in cloud security threats, emphasizing the urgent need for strong security solutions. To face these challenges, in this project, we propose integrating the Ethereum network's blockchain technology with a database located in the PostgreSQL cloud. The proposed solution aims to provide bidirectional data synchronization and strict control of access mechanisms. Blockchain technology ensures immutability and transparency of transactions, while PostgreSQL provides efficient and scalable storage. Through rigorous testing in an adaptive traffic control scenario, the results obtained indicate that this solution offers a significantly high level of security due to the decentralization of data, confirming that this solution is effective, and making it a powerful new option to improve security in cloud environments. In conclusion, the solution proposed in this project not only increases information security but also demonstrates the practical feasibility of integrating blockchain with cloud relational databases. This two-way alignment improves protection against cyberattacks and ensures that user data is protected from unauthorized access and malicious changes. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# GPU推論による簡単な訓練可能な近距離機械翻訳
Simply Trainable Nearest Neighbour Machine Translation with GPU Inference ( http://arxiv.org/abs/2407.19965v1 ) ライセンス: Link先を確認 | Hossam Amer, Abdelrahman Abouelenin, Mohamed Maher, Evram Nairouz, Mohamed Afify, Hany Awadallah, | (参考訳) 最も近い隣の機械翻訳は高速なドメイン適応のためのアプローチであり、事前訓練されたトランスフォーマーとドメイン固有のトークンレベルのk-nearest-neighbor(kNN)検索をリトレーニングせずに補間する。
kNN MTの成功にもかかわらず、大規模な参照コーパスの探索と、kNNと事前訓練されたモデル間の固定補間は、計算複雑性と翻訳品質の課題を引き起こした。
論文の中で、Daiらは少数の参照サンプルを動的に取得する方法を提案し、自由パラメータを含む方程式を用いた距離認識補間法を導入した。
本稿では、簡単に訓練可能な近接機械翻訳を提案し、GPU上で推論実験を行う。
Dai et al と同様、まず入力文ごとに小さなデータストアを適応的に構築する。
第2に、knnMTと事前学習結果との間の補間係数を1層ネットワークでトレーニングし、異なる領域で自動的に補間する。
異なる領域における実験結果から,提案手法は自動でダイなどの手法の翻訳品質を向上させるか,あるいは維持することが示された。
さらに、GPU推論の結果から、knnMTをGPUに組み込むことができ、速度の面では5%の低下しか見られないことが示されている。
Nearest neighbor machine translation is a successful approach for fast domain adaption, which interpolates the pre-trained transformers with domain-specific token-level k-nearest-neighbor (kNN) retrieval without retraining. Despite kNN MT's success, searching large reference corpus and fixed interpolation between the kNN and pre-trained model led to computational complexity and translation quality challenges. Among other papers, Dai et al. proposed methods to obtain a small number of reference samples dynamically for which they introduced a distance-aware interpolation method using an equation that includes free parameters. This paper proposes a simply trainable nearest neighbor machine translation and carry out inference experiments on GPU. Similar to Dai et al., we first adaptively construct a small datastore for each input sentence. Second, we train a single-layer network for the interpolation coefficient between the knnMT and pre-trained result to automatically interpolate in different domains. Experimental results on different domains show that our proposed method either improves or sometimes maintain the translation quality of methods in Dai et al. while being automatic. In addition, our GPU inference results demonstrate that knnMT can be integrated into GPUs with a drop of only 5% in terms of speed. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# ソーシャルメディア利用者のアイデンティティ・リゾリューションに対する時間的心理言語学的アプローチ
A Temporal Psycholinguistics Approach to Identity Resolution of Social Media Users ( http://arxiv.org/abs/2407.19967v1 ) ライセンス: Link先を確認 | Md Touhidul Islam, | (参考訳) 本論文では,ソーシャルメディアプラットフォーム上での投稿の話題,感情,タイミングを用いたアイデンティティ解決手法を提案する。
DisqusとTwitterから5000のプロフィールの公開投稿を収集した後、その投稿を分析し、2つのプラットフォームにわたるプロフィールにマッチさせる。
我々は分析において時間的手法と非時間的手法の両方を追求する。
どちらのアプローチも決定的に優れていることを証明していないが、時間的アプローチは一般的により優れている。
その結果,時間的窓の大きさが変化量よりも大きな影響があることが判明した。
一方、感情分析では、おそらくデータ抽出法に欠陥があるため、感情の含みがほとんど変化しないことが示された。
また,得られたコーパス2525のうち,24.198%の精度,平均158.217の精度を達成できる距離に基づく報酬と報酬に焦点を当てたスコアモデルの実験を行った。
今後の研究には、トピックごとの感情評価による感情分析の精細化、追加フェーズによる時間分析の拡張、重量調整と修正報酬による評価モデルの改善などが含まれる。
In this thesis, we propose an approach to identity resolution across social media platforms using the topics, sentiments, and timings of the posts on the platforms. After collecting the public posts of around 5000 profiles from Disqus and Twitter, we analyze their posts to match their profiles across the two platforms. We pursue both temporal and non-temporal methods in our analysis. While neither approach proves definitively superior, the temporal approach generally performs better. We found that the temporal window size influences results more than the shifting amount. On the other hand, our sentiment analysis shows that the inclusion of sentiment makes little difference, probably due to flawed data extraction methods. We also experimented with a distance-based reward-and-punishment-focused scoring model, which achieved an accuracy of 24.198% and an average rank of 158.217 out of 2525 in our collected corpus. Future work includes refining sentiment analysis by evaluating sentiments per topic, extending temporal analysis with additional phases, and improving the scoring model through weight adjustments and modified rewards. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# フラットから空間へ:ニューラルネットワークを用いた2次元平面から3次元, 2次元, 1/2次元モデルを構築する4つの方法の比較
From Flat to Spatial: Comparison of 4 methods constructing 3D, 2 and 1/2D Models from 2D Plans with neural networks ( http://arxiv.org/abs/2407.19970v1 ) ライセンス: Link先を確認 | Jacob Sam, Karan Patel, Mike Saad, | (参考訳) アーキテクチャの分野では、単一画像を2Dおよび1/2Dおよび3Dメッシュに変換することは、設計の可視化と効率を高めるための有望な技術である。
本稿では,「1-2-3-45」,「CRM: 畳み込み再構成モデルを用いた3次元テクスチャメッシュへのシングルイメージ」,「インスタントメッシュ」,「イメージ・トゥ・メッシュ」の4つの革新的な手法について検討する。
これらの手法はこの技術の最前線にあり、アーキテクチャ設計と可視化への適用性に焦点を当てている。
彼らは3Dアーキテクチャモデルの作成を合理化し、写真や単純なスケッチのような最小限の初期入力から高速なプロトタイピングと詳細な視覚化を可能にします。
CRMは畳み込みネットワークを使用して、幾何学的事前をアーキテクチャに統合し、詳細でテクスチャ化されたメッシュを迅速かつ効率的に生成する。
Instant Meshは、マルチビュー拡散とスパースビューモデルの強みを組み合わせて、さまざまなアーキテクチャプロジェクトに適したスピードとスケーラビリティを提供する。
Image-to-Meshは、GAN(Generative Adversarial Network)を利用して、単一の画像から3Dメッシュを生成する。
本研究は, 設計サイクルの短縮, 精度の向上, 各種建築様式や要求への柔軟な適応の実現に, それぞれの手法が貢献していることを明らかにする。
迅速な視覚化とイテレーションのための強力なツールをアーキテクトに提供することで、これらの3Dメッシュ生成の進歩は、アーキテクチャプラクティスに革命をもたらす。
In the field of architecture, the conversion of single images into 2 and 1/2D and 3D meshes is a promising technology that enhances design visualization and efficiency. This paper evaluates four innovative methods: "One-2-3-45," "CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model," "Instant Mesh," and "Image-to-Mesh." These methods are at the forefront of this technology, focusing on their applicability in architectural design and visualization. They streamline the creation of 3D architectural models, enabling rapid prototyping and detailed visualization from minimal initial inputs, such as photographs or simple sketches.One-2-3-45 leverages a diffusion-based approach to generate multi-view reconstructions, ensuring high geometric fidelity and texture quality. CRM utilizes a convolutional network to integrate geometric priors into its architecture, producing detailed and textured meshes quickly and efficiently. Instant Mesh combines the strengths of multi-view diffusion and sparse-view models to offer speed and scalability, suitable for diverse architectural projects. Image-to-Mesh leverages a generative adversarial network (GAN) to produce 3D meshes from single images, focusing on maintaining high texture fidelity and geometric accuracy by incorporating image and depth map data into its training process. It uses a hybrid approach that combines voxel-based representations with surface reconstruction techniques to ensure detailed and realistic 3D models.This comparative study highlights each method's contribution to reducing design cycle times, improving accuracy, and enabling flexible adaptations to various architectural styles and requirements. By providing architects with powerful tools for rapid visualization and iteration, these advancements in 3D mesh generation are set to revolutionize architectural practices. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# プライベートおよびセキュアなファジィ名前マッチング
Private and Secure Fuzzy Name Matching ( http://arxiv.org/abs/2407.19979v1 ) ライセンス: Link先を確認 | Harsh Kasyap, Ugur Ilker Atmaca, Carsten Maple, Graham Cormode, Jiancong He, | (参考訳) 現代の金融機関は、効率性の向上、サービスの強化、金融犯罪の防止など、多くの業務のためにデータに依存している。
組織や機関間でのデータ共有は、資金洗浄や詐欺など、迅速かつ証拠に基づく意思決定を促進することができる。
しかし、データプライバシー規制はデータ共有に制限を課している。
プライバシー強化技術は、規制の遵守を確保しながら、組織が共有インテリジェンスを導出できるように、ますます採用されている。
本稿では、規制上の制約により、各データセットにアカウントを持つ人物を特定するために、当事者が利害関係者と利害関係者のデータを共有できない場合について検討する。
各データセットに、アカウント保持者の名前が異なる方法で記録される可能性があることを観察する。
本稿では, 局所性に敏感なハッシュを用いた完全同型暗号を用いて, ファジィ名前マッチングのための新しいプライバシー保護手法を提案する。
アプローチの効率はクラスタリング機構を使って向上する。
提案手法の実用性と有効性は,異なるデータセットを用いて評価する。
実験の結果、それぞれ10kと100kの名前から1000名を探すのに約100秒と1000秒かかりました。
さらに,クラスタリングにより通信オーバーヘッドを30~300倍削減する手法を提案する。
Modern financial institutions rely on data for many operations, including a need to drive efficiency, enhance services and prevent financial crime. Data sharing across an organisation or between institutions can facilitate rapid, evidence-based decision making, including identifying money laundering and fraud. However, data privacy regulations impose restrictions on data sharing. Privacy-enhancing technologies are being increasingly employed to allow organisations to derive shared intelligence while ensuring regulatory compliance. This paper examines the case in which regulatory restrictions mean a party cannot share data on accounts of interest with another (internal or external) party to identify people that hold an account in each dataset. We observe that the names of account holders may be recorded differently in each data set. We introduce a novel privacy-preserving approach for fuzzy name matching across institutions, employing fully homomorphic encryption with locality-sensitive hashing. The efficiency of the approach is enhanced using a clustering mechanism. The practicality and effectiveness of the proposed approach are evaluated using different datasets. Experimental results demonstrate it takes around 100 and 1000 seconds to search 1000 names from 10k and 100k names, respectively. Moreover, the proposed approach exhibits significant improvement in reducing communication overhead by 30-300 times, using clustering. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# RGB-Skeleton 行動認識における対向的ロバスト性:注意モダリティの軽減
Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter ( http://arxiv.org/abs/2407.19981v1 ) ライセンス: Link先を確認 | Chao Liu, Xin Liu, Zitong Yu, Yonghong Hou, Huanjing Yue, Jingyu Yang, | (参考訳) ディープニューラルネットワーク(DNN)は多くのコンピュータビジョンタスクに適用され、最先端(SOTA)のパフォーマンスを達成した。
しかし、DNNが自然の例に人間に知覚できない敵のノイズを加えることによって生じる敵の例を予測すると、誤分類が起こる。
これにより、セキュリティクリティカルな分野におけるDNNの適用が制限される。
モデルの堅牢性を高めるため,従来の研究は画像認識や映像理解といった一助的な領域に重点を置いてきた。
マルチモーダル学習は行動認識などの様々なタスクにおいて高度な性能を達成しているが、RGB-スケルトン行動認識モデルの堅牢性に関する研究は少ない。
本稿では,RGB-スケルトン行動認識モデルのロバスト性向上手法を体系的に検討する。
当初,異なるモダリティのロバスト性について実証分析を行い,RGBモダリティよりも骨格のモダリティが頑健であることを示した。
本研究の目的は,2つのモダリティを再重み付けするアテンション層を利用して,より堅牢な特徴を学習できる,義語{A}ttention-based \formatword{M}odality \formatword{R}eweighter (\formatword{AMR})を提案することである。
私たちのAMRはプラグアンドプレイで、マルチモーダルモデルと簡単に統合できます。
AMRの有効性を実証するため,様々なデータセットについて広範な実験を行った。
例えば、SOTA法と比較して、AMRはNTU-RGB+D 60データセットに対するPGD20攻撃に対して43.77\%改善されている。
さらに、異なるモダリティ間のロバスト性の違いを効果的にバランスさせる。
Deep neural networks (DNNs) have been applied in many computer vision tasks and achieved state-of-the-art (SOTA) performance. However, misclassification will occur when DNNs predict adversarial examples which are created by adding human-imperceptible adversarial noise to natural examples. This limits the application of DNN in security-critical fields. In order to enhance the robustness of models, previous research has primarily focused on the unimodal domain, such as image recognition and video understanding. Although multi-modal learning has achieved advanced performance in various tasks, such as action recognition, research on the robustness of RGB-skeleton action recognition models is scarce. In this paper, we systematically investigate how to improve the robustness of RGB-skeleton action recognition models. We initially conducted empirical analysis on the robustness of different modalities and observed that the skeleton modality is more robust than the RGB modality. Motivated by this observation, we propose the \formatword{A}ttention-based \formatword{M}odality \formatword{R}eweighter (\formatword{AMR}), which utilizes an attention layer to re-weight the two modalities, enabling the model to learn more robust features. Our AMR is plug-and-play, allowing easy integration with multimodal models. To demonstrate the effectiveness of AMR, we conducted extensive experiments on various datasets. For example, compared to the SOTA methods, AMR exhibits a 43.77\% improvement against PGD20 attacks on the NTU-RGB+D 60 dataset. Furthermore, it effectively balances the differences in robustness between different modalities. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# N-th Order Born Approximationが実現可能か?
Can N-th Order Born Approximation Be Exact? ( http://arxiv.org/abs/2407.19983v1 ) ライセンス: Link先を確認 | Farhang Loran, Ali Mostafazadeh, | (参考訳) 2次元と3次元のスカラー波と3次元の電磁波の散乱について、$N$-階のボルン近似が約$N\geq 1$の散乱問題の正確な解を与える散乱相互作用の条件を同定する。
For the scattering of scalar waves in two and three dimensions and electromagnetic waves in three dimensions, we identify a condition on the scattering interaction under which the $N$-th order Born approximation gives the exact solution of the scattering problem for some $N\geq 1$. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# Nested Expertsの混在:ビジュアルトークンの適応処理
Mixture of Nested Experts: Adaptive Processing of Visual Tokens ( http://arxiv.org/abs/2407.19985v1 ) ライセンス: Link先を確認 | Gagan Jain, Nidhi Hegde, Aditya Kusupati, Arsha Nagrani, Shyamal Buch, Prateek Jain, Anurag Arnab, Sujoy Paul, | (参考訳) 視覚媒体(画像とビデオ)は、自然に大量の情報冗長性を含み、処理の効率性を活用するための大きな機会を提供する。
Vision Transformer (ViT) ベースのモデルは、大規模なデータレシエーションに効果的にスケールするが、この固有の冗長性に乗じず、計算コストが高くなる。
Mixture of Experts (MoE) ネットワークは、同じ推論時間コストを維持しながらスケーラビリティを示すが、パラメータフットプリントが大きい。
本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。
計算予算が与えられた後、MoNEは優先順位順でトークンを動的に選択することを学び、冗長トークンはより安価なネストされた専門家によって処理される。
このフレームワークを用いて、ベースラインモデルとして同等の性能を達成し、推論時間を2倍以上に短縮する。
我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
MoNE$'$sの適応性はさらに強調して、単一のトレーニングモデルのみを使用して、ビデオ上のさまざまな推論時間計算予算にわたって、強力なパフォーマンスを維持する能力を示す。
The visual medium (images and videos) naturally contains a large amount of information redundancy, thereby providing a great opportunity for leveraging efficiency in processing. While Vision Transformer (ViT) based models scale effectively to large data regimes, they fail to capitalize on this inherent redundancy, leading to higher computational costs. Mixture of Experts (MoE) networks demonstrate scalability while maintaining same inference-time costs, but they come with a larger parameter footprint. We present Mixture of Nested Experts (MoNE), which utilizes a nested structure for experts, wherein individual experts fall on an increasing compute-accuracy curve. Given a compute budget, MoNE learns to dynamically choose tokens in a priority order, and thus redundant tokens are processed through cheaper nested experts. Using this framework, we achieve equivalent performance as the baseline models, while reducing inference time compute by over two-fold. We validate our approach on standard image and video datasets - ImageNet-21K, Kinetics400, and Something-Something-v2. We further highlight MoNE$'$s adaptability by showcasing its ability to maintain strong performance across different inference-time compute budgets on videos, using only a single trained model. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# HOBOTAN: テンソルネットワークとPyTorchを併用した高次バイナリ最適化ソリューション
HOBOTAN: Efficient Higher Order Binary Optimization Solver with Tensor Networks and PyTorch ( http://arxiv.org/abs/2407.19987v1 ) ライセンス: Link先を確認 | Shoya Yasuda, Shunsuke Sotobayashi, Yuichiro Minato, | (参考訳) 本研究では,高次二項最適化(HOBO)のための新しい解法である HoOBOTAN を紹介する。
HOBOTANはCPUとGPUの両方をサポートし、GPUバージョンはPyTorchをベースに開発され、高速でスケーラブルなシステムを提供している。
この解法はテンソルネットワークを用いて組合せ最適化問題を解き、HOBOテンソルを用いて問題をマッピングし、必要に応じてテンソル収縮を行う。
さらに、テンソル最適化のためのバッチ処理やバイナリベースの整数符号化といった手法を組み合わせることにより、組合せ最適化の効率を大幅に向上させる。
将来的には,GPU数の増加による計算能力の向上が期待され,複数のGPU間の効率的なコラボレーションが実現され,スケーラビリティが向上する。
さらに、HOBOTANは量子コンピューティングのフレームワーク内で設計されており、将来の量子コンピュータアプリケーションに対する洞察を提供する。
本稿では,HOBOTANの設計,実装,性能評価,拡張性について述べる。
In this study, we introduce HOBOTAN, a new solver designed for Higher Order Binary Optimization (HOBO). HOBOTAN supports both CPU and GPU, with the GPU version developed based on PyTorch, offering a fast and scalable system. This solver utilizes tensor networks to solve combinatorial optimization problems, employing a HOBO tensor that maps the problem and performs tensor contractions as needed. Additionally, by combining techniques such as batch processing for tensor optimization and binary-based integer encoding, we significantly enhance the efficiency of combinatorial optimization. In the future, the utilization of increased GPU numbers is expected to harness greater computational power, enabling efficient collaboration between multiple GPUs for high scalability. Moreover, HOBOTAN is designed within the framework of quantum computing, thus providing insights for future quantum computer applications. This paper details the design, implementation, performance evaluation, and scalability of HOBOTAN, demonstrating its effectiveness. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# DMNのfMRI時系列における構造的差異の研究によるアルツハイマー認知症と健常者の分類
Classification of Alzheimer's Dementia vs. Healthy subjects by studying structural disparities in fMRI Time-Series of DMN ( http://arxiv.org/abs/2407.19990v1 ) ライセンス: Link先を確認 | Sneha Noble, Chakka Sai Pradeep, Neelam Sinha, Thomas Gregor Issac, | (参考訳) FMRI(Function Magnetic Resonance Imaging)とDMN(Function Magnetic Resonance Imaging)の異なる関心領域(ROI)からの時系列は、健康な人と不健康な人の大きな違いを示す。
本稿では、静止状態fMRI時系列を特徴付ける「確率性から逸脱する」(DS)と呼ばれる信号における構造の欠如/存在を定量化する既存の指標の有用性を提案する。
この仮説は、時系列における構造レベルの違いが、対象グループ間の識別につながるというものである。
本研究では、オートエンコーダに基づくモデルを用いて、ネットワークをトレーニングして入力データを再構築することで、データの効率的な表現を学習する。
提案手法は,ADNIデータベースから得られた健常者50名とアルツハイマー病(AD)患者50名からなるfMRI時系列データに適用した。
正常fMRIのDS測定値とAD測定値との差が認められた。
グラディエントブースティング分類器を用いて,100名を対象にDS測定を行い,95%のピーク分類精度を得た。
Time series from different regions of interest (ROI) of default mode network (DMN) from Functional Magnetic Resonance Imaging (fMRI) can reveal significant differences between healthy and unhealthy people. Here, we propose the utility of an existing metric quantifying the lack/presence of structure in a signal called, "deviation from stochasticity" (DS) measure to characterize resting-state fMRI time series. The hypothesis is that differences in the level of structure in the time series can lead to discrimination between the subject groups. In this work, an autoencoder-based model is utilized to learn efficient representations of data by training the network to reconstruct its input data. The proposed methodology is applied on fMRI time series of 50 healthy individuals and 50 subjects with Alzheimer's Disease (AD), obtained from publicly available ADNI database. DS measure for healthy fMRI as expected turns out to be different compared to that of AD. Peak classification accuracy of 95% was obtained using Gradient Boosting classifier, using the DS measure applied on 100 subjects. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# より精密なエッジ検出
More precise edge detections ( http://arxiv.org/abs/2407.19992v1 ) ライセンス: Link先を確認 | Hao Shu, Guo-Ping Qiu, | (参考訳) Image Edge Detection (ED) はコンピュータビジョンの基本的なタスクである。
EDアルゴリズムの性能はCNNモデルの導入によって大幅に改善されているが、現在のモデルでは特に低誤差許容距離しか許容されない場合、不満足な精度で悩まされている。
したがって、より正確な予測のためのモデルアーキテクチャは依然として調査が必要である。
一方、人間によって提供される避けられない騒音訓練データは、入力がエッジマップ自身であっても満足のいくモデル予測につながり、改善も必要となる。
本稿では,より精密なEDモデルにカスケードスキップ密度ブロック(CSDB)を提案する。
我々のモデルはいくつかのデータセット、特に実験により確認された平均精度(AP)において、最先端(SOTA)予測を得る。
さらに、我々のモデルはダウンサンプル操作を含まないので、広く信じられている操作は不要であることを示す。
また、モデルトレーニングにノイズのないデータを用いることで、エッジマップ自体で予測されるモデルの性能を向上させることができる。
Image Edge detection (ED) is a base task in computer vision. While the performance of the ED algorithm has been improved greatly by introducing CNN-based models, current models still suffer from unsatisfactory precision rates especially when only a low error toleration distance is allowed. Therefore, model architecture for more precise predictions still needs an investigation. On the other hand, the unavoidable noise training data provided by humans would lead to unsatisfactory model predictions even when inputs are edge maps themselves, which also needs improvement. In this paper, more precise ED models are presented with cascaded skipping density blocks (CSDB). Our models obtain state-of-the-art(SOTA) predictions in several datasets, especially in average precision rate (AP), which is confirmed by extensive experiments. Moreover, our models do not include down-sample operations, demonstrating those widely believed operations are not necessary. Also, a novel modification on data augmentation for training is employed, which allows noiseless data to be employed in model training and thus improves the performance of models predicting on edge maps themselves. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# グラフを用いたエージェントベースアドバンストRAGシステムの実装法に関する研究
A Study on the Implementation Method of an Agent-Based Advanced RAG System Using Graph ( http://arxiv.org/abs/2407.19994v1 ) ライセンス: Link先を確認 | Cheonsu Jeong, | (参考訳) 本研究の目的は,知識に基づく質問応答(QA)システムを改善することであり,既存の検索型拡張生成(RAG)モデルの限界を克服し,グラフ技術に基づく高度なRAGシステムを実装し,高品質な生成AIサービスを開発することである。
既存のRAGモデルは、取得した情報を利用して高精度かつ流速を示すが、それらは再処理せずに事前ロードされた知識を用いて応答を生成するため、精度の劣化に悩まされる。
さらに、RAG設定段階の後にリアルタイムデータを組み込むことはできないため、コンテキスト理解やバイアスのある情報が問題になる。
これらの制約に対処するため,グラフ技術を利用したRAGシステムを実装した。
本システムは,情報検索と活用を効率的に行うように設計されている。
具体的には、検索した情報の信頼性を評価するためにLangGraphを使用し、多様なデータを合成して、より正確で拡張された応答を生成する。
さらに,本研究では,実装コードと検証結果を通じて,システムの動作,重要な実装手順,実例を詳細に説明し,高度なRAG技術の理解を深める。
このアプローチは、企業サービスに高度なRAGシステムを実装するための実践的ガイドラインを提供する。
This study aims to improve knowledge-based question-answering (QA) systems by overcoming the limitations of existing Retrieval-Augmented Generation (RAG) models and implementing an advanced RAG system based on Graph technology to develop high-quality generative AI services. While existing RAG models demonstrate high accuracy and fluency by utilizing retrieved information, they may suffer from accuracy degradation as they generate responses using pre-loaded knowledge without reprocessing. Additionally, they cannot incorporate real-time data after the RAG configuration stage, leading to issues with contextual understanding and biased information. To address these limitations, this study implemented an enhanced RAG system utilizing Graph technology. This system is designed to efficiently search and utilize information. Specifically, it employs LangGraph to evaluate the reliability of retrieved information and synthesizes diverse data to generate more accurate and enhanced responses. Furthermore, the study provides a detailed explanation of the system's operation, key implementation steps, and examples through implementation code and validation results, thereby enhancing the understanding of advanced RAG technology. This approach offers practical guidelines for implementing advanced RAG systems in corporate services, making it a valuable resource for practical application. | 翻訳日:2024-07-30 13:46:37 公開日:2024-07-29 |
# IIT-GEN:包括的テキスト・画像生成」の再現性の検討
Reproducibility Study of "ITI-GEN: Inclusive Text-to-Image Generation" ( http://arxiv.org/abs/2407.19996v1 ) ライセンス: Link先を確認 | Daniel Gallo Fernández, Răzvan-Andrei Matisan, Alejandro Monroy Muñoz, Janusz Partyka, | (参考訳) テキスト・ツー・イメージ生成モデルは、性別や肌のトーンのような特定の繊細な属性に対する公平性に関する問題をしばしば提示する。
本研究は,Zhang et al (2023a) の "ITI-GEN: Inclusive Text-to- Image Generation" で提示された結果を再現することを目的としている。
ITI-GENに関する著者らの主張のほとんどは、生成した画像の多様性と品質を改善し、異なる領域にスケーラブルで、プラグアンドプレイ能力を持ち、計算の観点からは効率的である、というものである。
しかし、ITI-GENは時々、望ましくない属性をプロキシの特徴として使用し、性別やハゲネスなど、いくつかの(関連する)属性を分離することができない。
さらに,検討された属性の数が増えると,トレーニング時間は指数関数的に増加し,ITI-GENは関節分布のすべての要素に対して包括的画像を生成するのに苦労する。
これらの問題を解決するために、我々は、学習を必要とせず、バニラ・ハード・プロンプト・サーチよりも否定をうまく扱う手法である、負のプロンプトを用いたハード・プロンプト・サーチを提案する。
それでも、(負のプロンプトを伴わない)ハードプロンプト検索は、自然言語で表現しにくい連続的な属性には使用できない。
最後に、ITI-GENとHard Prompt Searchを負のプロンプトと組み合わせることを提案する。
Text-to-image generative models often present issues regarding fairness with respect to certain sensitive attributes, such as gender or skin tone. This study aims to reproduce the results presented in "ITI-GEN: Inclusive Text-to-Image Generation" by Zhang et al. (2023a), which introduces a model to improve inclusiveness in these kinds of models. We show that most of the claims made by the authors about ITI-GEN hold: it improves the diversity and quality of generated images, it is scalable to different domains, it has plug-and-play capabilities, and it is efficient from a computational point of view. However, ITI-GEN sometimes uses undesired attributes as proxy features and it is unable to disentangle some pairs of (correlated) attributes such as gender and baldness. In addition, when the number of considered attributes increases, the training time grows exponentially and ITI-GEN struggles to generate inclusive images for all elements in the joint distribution. To solve these issues, we propose using Hard Prompt Search with negative prompting, a method that does not require training and that handles negation better than vanilla Hard Prompt Search. Nonetheless, Hard Prompt Search (with or without negative prompting) cannot be used for continuous attributes that are hard to express in natural language, an area where ITI-GEN excels as it is guided by images during training. Finally, we propose combining ITI-GEN and Hard Prompt Search with negative prompting. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# LLMはドメインに本当に適応しているか?オントロジー学習の視点から
Do LLMs Really Adapt to Domains? An Ontology Learning Perspective ( http://arxiv.org/abs/2407.19998v1 ) ライセンス: Link先を確認 | Huu Tan Mai, Cuong Xuan Chu, Heiko Paulheim, | (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーション領域において、様々な自然言語処理タスクに対して前例のない進歩を見せている。
近年の研究では、LLMは知識ベースコンプリート(KBC)やオントロジー学習(OL)といった語彙意味的なタスクに活用できることが示されている。
しかし、その成功は、構造化されていないデータや半構造化されていないデータを推論する能力によるものなのか、言語パターンや感覚のみの効果的な学習によるものなのかは、効果的に検証されていない。
ドメイン固有のデータを扱う際には、この未解決の問題は特に重要であり、語彙感覚とその意味は、LLMがトレーニング段階で学んだこととは全く異なる。
LLMはドメインに順応し、構造化知識の抽出に一貫性を持ち続けるのか、それとも推論の代わりに語彙感覚のみを学ぶのか?
この疑問に答え,WordNet を用いて並列コーパスを英語とジンベリ語で合成する制御実験装置を考案した。
本研究では,2つのOLタスク(関係抽出と分類学発見)において,各コーパスに対するLLMの出力の差異について検討する。
実証的な結果は、ジブベリのコーパスに適応しながらも、既成のLLMは概念間の意味的関係を常に推論せず、その代わりに感覚とフレームを活用することを示している。
しかし、微調整により、事前学習中にドメイン固有の用語が任意で見えない場合でも、語彙意味タスクにおけるLLMの性能が向上し、OLのための事前学習LLMの適用性が示唆される。
Large Language Models (LLMs) have demonstrated unprecedented prowess across various natural language processing tasks in various application domains. Recent studies show that LLMs can be leveraged to perform lexical semantic tasks, such as Knowledge Base Completion (KBC) or Ontology Learning (OL). However, it has not effectively been verified whether their success is due to their ability to reason over unstructured or semi-structured data, or their effective learning of linguistic patterns and senses alone. This unresolved question is particularly crucial when dealing with domain-specific data, where the lexical senses and their meaning can completely differ from what a LLM has learned during its training stage. This paper investigates the following question: Do LLMs really adapt to domains and remain consistent in the extraction of structured knowledge, or do they only learn lexical senses instead of reasoning? To answer this question and, we devise a controlled experiment setup that uses WordNet to synthesize parallel corpora, with English and gibberish terms. We examine the differences in the outputs of LLMs for each corpus in two OL tasks: relation extraction and taxonomy discovery. Empirical results show that, while adapting to the gibberish corpora, off-the-shelf LLMs do not consistently reason over semantic relationships between concepts, and instead leverage senses and their frame. However, fine-tuning improves the performance of LLMs on lexical semantic tasks even when the domain-specific terms are arbitrary and unseen during pre-training, hinting at the applicability of pre-trained LLMs for OL. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# 時間差学習による衝突確率分布の推定
Collision Probability Distribution Estimation via Temporal Difference Learning ( http://arxiv.org/abs/2407.20000v1 ) ライセンス: Link先を確認 | Thomas Steinecker, Thorsten Luettel, Mirko Maehlisch, | (参考訳) 我々は、時間差学習を用いて累積衝突確率分布を推定する先駆的なフレームワークであるCollisionProを紹介した。
このアプローチは、説明可能な人工知能(XAI)の需要に対処し、モデルベースのアプローチと保守的な制約によって課される制限を克服しようとしている。
我々は、強化学習の文脈において、我々の枠組みを定式化し、安全に配慮したエージェントの道を開く。
それでも私たちは、安全警報システムや分析目的など、さまざまな状況において、このアプローチが有益であることを証明できると断言しています。
現実的な自律走行シミュレータを用いて,本フレームワークの総合的な検討を行い,その高効率性と従来見られなかった衝突イベントに対する信頼性の高い予測能力について考察した。
ソースコードは公開されている。
We introduce CollisionPro, a pioneering framework designed to estimate cumulative collision probability distributions using temporal difference learning, specifically tailored to applications in robotics, with a particular emphasis on autonomous driving. This approach addresses the demand for explainable artificial intelligence (XAI) and seeks to overcome limitations imposed by model-based approaches and conservative constraints. We formulate our framework within the context of reinforcement learning to pave the way for safety-aware agents. Nevertheless, we assert that our approach could prove beneficial in various contexts, including a safety alert system or analytical purposes. A comprehensive examination of our framework is conducted using a realistic autonomous driving simulator, illustrating its high sample efficiency and reliable prediction capabilities for previously unseen collision events. The source code is publicly available. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# 深部絡み付き処理効果評価における無関係変数の影響について
On the Effects of Irrelevant Variables in Treatment Effect Estimation with Deep Disentanglement ( http://arxiv.org/abs/2407.20003v1 ) ライセンス: Link先を確認 | Ahmad Saeed Khan, Erik Schaffernicht, Johannes Andreas Stork, | (参考訳) 医療、教育、経済学では、観察データから治療効果を推定することが最重要であるが、現在、選択バイアスに対処する深い絡み合いに基づく方法では、無関係な変数を十分に扱えない。
実験では、これが予測誤差につながることを示す。
深層埋込法により前処理変数をアンタングルし,無関係な変数を明示的に識別し,表現する。
この目的を達成するために、アタッチメントされたオートエンコーダを用いて、無関係変数に対する再構成目標を導入し、埋め込み空間を作成する。
従来の深遠角化アプローチのように無関係変数のセレンディピティー抑制に頼る代わりに、無関係変数をこの埋め込み空間に明示的に強制し、無関係情報が他の因子の潜在空間表現に漏れることを防ぐために直交化を用いる。
実世界および実世界のベンチマーク・データセットを用いた実験により,無関係変数を同定し,従来手法よりも精度の高い処理効果を予測できる一方で,付加的無関係変数を導入すると予測品質が低下することが示された。
Estimating treatment effects from observational data is paramount in healthcare, education, and economics, but current deep disentanglement-based methods to address selection bias are insufficiently handling irrelevant variables. We demonstrate in experiments that this leads to prediction errors. We disentangle pre-treatment variables with a deep embedding method and explicitly identify and represent irrelevant variables, additionally to instrumental, confounding and adjustment latent factors. To this end, we introduce a reconstruction objective and create an embedding space for irrelevant variables using an attached autoencoder. Instead of relying on serendipitous suppression of irrelevant variables as in previous deep disentanglement approaches, we explicitly force irrelevant variables into this embedding space and employ orthogonalization to prevent irrelevant information from leaking into the latent space representations of the other factors. Our experiments with synthetic and real-world benchmark datasets show that we can better identify irrelevant variables and more precisely predict treatment effects than previous methods, while prediction quality degrades less when additional irrelevant variables are introduced. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# マルチモーダル三重項ネットワークを用いたシロイヌナズナ属の分類
Classification of freshwater snails of the genus \emph{Radomaniola} with multimodal triplet networks ( http://arxiv.org/abs/2407.20013v1 ) ライセンス: Link先を確認 | Dennis Vetter, Muhammad Ahsan, Diana Delicado, Thomas A. Neubauer, Thomas Wilke, Gemma Roig, | (参考訳) 本稿では,本属の淡水カタツムリを分類するための機械学習システムを提案する。
システム設計時に遭遇した特定の課題と、それに取り組む方法、すなわち、多数のクラスとクラス間の高い視覚的類似性を備えた、小さく、非常に不均衡なデータセットについて詳しく説明します。
次に、これらの課題を克服し、訓練済みのドメインエキスパートに匹敵するパフォーマンスを達成するために、トリプルトネットワークと画像、測定、遺伝情報の多重入力モダリティをどのように利用したかを示す。
In this paper, we present our first proposal of a machine learning system for the classification of freshwater snails of the genus \emph{Radomaniola}. We elaborate on the specific challenges encountered during system design, and how we tackled them; namely a small, very imbalanced dataset with a high number of classes and high visual similarity between classes. We then show how we employed triplet networks and the multiple input modalities of images, measurements, and genetic information to overcome these challenges and reach a performance comparable to that of a trained domain expert. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# ImagiNet:コントラスト学習による一般化可能な合成画像検出のためのマルチコンテンツデータセット
ImagiNet: A Multi-Content Dataset for Generalizable Synthetic Image Detection via Contrastive Learning ( http://arxiv.org/abs/2407.20020v1 ) ライセンス: Link先を確認 | Delyan Boychev, Radostin Cholakov, | (参考訳) 拡散モデル(DM)、変分オートエンコーダ(VAE)、生成逆数ネットワーク(GAN)などの生成モデルは、実際の写真やアートワークとほとんど区別できないような、信頼度の高い画像を生成する。
この能力は多くの業界にとって有益であるが、合成画像の識別が困難であるため、オンラインメディアプラットフォームは偽造や誤情報による攻撃に弱い。
防衛手法の開発を支援するため,既存の資源の潜在的なバイアスを軽減するために,合成画像検出のための高解像度かつバランスの取れたデータセットであるImagiNetを紹介した。
その中には、写真、絵画、顔、そして非分類の4つのカテゴリーにまたがる200万のサンプルが含まれている。
合成画像はオープンソースおよびプロプライエタリなジェネレータで生成されるが、同じコンテンツタイプの実際の画像はパブリックデータセットから収集される。
ImagiNetの構造は、以下の2トラック評価システムを可能にする。
一 実物又は合成物として分類し、
二 生成モデルを特定すること。
ベースラインを確立するために,トラック毎に自己教師付きコントラスト目標(SelfCon)を用いてResNet-50モデルを訓練する。
このモデルは、既存のベンチマークにおける最先端性能と高い推論速度を示し、圧縮と再サイズを含むソーシャルネットワーク条件下であっても、最大0.99のAUCと86%から95%のバランスの取れた精度を達成する。
私たちのデータとコードはhttps://github.com/delyan-boychev/imaginet.comで公開されています。
Generative models, such as diffusion models (DMs), variational autoencoders (VAEs), and generative adversarial networks (GANs), produce images with a level of authenticity that makes them nearly indistinguishable from real photos and artwork. While this capability is beneficial for many industries, the difficulty of identifying synthetic images leaves online media platforms vulnerable to impersonation and misinformation attempts. To support the development of defensive methods, we introduce ImagiNet, a high-resolution and balanced dataset for synthetic image detection, designed to mitigate potential biases in existing resources. It contains 200K examples, spanning four content categories: photos, paintings, faces, and uncategorized. Synthetic images are produced with open-source and proprietary generators, whereas real counterparts of the same content type are collected from public datasets. The structure of ImagiNet allows for a two-track evaluation system: i) classification as real or synthetic and ii) identification of the generative model. To establish a baseline, we train a ResNet-50 model using a self-supervised contrastive objective (SelfCon) for each track. The model demonstrates state-of-the-art performance and high inference speed across established benchmarks, achieving an AUC of up to 0.99 and balanced accuracy ranging from 86% to 95%, even under social network conditions that involve compression and resizing. Our data and code are available at https://github.com/delyan-boychev/imaginet. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# MimiQ: ビジョントランスの低ビットデータフリー量子化
MimiQ: Low-Bit Data-Free Quantization of Vision Transformers ( http://arxiv.org/abs/2407.20021v1 ) ライセンス: Link先を確認 | Kanghyun Choi, Hye Yoon Lee, Dain Kwon, SunJong Park, Kyuyeun Kim, Noseong Park, Jinho Lee, | (参考訳) データフリー量子化(DFQ)は、元のトレーニングデータなしで、しばしば合成データセットを通じて、フル精度のネットワークから軽量なネットワークを作成するテクニックである。
視覚変換器(ViT)アーキテクチャにはいくつかのDFQ手法が提案されているが、低ビット設定では有効性は得られていない。
既存の手法を調べると、それらの合成データは、実際のサンプルが高度に整列しているのに対して、不整合注意マップを生成する。
一致した注意の観測から、合成データのアライメント・アライメント・マップは、量子化されたViTの全体的な性能を向上させるのに役立つことが判明した。
この発見に触発され,視覚障害者を対象とした新しいDFQ手法である \aname を考案した。
まず,空間的な問合せパッチに関連して,頭部の注意応答を調整して合成データを生成する。
そこで,本研究では,頭部構造型注意蒸留法を用いて,量子化ネットワークの注意図と実精度教師の注意図を一致させる。
実験の結果,提案手法はベースラインを著しく上回り,データフリーなViT量子化のための新しい最先端性能が確立された。
Data-free quantization (DFQ) is a technique that creates a lightweight network from its full-precision counterpart without the original training data, often through a synthetic dataset. Although several DFQ methods have been proposed for vision transformer (ViT) architectures, they fail to achieve efficacy in low-bit settings. Examining the existing methods, we identify that their synthetic data produce misaligned attention maps, while those of the real samples are highly aligned. From the observation of aligned attention, we find that aligning attention maps of synthetic data helps to improve the overall performance of quantized ViTs. Motivated by this finding, we devise \aname, a novel DFQ method designed for ViTs that focuses on inter-head attention similarity. First, we generate synthetic data by aligning head-wise attention responses in relation to spatial query patches. Then, we apply head-wise structural attention distillation to align the attention maps of the quantized network to those of the full-precision teacher. The experimental results show that the proposed method significantly outperforms baselines, setting a new state-of-the-art performance for data-free ViT quantization. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# ノード埋め込みにおける制御された(未)認識による公正性
Fairness Through Controlled (Un)Awareness in Node Embeddings ( http://arxiv.org/abs/2407.20024v1 ) ライセンス: Link先を確認 | Dennis Vetter, Jasper Forth, Gemma Roig, Holger Dell, | (参考訳) グラフ表現学習は、ソーシャルネットワークのような複雑なグラフへの機械学習(ML)モデルの適用の中心である。
公正な表現の確保は、社会的意味合いと機密データの使用のために不可欠である。
本稿では,<emph{CrossWalk} アルゴリズムのパラメータ化がノード埋め込みから感度特性を推測する能力にどのように影響するかを示す。
過度パラメータを微調整することにより,これらの属性の検出性を著しく向上するか,隠蔽するかのどちらかが可能であることを示す。
この機能は、グラフ埋め込みを利用したMLシステムの公正性を改善するための貴重なツールを提供する。
Graph representation learning is central for the application of machine learning (ML) models to complex graphs, such as social networks. Ensuring `fair' representations is essential, due to the societal implications and the use of sensitive personal data. In this paper, we demonstrate how the parametrization of the \emph{CrossWalk} algorithm influences the ability to infer a sensitive attributes from node embeddings. By fine-tuning hyperparameters, we show that it is possible to either significantly enhance or obscure the detectability of these attributes. This functionality offers a valuable tool for improving the fairness of ML systems utilizing graph embeddings, making them adaptable to different fairness paradigms. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# 航空機軌道分割に基づくコントラスト符号化:自己教師型軌道表現のための枠組み
Aircraft Trajectory Segmentation-based Contrastive Coding: A Framework for Self-supervised Trajectory Representation ( http://arxiv.org/abs/2407.20028v1 ) ライセンス: Link先を確認 | Thaweerath Phisannupawong, Joshua Julian Damanik, Han-Lim Choi, | (参考訳) 航空交通軌跡認識は航空交通管理コミュニティにおいて特に分類やクラスタリングといった基本的な業務において大きな関心を集めている。
本稿では,航空交通トラジェクトリデータのセマンティック情報を取得することを目的とした,航空トラジェクトリ・セグメンテーションに基づくコントラシティブ・コーディング(ATSCC)について紹介する。
このフレームワークは、トラジェクトリのセグメンタブル特性を活用し、自己割り当てセグメント内の一貫性を保証する。
3つの異なる空港のデータセットを用いて、学習した表現の下流の分類とクラスタリングのパフォーマンスを、他の最先端の表現学習技術と比較し、総合的な実験を行った。
その結果,ATSCCは,航空手順によって定義されたラベルと整合することで,これらの手法よりも優れていた。
ATSCCは様々な空港構成に適応し、不完全な軌道にスケーラブルである。
この研究は、空港の設定、操作手順、ラベル付きデータなどの事前定義された入力なしに、これらの改善を独立して達成し、既存の能力を拡大してきた。
Air traffic trajectory recognition has gained significant interest within the air traffic management community, particularly for fundamental tasks such as classification and clustering. This paper introduces Aircraft Trajectory Segmentation-based Contrastive Coding (ATSCC), a novel self-supervised time series representation learning framework designed to capture semantic information in air traffic trajectory data. The framework leverages the segmentable characteristic of trajectories and ensures consistency within the self-assigned segments. Intensive experiments were conducted on datasets from three different airports, totaling four datasets, comparing the learned representation's performance of downstream classification and clustering with other state-of-the-art representation learning techniques. The results show that ATSCC outperforms these methods by aligning with the labels defined by aeronautical procedures. ATSCC is adaptable to various airport configurations and scalable to incomplete trajectories. This research has expanded upon existing capabilities, achieving these improvements independently without predefined inputs such as airport configurations, maneuvering procedures, or labeled data. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# MaskInversion: 説明可能性マップの最適化によるローカルな埋め込み
MaskInversion: Localized Embeddings via Optimization of Explainability Maps ( http://arxiv.org/abs/2407.20034v1 ) ライセンス: Link先を確認 | Walid Bousselham, Sofian Chaybouti, Christian Rupprecht, Vittorio Ferrari, Hilde Kuehne, | (参考訳) CLIPのようなヴィジュアル言語基盤モデルは、グローバルなヴィジュアル言語アライメントにおいて大きな成果を上げているが、特定の画像領域に対する表現の作成にはいくつかの制限がある。
% この問題に対処するため,CLIP などの事前学習基盤モデルの特徴表現を利用した MaskInversion を提案し,テスト時にマスクが指定したクエリ画像領域に対するコンテキスト認識埋め込みを生成する。
MaskInversionは埋め込みトークンの初期化から始まり、基礎モデルから派生した説明可能性マップをクエリマスクと比較する。
その後、埋め込みトークンを精製し、その説明可能性マップとクエリマスクとの差を最小限にしてクエリ領域を近似する。
このプロセスの間、埋め込みベクターのみが更新され、基礎となる基盤モデルは凍結され、任意のトレーニング済みモデルでMaskInversionを使用することができる。
説明可能性マップの導出には、コストのかかる勾配の計算が伴うため、この計算を単純化する勾配分解戦略を提案する。
学習された領域表現は、オープン語彙クラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
提案手法をPascalVOC, MSCOCO, RefCOCO, OpenImagesV7 などの複数のデータセット上で評価し,他のSOTA手法と比較してその性能を示す。
Vision-language foundation models such as CLIP have achieved tremendous results in global vision-language alignment, but still show some limitations in creating representations for specific image regions. % To address this problem, we propose MaskInversion, a method that leverages the feature representations of pre-trained foundation models, such as CLIP, to generate a context-aware embedding for a query image region specified by a mask at test time. MaskInversion starts with initializing an embedding token and compares its explainability map, derived from the foundation model, to the query mask. The embedding token is then subsequently refined to approximate the query region by minimizing the discrepancy between its explainability map and the query mask. During this process, only the embedding vector is updated, while the underlying foundation model is kept frozen allowing to use MaskInversion with any pre-trained model. As deriving the explainability map involves computing its gradient, which can be expensive, we propose a gradient decomposition strategy that simplifies this computation. The learned region representation can be used for a broad range of tasks, including open-vocabulary class retrieval, referring expression comprehension, as well as for localized captioning and image generation. We evaluate the proposed method on all those tasks on several datasets such as PascalVOC, MSCOCO, RefCOCO, and OpenImagesV7 and show its capabilities compared to other SOTA approaches. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# いつ止まるか? 過度なトークン防止を伴うLDMにおける効率的なコード生成に向けて
When to Stop? Towards Efficient Code Generation in LLMs with Excess Token Prevention ( http://arxiv.org/abs/2407.20042v1 ) ライセンス: Link先を確認 | Lianghong Guo, Yanlin Wang, Ensheng Shi, Wanjun Zhong, Hongyu Zhang, Jiachi Chen, Ruikai Zhang, Yuchi Ma, Zibin Zheng, | (参考訳) コード生成は、与えられた自然言語要求を満たすコードスニペットを自動的に生成することを目的としており、ソフトウェア開発において重要な役割を果たす。
コードLLMは、この領域で優れたパフォーマンスを示しているが、その長寿命は、実際に使われる際の目立った限界である。
本稿では,まず,コード生成タスクの異なるコードLLMを用いた詳細な予備的研究を行い,余剰トークンの連続生成という重要な効率問題を特定する。
開発者の生産性が損なわれ、膨大な計算時間の浪費につながります。
そこで我々は,コード生成におけるコードLLMの推論高速化手法であるCodeFastを紹介した。
CodeFastのキーとなるアイデアは、不要な余分なトークンが検出された場合に、推論プロセスを終了することです。
まず,トレーニングデータを取得するための自動データ構築フレームワークを提案する。
そして、複数のプログラミング言語に適用可能な統一軽量モデルGenGuardをトレーニングし、現在のステップで推論を終了するかどうかを予測する。
最後に、コード生成タスクの推論を高速化するために、GenGuardでCode LLMを拡張します。
我々は、広く使われている4つのコード生成データセットにまたがる5つの代表的なコードLLM上で、CodeFastで広範な実験を行う。
実験の結果,(1)コードFastは生成コードの品質を損なうことなく,コード生成における様々なコードLLMの推論速度を34%から452%に向上させることができることがわかった。
2) CodeFastはさまざまなパラメータ設定で安定しており、トレーニングされていないデータセットに一般化することができる。
私たちのコードとデータはhttps://github.com/DeepSoftwareAnalytics/CodeFastで入手可能です。
Code generation aims to automatically generate code snippets that meet given natural language requirements and plays an important role in software development. Although Code LLMs have shown excellent performance in this domain, their long generation time poses a signification limitation in practice use. In this paper, we first conduct an in-depth preliminary study with different Code LLMs on code generation tasks and identify a significant efficiency issue, i.e., continual generation of excess tokens. It harms the developer productivity and leads to huge computational wastes. To address it, we introduce CodeFast, an inference acceleration approach for Code LLMs on code generation. The key idea of CodeFast is to terminate the inference process in time when unnecessary excess tokens are detected. First, we propose an automatic data construction framework to obtain training data. Then, we train a unified lightweight model GenGuard applicable to multiple programming languages to predict whether to terminate inference at the current step. Finally, we enhance Code LLM with GenGuard to accelerate its inference in code generation tasks. We conduct extensive experiments with CodeFast on five representative Code LLMs across four widely used code generation datasets. Experimental results show that (1) CodeFast can significantly improve the inference speed of various Code LLMs in code generation, ranging form 34% to 452%, without compromising the quality of generated code. (2) CodeFast is stable across different parameter settings and can generalize to untrained datasets. Our code and data are available at https://github.com/DeepSoftwareAnalytics/CodeFast | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# 二重量子ドットアンドリーフ分子:相図と有効モデルの批判的評価
Double-quantum-dot Andreev molecules: Phase diagrams and critical evaluation of effective models ( http://arxiv.org/abs/2407.20043v1 ) ライセンス: Link先を確認 | Peter Zalom, Kacper Wrześniewski, Tomáš Novotný, Ireneusz Weymann, | (参考訳) この研究は、2つの量子ドットが共通の超伝導鉛と結合する平行二重量子ドットアンドレフ分子の相図を体系的に研究する。
数値的再正規化群法を用いて, 水平変形の広いパラメータ空間, 超伝導ギャップの大きさ, 鉛結合, ドット間結合強度の基底状態の進化を図示する。
複雑な位相図は、一重項、二重項、そして比較的珍しい三重項基底状態を特徴とし、後者は量子ドット間の強い鉛媒介相互作用の明確な記号である。
我々は、この並列構成の複雑な振る舞いを捉えるために、原子制限やゼロバンド幅近似を含む単純化された有効モデルの妥当性をベンチマークする。
本分析は,これらのモデルの厳密な限界を明らかにし,検証された妥当性を超えて外挿を行う際には,最大限の注意が必要であることを裏付けるものである。
特に、ゼロバンド幅近似の拡張版を除くすべての有効なモデルは、三重項基底状態の再現に失敗し、いくつかの誤った予測を行った。
これらの知見は、量子ドットアーキテクチャに基づく実験観測の解釈と超伝導デバイスの設計に重要な洞察を与える。
This work systematically investigates the phase diagram of a parallel double-quantum-dot Andreev molecule, where the two quantum dots are coupled to a common superconducting lead. Using the numerical renormalization group method, we map out the evolution of the ground state across a wide parameter space of level detunings, size of the superconducting gap, lead couplings, and inter-dot coupling strength. The intricate phase diagrams feature singlet, doublet, and a relatively uncommon triplet ground states, with the latter being a distinct signature of strong lead-mediated interactions between the quantum dots. We benchmark the applicability of simplified effective models, including the atomic limit and zero-bandwidth approximations, in capturing the complex behavior of this parallel configuration. Our analysis reveals severe limitations of these models, underscoring the necessity for maximal caution when extrapolating beyond their tested validity. In particular, all effective models except for the extended version of the zero-bandwidth approximation failed in reproducing the triplet ground state and made several false predictions. These findings provide crucial insights for interpreting experimental observations and designing superconducting devices based on quantum-dot architectures. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# 読みやすいコンテンツを生成するための大規模言語モデルの探索
Exploring Large Language Models to generate Easy to Read content ( http://arxiv.org/abs/2407.20046v1 ) ライセンス: Link先を確認 | Paloma Martínez, Lourdes Moreno, Alberto Ramos, | (参考訳) テキストアクセシビリティと理解可能性を保証することは、特に認知障害や知的障害を持つ個人にとって必須の目標であり、Webページ、新聞、行政タスク、健康文書などの様々な媒体で情報にアクセスする際の困難に直面している。
読みやすいガイドラインや平易な言語ガイドラインのようなイニシアチブは、複雑なテキストを単純化することを目的としているが、これらのガイドラインの標準化は依然として困難であり、しばしば手作業によるプロセスが伴う。
この研究は、スペイン語のテキストを簡単読みやすい形式に体系的に単純化する人工知能(AI)と自然言語処理(NLP)アプローチの探索的研究であり、特に読みやすいコンテンツの生成において、テキストをシンプルにするためのLarge Language Models(LLM)の利用に焦点を当てている。
この研究は、Easy To Readフォーマットに適合したスペイン語の並列コーパスに貢献し、テキスト単純化システムのトレーニングとテストに有用なリソースとなっている。
さらに,Llama2モデルを微調整して,読みやすいコンテンツを生成することを含む,LLMと収集コーパスを用いたテキスト簡易化実験を行った。
コンテンツを読みやすくするために、テキスト適応の専門家が指導する質的評価を行い、自動的に簡略化されたテキストを評価する。
本研究は認知障害者のテキストアクセシビリティ向上に寄与し、LCMを活用する上で有望な戦略を明らかにするとともに、エネルギー利用の責任を負う。
Ensuring text accessibility and understandability are essential goals, particularly for individuals with cognitive impairments and intellectual disabilities, who encounter challenges in accessing information across various mediums such as web pages, newspapers, administrative tasks, or health documents. Initiatives like Easy to Read and Plain Language guidelines aim to simplify complex texts; however, standardizing these guidelines remains challenging and often involves manual processes. This work presents an exploratory investigation into leveraging Artificial Intelligence (AI) and Natural Language Processing (NLP) approaches to systematically simplify Spanish texts into Easy to Read formats, with a focus on utilizing Large Language Models (LLMs) for simplifying texts, especially in generating Easy to Read content. The study contributes a parallel corpus of Spanish adapted for Easy To Read format, which serves as a valuable resource for training and testing text simplification systems. Additionally, several text simplification experiments using LLMs and the collected corpus are conducted, involving fine-tuning and testing a Llama2 model to generate Easy to Read content. A qualitative evaluation, guided by an expert in text adaptation for Easy to Read content, is carried out to assess the automatically simplified texts. This research contributes to advancing text accessibility for individuals with cognitive impairments, highlighting promising strategies for leveraging LLMs while responsibly managing energy usage. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# Denoising ESG: 機械学習と予測間隔による欠落データからのデータの不確実性を定量化する
Denoising ESG: quantifying data uncertainty from missing data with Machine Learning and prediction intervals ( http://arxiv.org/abs/2407.20047v1 ) ライセンス: Link先を確認 | Sergio Caprioli, Jacopo Foschi, Riccardo Crupi, Alessandro Sabatino, | (参考訳) 環境、社会、ガバナンス(ESG)データセットは、しばしば大きなデータギャップに悩まされ、様々な計算方法によるESG評価の不整合を引き起こす。
本稿では、実世界のESGデータセットに欠落したデータを計算するための機械学習手法の適用について検討し、予測間隔による不確実性の定量化を強調した。
本研究は,複数の計算手法を用いて計算手法のロバスト性を評価し,欠落データに関連する不確実性を定量化する。
この結果は、ESGスコアをよりよく理解することにおける確率論的機械学習モデルの重要性を強調し、不完全なデータによる誤った評価の固有のリスクに対処する。
このアプローチは、ESGレーティングの信頼性を高めるために、計算の慣行を改善する。
Environmental, Social, and Governance (ESG) datasets are frequently plagued by significant data gaps, leading to inconsistencies in ESG ratings due to varying imputation methods. This paper explores the application of established machine learning techniques for imputing missing data in a real-world ESG dataset, emphasizing the quantification of uncertainty through prediction intervals. By employing multiple imputation strategies, this study assesses the robustness of imputation methods and quantifies the uncertainty associated with missing data. The findings highlight the importance of probabilistic machine learning models in providing better understanding of ESG scores, thereby addressing the inherent risks of wrong ratings due to incomplete data. This approach improves imputation practices to enhance the reliability of ESG ratings. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# Orca: 時空間対応大規模言語モデルによる海面波高推定
Orca: Ocean Significant Wave Height Estimation with Spatio-temporally Aware Large Language Models ( http://arxiv.org/abs/2407.20053v1 ) ライセンス: Link先を確認 | Zhe Li, Ronghui Xu, Jilin Hu, Zhong Peng, Xi Lu, Chenjuan Guo, Bin Yang, | (参考訳) 海面波高(SWH)は海洋科学において重要な指標であり、海面エネルギー開発、漁業、潜在的なリスクに対する早期警戒システムなど、様々な用途に正確なSWH推定が不可欠である。
数値モデルと物理理論に基づく従来のSWH推定法は、計算の非効率性によって妨げられる。
近年,機械学習は精度を向上し,計算時間を短縮するための魅力的な代替手段として出現している。
しかし、観測技術が限られており、コストが高いため、実世界のデータの不足は機械学習モデルの可能性を制限する。
これらの制約を克服するために,海洋SWH推定フレームワーク,すなわちOrcaを提案する。
具体的には、Orcaは、新しい時空間認識符号化モジュールを用いて、古典的LLMの時空間推論能力を制限した時空間推論能力を強化する。
限られたブイ観測データを時間的に分割し、ブイの位置を空間的に符号化し、プロンプトテンプレートを設計することで、オルカはLLMの堅牢な一般化能力を生かし、限られたデータで重要な波高を効果的に推定する。
メキシコ湾での実験的結果は、オルカがSWHの推定において最先端の性能を達成したことを示している。
Significant wave height (SWH) is a vital metric in marine science, and accurate SWH estimation is crucial for various applications, e.g., marine energy development, fishery, early warning systems for potential risks, etc. Traditional SWH estimation methods that are based on numerical models and physical theories are hindered by computational inefficiencies. Recently, machine learning has emerged as an appealing alternative to improve accuracy and reduce computational time. However, due to limited observational technology and high costs, the scarcity of real-world data restricts the potential of machine learning models. To overcome these limitations, we propose an ocean SWH estimation framework, namely Orca. Specifically, Orca enhances the limited spatio-temporal reasoning abilities of classic LLMs with a novel spatiotemporal aware encoding module. By segmenting the limited buoy observational data temporally, encoding the buoys' locations spatially, and designing prompt templates, Orca capitalizes on the robust generalization ability of LLMs to estimate significant wave height effectively with limited data. Experimental results on the Gulf of Mexico demonstrate that Orca achieves state-of-the-art performance in SWH estimation. | 翻訳日:2024-07-30 13:34:43 公開日:2024-07-29 |
# ワイヤデータバスを用いた強コヒーレントイオン-電子カップリング
Strong coherent ion-electron coupling using a wire data bus ( http://arxiv.org/abs/2407.20056v1 ) ライセンス: Link先を確認 | Baiyi Yu, Ralf Betzholz, Jianming Cai, | (参考訳) 長距離でのイオン-イオンカップリングは、例えば、イオンベースの量子計算アーキテクチャにおいて、共鳴的に冷却または相互接続の量子ビットに対して、量子技術にとって非常に有用な資源である。
この点において、最近実証されたワイヤを介するイオン-イオン結合は、トラップレイアウトの簡略化と決定論的絡み合いの見通しに起因する。
しかし、このようなコヒーレントなイオン-ワイヤ-イオンカップリングの強度は典型的には弱く、実用的利用を妨げている。
本稿では,コヒーレントイオン-電子カップリングのためのワイヤ媒介方式を提案する。
このスキームは、高度なイオン冷却技術によって電子の交感的冷却を可能にするだけでなく、電子メディエーションを通じてマグニチュードのオーダーで効果的なイオン-イオンカップリング強度を促進することができる。
我々の研究は、イオン電子ハイブリッド量子システムにおける量子情報処理への道を開いた。
Ion-ion coupling over long distances represents a highly useful resource for quantum technologies, for example, to sympathetically cool or interconnect qubits in ion-based quantum-computing architectures. In this respect, the recently demonstrated wire-mediated ion-ion coupling stands due to the simplification of its trap layout and its prospects for deterministic entanglement. However, the strength of such coherent ion-wire-ion coupling is typically weak, hindering its practical utilization. Here, we propose a wire-mediated scheme for coherent ion-electron coupling. The scheme not only enables the sympathetic cooling of electrons via advanced ion-cooling techniques, but also allows to promote the effective ion-ion coupling strength by orders of magnitudes via electron mediation. Our work thus paves a way toward quantum information processing in ion-electron hybrid quantum systems. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# オントロジーを用いた問合せ回答における共有値計算
Shapley Value Computation in Ontology-Mediated Query Answering ( http://arxiv.org/abs/2407.20058v1 ) ライセンス: Link先を確認 | Meghyn Bienvenu, Diego Figueira, Pierre Lafourcade, | (参考訳) Shapleyの値は、もともと富分配のための協調ゲーム理論で導入されたもので、KRやデータベースにおいて、クエリ結果や一貫性の獲得への貢献に基づいて、公式やデータベースタプルにスコアを割り当てるために使われてきた。
本稿では,オントロジーによる問合せ応答(OMQA)におけるShapley値の利用について検討し,OMQA設定におけるShapley値計算(SVC)の複雑さ解析について述べる。
特に、記述論理 ELHI_\bot で定式化されたオントロジー T と接続された定数自由同型閉クエリ q からなるオントロジー型クエリ (T,q) に対して、SVC のためのPF/#Pハード二分法を確立する。
さらに、二分法における#P硬度側は、不連結なクエリを定数でカバーするために強化可能であることを示す。
本稿では,最近発見されたSVCと確率的クエリ評価の関連性を利用して,確率的OMQAの既存結果を一般化する。
The Shapley value, originally introduced in cooperative game theory for wealth distribution, has found use in KR and databases for the purpose of assigning scores to formulas and database tuples based upon their contribution to obtaining a query result or inconsistency. In the present paper, we explore the use of Shapley values in ontology-mediated query answering (OMQA) and present a detailed complexity analysis of Shapley value computation (SVC) in the OMQA setting. In particular, we establish a PF/#P-hard dichotomy for SVC for ontology-mediated queries (T,q) composed of an ontology T formulated in the description logic ELHI_\bot and a connected constant-free homomorphism-closed query q. We further show that the #P-hardness side of the dichotomy can be strengthened to cover possibly disconnected queries with constants. Our results exploit recently discovered connections between SVC and probabilistic query evaluation and allow us to generalize existing results on probabilistic OMQA. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# RelBench:関係データベースのディープラーニングベンチマーク
RelBench: A Benchmark for Deep Learning on Relational Databases ( http://arxiv.org/abs/2407.20060v1 ) ライセンス: Link先を確認 | Joshua Robinson, Rishabh Ranjan, Weihua Hu, Kexin Huang, Jiaqi Han, Alejandro Dobles, Matthias Fey, Jan E. Lenssen, Yiwen Yuan, Zecheng Zhang, Xinwei He, Jure Leskovec, | (参考訳) 本稿では,グラフニューラルネットワークを用いたリレーショナルデータベース上での予測タスクの一般ベンチマークであるRelBenchを紹介する。
RelBenchは、さまざまなドメインとスケールにまたがるデータベースとタスクを提供し、将来の研究の基盤となることを意図している。
我々はRelBenchを用いて、グラフニューラルネットワーク予測モデルと生のテーブルから初期エンティティレベルの表現を抽出する(ディープ)表モデルを組み合わせたRDL(Fey et al , 2024)の最初の包括的な研究を行う。
エンドツーエンドの学習RDLモデルは、一次外部キーリンクに符号化された予測信号を完全に活用する。
従来のゴールドスタンダードに対してRDLを徹底的に評価するために、経験豊富なデータサイエンティストが各タスクに手動でエンジニアを配置する詳細なユーザスタディを実施している。
本研究では、RDLが人間の作業量を1桁以上削減しつつ、より良いモデルを学ぶ。
これは、リレーショナルデータベース上の予測タスクを解決するためのディープラーニングのパワーを示し、RelBenchによって実現された多くの新しい研究機会を開放する。
We present RelBench, a public benchmark for solving predictive tasks over relational databases with graph neural networks. RelBench provides databases and tasks spanning diverse domains and scales, and is intended to be a foundational infrastructure for future research. We use RelBench to conduct the first comprehensive study of Relational Deep Learning (RDL) (Fey et al., 2024), which combines graph neural network predictive models with (deep) tabular models that extract initial entity-level representations from raw tables. End-to-end learned RDL models fully exploit the predictive signal encoded in primary-foreign key links, marking a significant shift away from the dominant paradigm of manual feature engineering combined with tabular models. To thoroughly evaluate RDL against this prior gold-standard, we conduct an in-depth user study where an experienced data scientist manually engineers features for each task. In this study, RDL learns better models whilst reducing human work needed by more than an order of magnitude. This demonstrates the power of deep learning for solving predictive tasks over relational databases, opening up many new research opportunities enabled by RelBench. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# 量子ドットデバイスの自律ブートストラップ
Autonomous Bootstrapping of Quantum Dot Devices ( http://arxiv.org/abs/2407.20061v1 ) ライセンス: Link先を確認 | Anton Zubchenko, Danielle Middlebrooks, Torbjørn Rasmussen, Lara Lausen, Ferdinand Kuemmeth, Anasua Chatterjee, Justyna P. Zwolak, | (参考訳) 半導体量子ドット(QD)は、複数の異なる量子ビット実装のための有望なプラットフォームであり、いずれもプログラム可能なゲート電極によって電圧制御されている。
しかし、QD配列のサイズと複雑さが大きくなるにつれて、拡張性を実現するためには、制御パラメータの増大を完全に自律的に処理できるチューニング手順が不可欠になっている。
そこで本研究では,後続のチューニングフェーズに備えて,削除モードQDデバイスを初期化するためのブートストラップアルゴリズムを提案する。
ブートストレッピング中、QDデバイス機能を検証し、全てのゲートを特徴付け、QD電荷センサを動作させる。
本研究では, ブートストラッププロトコルと粗いチューニングモジュールを併用して, 冷却したQDデバイスを, 96パーセントの成功率で8分以内で, 所望のグローバルな状態設定に効率よく, 確実に取ることができることを示す。
重要なことは、QDデバイスの初期化に対するヒューリスティックなアプローチと、高速なラジオ周波数反射率測定との組み合わせにより、提案アルゴリズムは、代替アルゴリズムをベンチマークできる性能、信頼性、効率の基準を確立することである。
Semiconductor quantum dots (QD) are a promising platform for multiple different qubit implementations, all of which are voltage-controlled by programmable gate electrodes. However, as the QD arrays grow in size and complexity, tuning procedures that can fully autonomously handle the increasing number of control parameters are becoming essential for enabling scalability. We propose a bootstrapping algorithm for initializing a depletion mode QD device in preparation for subsequent phases of tuning. During bootstrapping, the QD device functionality is validated, all gates are characterized, and the QD charge sensor is made operational. We demonstrate the bootstrapping protocol in conjunction with a coarse tuning module, showing that the combined algorithm can efficiently and reliably take a cooled-down QD device to a desired global state configuration in under 8 minutes with a success rate of 96 %. Importantly, by following heuristic approaches to QD device initialization and combining the efficient ray-based measurement with the rapid radio-frequency reflectometry measurements, the proposed algorithm establishes a reference in terms of performance, reliability, and efficiency against which alternative algorithms can be benchmarked. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# SalNAS: 自己知識蒸留による高効率塩分予測ニューラルアーキテクチャ探索
SalNAS: Efficient Saliency-prediction Neural Architecture Search with self-knowledge distillation ( http://arxiv.org/abs/2407.20062v1 ) ライセンス: Link先を確認 | Chakkrit Termritthikun, Ayaz Umer, Suwichaya Suwanwimolkul, Feng Xia, Ivan Lee, | (参考訳) 近年の深部畳み込み型ニューラルネットワークの進歩により,サリエンシ予測の性能が大幅に向上した。
しかしながら、ニューラルネットワークアーキテクチャのマニュアル構成には、ドメイン知識の専門知識が必要で、それでも時間がかかり、エラーが発生しやすい。
これを解決するために,2つのコントリビューションを持つ有能性予測のためのニューラルアーキテクチャ検索(NAS)フレームワークを提案する。
第一に、SalNASと呼ばれるスーパーネット内のエンコーダデコーダに動的畳み込みを組み込むことにより、すべての候補アーキテクチャを含む重み共有ネットワークを用いて、サリエンシ予測用のスーパーネットを構築する。
第二に、SalNASは非常に効率的な(2098万のパラメータ)にもかかわらず、一般化の欠如に悩まされることがある。
そこで本研究では,SalNASを教師モデルからの予測と地上の真実の間に重み付けされた平均情報で訓練する自己知識蒸留手法であるSelf-KDを提案する。
教師モデルは、同じアーキテクチャを共有しながら、クロスバリデーションによって選択された最高のパフォーマンスのウェイトを含んでいる。
自己KDは教師モデルの勾配を計算する必要がなく、より効率的な訓練システムを実現することができる。
Self-KDを利用することで、SalNASは軽量なモデルでありながら、7つのベンチマークデータセットにまたがるほとんどの評価ルーブリックにおいて、他の最先端のサリエンシ予測モデルよりも優れています。
コードはhttps://github.com/chakkritte/SalNASで入手できる。
Recent advancements in deep convolutional neural networks have significantly improved the performance of saliency prediction. However, the manual configuration of the neural network architectures requires domain knowledge expertise and can still be time-consuming and error-prone. To solve this, we propose a new Neural Architecture Search (NAS) framework for saliency prediction with two contributions. Firstly, a supernet for saliency prediction is built with a weight-sharing network containing all candidate architectures, by integrating a dynamic convolution into the encoder-decoder in the supernet, termed SalNAS. Secondly, despite the fact that SalNAS is highly efficient (20.98 million parameters), it can suffer from the lack of generalization. To solve this, we propose a self-knowledge distillation approach, termed Self-KD, that trains the student SalNAS with the weighted average information between the ground truth and the prediction from the teacher model. The teacher model, while sharing the same architecture, contains the best-performing weights chosen by cross-validation. Self-KD can generalize well without the need to compute the gradient in the teacher model, enabling an efficient training system. By utilizing Self-KD, SalNAS outperforms other state-of-the-art saliency prediction models in most evaluation rubrics across seven benchmark datasets while being a lightweight model. The code will be available at https://github.com/chakkritte/SalNAS | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# xAI-Drop: 説明できないものを使わない
xAI-Drop: Don't Use What You Cannot Explain ( http://arxiv.org/abs/2407.20067v1 ) ライセンス: Link先を確認 | Vincenzo Marco De Luca, Antonio Longa, Andrea Passerini, Pietro Liò, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための主要なパラダイムとして登場し、ソーシャルネットワーク分析からバイオインフォマティクスまで幅広い応用を提供している。
汎用性にもかかわらず、GNNは過密化、一般化の欠如、解釈可能性の低下といった課題に直面しており、重要なアプリケーションにおいて広く採用され、信頼性が損なわれている。
ドロップは、トレーニング中のノイズを低減し、GNNの堅牢性を改善するための効果的なパラダイムとして登場した。
しかし、既存のアプローチは、しばしばランダムまたはヒューリスティックな選択基準に依存しており、モデルにおけるノイズや過剰な複雑さに寄与するノードを識別し排除する原則的な方法が欠如している。
本研究では,学習段階を通じてモデルの堅牢性を示す重要な指標として,説明可能性について論じる。
この目的のために、GNN伝搬機構から除外されるノイズの多いネットワーク要素をピンポイントする説明可能性を活用する新しいトポロジカルレベル降下正規化器であるxAI-Dropを導入する。
実世界の多様なデータセットに対する実証的な評価は、我々の手法が現在の最先端のドロップアプローチを精度良く上回り、過度なスムーシングを効果的に減らし、説明品質を向上させることを実証している。
Graph Neural Networks (GNNs) have emerged as the predominant paradigm for learning from graph-structured data, offering a wide range of applications from social network analysis to bioinformatics. Despite their versatility, GNNs face challenges such as oversmoothing, lack of generalization and poor interpretability, which hinder their wider adoption and reliability in critical applications. Dropping has emerged as an effective paradigm for reducing noise during training and improving robustness of GNNs. However, existing approaches often rely on random or heuristic-based selection criteria, lacking a principled method to identify and exclude nodes that contribute to noise and over-complexity in the model. In this work, we argue that explainability should be a key indicator of a model's robustness throughout its training phase. To this end, we introduce xAI-Drop, a novel topological-level dropping regularizer that leverages explainability to pinpoint noisy network elements to be excluded from the GNN propagation mechanism. An empirical evaluation on diverse real-world datasets demonstrates that our method outperforms current state-of-the-art dropping approaches in accuracy, effectively reduces over-smoothing, and improves explanation quality. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# 楕円のパワーを解き放つ:指数雑音による高精度スパースベクトル法
Unleash the Power of Ellipsis: Accuracy-enhanced Sparse Vector Technique with Exponential Noise ( http://arxiv.org/abs/2407.20068v1 ) ライセンス: Link先を確認 | Yuhan Liu, Sheng Wang, Yixuan Liu, Feifei Li, Hong Chen, | (参考訳) Sparse Vector Technique (SVT)は、差分プライバシー(DP)において最も基本的なツールの1つである。
特定のデータセット上のクエリのシーケンスに応答し、プライバシー保護の方法で有用な情報を収集することで、アダプティブなデータ分析のバックボーンとして機能する。
ノイズの多いクエリ結果を直接公開する一般的なプライベートクエリリリースとは異なり、SVTは情報が少ない -- ノイズの多いクエリ結果をそれ自体に保持し、クエリ毎にバイナリビットのみを公開し、クエリ結果が予め定義されたしきい値を超えるかどうかを示す。
一般的なプライベートクエリリリースとしてノイズの多いクエリ結果の直接開示を仮定して、文献における先行研究が保守的なプライバシ分析を採用するSVTの厳格なDP保証を提供する。
しかしこのアプローチは、プライバシーリスクの過大評価によりSVTがより高いクエリ精度を達成するのを妨げ、さらにラプラシアンノイズやガウスノイズを摂動に用いた過度なノイズ注入がもたらされる。
そこで本研究では,情報に乏しいことを考慮し,SVTの新たなプライバシ分析を行う。
解析結果は,SVTの摂動に適応する雑音の種類の範囲を広げるだけでなく,指数雑音をすべての評価ノイズの中で最適とみなす(ただし,従来は適用不可能である)。
SVTに指数雑音を適用する際の主な課題は、雑音分布によるバイアスによる準最適性能の軽減である。
そこで本研究では,SVTの精度向上とリコールにより,SVTの性能向上を図った,ユーティリティ指向の最適しきい値補正手法と付加戦略を開発する。
提案手法の有効性を理論的にも実証的にも実証的にも検証し,評価指標に対して最大50\%の大幅な改善が得られた。
The Sparse Vector Technique (SVT) is one of the most fundamental tools in differential privacy (DP). It works as a backbone for adaptive data analysis by answering a sequence of queries on a given dataset, and gleaning useful information in a privacy-preserving manner. Unlike the typical private query releases that directly publicize the noisy query results, SVT is less informative -- it keeps the noisy query results to itself and only reveals a binary bit for each query, indicating whether the query result surpasses a predefined threshold. To provide a rigorous DP guarantee for SVT, prior works in the literature adopt a conservative privacy analysis by assuming the direct disclosure of noisy query results as in typical private query releases. This approach, however, hinders SVT from achieving higher query accuracy due to an overestimation of the privacy risks, which further leads to an excessive noise injection using the Laplacian or Gaussian noise for perturbation. Motivated by this, we provide a new privacy analysis for SVT by considering its less informative nature. Our analysis results not only broaden the range of applicable noise types for perturbation in SVT, but also identify the exponential noise as optimal among all evaluated noises (which, however, is usually deemed non-applicable in prior works). The main challenge in applying exponential noise to SVT is mitigating the sub-optimal performance due to the bias introduced by noise distributions. To address this, we develop a utility-oriented optimal threshold correction method and an appending strategy, which enhances the performance of SVT by increasing the precision and recall, respectively. The effectiveness of our proposed methods is substantiated both theoretically and empirically, demonstrating significant improvements up to $50\%$ across evaluated metrics. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# グラフ完全性試験のための量子アルゴリズム
Quantum Algorithm for Testing Graph Completeness ( http://arxiv.org/abs/2407.20069v1 ) ライセンス: Link先を確認 | Sara Giordano, Miguel A. Martin-Delgado, | (参考訳) グラフ完全性をテストすることは、コンピュータ科学とネットワーク理論において重要な問題である。
量子計算を利用して、Szegedy量子ウォークと量子位相推定(QPE)を用いた効率的なアルゴリズムを提案する。
提案アルゴリズムは,ノード数と隣接行列を入力として,量子ウォーク演算子を構築し,QPEを適用して固有値を推定する。
これらの固有値はグラフの構造的性質を明らかにし、その完全性を決定することができる。
完全グラフ中のノード数とマークされたノード数の関係を確立し、成功確率と実行時間を最適化する。
アルゴリズムの時間複雑性は$\mathcal{O}(\log^2n)$であり、$n$はグラフのノード数である。
古典的な方法よりも明確な量子的優位性を提供します
このアプローチは、ネットワーク構造解析、古典的なルーティングアルゴリズムの評価、ペア比較に基づくシステム評価に有用である。
Testing graph completeness is a critical problem in computer science and network theory. Leveraging quantum computation, we present an efficient algorithm using the Szegedy quantum walk and quantum phase estimation (QPE). Our algorithm, which takes the number of nodes and the adjacency matrix as input, constructs a quantum walk operator and applies QPE to estimate its eigenvalues. These eigenvalues reveal the graph's structural properties, enabling us to determine its completeness. We establish a relationship between the number of nodes in a complete graph and the number of marked nodes, optimizing the success probability and running time. The time complexity of our algorithm is $\mathcal{O}(\log^2n)$, where $n$ is the number of nodes of the graph. offering a clear quantum advantage over classical methods. This approach is useful in network structure analysis, evaluating classical routing algorithms, and assessing systems based on pairwise comparisons. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# 代理木に基づくブラックボックスモデルの解釈可能なルール生成法 -- SRules
An Interpretable Rule Creation Method for Black-Box Models based on Surrogate Trees -- SRules ( http://arxiv.org/abs/2407.20070v1 ) ライセンス: Link先を確認 | Mario Parrón Verdasco, Esteban García-Cuesta, | (参考訳) 人工知能(AI)システムが重要な意思決定プロセスに統合されるにつれて、透明で解釈可能なモデルの必要性が最重要になっている。
本稿では,ブラックボックス機械学習モデルの解釈性向上を目的とした,代用決定木(SRules)に基づく新しいルールセット作成手法を提案する。
SRulesは、複雑なモデルの決定境界を近似する代理的解釈可能な決定木モデルを再帰的に生成することで、機械学習モデルの正確性、カバレッジ、解釈可能性のバランスをとる。
我々は、これらの代理モデルから簡潔で有意義なルールを生成するための体系的なフレームワークを提案し、利害関係者はAIシステムの意思決定プロセスを理解し、信頼することができる。
我々のアプローチは解釈可能なルールを提供するだけでなく、これらのルールの信頼性とカバレッジを定量化します。
提案モデルでは, モデルの一部部分のほぼ完全な適合と高い解釈可能性を実現することにより, 精度とカバレッジによる解釈可能性の欠如に対処するために, パラメータを調整できる。
その結果、SRulesは他の最先端技術を改善し、モデルの特定の部分に対して高度に解釈可能な特定のルールを作成する可能性を示している。
As artificial intelligence (AI) systems become increasingly integrated into critical decision-making processes, the need for transparent and interpretable models has become paramount. In this article we present a new ruleset creation method based on surrogate decision trees (SRules), designed to improve the interpretability of black-box machine learning models. SRules balances the accuracy, coverage, and interpretability of machine learning models by recursively creating surrogate interpretable decision tree models that approximate the decision boundaries of a complex model. We propose a systematic framework for generating concise and meaningful rules from these surrogate models, allowing stakeholders to understand and trust the AI system's decision-making process. Our approach not only provides interpretable rules, but also quantifies the confidence and coverage of these rules. The proposed model allows to adjust its parameters to counteract the lack of interpretability by precision and coverage by allowing a near perfect fit and high interpretability of some parts of the model . The results show that SRules improves on other state-of-the-art techniques and introduces the possibility of creating highly interpretable specific rules for specific sub-parts of the model. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# シエルピエスキーガスケット上のハルデンモデル
Haldane model on the Sierpiński gasket ( http://arxiv.org/abs/2407.20075v1 ) ライセンス: Link先を確認 | Zebedeus Osseweijer, Lumen Eek, Anouar Moustaj, Mikael Fremling, Cristiane Morais Smith, | (参考訳) Sierpi\nskiガスケット上のHaldaneモデルの位相位相について検討する。
フラクタル幾何学の結果、複数のフラクタルギャップが生じる。
さらに、平らなバンドが出現し、複雑な隣のアレストホッピングのため、このバンドは分裂し、複数のトポロジカルフラックスによって引き起こされるギャップが出現する。
モデルのフラクタル性のため、従来の運動量空間の位相不変式は使用できない。
したがって、実空間チャーン数の観点からシステムのトポロジーを特徴づける。
さらに、トポロジカル状態の障害に対する堅牢性を検証する。
最後にフラクタルギャップとフラックス誘起ギャップの相図を示す。
同様のシステムに関する以前の研究は、フラクタル性はよく知られたハルデン相図を「スクイーズ」すると主張している。
しかし、この結果は2つのSierpi\nskiガスケットを接着した二重系が検討されたためである。
我々は、Sierpi\'nskiガスケットのコピーを一つだけ考え、グローバルな自己相似性を維持している。
これらの結果とは対照的に、この単一フラクタルの位相図では複雑で複雑なパターンが見つかる。
我々の研究は、モデルのフラクタル性がこれらの構造の位相空間に大きな影響を与え、フラクタルとフラックスによって引き起こされるギャップの多さで位相位相を駆動できることを示し、従来の整数次元幾何学よりもリッチなプラットフォームを提供する。
We investigate the topological phases of the Haldane model on the Sierpi\'nski gasket. As a consequence of the fractal geometry, multiple fractal gaps arise. Additionally, a flat band appears, and due to a complex next-nearest neighbour hopping, this band splits and multiple topological flux-induced gaps emerge. Owing to the fractal nature of the model, conventional momentum-space topological invariants cannot be used. Therefore, we characterise the system's topology in terms of a real-space Chern number. In addition, we verify the robustness of the topological states to disorder. Finally, we present phase diagrams for both a fractal gap and a flux-induced gap. Previous work on a similar system claims that fractality "squeezes" the well-known Haldane phase diagram. However, this result arises because a doubled system was considered with two Sierpi\'nski gaskets glued together. We consider only a single copy of the Sierpi\'nski gasket, keeping global self-similarity. In contrast with these previous results, we find intricate and complex patterns in the phase diagram of this single fractal. Our work shows that the fractality of the model greatly influences the phase space of these structures, and can drive topological phases in the multitude of fractal and flux-induced gaps, providing a richer platform than a conventional integer dimensional geometry. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# データ拡張による半監督手法がルーマニア語の攻撃言語検出に与える影響の検討
Investigating the Impact of Semi-Supervised Methods with Data Augmentation on Offensive Language Detection in Romanian Language ( http://arxiv.org/abs/2407.20076v1 ) ライセンス: Link先を確認 | Elena Beatrice Nicola, Dumitru Clementin Cercel, Florin Pop, | (参考訳) 攻撃的な言語検出は、オンラインプラットフォームが敬意を払って包括的な環境を維持する、今日のデジタルランドスケープにおいて重要なタスクである。
しかし、ロバストな攻撃的言語検出モデルを構築するには大量のラベル付きデータが必要である。
半教師付き学習はラベル付きおよびラベルなしのデータを利用してより正確で堅牢なモデルを作成することで実現可能なソリューションを提供する。
本稿では,データ拡張技術とともに,いくつかの異なる半教師付き手法について検討する。
具体的には,8つの半教師付き手法を実装し,RO-Offenseデータセットで利用可能なデータのみを用いて実験を行った。
実験の結果、そのうちのいくつかは、他のものよりも増大の恩恵を受けていることが示されている。
Offensive language detection is a crucial task in today's digital landscape, where online platforms grapple with maintaining a respectful and inclusive environment. However, building robust offensive language detection models requires large amounts of labeled data, which can be expensive and time-consuming to obtain. Semi-supervised learning offers a feasible solution by utilizing labeled and unlabeled data to create more accurate and robust models. In this paper, we explore a few different semi-supervised methods, as well as data augmentation techniques. Concretely, we implemented eight semi-supervised methods and ran experiments for them using only the available data in the RO-Offense dataset and applying five augmentation techniques before feeding the data to the models. Experimental results demonstrate that some of them benefit more from augmentations than others. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# 背景意味論:スカイアノテートデータセットを用いたクラスタ型赤外小ターゲット検出のためのクロスタスク特徴交換ネットワーク
Background Semantics Matter: Cross-Task Feature Exchange Network for Clustered Infrared Small Target Detection With Sky-Annotated Dataset ( http://arxiv.org/abs/2407.20078v1 ) ライセンス: Link先を確認 | Yimian Dai, Mengxuan Xiao, Yiming Zhu, Huan Wang, Kehua Guo, Jian Yang, | (参考訳) 赤外線小目標検出は、固有の目標特徴の不足と、類似した背景散乱体の存在により、固有の課題を生じさせる。
我々は,背景意味論が視覚的に類似した物体を識別する上で重要な役割を担っていると主張している。
これを解決するために、クラスタ化された赤外線小ターゲット検出という新しいタスクを導入し、背景領域に対してピクセルごとのセマンティックアノテーションを提供する新しいベンチマークデータセットであるDenseSIRSTを紹介し、スパースから密度の高いターゲット検出への移行を可能にする。
このデータセットを応用したBAFE-Net(Back background-Aware Feature Exchange Network)を提案する。このネットワークは,前景に着目した単一タスクから,ターゲット検出とバックグラウンドセマンティックセマンティックセグメンテーションを併用したマルチタスクアーキテクチャへ,検出パラダイムを変換する。
BAFE-Netは2つのタスクの間にターゲットとバックグラウンドのセマンティクスを埋め込むクロスタスクのハードチェンジ機構を導入した。
さらに,背景認識型ガウス的コピー・ペースト (BAG-CP) 手法を提案する。
BAG-CPとBAFE-Netは、誤報を低減しつつ、目標検出精度を向上させる効果を実証した。
DenseSIRSTデータセット、コード、トレーニングされたモデルはhttps://github.com/GrokCV/BAFE-Net.comで入手できる。
Infrared small target detection poses unique challenges due to the scarcity of intrinsic target features and the abundance of similar background distractors. We argue that background semantics play a pivotal role in distinguishing visually similar objects for this task. To address this, we introduce a new task -- clustered infrared small target detection, and present DenseSIRST, a novel benchmark dataset that provides per-pixel semantic annotations for background regions, enabling the transition from sparse to dense target detection. Leveraging this dataset, we propose the Background-Aware Feature Exchange Network (BAFE-Net), which transforms the detection paradigm from a single task focused on the foreground to a multi-task architecture that jointly performs target detection and background semantic segmentation. BAFE-Net introduces a cross-task feature hard-exchange mechanism to embed target and background semantics between the two tasks. Furthermore, we propose the Background-Aware Gaussian Copy-Paste (BAG-CP) method, which selectively pastes small targets into sky regions during training, avoiding the creation of false alarm targets in complex non-sky backgrounds. Extensive experiments validate the effectiveness of BAG-CP and BAFE-Net in improving target detection accuracy while reducing false alarms. The DenseSIRST dataset, code, and trained models are available at https://github.com/GrokCV/BAFE-Net. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# UniTTA: 現実的なテスト時間適応に向けたベンチマークとVersatileフレームワークの統合
UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation ( http://arxiv.org/abs/2407.20080v1 ) ライセンス: Link先を確認 | Chaoqun Du, Yulin Wang, Jiayi Guo, Yizeng Han, Jie Zhou, Gao Huang, | (参考訳) テスト時間適応(TTA)は、テスト中にトレーニング済みのモデルをターゲットドメインに適応させることを目的としている。
実際には、この適応性は複数の要因に影響される可能性がある。
研究者は、連続的なドメインシフト、混合ドメイン、時間的相関あるいは不均衡なクラス分布など、様々な挑戦シナリオを特定し、これらの課題に対処する様々な方法を開発した。
これらの努力にもかかわらず、統一的で包括的なベンチマークはまだ確立されていない。
そこで本研究では,Unified Test-Time Adaptation (UniTTA) ベンチマークを提案する。
ベンチマーク内の各シナリオは、元のデータセットからサンプリングするためのMarkov状態遷移行列によって完全に記述されている。
UniTTAベンチマークは、ドメインとクラスの両方を2つの独立したデータ次元として捉え、不均衡/バランスの様々な組み合わせ、すなわち、(2 \times 3)^2 = 36 \) のシナリオを網羅した、d.d./non-i.d.d./continual conditionに対処する。
現実的なTTAのための総合的な評価ベンチマークを確立し、実践者が最も適したTTAメソッドを選択するためのガイドラインを提供する。
このベンチマークと並行して,バランスドメイン正規化(BDN)層とCOFA(COrrelated Feature Adaptation)メソッドを含む汎用UniTTAフレームワークを提案する。
大規模な実験により、我々のUniTTAフレームワークはUniTTAベンチマーク内で優れ、平均して最先端のパフォーマンスを実現していることが示された。
私たちのコードは \url{https://github.com/LeapLabTHU/UniTTA} で利用可能です。
Test-Time Adaptation (TTA) aims to adapt pre-trained models to the target domain during testing. In reality, this adaptability can be influenced by multiple factors. Researchers have identified various challenging scenarios and developed diverse methods to address these challenges, such as dealing with continual domain shifts, mixed domains, and temporally correlated or imbalanced class distributions. Despite these efforts, a unified and comprehensive benchmark has yet to be established. To this end, we propose a Unified Test-Time Adaptation (UniTTA) benchmark, which is comprehensive and widely applicable. Each scenario within the benchmark is fully described by a Markov state transition matrix for sampling from the original dataset. The UniTTA benchmark considers both domain and class as two independent dimensions of data and addresses various combinations of imbalance/balance and i.i.d./non-i.i.d./continual conditions, covering a total of \( (2 \times 3)^2 = 36 \) scenarios. It establishes a comprehensive evaluation benchmark for realistic TTA and provides a guideline for practitioners to select the most suitable TTA method. Alongside this benchmark, we propose a versatile UniTTA framework, which includes a Balanced Domain Normalization (BDN) layer and a COrrelated Feature Adaptation (COFA) method--designed to mitigate distribution gaps in domain and class, respectively. Extensive experiments demonstrate that our UniTTA framework excels within the UniTTA benchmark and achieves state-of-the-art performance on average. Our code is available at \url{https://github.com/LeapLabTHU/UniTTA}. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# コンピュータ翻訳における単語レベルのオートコンプリートのためのエネルギーモデル
An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation ( http://arxiv.org/abs/2407.20083v1 ) ライセンス: Link先を確認 | Cheng Yang, Guoping Huang, Mo Yu, Zhirui Zhang, Siheng Li, Mingming Yang, Shuming Shi, Yujiu Yang, Lemao Liu, | (参考訳) ワードレベルオートコンプリート(WLAC)は、コンピュータ支援翻訳の課題である。
既存の作業は、入力コンテキストの隠れベクターを対応するラベル(すなわち、候補対象単語をラベルとして扱う)にマッピングするニューラルネットワークに基づく分類モデルを介して、このタスクに対処する。
文脈隠蔽ベクトル自体がラベルを考慮せず、線形分類器によってラベルに投影されるので、実験で検証されたように、元の文から得られる貴重な情報を十分に活用することができず、最終的には全体的な性能を損なうことになる。
この問題を軽減するため,WLACのエネルギーモデルを提案する。
残念なことに、トレーニングと推論は効率と効果の課題に悩まされているため、モデルを実践するために3つのシンプルで効果的な戦略を採用しています。
4つの標準ベンチマークの実験は、我々の再ランクベースのアプローチが以前の最先端モデルよりも大幅に改善(約6.07%)したことを示している。
さらに分析した結果,提案手法のそれぞれの戦略が最終性能に寄与していることが判明した。
Word-level AutoCompletion(WLAC) is a rewarding yet challenging task in Computer-aided Translation. Existing work addresses this task through a classification model based on a neural network that maps the hidden vector of the input context into its corresponding label (i.e., the candidate target word is treated as a label). Since the context hidden vector itself does not take the label into account and it is projected to the label through a linear classifier, the model can not sufficiently leverage valuable information from the source sentence as verified in our experiments, which eventually hinders its overall performance. To alleviate this issue, this work proposes an energy-based model for WLAC, which enables the context hidden vector to capture crucial information from the source sentence. Unfortunately, training and inference suffer from efficiency and effectiveness challenges, thereby we employ three simple yet effective strategies to put our model into practice. Experiments on four standard benchmarks demonstrate that our reranking-based approach achieves substantial improvements (about 6.07%) over the previous state-of-the-art model. Further analyses show that each strategy of our approach contributes to the final performance. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# 低リソース環境下での高効率微調整による胎児頭部の分画--U-Netを用いた実証研究
Segmenting Fetal Head with Efficient Fine-tuning Strategies in Low-resource Settings: an empirical study with U-Net ( http://arxiv.org/abs/2407.20086v1 ) ライセンス: Link先を確認 | Fangyijie Wang, Guénolé Silvestre, Kathleen M. Curran, | (参考訳) 胎児頭周囲の正確な計測は、正常な出生前スクリーニングにおける胎児の成長を推定するために重要である。
超音波画像において、測定の前には、特に胎児頭部の関心領域を正確に同定し、区分けする必要がある。
近年の深層学習技術の進歩により,エンコーダ・デコーダモデルを用いた胎児頭部の分節化が著しく進展している。
これらのモデルの中で、U-Netは正確なセグメンテーションの標準的なアプローチとなっている。
しかし、エンコーダ・デコーダモデルのトレーニングは、かなりの計算資源を必要とする時間を要するプロセスである。
さらに、利用可能なデータ量が限られている場合、これらのモデルを微調整することは特に困難である。
胎児超音波画像分割のためのU-netの最適微調整のための「ベストプラクティス」ガイドラインはまだ存在しない。
この研究は、オランダ、スペイン、マラウイ、エジプト、アルジェリアの超音波データにまたがる様々なバックボーンアーキテクチャ、モデルコンポーネント、および微調整戦略による既存の微調整戦略をまとめたものである。
本研究は,(1)微調整U-Netは,スクラッチによるトレーニングよりも性能が向上し,(2)デコーダの微調整戦略は他の戦略よりも優れていること,(3)パラメータの少ないネットワークアーキテクチャが類似あるいは良好な性能を達成することを示唆している。
また、低リソース環境での微調整戦略の有効性を実証し、さらに実験を数発の学習に拡張する。
最後に、私たちはコードと特定の微調整の重みを公開しました。
Accurate measurement of fetal head circumference is crucial for estimating fetal growth during routine prenatal screening. Prior to measurement, it is necessary to accurately identify and segment the region of interest, specifically the fetal head, in ultrasound images. Recent advancements in deep learning techniques have shown significant progress in segmenting the fetal head using encoder-decoder models. Among these models, U-Net has become a standard approach for accurate segmentation. However, training an encoder-decoder model can be a time-consuming process that demands substantial computational resources. Moreover, fine-tuning these models is particularly challenging when there is a limited amount of data available. There are still no "best-practice" guidelines for optimal fine-tuning of U-net for fetal ultrasound image segmentation. This work summarizes existing fine-tuning strategies with various backbone architectures, model components, and fine-tuning strategies across ultrasound data from Netherlands, Spain, Malawi, Egypt and Algeria. Our study shows that (1) fine-tuning U-Net leads to better performance than training from scratch, (2) fine-tuning strategies in decoder are superior to other strategies, (3) network architecture with less number of parameters can achieve similar or better performance. We also demonstrate the effectiveness of fine-tuning strategies in low-resource settings and further expand our experiments into few-shot learning. Lastly, we publicly released our code and specific fine-tuned weights. | 翻訳日:2024-07-30 13:24:58 公開日:2024-07-29 |
# 適応感度戦略とマルチスケール融合に基づく赤外小ターゲット検出
Infrared Small Target Detection based on Adjustable Sensitivity Strategy and Multi-Scale Fusion ( http://arxiv.org/abs/2407.20090v1 ) ライセンス: Link先を確認 | Jinmiao Zhao, Zelin Shi, Chuang Yu, Yunpeng Liu, | (参考訳) 近年,深層学習に基づく単一フレーム赤外小目標(SIRST)検出技術が大きな進歩を遂げている。
しかし、既存の赤外線小目標検出法は、固定画像解像度、単一波長、または特定の撮像システムに最適化され、実用用途においてその幅と柔軟性を制限している。
そこで本研究では、調整可能な感度(AS)戦略とマルチスケール融合に基づく改良された赤外線小ターゲット検出手法を提案する。
具体的には、マルチスケール方向対応ネットワーク(MSDA-Net)に基づくマルチスケールモデル融合フレームワークを構築し、複数のスケールの入力画像を用いて複数のモデルを訓練し、それらを融合させる。
マルチスケール融合は、ターゲットの形状、エッジ、テクスチャの特徴を異なるスケールで特徴づけるのに役立つ。
同時に、赤外小目標検出タスクの特徴を完全に考慮し、エッジ強化難採鉱(EEDM)の損失を構築する。
EEDMの損失は、カテゴリー不均衡の問題を軽減するのに役立ち、トレーニング中に難しいターゲット領域やエッジ機能により多くの注意を払うようネットワークに誘導する。
さらに,ポストプロセッシングのための調整可能な感度戦略を提案する。
この戦略は、セグメンテーション精度を確保しつつ、赤外線小目標の検出率を大幅に向上させる。
実験結果から,提案手法が最高の性能を達成できることが示唆された。
特に、このスキームはPRCV 2024ワイドエリア赤外線小目標検出コンテストで優勝した。
Recently, deep learning-based single-frame infrared small target (SIRST) detection technology has made significant progress. However, existing infrared small target detection methods are often optimized for a fixed image resolution, a single wavelength, or a specific imaging system, limiting their breadth and flexibility in practical applications. Therefore, we propose a refined infrared small target detection scheme based on an adjustable sensitivity (AS) strategy and multi-scale fusion. Specifically, a multi-scale model fusion framework based on multi-scale direction-aware network (MSDA-Net) is constructed, which uses input images of multiple scales to train multiple models and fuses them. Multi-scale fusion helps characterize the shape, edge, and texture features of the target from different scales, making the model more accurate and reliable in locating the target. At the same time, we fully consider the characteristics of the infrared small target detection task and construct an edge enhancement difficulty mining (EEDM) loss. The EEDM loss helps alleviate the problem of category imbalance and guides the network to pay more attention to difficult target areas and edge features during training. In addition, we propose an adjustable sensitivity strategy for post-processing. This strategy significantly improves the detection rate of infrared small targets while ensuring segmentation accuracy. Extensive experimental results show that the proposed scheme achieves the best performance. Notably, this scheme won the first prize in the PRCV 2024 wide-area infrared small target detection competition. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# 量子アーキテクチャ探索のための代理モデルによる分布アルゴリズムの推定による学習可能性の最大化
Trainability maximization using estimation of distribution algorithms assisted by surrogate modelling for quantum architecture search ( http://arxiv.org/abs/2407.20091v1 ) ライセンス: Link先を確認 | Vicente P. Soloviev, Vedran Dunjko, Concha Bielza, Pedro Larrañaga, Hao Wang, | (参考訳) 量子アーキテクチャサーチ(QAS)は、量子パラメトリック回路の構成を最適化するだけでなく、変分量子アルゴリズムのパラメータも最適化する。
したがって、パラメータが古典的なルーチンでチューニングされるまでは、与えられたアーキテクチャのパフォーマンスが不明であるため、問題はマルチレベルであることが知られている。
さらに、有名なトレーニング容易性問題(例えば、バレンプラトー(BP))が発生するため、タスクはさらに複雑になる。
本稿では,(1)粗悪な性能のアーキテクチャを積極的に破棄する評価プロセスのオンラインサロゲートモデルによる測定数を削減し,(2)BPが存在する場合の回路のトレーニングを避けることを目的とした。
BPs の存在を検出するため,我々は最近開発された指標である情報量を用いて,コスト関数の勾配を推定するために,小さなパラメータセットのエネルギー値のみを計測した。
この提案の主な考え方は、最近開発されたメトリクスを利用して、消失する勾配の開始を検知し、全体的な探索がそのような好ましくない領域を避けることである。
我々は、変動量子固有解法の提案を実験的に検証し、我々のアルゴリズムがハミルトニアンの文献でこれまで提案されていた解を見つけることができることを示した。
提案手法は, 優れた性能を維持しつつ, 既知のアーキテクチャのトレーニング性を向上させることが望まれる環境において, 有効である可能性が示唆された。
Quantum architecture search (QAS) involves optimizing both the quantum parametric circuit configuration but also its parameters for a variational quantum algorithm. Thus, the problem is known to be multi-level as the performance of a given architecture is unknown until its parameters are tuned using classical routines. Moreover, the task becomes even more complicated since well-known trainability issues, e.g., barren plateaus (BPs), can occur. In this paper, we aim to achieve two improvements in QAS: (1) to reduce the number of measurements by an online surrogate model of the evaluation process that aggressively discards architectures of poor performance; (2) to avoid training the circuits when BPs are present. To detect the presence of the BPs, we employed a recently developed metric, information content, which only requires measuring the energy values of a small set of parameters to estimate the magnitude of cost function's gradient. The main idea of this proposal is to leverage a recently developed metric which can be used to detect the onset of vanishing gradients to ensure the overall search avoids such unfavorable regions. We experimentally validate our proposal for the variational quantum eigensolver and showcase that our algorithm is able to find solutions that have been previously proposed in the literature for the Hamiltonians; but also to outperform the state of the art when initializing the method from the set of architectures proposed in the literature. The results suggest that the proposed methodology could be used in environments where it is desired to improve the trainability of known architectures while maintaining good performance. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# 回復可能な制御光子を用いた単一光子マイクロ波スイッチ
A single-photon microwave switch with recoverable control photon ( http://arxiv.org/abs/2407.20092v1 ) ライセンス: Link先を確認 | Davide Rinaldi, Davide Nigro, Dario Gerace, | (参考訳) スケーラブルな量子技術は、トランジスタや整流器、低消費電力入力によって変調されたスイッチといった従来の情報処理要素を用いた予測アーキテクチャに適用することができる。
この点において、超伝導回路をベースとした最近の量子プロセッサは、量子情報処理や量子コンピューティングにおいて明らかな応用に加えて、超低消費電力の古典プロセッサの基盤として用いられる。
本稿では、伝送線路内の単一制御光子を、別の単一光子の伝播を別線でオン/オフできる回路量子力学装置に基づく単一光子マイクロ波スイッチを提案する。
この単一光子スイッチの性能は、出力チャネルを通して光子フラックスを用いて定量化され、その結果を利用可能なデータと直接比較する。
さらに, このマイクロ波スイッチの設計により, スイッチング後の単一制御光子の回復が可能となることを示す。
この提案は、最先端の超伝導回路技術で容易に実現できる。
Scalable quantum technologies may be applied in prospective architectures employing traditional information processing elements, such as transistors, rectifiers, or switches modulated by low-power inputs. In this respect, recently developed quantum processors based, e.g., on superconducting circuits may alternatively be employed as the basic platform for ultra-low-power consumption classical processors, in addition to obvious applications in quantum information processing and quantum computing. Here we propose a single-photon microwave switch based on a circuit quantum electrodynamics setup, in which a single control photon in a transmission line is able to switch on/off the propagation of another single photon in a separate line. The performances of this single-photon switch are quantified in terms of the photon flux through the output channel, providing a direct comparison of our results with available data. Furthermore, we show how the design of this microwave switch enables the recovery of the single control photon after the switching process. This proposal may be readily realized in state-of-art superconducting circuit technology. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# 遺伝的改良によるジェネレーティブアートの製作--多国籍景観における創造的アウトプットの管理
Crafting Generative Art through Genetic Improvement: Managing Creative Outputs in Diverse Fitness Landscapes ( http://arxiv.org/abs/2407.20095v1 ) ライセンス: Link先を確認 | Erik M. Fredericks, Denton Bobeldyk, Jared M. Moore, | (参考訳) 生成芸術は、様々な媒体で芸術的なアウトプットを作成するためのルール駆動のアプローチである。
例えば、流体シミュレーションはデジタルディスプレイにまたがる色のピクセルの流れを制御したり、長方形の配置アルゴリズムでモンドリアン風の絵を描くことができる。
これまで,遺伝子プログラミングのサブフィールドである遺伝的改善が,生成的アート描画プログラムを自動生成し,最適化する方法について検討した。
遺伝子組み換え技術に遺伝子改良を適用することの1つの課題は、レキシケース選択のような多目的進化アルゴリズムにおいて、適合関数とその相互作用を定義することである。
ここでは、各フィットネス関数が生成した画像に与える影響、生成プログラムの特徴、および特定の領域における肥大の影響について評価する。
さらに,人間の評価を模倣する分類器を用いて,出力が「アート」であるかどうかを判断するフィットネス機能も追加した。
この分類器は、私たちが創り出すグリッチアートの美学に似た入力画像のデータセットに基づいて訓練される。
実験結果から, フィットネス機能はほとんどなく, 個体群全体に個別の生成技術が浸透していることが示唆された。
さらに, コンポジションは, 現在のフィットネス機能を備えた1つの手法によって駆動される傾向にあった。
最後に,我々の分類器はノイズの多い画像のフィルタリングに最適であることを示す。
Generative art is a rules-driven approach to creating artistic outputs in various mediums. For example, a fluid simulation can govern the flow of colored pixels across a digital display or a rectangle placement algorithm can yield a Mondrian-style painting. Previously, we investigated how genetic improvement, a sub-field of genetic programming, can automatically create and optimize generative art drawing programs. One challenge of applying genetic improvement to generative art is defining fitness functions and their interaction in a many-objective evolutionary algorithm such as Lexicase selection. Here, we assess the impact of each fitness function in terms of the their individual effects on generated images, characteristics of generated programs, and impact of bloat on this specific domain. Furthermore, we have added an additional fitness function that uses a classifier for mimicking a human's assessment as to whether an output is considered as "art." This classifier is trained on a dataset of input images resembling the glitch art aesthetic that we aim to create. Our experimental results show that with few fitness functions, individual generative techniques sweep across populations. Moreover, we found that compositions tended to be driven by one technique with our current fitness functions. Lastly, we show that our classifier is best suited for filtering out noisy images, ideally leading towards more outputs relevant to user preference. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# RSC-SNN:ランダムスムーシング符号化によるスパイキングニューラルネットワークの逆ロバスト性と精度のトレードオフを探る
RSC-SNN: Exploring the Trade-off Between Adversarial Robustness and Accuracy in Spiking Neural Networks via Randomized Smoothing Coding ( http://arxiv.org/abs/2407.20099v1 ) ライセンス: Link先を確認 | Keming Wu, Man Yao, Yuhong Chou, Xuerui Qiu, Rui Yang, Bo Xu, Guoqi Li, | (参考訳) スパイキングニューラルネットワーク(SNN)は、そのユニークな神経力学と低出力の性質により、広く注目を集めている。
以前の研究では、Poissonコーディングを持つSNNは、小規模データセット上のArtificial Neural Networks(ANN)よりも堅牢であることが実証されている。
しかし、SNNの逆ロバスト性がどのように導出され、SNNが大規模データセットタスクにおける逆ロバスト性優位性を維持することができるのかは、理論上はまだ不明である。
この研究は理論上、SNNの固有の対向ロバスト性はポアソン符号に由来することを証明している。
本稿では,防衛戦略におけるポアソン符号とランダム化平滑化の概念的等価性を明らかにするとともに,SNNにおける精度と逆ロバスト性の間のトレードオフを,ランダム化平滑化符号化(RSC)法を用いて詳細に解析する。
実験により、提案したRCC-SNNは、ANNを超越し、大規模データセット ImageNet 上で最先端のロバスト性が得られることを示す。
私たちのオープンソース実装コードは、このhttps URLで利用可能です。
Spiking Neural Networks (SNNs) have received widespread attention due to their unique neuronal dynamics and low-power nature. Previous research empirically shows that SNNs with Poisson coding are more robust than Artificial Neural Networks (ANNs) on small-scale datasets. However, it is still unclear in theory how the adversarial robustness of SNNs is derived, and whether SNNs can still maintain its adversarial robustness advantage on large-scale dataset tasks. This work theoretically demonstrates that SNN's inherent adversarial robustness stems from its Poisson coding. We reveal the conceptual equivalence of Poisson coding and randomized smoothing in defense strategies, and analyze in depth the trade-off between accuracy and adversarial robustness in SNNs via the proposed Randomized Smoothing Coding (RSC) method. Experiments demonstrate that the proposed RSC-SNNs show remarkable adversarial robustness, surpassing ANNs and achieving state-of-the-art robustness results on large-scale dataset ImageNet. Our open-source implementation code is available at this https URL: https://github.com/KemingWu/RSC-SNN. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# F-KANs:Kolmogorov-Arnoldネットワークのフェデレーション
F-KANs: Federated Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.20100v1 ) ライセンス: Link先を確認 | Engin Zeydan, Cristian J. Vaca-Rubio, Luis Blanco, Roberto Pereira, Marius Caus, Abdullah Aydeger, | (参考訳) 本稿では,KAN(Kolmogorov-Arnold Networks)を分類タスクに活用する,革新的なフェデレートラーニング(FL)手法を提案する。
連合型フレームワークにおけるkansの適応活性化機能を活用することにより、プライバシを保ちながら分類能力を向上させることを目指す。
本研究は, 従来の多層パーセプトロン (MLP) と比較し, フェデレート・カン (F-kan) の性能評価を行った。
その結果、F-KANsモデルは、精度、精度、リコール、F1スコア、安定性においてフェデレーションMLPモデルを大幅に上回り、より良いパフォーマンスを実現し、より効率的でプライバシーに配慮した予測分析の道を開いた。
In this paper, we present an innovative federated learning (FL) approach that utilizes Kolmogorov-Arnold Networks (KANs) for classification tasks. By utilizing the adaptive activation capabilities of KANs in a federated framework, we aim to improve classification capabilities while preserving privacy. The study evaluates the performance of federated KANs (F- KANs) compared to traditional Multi-Layer Perceptrons (MLPs) on classification task. The results show that the F-KANs model significantly outperforms the federated MLP model in terms of accuracy, precision, recall, F1 score and stability, and achieves better performance, paving the way for more efficient and privacy-preserving predictive analytics. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# 適応モデル融合による言語モデルの強著作権保護
Strong Copyright Protection for Language Models via Adaptive Model Fusion ( http://arxiv.org/abs/2407.20105v1 ) ライセンス: Link先を確認 | Javier Abad, Konstantin Donhauser, Francesco Pinto, Fanny Yang, | (参考訳) 言語モデルが学習データから意図せず著作権物質を再生するリスクは、様々な保護措置の開発に繋がった。
本稿では,著作権侵害防止のための有効なソリューションとして,モデル融合を提案する。
特に,保護材料の再生を最小化するために,言語モデルを適応的に組み合わせたアルゴリズムであるCP-Fuseを導入する。
CP-Fuseは、最近提案されたNear-Access Free (NAF)フレームワークにインスパイアされ、また、記憶されたトレーニングデータの再生を防止するための望ましいバランス特性も組み込まれている。
その結果,CP-Fuseは高品質なテキストとコード生成を維持しつつ,著作権のあるコンテンツの記憶を著しく減少させることがわかった。
さらに,CP-Fuseを他の技術と統合して保護を強化する方法を示す。
The risk of language models unintentionally reproducing copyrighted material from their training data has led to the development of various protective measures. In this paper, we propose model fusion as an effective solution to safeguard against copyright infringement. In particular, we introduce Copyright-Protecting Fusion (CP-Fuse), an algorithm that adaptively combines language models to minimize the reproduction of protected materials. CP-Fuse is inspired by the recently proposed Near-Access Free (NAF) framework and additionally incorporates a desirable balancing property that we demonstrate prevents the reproduction of memorized training data. Our results show that CP-Fuse significantly reduces the memorization of copyrighted content while maintaining high-quality text and code generation. Furthermore, we demonstrate how CP-Fuse can be integrated with other techniques for enhanced protection. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# 拡張Bose-Hubbardはしごにおける複合超固体と再入射遷移
Commensurate supersolids and re-entrant transitions in an extended Bose-Hubbard ladder ( http://arxiv.org/abs/2407.20107v1 ) ライセンス: Link先を確認 | Ashwath N Madhusudan, Gopal Chandra Santra, Inderpreet Kaur, Weibin Li, Rejish Nath, | (参考訳) 本研究では, 密度行列正規化群法および特にラングホッピングの効果を用いて, 単位充填のボース・ハバード・ラグの基底状態相について検討した。
単一鎖とは対照的に、複合超固体が出現し、ルッティンガーパラメータに基づいて、それらを2つのタイプに分類する。
後者は、他の全てのパラメータを無傷に保ちながら、オンサイト相互作用が増加するにつれて、再帰的なギャップのない振る舞いをもたらす。
また、最も近い隣同士の相互作用の関数として、再帰的なギャップ付き遷移が見られる。
さらに,Haldane相を特徴付ける弦次数は,有限鎖間ホッピング振幅に対して消失するが,小さい。
最後に、双極子原子または極性分子またはRydberg付加原子を用いて、我々の発見を観察するための2つの実験プラットフォームを提案する。
We investigate the ground state phases of an extended Bose-Hubbard ladder of unit filling via the density-matrix-renormalization-group method and, in particular, the effect of rung-hoppings. In contrast to a single-chain, a commensurate supersolid emerges, and based on the Luttinger parameter, we classify them into two types. The latter leads to a reentrant gapless behavior as the onsite interaction is increased while keeping all other parameters intact. A reentrant gapped transition is also found as a function of nearest-neighbor interactions. Further, we show that the string order characterizing the Haldane phase vanishes for a finite inter-chain hopping amplitude, however small it is. Finally, we propose two experimental platforms to observe our findings, using either dipolar atoms or polar molecules and Rydberg admixed atoms. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# 心臓MRIにおけるk空間からの分類・回帰・分節
Classification, Regression and Segmentation directly from k-Space in Cardiac MRI ( http://arxiv.org/abs/2407.20108v1 ) ライセンス: Link先を確認 | Ruochen Li, Jiazhen Pan, Youxiang Zhu, Juncheng Ni, Daniel Rueckert, | (参考訳) 心臓磁気共鳴イメージング(英: Cardiac Magnetic Resonance Imaging, CMR)は、心臓血管疾患の診断における金の標準である。
臨床診断は主に大きさのみのDigital Imaging and Communications in Medicine (DICOM)画像に依存しており、診断上の利点をもたらす重要な位相情報を省略している。
対照的に、k空間は複雑に評価され、大きさと位相情報の両方を包含するが、人間は直接知覚できない。
そこで本研究では,k空間データを直接処理するトランスフォーマーモデルであるKMAEを提案する。
KMAEは、心疾患の分類、関連する表現型回帰、および心臓形態分類タスクを扱うことができる。
心臓MRIにおけるk-space-based diagnosisの可能性について検討した。
特に,このモデルでは,Masked Autoencoders (MAE) などの画像領域法と比較して,競合的な分類と回帰性能を実現し,心筋ディススコア0.884で良好なセグメンテーション性能を実現する。
最後に、我々のモデルは、k-空間が8*アンサンプされた場合でも、一貫した結果で頑健な性能を示す。
我々はMRコミュニティに対して、k空間の未解決の可能性を探り、人間の介入を減らしてエンドツーエンドで自動診断を追求することを奨励する。
Cardiac Magnetic Resonance Imaging (CMR) is the gold standard for diagnosing cardiovascular diseases. Clinical diagnoses predominantly rely on magnitude-only Digital Imaging and Communications in Medicine (DICOM) images, omitting crucial phase information that might provide additional diagnostic benefits. In contrast, k-space is complex-valued and encompasses both magnitude and phase information, while humans cannot directly perceive. In this work, we propose KMAE, a Transformer-based model specifically designed to process k-space data directly, eliminating conventional intermediary conversion steps to the image domain. KMAE can handle critical cardiac disease classification, relevant phenotype regression, and cardiac morphology segmentation tasks. We utilize this model to investigate the potential of k-space-based diagnosis in cardiac MRI. Notably, this model achieves competitive classification and regression performance compared to image-domain methods e.g. Masked Autoencoders (MAEs) and delivers satisfactory segmentation performance with a myocardium dice score of 0.884. Last but not least, our model exhibits robust performance with consistent results even when the k-space is 8* undersampled. We encourage the MR community to explore the untapped potential of k-space and pursue end-to-end, automated diagnosis with reduced human intervention. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# Diffusion-DICE:オフライン強化学習のためのインサンプル拡散誘導
Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning ( http://arxiv.org/abs/2407.20109v1 ) ライセンス: Link先を確認 | Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan, Amy Zhang, | (参考訳) Distribution Correction Estimation (DICE) 法の1つの重要な性質は、最適化されたデータ収集ポリシーとデータ収集ポリシーの最適定常分布比であることである。
本研究では, DICEに基づく手法を行動分布から最適政策分布への変換とみなすことができることを示す。
そこで我々は拡散モデルを用いて直接この変換を行う新しい手法Diffusion-DICEを提案する。
最適ポリシのスコア関数は,最適分布比に依存するガイダンス項の勾配と行動ポリシのスコア関数の2つの項に分解できることがわかった。
第1項はデータセット上で訓練された拡散モデルから得ることができ、第2項を学習するためのサンプル内学習目標を提案する。
最適政策分布に含まれる多モード性のため、拡散DICEの変換はこれらの局所最適モードへ導くことができる。
そこで我々はいくつかの候補行動を生成し、それらを慎重に選択し、世界最適にアプローチする。
他の拡散に基づくオフラインRL法とは異なり、Diffusion-DICEのガイド-then-selectパラダイムはトレーニングにインサンプルアクションのみを使用し、値関数に最小限のエラー悪用をもたらす。
我々は,従来の拡散に基づく手法が,これらのエラーを利用して最適動作を生成できないこと,Diffusion-DICEがそれをうまく回避できることを示すために,寄生玩具ケースの例を用いている。
次に、Diffusion-DICEの強い性能を示すために、ベンチマークデータセットの広範な実験を行う。
One important property of DIstribution Correction Estimation (DICE) methods is that the solution is the optimal stationary distribution ratio between the optimized and data collection policy. In this work, we show that DICE-based methods can be viewed as a transformation from the behavior distribution to the optimal policy distribution. Based on this, we propose a novel approach, Diffusion-DICE, that directly performs this transformation using diffusion models. We find that the optimal policy's score function can be decomposed into two terms: the behavior policy's score function and the gradient of a guidance term which depends on the optimal distribution ratio. The first term can be obtained from a diffusion model trained on the dataset and we propose an in-sample learning objective to learn the second term. Due to the multi-modality contained in the optimal policy distribution, the transformation in Diffusion-DICE may guide towards those local-optimal modes. We thus generate a few candidate actions and carefully select from them to approach global-optimum. Different from all other diffusion-based offline RL methods, the guide-then-select paradigm in Diffusion-DICE only uses in-sample actions for training and brings minimal error exploitation in the value function. We use a didatic toycase example to show how previous diffusion-based methods fail to generate optimal actions due to leveraging these errors and how Diffusion-DICE successfully avoids that. We then conduct extensive experiments on benchmark datasets to show the strong performance of Diffusion-DICE. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# FiCo-ITR:細粒度および粗粒度画像テキスト検索による比較性能解析
FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis ( http://arxiv.org/abs/2407.20114v1 ) ライセンス: Link先を確認 | Mikel Williams-Lekuona, Georgina Cosma, | (参考訳) Image-Text Retrieval (ITR) の分野では、最近の進歩は、FG(Fined)インスタンスレベルの検索に大規模なビジョンランゲージ事前学習(VLP)を活用し、計算複雑性を増大させるコストで高い精度を実現している。
粗粒度(CG)カテゴリレベルの検索では,検索性能を犠牲にすることなく,Cross-Modal Hashing(CMH)を用いて効率を優先する。
手法の相違により、FGとCGモデルは文献評価において直接比較されることは稀であり、両者間の検索性能・効率のトレードオフを定量化する実証データが欠如している。
本稿では,FGモデルとCGモデルの両方で評価手法を標準化し,直接比較を容易にするライブラリ「texttt{FiCo-ITR}」を導入することで,このギャップに対処する。
両サブフィールドから代表モデルの実証的評価を行い,精度,リコール,計算複雑性をさまざまなデータスケールで分析する。
その結果,最近の代表的FGモデルとCGモデル間の性能・効率トレードオフに関する新たな知見が得られ,それぞれの強みと限界が浮き彫りになった。
これらの知見は、特定の検索タスクに対するモデル選択に関するより詳細な決定を行うために必要な基盤を提供し、FGとCGの両アプローチの長所を生かしたハイブリッドシステムの今後の研究への道のりを明らかにする。
In the field of Image-Text Retrieval (ITR), recent advancements have leveraged large-scale Vision-Language Pretraining (VLP) for Fine-Grained (FG) instance-level retrieval, achieving high accuracy at the cost of increased computational complexity. For Coarse-Grained (CG) category-level retrieval, prominent approaches employ Cross-Modal Hashing (CMH) to prioritise efficiency, albeit at the cost of retrieval performance. Due to differences in methodologies, FG and CG models are rarely compared directly within evaluations in the literature, resulting in a lack of empirical data quantifying the retrieval performance-efficiency tradeoffs between the two. This paper addresses this gap by introducing the \texttt{FiCo-ITR} library, which standardises evaluation methodologies for both FG and CG models, facilitating direct comparisons. We conduct empirical evaluations of representative models from both subfields, analysing precision, recall, and computational complexity across varying data scales. Our findings offer new insights into the performance-efficiency trade-offs between recent representative FG and CG models, highlighting their respective strengths and limitations. These findings provide the foundation necessary to make more informed decisions regarding model selection for specific retrieval tasks and highlight avenues for future research into hybrid systems that leverage the strengths of both FG and CG approaches. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# 未知クラスタ数を持つ非構造化データに対する適応型自己教師付きロバストクラスタリング
Adaptive Self-supervised Robust Clustering for Unstructured Data with Unknown Cluster Number ( http://arxiv.org/abs/2407.20119v1 ) ライセンス: Link先を確認 | Chen-Lu Ding, Jiancan Wu, Wei Lin, Shiyang Shen, Xiang Wang, Yancheng Yuan, | (参考訳) 本稿では,アダプティブ自己監督型ロバストクラスタリング (ASRC) と呼ばれる,クラスタ数の事前知識を必要とせず,非構造化データに適した新しい自己監視型ディープクラスタリング手法を提案する。
特に、ASRCはグラフ構造とエッジ重みを適応的に学習し、局所的および大域的構造情報をキャプチャする。
得られたグラフは,コントラスト学習技術を用いた拡張グラフオートエンコーダにより,クラスタリングに適した特徴表現を学習することを可能にする。
さらに、ロバストな連続クラスタリング(RCC)によって得られたクラスタリング結果を利用して、負のサンプリングのためのプロトタイプを生成し、さらに正のペア間の一貫性を促進し、正のサンプルと負のサンプルのギャップを拡大する。
ASRCは、学習した特徴表現にRCCを適用し、その一貫したグラフ構造とエッジ重みで最終的なクラスタリング結果を得る。
7つのベンチマークデータセットで実施された大規模な実験は、ASRCの有効性を示し、他の一般的なクラスタリングモデルよりも優れた性能を示している。
特に、ASRCはクラスタ数の事前知識に依存するメソッドよりも優れており、非構造化データのクラスタリングの課題に対処する上での有効性を強調している。
We introduce a novel self-supervised deep clustering approach tailored for unstructured data without requiring prior knowledge of the number of clusters, termed Adaptive Self-supervised Robust Clustering (ASRC). In particular, ASRC adaptively learns the graph structure and edge weights to capture both local and global structural information. The obtained graph enables us to learn clustering-friendly feature representations by an enhanced graph auto-encoder with contrastive learning technique. It further leverages the clustering results adaptively obtained by robust continuous clustering (RCC) to generate prototypes for negative sampling, which can further contribute to promoting consistency among positive pairs and enlarging the gap between positive and negative samples. ASRC obtains the final clustering results by applying RCC to the learned feature representations with their consistent graph structure and edge weights. Extensive experiments conducted on seven benchmark datasets demonstrate the efficacy of ASRC, demonstrating its superior performance over other popular clustering models. Notably, ASRC even outperforms methods that rely on prior knowledge of the number of clusters, highlighting its effectiveness in addressing the challenges of clustering unstructured data. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# EXIT: クロスドメインレコメンデーションのためのExplicit Interest Transfer Framework
EXIT: An EXplicit Interest Transfer Framework for Cross-Domain Recommendation ( http://arxiv.org/abs/2407.20121v1 ) ライセンス: Link先を確認 | Lei Huang, Weitao Li, Chenrui Zhang, Jinpeng Wang, Xianchun Yi, Sheng Chen, | (参考訳) クロスドメインレコメンデーションは、知識伝達を通じて複数のビジネスドメインを提供するMeituanのような産業アプリケーションに多大な関心を集めており、ユーザの多様な関心に応えている。
しかし、既存の手法は通常、ソースドメインとターゲットドメインの両方からの知識をブレンドする暗黙のモデリングパラダイムに従い、複雑なネットワーク構造を設計して、学習した埋め込みやドメイン間のパターンを共有することで、推奨精度を向上させる。
関心信号の転送は監視されないため、これらの暗黙のパラダイムはサービス機能と異なるドメイン間の表示形式の違いに起因する負の転送にしばしば苦労する。
本稿では,この課題に対処するため, EXIT という,シンプルで効果的なExplicit Interest Transfer フレームワークを提案する。
具体的には、教師付き学習を通じて、不適切な興味信号を排除しながら、モデルが有益なソース領域の関心を直接学習することを可能にする新しいラベルの組み合わせアプローチを提案する。
さらに、細かなシーン下での利子伝達強度をモデル化するシーンセレクタネットワークを導入する。
産業生産データセットとオンラインA/Bテストのオフライン実験により,提案フレームワークの優位性と有効性について検証した。
複雑なネットワーク構造やトレーニングプロセスがなければ、EXITは産業レコメンデーションシステムに容易にデプロイできる。
EXITはMeituan Appのオンラインホームページレコメンデーションシステムで成功し、主要なトラフィックを提供している。
Cross-domain recommendation has attracted substantial interest in industrial apps such as Meituan, which serves multiple business domains via knowledge transfer and meets the diverse interests of users. However, existing methods typically follow an implicit modeling paradigm that blends the knowledge from both the source and target domains, and design intricate network structures to share learned embeddings or patterns between domains to improve recommendation accuracy. Since the transfer of interest signals is unsupervised, these implicit paradigms often struggle with the negative transfer resulting from differences in service functions and presentation forms across different domains. In this paper, we propose a simple and effective EXplicit Interest Transfer framework named EXIT to address the stated challenge. Specifically, we propose a novel label combination approach that enables the model to directly learn beneficial source domain interests through supervised learning, while excluding inappropriate interest signals. Moreover, we introduce a scene selector network to model the interest transfer intensity under fine-grained scenes. Offline experiments conducted on the industrial production dataset and online A/B tests validate the superiority and effectiveness of our proposed framework. Without complex network structures or training processes, EXIT can be easily deployed in the industrial recommendation system. EXIT has been successfully deployed in the online homepage recommendation system of Meituan App, serving the main traffic. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# 形式的検証結果を用いたPAC境界評価の強化
Tightening the Evaluation of PAC Bounds Using Formal Verification Results ( http://arxiv.org/abs/2407.20122v1 ) ライセンス: Link先を確認 | Thomas Walker, Alessio Lomuscio, | (参考訳) おそらくPAC境界は、機械学習モデルの一般化に対する確率論的保証を導出するために広く用いられている。
それらは、その一般化能力に寄与するモデルのコンポーネントを強調します。
しかし、現在の最先端の結果は、デプロイされた機械学習モデルの一般化能力の近似においてゆるやかである。
したがって、PACバウンダリは理論的に有用であるが、与えられた操作設計領域におけるモデルの一般化特性を評価するための適用性は制限される。
基礎となる古典理論は、モデルを評価するためにユーザが利用できるテストポイントの数が増えると、境界を締め付けることができるという考えに支えられている。
しかし、ニューラルネットワークの場合、関心の境界を得るために必要なテストポイントの数は、小さな問題であっても実用的ではないことが多い。
本稿では,ニューラルネットワークの形式的検証を用いてPAC境界の評価を行う手法を提案する。
繰り返しテストから得られるポイントワイズ情報を使う代わりに、テストポイント周辺の領域で検証結果を使用する。
検証結果に既存の境界を条件付けすることで、検証された領域の基盤となる確率質量に比例した厳密化が得られることを示す。
Probably Approximately Correct (PAC) bounds are widely used to derive probabilistic guarantees for the generalisation of machine learning models. They highlight the components of the model which contribute to its generalisation capacity. However, current state-of-the-art results are loose in approximating the generalisation capacity of deployed machine learning models. Consequently, while PAC bounds are theoretically useful, their applicability for evaluating a model's generalisation property in a given operational design domain is limited. The underlying classical theory is supported by the idea that bounds can be tightened when the number of test points available to the user to evaluate the model increases. Yet, in the case of neural networks, the number of test points required to obtain bounds of interest is often impractical even for small problems. In this paper, we take the novel approach of using the formal verification of neural systems to inform the evaluation of PAC bounds. Rather than using pointwise information obtained from repeated tests, we use verification results on regions around test points. We show that conditioning existing bounds on verification results leads to a tightening proportional to the underlying probability mass of the verified region. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# AxiomVision:パースペクティブ・アウェア・ビデオ・アナリティクスのための精度保証型適応型視覚モデル選択
AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics ( http://arxiv.org/abs/2407.20124v1 ) ライセンス: Link先を確認 | Xiangxiang Dai, Zeyu Zhang, Peng Yang, Yuedong Xu, Xutong Liu, John C. S. Lui, | (参考訳) マルチメディアとコンピュータビジョン技術の急速な進化は、多様なタスクや様々な環境を効果的に扱うために適応的な視覚モデル展開戦略を必要とする。
AxiomVisionは、エッジコンピューティングを活用して、多様なシナリオ下でビデオ分析のための最も効率的なビジュアルモデルを動的に選択することで、精度を保証する新しいフレームワークである。
階層化されたエッジクラウドアーキテクチャを利用することで、AxiomVisionは、軽量なDNNから複雑なDNNまで、幅広いビジュアルモデルのデプロイを可能にする。
さらに、AxiomVisionは、(1)連続的なオンライン学習を利用した動的視覚モデル選択機構、(2)カメラの視点の影響を効果的に考慮した効率的なオンライン手法、(3)モデル選択プロセスを加速するトポロジ駆動型グループ化アプローチの3つの中心的イノベーションを提供する。
厳密な理論的保証により、これらの進歩は、オブジェクト検出、分類、カウントといったマルチメディアシステム固有の視覚的タスクに対して、スケーラブルで効果的なソリューションを提供する。
経験的に、AxiomVisionは精度が25.7%向上した。
The rapid evolution of multimedia and computer vision technologies requires adaptive visual model deployment strategies to effectively handle diverse tasks and varying environments. This work introduces AxiomVision, a novel framework that can guarantee accuracy by leveraging edge computing to dynamically select the most efficient visual models for video analytics under diverse scenarios. Utilizing a tiered edge-cloud architecture, AxiomVision enables the deployment of a broad spectrum of visual models, from lightweight to complex DNNs, that can be tailored to specific scenarios while considering camera source impacts. In addition, AxiomVision provides three core innovations: (1) a dynamic visual model selection mechanism utilizing continual online learning, (2) an efficient online method that efficiently takes into account the influence of the camera's perspective, and (3) a topology-driven grouping approach that accelerates the model selection process. With rigorous theoretical guarantees, these advancements provide a scalable and effective solution for visual tasks inherent to multimedia systems, such as object detection, classification, and counting. Empirically, AxiomVision achieves a 25.7\% improvement in accuracy. | 翻訳日:2024-07-30 13:15:14 公開日:2024-07-29 |
# 物理にインスパイアされたニューラルネットワークの極端時間外挿能力と熱力学的整合性
Extreme time extrapolation capabilities and thermodynamic consistency of physics-inspired Neural Networks for the 3D microstructure evolution of materials ( http://arxiv.org/abs/2407.20126v1 ) ライセンス: Link先を確認 | Daniele Lanzoni, Andrea Fantasia, Roberto Bergamaschini, Olivier Pierre-Louis, Francesco Montalenti, | (参考訳) 畳み込みリカレントニューラルネットワーク(CRNN)は、コーン・ヒリアード方程式によって記述された3次元のスピノーダル分解過程の進化を再現するために訓練される。
特殊で物理に触発されたアーキテクチャは、予測された進化と従来の統合スキームを通して得られる基底真理とを密に一致させることが証明されている。
この方法では、計算コストのごく一部でトレーニングセットに表現されていない微細構造の進化を忠実に再現することができる。
比較的短い初期段階のみを含むトレーニングセットにもかかわらず、システムの理論的に期待される平衡状態に達するまで、極端に長時間の外挿能力が達成される。
自由エネルギーの崩壊速度に応じた定量化は、データ駆動型、物理的に整合性があり、高精度な機械学習手法の長い時間スケールの材料シミュレーションの例として、遅い粗大化段階まで示される。
A Convolutional Recurrent Neural Network (CRNN) is trained to reproduce the evolution of the spinodal decomposition process in three dimensions as described by the Cahn-Hilliard equation. A specialized, physics-inspired architecture is proven to provide close accordance between the predicted evolutions and the ground truth ones obtained via conventional integration schemes. The method can closely reproduce the evolution of microstructures not represented in the training set at a fraction of the computational costs. Extremely long-time extrapolation capabilities are achieved, up to reaching the theoretically expected equilibrium state of the system, despite the training set containing only relatively-short, initial phases of the evolution. Quantitative accordance with the decay rate of the Free energy is also demonstrated up to late coarsening stages, providing an example of a data-driven, physically consistent and high-accuracy Machine Learning method for the long timescale simulation of materials. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# ゼロサムマトリックスゲームにおけるベストレスポンス学習ダイナミクスのための有限サンプル保証
Finite-Sample Guarantees for Best-Response Learning Dynamics in Zero-Sum Matrix Games ( http://arxiv.org/abs/2407.20128v1 ) ライセンス: Link先を確認 | Fathima Zarin Faizal, Asuman Ozdaglar, Martin J. Wainwright, | (参考訳) 2人のプレイヤーゼロサム行列ゲームに対する最適応答型学習ダイナミクスについて検討する。
我々は,各プレイヤーがゲームとその相手の戦略について持っている情報の種類によって区別される2つの設定について検討する。
最初の設定は、各プレイヤーが自分自身と相手のペイオフ行列を知り、相手の混合戦略を観察する完全な情報ケースである。
2つ目の設定は最小限の情報ケースであり、プレイヤーは相手の戦略を観察せず、どちらかのペイオフ行列を意識していない(代わりに、プレイヤーは実際のペイオフのみを観察する)。
ゲーム文学における学習における急激なアンカップリング(英語版)としても知られるこの設定のために、戦略推定のためのスムーズな最適応答型更新と、局所的な支払関数を推定するTD学習更新を組み合わせた2段階の学習力学を考察する。
これらのダイナミクスに対しては、追加の探索なしに、$\epsilon$-Nash平衡への収束に対する多項式時間有限サンプル保証を提供する。
We study best-response type learning dynamics for two player zero-sum matrix games. We consider two settings that are distinguished by the type of information that each player has about the game and their opponent's strategy. The first setting is the full information case, in which each player knows their own and the opponent's payoff matrices and observes the opponent's mixed strategy. The second setting is the minimal information case, where players do not observe the opponent's strategy and are not aware of either of the payoff matrices (instead they only observe their realized payoffs). For this setting, also known as the radically uncoupled case in the learning in games literature, we study a two-timescale learning dynamics that combine smoothed best-response type updates for strategy estimates with a TD-learning update to estimate a local payoff function. For these dynamics, without additional exploration, we provide polynomial-time finite-sample guarantees for convergence to an $\epsilon$-Nash equilibrium. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# 受け入れないのか?-高等教育における教育者の生成AIに対する抵抗を理解するIRT-TOEフレームワーク
To accept or not to accept? An IRT-TOE Framework to Understand Educators' Resistance to Generative AI in Higher Education ( http://arxiv.org/abs/2407.20130v1 ) ライセンス: Link先を確認 | Jan-Erik Kalmus, Anastasija Nikiforova, | (参考訳) Chat Generative Pre-Trained Transformer (ChatGPT) の公開以来、生成人工知能(GenAI)を教育に組み込むことの潜在的な利点と課題について広範な議論が生まれてきた。
情報システムの分野では、特定の技術の取り込みに影響を与える様々な要因を理解するために、技術導入の研究が不可欠である。
理論的なフレームワークは、数十年にわたって洗練され、検証され、技術導入を取り巻く個人的および組織的ダイナミクス、障害、知覚を解明するためのガイドツールとして機能する。
しかし、いくつかのモデルが提案されている一方で、学生の視点に焦点をあて、教育者の視点に関する経験的証拠のギャップを残し、それを妨げている人々よりも受け入れを促進する要因の解明を優先することが多い。
本研究は,高等教育において教育者が果たす重要な役割を考慮し,教室におけるGenAI導入防止の障壁を実証的に予測する理論モデルを開発することを目的とする。
このような障壁を特定するのに適した理論モデルがないことを認めた当社のアプローチは、IRT(Innovation resistance Theory)フレームワークに根ざしており、TOE(Technology-Organization-Environment)フレームワークの構成要素を拡張しています。
このモデルは,高等教育領域におけるGenAI導入に関する懸念を解明し,分析を充実させる定性的なアプローチによって補完される,定量的アプローチを用いた測定器に変換される。
Since the public release of Chat Generative Pre-Trained Transformer (ChatGPT), extensive discourse has emerged concerning the potential advantages and challenges of integrating Generative Artificial Intelligence (GenAI) into education. In the realm of information systems, research on technology adoption is crucial for understanding the diverse factors influencing the uptake of specific technologies. Theoretical frameworks, refined and validated over decades, serve as guiding tools to elucidate the individual and organizational dynamics, obstacles, and perceptions surrounding technology adoption. However, while several models have been proposed, they often prioritize elucidating the factors that facilitate acceptance over those that impede it, typically focusing on the student perspective and leaving a gap in empirical evidence regarding educators viewpoints. Given the pivotal role educators play in higher education, this study aims to develop a theoretical model to empirically predict the barriers preventing educators from adopting GenAI in their classrooms. Acknowledging the lack of theoretical models tailored to identifying such barriers, our approach is grounded in the Innovation Resistance Theory (IRT) framework and augmented with constructs from the Technology-Organization-Environment (TOE) framework. This model is transformed into a measurement instrument employing a quantitative approach, complemented by a qualitative approach to enrich the analysis and uncover concerns related to GenAI adoption in the higher education domain. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# オール・ツー・オール再構成可能なルータを用いたモジュラ量子プロセッサ
Modular quantum processor with an all-to-all reconfigurable router ( http://arxiv.org/abs/2407.20134v1 ) ライセンス: Link先を確認 | Xuntao Wu, Haoxiong Yan, Gustav Andersson, Alexander Anferov, Ming-Han Chou, Christopher R. Conner, Joel Grebel, Yash J. Joshi, Shiheng Li, Jacob M. Miller, Rhys G. Povey, Hong Qiao, Andrew N. Cleland, | (参考訳) 超伝導量子ビットは、大規模フォールトトレラント量子コンピューティングに対する有望なアプローチを提供する。
しかし、平面上のqubit接続は通常、隣接する数個のqubitに制限される。
より長距離で柔軟な接続を実現することは、特に最近のエラー訂正コードの発展に照らして、特に魅力的であるが、通常は複雑な多層パッケージングと外部キャベリングが関係しており、リソース集約であり、フィデリティの制限が課せられる。
そこで我々は,大規模なオンオフ比で再構成可能なオールツーオール結合をサポートする高速オンチップ量子プロセッサを提案し,実現した。
本設計は,2つの単一量子ビットノードを含む2つの異なる量子ビットを持つ基板に結合した配線基板からなるモジュラー設計で構築された4ノード量子プロセッサに実装する。
この装置を用いて、全てのキュービット対における再構成可能な制御Zゲートを、ベンチマーク平均忠実度が9.6.00\%\pm0.08\%$、最良の忠実度が9.7.14\%\pm0.07\%$で示す。
また,GHZ-3 と GHZ-4 がそれぞれ 8.15\%\pm0.24\%$ と 7.18\%\pm0.11\%$ の忠実度を持つことを示す。
このアプローチは、より大規模な量子回路への効率的なスケーリングを約束し、量子アルゴリズムと量子ビット接続の強化によるエラー訂正スキームを実装するための経路を提供する。
Superconducting qubits provide a promising approach to large-scale fault-tolerant quantum computing. However, qubit connectivity on a planar surface is typically restricted to only a few neighboring qubits. Achieving longer-range and more flexible connectivity, which is particularly appealing in light of recent developments in error-correcting codes, however usually involves complex multi-layer packaging and external cabling, which is resource-intensive and can impose fidelity limitations. Here, we propose and realize a high-speed on-chip quantum processor that supports reconfigurable all-to-all coupling with a large on-off ratio. We implement the design in a four-node quantum processor, built with a modular design comprising a wiring substrate coupled to two separate qubit-bearing substrates, each including two single-qubit nodes. We use this device to demonstrate reconfigurable controlled-Z gates across all qubit pairs, with a benchmarked average fidelity of $96.00\%\pm0.08\%$ and best fidelity of $97.14\%\pm0.07\%$, limited mainly by dephasing in the qubits. We also generate multi-qubit entanglement, distributed across the separate modules, demonstrating GHZ-3 and GHZ-4 states with fidelities of $88.15\%\pm0.24\%$ and $75.18\%\pm0.11\%$, respectively. This approach promises efficient scaling to larger-scale quantum circuits, and offers a pathway for implementing quantum algorithms and error correction schemes that benefit from enhanced qubit connectivity. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# DDAP: テキストと画像の拡散モデルに対する二重ドメインのアンチ・パーソナライゼーション
DDAP: Dual-Domain Anti-Personalization against Text-to-Image Diffusion Models ( http://arxiv.org/abs/2407.20141v1 ) ライセンス: Link先を確認 | Jing Yang, Runping Xi, Yingxin Lai, Xun Lin, Zitong Yu, | (参考訳) 拡散に基づくパーソナライズされたビジュアルコンテンツ生成技術は、いくつかの参照写真から学習することで、特定のオブジェクトを作成できる重要なブレークスルーを達成した。
しかし、偽のニュースや個人をターゲットとするコンテンツを作るのに誤用された場合、これらの技術は社会的な危害をもたらす可能性がある。
この問題に対処するため、現在の手法では、トレーニング損失を対角的に最大化し、これらのサンプルでトレーニングされたパーソナライズされた生成モデルの出力を中断することで、対角サンプルを生成する。
しかし、既存の手法は拡散モデルの本質的な性質を見落としているため、効果的な防御とステルス性を維持することができない。
本稿では,新しいDual-Domain Anti-Personalization framework(DDAP)を紹介する。
具体的には、画像エンコーダの固定的かつ摂動に敏感な性質をパーソナライズして、空間摂動学習(SPL)を開発した。
その後、周波数領域における拡散モデルの特徴を利用した周波数摂動学習法(FPL)を考案した。
SPLは生成した画像全体のテクスチャを破壊し、FPLは画像の詳細に焦点を当てる。
これら2つの手法を交互に組み合わせることで、DDAPフレームワークを構築し、両方のドメインの強みを効果的に活用する。
対向サンプルの視覚的品質をさらに高めるため,攻撃の有効性を確保しつつ,背景の不要な乱れを回避しつつ,注意領域を正確に捕捉するローカライズモジュールを設計した。
顔のベンチマークに関する大規模な実験により、DDAPは個人化された生成モデルの破壊を促進するとともに、敵のサンプルの高品質を維持し、実用アプリケーションにおけるプライバシ保護をより効果的にすることを示した。
Diffusion-based personalized visual content generation technologies have achieved significant breakthroughs, allowing for the creation of specific objects by just learning from a few reference photos. However, when misused to fabricate fake news or unsettling content targeting individuals, these technologies could cause considerable societal harm. To address this problem, current methods generate adversarial samples by adversarially maximizing the training loss, thereby disrupting the output of any personalized generation model trained with these samples. However, the existing methods fail to achieve effective defense and maintain stealthiness, as they overlook the intrinsic properties of diffusion models. In this paper, we introduce a novel Dual-Domain Anti-Personalization framework (DDAP). Specifically, we have developed Spatial Perturbation Learning (SPL) by exploiting the fixed and perturbation-sensitive nature of the image encoder in personalized generation. Subsequently, we have designed a Frequency Perturbation Learning (FPL) method that utilizes the characteristics of diffusion models in the frequency domain. The SPL disrupts the overall texture of the generated images, while the FPL focuses on image details. By alternating between these two methods, we construct the DDAP framework, effectively harnessing the strengths of both domains. To further enhance the visual quality of the adversarial samples, we design a localization module to accurately capture attentive areas while ensuring the effectiveness of the attack and avoiding unnecessary disturbances in the background. Extensive experiments on facial benchmarks have shown that the proposed DDAP enhances the disruption of personalized generation models while also maintaining high quality in adversarial samples, making it more effective in protecting privacy in practical applications. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# Greenberger-Horne-Zeilinger状態は独立局所場のマルチパラメータ推定に最適である
Greenberger-Horne-Zeilinger state is the best probe for multiparameter estimation of independent local fields ( http://arxiv.org/abs/2407.20142v1 ) ライセンス: Link先を確認 | Aparajita Bhattacharyya, Ujjwal Sen, | (参考訳) 局所ハミルトニアンの複数の独立場強度、すなわち一党の項の和によって形成されたものについては、高度に対称な真の多党交絡状態、すなわちグリーンベルガー=ホルン=ゼリンガー状態(GHZ)を入力プローブとして有効性を必要とする。
しかし、この特徴は、重み行列の選択に依存し、多パラメータ推定におけるメリットの図式を定義する。
この結果は、任意の重み行列に対して、入力プローブに最適化されたマルチパラメータ推定の精度を低くすることで得られる。
境界は任意の多元局所符号化ハミルトニアンの固有値で表現できる。
プローブがGHZ状態である場合にのみ、相対位相までこの境界が達成できる重み行列が存在することを示す。
特に、純粋な積状態がこの下界を達成できない。
実際、真のマルチパーティの絡み合った状態と製品状態の間のギャップは、パーティーの数が増えるにつれて増大します。
最後に、混合状態にあるプローブを使用することで、GHZ状態よりも精度が低いことを示す。
重み行列の重み行列の重要性を強調するために、同一の等式演算子の選択(したがって精度行列の共分散を無視する)が入力プローブにおける真の多元的絡み合いを必要とせず、最適プローブは純粋な積であることを示す。
We show that estimation of multiple independent field strengths of a local Hamiltonian, i.e., one formed by a sum of single-party terms, necessitates the utility of a highly symmetric genuine multiparty entangled state, viz. the Greenberger-Horne-Zeilinger (GHZ) state, as the input probe. This feature however depends on the choice of the weight matrix considered, to define a figure of merit in the multiparameter estimation. We obtain this result by providing a lower bound on the precision of multiparameter estimation, optimized over input probes, for an arbitrary weight matrix. We find that the bound can be expressed in terms of eigenvalues of the arbitrary multiparty local encoding Hamiltonian. We show that there exists a weight matrix for which this bound is attainable only when the probe is the GHZ state, up to a relative phase. In particular, no pure product state can achieve this lower bound. Indeed, the gap - in precision - between genuinely multiparty entangled and product states acting as probes, increases with increasing number of parties. Finally we also prove that using a probe that is in a mixed state provides a precision lower than that for the GHZ state. To emphasize the importance of the weight matrix considered, we also prove that the choice of identity operator as the same - thereby ignoring the covariances in the precision matrix - does not require the use of genuine multiparty entanglement in input probes for attaining the best precision, and the optimal probe can be a pure product. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# ByteCheckpoint: LLM開発のための統一チェックポイントシステム
ByteCheckpoint: A Unified Checkpointing System for LLM Development ( http://arxiv.org/abs/2407.20143v1 ) ライセンス: Link先を確認 | Borui Wan, Mingji Han, Yiyao Sheng, Zhichao Lai, Mofan Zhang, Junda Zhang, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu, | (参考訳) LLM(Large Language Models)の開発は、潜在的なソフトウェアやハードウェア障害を軽減し、トレーニングパイプライン内およびさまざまなタスク間でのチェックポイント転送を容易にするために、永続的なストレージにおけるトレーニング状態のチェックポイントを必要とする。
LLMの巨大なサイズのため、チェックポイントの保存とロードは、しばしば耐え難いミニレベルストールを発生させ、トレーニング効率を著しく低下させる。
さらに、タスク間でチェックポイントを転送する際には、特定のタスクの特性やリソースのクォータに応じて、チェックポイントのロードとして定義されたチェックポイントリシャーディングが要求される。
従来のチェックポイントシステム [16,3,33,6] は、一貫した並列構成を前提としており、リシャーディング時のチェックポイント変換の複雑さに対処できない。
さらに、業界プラットフォームでは、開発者は異なるトレーニングフレームワーク[23,36,21,11]からチェックポイントを作成します。
この多様性は、統一されたチェックポイント管理と最適化の実装を複雑にする。
これらの課題に対処するために、PyTorchネイティブなマルチフレームLCMチェックポイントシステムであるByteCheckpointを導入し、オンラインチェックポイントの自動再シャーディングをサポートする。
ByteCheckpointはデータ/メタデータの分離されたストレージアーキテクチャを採用し、チェックポイントストレージを採用中の並列処理戦略とトレーニングフレームワークから分離する。
我々は,不規則なテンソルシャーディング問題を解くために,効率的な非同期テンソルマージ手法を設計し,チェックポイントの節約とロードの効率を大幅に向上させるために,いくつかのI/O性能最適化を提案する。
ByteCheckpointは、チェックポイントの節約(最大529.22X)とロードコスト(最大3.51X)を、ベースライン法と比較して大幅に削減する。
The development of real-world Large Language Models (LLMs) necessitates checkpointing of training states in persistent storage to mitigate potential software and hardware failures, as well as to facilitate checkpoint transferring within the training pipeline and across various tasks. Due to the immense size of LLMs, saving and loading checkpoints often incur intolerable minute-level stalls, significantly diminishing training efficiency. Besides, when transferring checkpoints across tasks, checkpoint resharding, defined as loading checkpoints into parallel configurations differing from those used for saving, is often required according to the characteristics and resource quota of specific tasks. Previous checkpointing systems [16,3,33,6] assume consistent parallel configurations, failing to address the complexities of checkpoint transformation during resharding. Furthermore, in the industry platform, developers create checkpoints from different training frameworks[23,36,21,11], each with its own unique storage and I/O logic. This diversity complicates the implementation of unified checkpoint management and optimization. To address these challenges, we introduce ByteCheckpoint, a PyTorch-native multi-framework LLM checkpointing system that supports automatic online checkpoint resharding. ByteCheckpoint employs a data/metadata disaggregated storage architecture, decoupling checkpoint storage from the adopted parallelism strategies and training frameworks. We design an efficient asynchronous tensor merging technique to settle the irregular tensor sharding problem and propose several I/O performance optimizations to significantly enhance the efficiency of checkpoint saving and loading. Experimental results demonstrate ByteCheckpoint's substantial advantages in reducing checkpoint saving (by up to 529.22X) and loading (by up to 3.51X) costs, compared to baseline methods. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# 深層強化学習による量子機械学習アーキテクチャ探索
Quantum Machine Learning Architecture Search via Deep Reinforcement Learning ( http://arxiv.org/abs/2407.20147v1 ) ライセンス: Link先を確認 | Xin Dai, Tzu-Chieh Wei, Shinjae Yoo, Samuel Yen-Chi Chen, | (参考訳) 量子コンピューティング(QC)と機械学習(ML)の急速な進歩により、量子機械学習(QML)の急成長する分野が生まれ、量子コンピューティングの強みを活かしてMLを前進させた。
その約束にもかかわらず、効果的なQMLモデルを作成するには、モデル複雑度とNISQ(Noisy Intermediate-Scale Quantum)デバイスへの実現可能性の間の微妙なバランスを取る必要がある。
複雑なモデルは堅牢な表現能力を提供するが、その広範な回路深度は、現存する雑音量子プラットフォーム上でのシームレスな実行を妨げる可能性がある。
本稿では, 教師付き学習タスクに適した有能なQMLモデルアーキテクチャを探索するために, 深層強化学習を用いたQMLモデル設計の第4四半期について述べる。
具体的には、RLエージェントを訓練して、所定のアンザッツを使わずにQMLモデルの発見を容易にするポリシーを策定する。
さらに,学習目標を動的に調整する適応的なメカニズムを統合し,エージェントの学習プロセスの継続的な改善を促進する。
広範囲な数値シミュレーションを通して、分類タスクの領域における我々のアプローチの有効性について説明する。
提案手法は,ゲート深さを最小化しながら高い分類精度を達成できるVQCアーキテクチャの同定に成功している。
この先駆的なアプローチは、AI駆動の量子回路設計の研究を前進させるだけでなく、NISQ時代のパフォーマンス向上にも大きな可能性を秘めている。
The rapid advancement of quantum computing (QC) and machine learning (ML) has given rise to the burgeoning field of quantum machine learning (QML), aiming to capitalize on the strengths of quantum computing to propel ML forward. Despite its promise, crafting effective QML models necessitates profound expertise to strike a delicate balance between model intricacy and feasibility on Noisy Intermediate-Scale Quantum (NISQ) devices. While complex models offer robust representation capabilities, their extensive circuit depth may impede seamless execution on extant noisy quantum platforms. In this paper, we address this quandary of QML model design by employing deep reinforcement learning to explore proficient QML model architectures tailored for designated supervised learning tasks. Specifically, our methodology involves training an RL agent to devise policies that facilitate the discovery of QML models without predetermined ansatz. Furthermore, we integrate an adaptive mechanism to dynamically adjust the learning objectives, fostering continuous improvement in the agent's learning process. Through extensive numerical simulations, we illustrate the efficacy of our approach within the realm of classification tasks. Our proposed method successfully identifies VQC architectures capable of achieving high classification accuracy while minimizing gate depth. This pioneering approach not only advances the study of AI-driven quantum circuit design but also holds significant promise for enhancing performance in the NISQ era. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# マルチスケールシステムのシステムダイナミクスを分解する階層的不整合リカレントネットワーク
Hierarchically Disentangled Recurrent Network for Factorizing System Dynamics of Multi-scale Systems ( http://arxiv.org/abs/2407.20152v1 ) ライセンス: Link先を確認 | Rahul Ghosh, Zac McEachran, Arvind Renganathan, Kelly Lindsay, Somya Sharma, Michael Steinbach, John Nieber, Christopher Duffy, Vipin Kumar, | (参考訳) マルチスケールプロセスのモデリングのための知識誘導型機械学習(KGML)フレームワークを提案し,その性能を水文学におけるストリームフロー予測の文脈で検討する。
具体的には,複数の時間スケールでシステムダイナミクスを分解し,その相互作用を捉える階層的リカレントニューラルネットワークを提案する。
このフレームワークは逆モデルとフォワードモデルで構成されている。
逆モデルは、データ(物理モデルシミュレーション、観測データ、過去の組み合わせ)からシステムの時間モードを経験的に解決するために使用され、これらの状態は前部モデルでストリームフローを予測するために使用される。
水文系では、これらのモードは異なる時間スケールで進化し、異なる過程を表わすことができる(例えば、遅い:地下水の再生とベースフロー対速い:極度の降雨による表面流出)。
我々のフレームワークの重要な利点は、トレーニングが終わったら、データ同化の物理科学で伝統的に使われている高価な最適化アプローチ(例えばEnKF)を使わずに、モデルのコンテキスト(内部状態)に新しい観測を組み込むことができることです。
NWS NCRFC地域から河川を捕獲した実験では、このMLベースのデータ同化フレームワークが標準ベースライン、特に長い観測履歴を持つ盆地に対して有効であることが示されている。
観測履歴が短い盆地においても、FHNNフレームワークをトレーニングするための2つの直交戦略を提示する。
(a)不完全シミュレーションのシミュレーションデータと
(b)複数の盆地からの観測データを用いてグローバルモデルを構築する。
これら2つの戦略(個別または共同で使用できる)が、トレーニングデータの欠如を緩和するのに非常に有効であることを示す。
予測精度の向上は、ローカルモデルの性能が低かった盆地において特に注目に値する。
We present a knowledge-guided machine learning (KGML) framework for modeling multi-scale processes, and study its performance in the context of streamflow forecasting in hydrology. Specifically, we propose a novel hierarchical recurrent neural architecture that factorizes the system dynamics at multiple temporal scales and captures their interactions. This framework consists of an inverse and a forward model. The inverse model is used to empirically resolve the system's temporal modes from data (physical model simulations, observed data, or a combination of them from the past), and these states are then used in the forward model to predict streamflow. In a hydrological system, these modes can represent different processes, evolving at different temporal scales (e.g., slow: groundwater recharge and baseflow vs. fast: surface runoff due to extreme rainfall). A key advantage of our framework is that once trained, it can incorporate new observations into the model's context (internal state) without expensive optimization approaches (e.g., EnKF) that are traditionally used in physical sciences for data assimilation. Experiments with several river catchments from the NWS NCRFC region show the efficacy of this ML-based data assimilation framework compared to standard baselines, especially for basins that have a long history of observations. Even for basins that have a shorter observation history, we present two orthogonal strategies of training our FHNN framework: (a) using simulation data from imperfect simulations and (b) using observation data from multiple basins to build a global model. We show that both of these strategies (that can be used individually or together) are highly effective in mitigating the lack of training data. The improvement in forecast accuracy is particularly noteworthy for basins where local models perform poorly because of data sparsity. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# rLLM: LLMによる関係表学習
rLLM: Relational Table Learning with LLMs ( http://arxiv.org/abs/2407.20157v1 ) ライセンス: Link先を確認 | Weichen Li, Xiaotong Huang, Jianwu Zheng, Zheng Wang, Chaokun Wang, Li Pan, Jianhua Li, | (参考訳) 本稿では,Large Language Models (LLM) を用いた関係表学習 (RTL) 用に設計された PyTorch ライブラリ rLLM (relationLLM) を紹介する。
中心となる考え方は、最先端のグラフニューラルネットワーク、LLM、テーブルニューラルネットワークを標準化されたモジュールに分解し、シンプルな"組合せ、整列、コトレイン"の方法で新しいRTL型モデルの高速な構築を可能にすることである。
rLLM の使用法を説明するために,textbf{BRIDGE} というシンプルな RTL 法を導入する。
さらに,古典的データセットの強化による3つの新しい関係表データセット(TML1M, TLF2K, TACM12K)を提案する。
rLLM が RTL 関連のタスクに有用で使いやすい開発フレームワークとして機能することを願っている。
私たちのコードは、https://github.com/rllm-project/rllm.comで利用可能です。
We introduce rLLM (relationLLM), a PyTorch library designed for Relational Table Learning (RTL) with Large Language Models (LLMs). The core idea is to decompose state-of-the-art Graph Neural Networks, LLMs, and Table Neural Networks into standardized modules, to enable the fast construction of novel RTL-type models in a simple "combine, align, and co-train" manner. To illustrate the usage of rLLM, we introduce a simple RTL method named \textbf{BRIDGE}. Additionally, we present three novel relational tabular datasets (TML1M, TLF2K, and TACM12K) by enhancing classic datasets. We hope rLLM can serve as a useful and easy-to-use development framework for RTL-related tasks. Our code is available at: https://github.com/rllm-project/rllm. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# カオスシステムの予測のための機械学習
Machine Learning for predicting chaotic systems ( http://arxiv.org/abs/2407.20158v1 ) ライセンス: Link先を確認 | Christof Schötz, Alistair White, Maximilian Gelbrecht, Niklas Boers, | (参考訳) カオス力学系の予測は、天気予報のような多くの科学分野において重要であるが、初期条件への敏感な依存を特徴付けるため困難である。
従来のモデリングアプローチは広範なドメイン知識を必要としており、しばしば機械学習を使ったデータ駆動手法への移行につながる。
しかし、既存の研究では、カオスシステムの予測に最も適した機械学習手法について、決定的な結果が得られていない。
本稿では,既存の大規模データベースを用いた軽量・軽量の機械学習アーキテクチャと,ベンチマーク結果の不確実性定量化を可能にする新しい機械学習アーキテクチャを比較した。
我々は計算コストに基づいてハイパーパラメータチューニングを行い、カオスシステムに適した従来のメトリクスのいくつかの望ましい特性を組み合わせた新しい誤差基準である累積最大誤差を導入する。
以上の結果から,高度に調整された単純な手法や,未調整のベースライン手法は,最先端のディープラーニングモデルよりも優れていることが示唆された。
これらの結果は、データ特性と利用可能な計算資源に対するマッチング予測手法の重要性を浮き彫りにしている。
Predicting chaotic dynamical systems is critical in many scientific fields such as weather prediction, but challenging due to the characterizing sensitive dependence on initial conditions. Traditional modeling approaches require extensive domain knowledge, often leading to a shift towards data-driven methods using machine learning. However, existing research provides inconclusive results on which machine learning methods are best suited for predicting chaotic systems. In this paper, we compare different lightweight and heavyweight machine learning architectures using extensive existing databases, as well as a newly introduced one that allows for uncertainty quantification in the benchmark results. We perform hyperparameter tuning based on computational cost and introduce a novel error metric, the cumulative maximum error, which combines several desirable properties of traditional metrics, tailored for chaotic systems. Our results show that well-tuned simple methods, as well as untuned baseline methods, often outperform state-of-the-art deep learning models, but their performance can vary significantly with different experimental setups. These findings underscore the importance of matching prediction methods to data characteristics and available computational resources. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# ハイブリッド金属-誘電体平面フォトニック構造におけるパーセル効果によって決定されるhBNにおける量子エミッタの量子効率と垂直位置
Quantum efficiency and vertical position of quantum emitters in hBN determined by Purcell effect in hybrid metal-dielectric planar photonic structures ( http://arxiv.org/abs/2407.20160v1 ) ライセンス: Link先を確認 | Domitille Gérard, Aurélie Pierret, Helmi Fartas, Bruno Bérini, Stéphanie Buil, Jean-Pierre Hermier, Aymeric Delteil, | (参考訳) 六方晶窒化ホウ素(hBN)の発色中心は、優れた光物性と高度にコンパクトなデバイスへの集積の可能性とを有利に組み合わせている。
スケーラブルな統合への進歩は、高い量子効率と効率的な光子収集を必要とする。
この文脈では、2つの異なる電磁環境において、電子照射によって生成される個々のhBN色中心の光学的特性を比較する。
剥離した結晶の乾燥移動前後で特徴付ける、よく同定された発光体の追跡を継続する。
この比較は、それらの量子効率(単位に近い)に関する情報と、結晶内の垂直位置をナノメートル精度で示し、フレーク面から逸脱している。
本研究は, 2次元材料や平面フォトニック構造において, 量子エミッタのキャラクタリゼーションだけでなく, 量子エミッタのキャラクタリゼーションにも有効なハイブリッド誘電体-金属平板構造を提案する。
Color centers in hexagonal boron nitride (hBN) advantageously combine excellent photophysical properties with a potential for integration in highly compact devices. Progress towards scalable integration necessitates a high quantum efficiency and an efficient photon collection. In this context, we compare the optical characteristics of individual hBN color centers generated by electron irradiation, in two different electromagnetic environments. We keep track of well-identified emitters that we characterize before and after dry transfer of exfoliated crystals. This comparison provides information about their quantum efficiency - which we find close to unity - as well as their vertical position in the crystal with nanometric precision, which we find away from the flake surfaces. Our work suggests hybrid dielectric-metal planar structures as an efficient tool for characterizing quantum emitters in addition to improving the count rate, and can be generalized to other emitters in 2D materials or in planar photonic structures. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# 複数ロボットナビゲーションのための言語記述型オフラインRL
Language-Conditioned Offline RL for Multi-Robot Navigation ( http://arxiv.org/abs/2407.20164v1 ) ライセンス: Link先を確認 | Steven Morad, Ajay Shankar, Jan Blumenkamp, Amanda Prorok, | (参考訳) 本稿では,自然言語命令の解釈と追従を行うマルチロボットチームのためのナビゲーションポリシーの開発手法を提案する。
我々は、これらのポリシーを、事前訓練されたLarge Language Models (LLMs) からの埋め込みに当てはめ、ランダムに収集したデータを20分以内でオフラインで強化学習によって訓練する。
5つの本物のロボットによる実験では、これらのポリシーは目に見えないコマンドによく当てはまり、LCMの潜伏空間の理解が示される。
本手法ではシミュレータや環境モデルは必要とせず、微調整なしで実際のロボットに直接展開可能な低レイテンシ制御ポリシーを生成する。
実験のビデオはhttps://sites.google.com/view/llm-marl.comで公開しています。
We present a method for developing navigation policies for multi-robot teams that interpret and follow natural language instructions. We condition these policies on embeddings from pretrained Large Language Models (LLMs), and train them via offline reinforcement learning with as little as 20 minutes of randomly-collected data. Experiments on a team of five real robots show that these policies generalize well to unseen commands, indicating an understanding of the LLM latent space. Our method requires no simulators or environment models, and produces low-latency control policies that can be deployed directly to real robots without finetuning. We provide videos of our experiments at https://sites.google.com/view/llm-marl. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# 非線形フリップフロップ量子の直線, 正方形, 星列のゲート忠実度に及ぼす並列ゲーティングの影響
Impact of Parallel Gating on Gate Fidelities in Linear, Square, and Star Arrays of Noisy Flip-Flop Qubits ( http://arxiv.org/abs/2407.20166v1 ) ライセンス: Link先を確認 | Marco De Michielis, Elena Ferraro, | (参考訳) 量子アルゴリズムをうまく実装するには、量子フォールトトレランス定理の妥当性を保証することによって、低い論理誤差率を維持する必要がある。
配列に配列された物理量子ビットの要求数は、選択された量子誤り訂正符号と達成可能な物理量子ビット誤り率に依存する。
配列内のキュービット数が増加するにつれて、並列ゲーティング(複数のキュービットを同時に操作する)が計算を成功させる重要な要素となる。
本研究では,フリップフロップ量子ビットと呼ばれるドナー型および量子ドット型量子ビットの小さな配列について検討した。
現実的な1/fノイズに影響を受ける4つのフリップフロップ量子ビットの線形, 正方形, 星列におけるゲート密度のシミュレーション結果を示し, 並列ゲーティングの効果について検討した。
2つ、3つ、4つの平行な1ビットゲートと2つの平行な2ビットゲートが、異なる配列のジオメトリを比較することでフィリティに与える影響を計算する。
本研究は, 小型フリップフロップ量子ビットアレイの最適化と大型回路の設計に寄与する。
Successfully implementing a quantum algorithm involves maintaining a low logical error rate by ensuring the validity of the quantum fault-tolerance theorem. The required number of physical qubits arranged in an array depends on the chosen Quantum Error Correction code and the achievable physical qubit error rate. As the qubit count in the array increases, parallel gating - simultaneously manipulating many qubits - becomes a crucial ingredient for successful computation. In this study, small arrays of a type of donor- and quantum dot-based qubits, known as flip-flop qubits, are investigated. Simulation results of gate fidelities in linear, square and star arrays of four flip-flop qubits affected by realistic 1/f noise are presented to study the effect of parallel gating. The impact of two, three and four parallel one-qubit gates, as well as two parallel two-qubit gates, on fidelity is calculated by comparing different array geometries. Our findings can contribute to the optimized manipulation of small flip-flop qubit arrays and the design of larger ones. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# モジュラー演算のための量子回路の計測に基づく非計算
Measurement-based uncomputation of quantum circuits for modular arithmetic ( http://arxiv.org/abs/2407.20167v1 ) ライセンス: Link先を確認 | Alessandro Luongo, Antonio Michele Miti, Varun Narasimhachar, Adithya Sireesh, | (参考訳) 測定ベースの非計算(MBU)は、量子回路の確率的非計算を行うために用いられる技法である。
単一量子レジスタの場合のこの手法を形式化し、モジュラー演算への応用を示す。
まず、非モジュラー加算を行う数種類の量子回路の形式的ステートメントを示す:制御された加算、定数による加算、定数による制御された加算。
サブトラクションと比較回路でも同様である。
これは、これらの変種が以前は探索されていなかった現在の文献のギャップに対処する。
次に、モジュラー算術に注意を向け、モジュラー加法、モジュラー加法、モジュラー加法、モジュラー加法を定数で、モジュール加法を定数で制御し、異なる種類の平加法と組み合わせを用いる。
上述した全てのモジュラー演算回路に適用し、単一量子レジスタの文脈で「MBU lemma」を導入し、証明する。
MBUを使用すると、[VBE96]のアーキテクチャに基づいて、[Bea02]のアーキテクチャに基づいて、[VBE96]のアーキテクチャに基づいて、Toffoli数と深さを$10\%から$15\%に減らし、[Bea02]のアーキテクチャに基づいて、ほぼ$25\%に減らします。
この結果、モジュラ乗法やモジュラー指数法など、モジュラー演算のための他の回路を改良する可能性があり、量子暗号解析に応用できる。
Measurement-based uncomputation (MBU) is a technique used to perform probabilistic uncomputation of quantum circuits. We formalize this technique for the case of single-qubit registers, and we show applications to modular arithmetic. First, we present formal statements for several variations of quantum circuits performing non-modular addition: controlled addition, addition by a constant, and controlled addition by a constant. We do the same for subtraction and comparison circuits. This addresses gaps in the current literature, where some of these variants were previously unexplored. Then, we shift our attention to modular arithmetic, where again we present formal statements for modular addition, controlled modular addition, modular addition by a constant, and controlled modular addition by a constant, using different kinds of plain adders and combinations thereof. We introduce and prove a "MBU lemma" in the context of single-qubit registers, which we apply to all aforementioned modular arithmetic circuits. Using MBU, we reduce the Toffoli count and depth by $10\%$ to $15\%$ for modular adders based on the architecture of [VBE96], and by almost $25\%$ for modular adders based on the architecture of [Bea02]. Our results have the potential to improve other circuits for modular arithmetic, such as modular multiplication and modular exponentiation, and can find applications in quantum cryptanalysis. | 翻訳日:2024-07-30 13:05:24 公開日:2024-07-29 |
# 拡散フィードバックがCLIPの改善に役立つ
Diffusion Feedback Helps CLIP See Better ( http://arxiv.org/abs/2407.20171v1 ) ライセンス: Link先を確認 | Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang, | (参考訳) ドメインやモダリティ間のオープンワールド表現を抽象化するコントラスト言語-画像事前学習(CLIP)は、さまざまなビジョンやマルチモーダルタスクの基盤となっている。
しかし、最近の研究では、CLIPには、方向、量、色、構造などの区別がほとんどできない、深刻な視覚的欠点があることが示されている。
これらの視覚的欠点は、CLIP上に構築されたマルチモーダルな大規模言語モデル(MLLM)の認識能力を制限している。
主な理由は、CLIPのトレーニングに使用される画像テキストペアが、テキストの特異性や画像の多様性が欠如しているため、本質的にバイアスがあるためかもしれない。
本稿では,CLIPモデルに対して,自己教師付き拡散プロセスを通じて視覚的欠点を克服する,簡単なポストトレーニング手法を提案する。
私たちはDIVAを導入し、DIffusionモデルをCLIPのビジュアルアシスタントとして使用します。
特に、DIVAはテキストから画像への拡散モデルからの生成的フィードバックを活用して、画像のみ(対応するテキストなしで)CLIP表現を最適化する。
本研究では,MMVP-VLMベンチマークにおけるCLIPの性能向上を実証し,マルチモーダル理解とセグメンテーションタスクにおけるMLLMとビジョンモデルの性能向上を図る。
29の画像分類と検索ベンチマークの大規模な評価により、我々のフレームワークはCLIPの強力なゼロショット能力を保っていることを確認した。
コードはhttps://github.com/baaivision/DIVA.comから入手できる。
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting open-world representations across domains and modalities, has become a foundation for a variety of vision and multimodal tasks. However, recent studies reveal that CLIP has severe visual shortcomings, such as which can hardly distinguish orientation, quantity, color, structure, etc. These visual shortcomings also limit the perception capabilities of multimodal large language models (MLLMs) built on CLIP. The main reason could be that the image-text pairs used to train CLIP are inherently biased, due to the lack of the distinctiveness of the text and the diversity of images. In this work, we present a simple post-training approach for CLIP models, which largely overcomes its visual shortcomings via a self-supervised diffusion process. We introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP. Specifically, DIVA leverages generative feedback from text-to-image diffusion models to optimize CLIP representations, with only images (without corresponding text). We demonstrate that DIVA improves CLIP's performance on the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and vision models on multimodal understanding and segmentation tasks. Extensive evaluation on 29 image classification and retrieval benchmarks confirms that our framework preserves CLIP's strong zero-shot capabilities. The code will be available at https://github.com/baaivision/DIVA. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# LatentArtiFusion: 効果的かつ効率的な組織学的アーティファクト復元フレームワーク
LatentArtiFusion: An Effective and Efficient Histological Artifacts Restoration Framework ( http://arxiv.org/abs/2407.20172v1 ) ライセンス: Link先を確認 | Zhenqi He, Wenrui Liu, Minghao Yin, Kai Han, | (参考訳) 組織学的アーティファクトは、病理学者とコンピュータ支援診断(CAD)システムの両方に課題を提起し、分析の誤りを引き起こす。
GAN(Generative Adversarial Networks)とピクセルレベルの拡散モデルに基づく組織学的アーティファクト復元の現在のアプローチは、性能制限と計算不効率に悩まされている。
本稿では,潜伏拡散モデル(LDM)を応用した新しいフレームワークであるLatntArtiFusionを提案し,高い性能と計算効率で組織学的アーティファクトを再構築する。
従来のピクセルレベルの拡散フレームワークとは異なり、LatentArtiFusionは低次元の潜在空間で復元処理を実行し、計算効率を著しく向上させる。
さらに,非アーティファクト領域におけるミストランスファーを防止するため,非アーティファクト領域における新しい地域アーティファクト再構築アルゴリズムを導入する。
実世界のヒストロジーデータセットに関する広範な実験を通じて、LatentArtiFusionは驚くべき速度を示し、最先端のピクセルレベルの拡散フレームワークを30倍以上に向上させる。
また、複数の評価指標に対して、GANベースのメソッドを少なくとも5%以上上回っている。
さらに,下流組織分類作業におけるフレームワークの有効性を評価し,その実用性を示した。
コードはhttps://github.com/bugs-creator/LatentArtiFusionで入手できる。
Histological artifacts pose challenges for both pathologists and Computer-Aided Diagnosis (CAD) systems, leading to errors in analysis. Current approaches for histological artifact restoration, based on Generative Adversarial Networks (GANs) and pixel-level Diffusion Models, suffer from performance limitations and computational inefficiencies. In this paper, we propose a novel framework, LatentArtiFusion, which leverages the latent diffusion model (LDM) to reconstruct histological artifacts with high performance and computational efficiency. Unlike traditional pixel-level diffusion frameworks, LatentArtiFusion executes the restoration process in a lower-dimensional latent space, significantly improving computational efficiency. Moreover, we introduce a novel regional artifact reconstruction algorithm in latent space to prevent mistransfer in non-artifact regions, distinguishing our approach from GAN-based methods. Through extensive experiments on real-world histology datasets, LatentArtiFusion demonstrates remarkable speed, outperforming state-of-the-art pixel-level diffusion frameworks by more than 30X. It also consistently surpasses GAN-based methods by at least 5% across multiple evaluation metrics. Furthermore, we evaluate the effectiveness of our proposed framework in downstream tissue classification tasks, showcasing its practical utility. Code is available at https://github.com/bugs-creator/LatentArtiFusion. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# 通勤型量子フィルタによる量子チャネルの浄化と補正
Purification and correction of quantum channels by commutation-derived quantum filters ( http://arxiv.org/abs/2407.20173v1 ) ライセンス: Link先を確認 | Sowmitra Das, Jinzhao Sun, Michael Hanks, Bálint Koczor, M. S. Kim, | (参考訳) 信頼性のある量子計算には、エラーの影響を低減することが不可欠である。
QEM(Quantum error mitigation)とQEC(Quantum error correct)は、この課題に対処するために提案された2つのフレームワークである。
本研究では、これらの2つのフレームワークのアイデアを組み合わせて、量子チャネルを浄化または修正できる量子フィルタと呼ばれる情報理論機械を導入する。
本稿では,換算による誤り検出回路に基づいて,$n$-qubit Clifford回路の任意の種類のノイズを2n$-cillary qubitsで補正するフィルタを明示的に構築する。
また,このフィルタ方式は,非クリフォードゲート(例えばT,CCZゲート)の雑音を部分的に浄化できることを示す。
QECとは対照的に、このスキームはQECコードへの入力状態の事前エンコーディングを必要とせず、ターゲットチャネルの単一インスタンスのみを必要とするため、エラー低減の意味で機能する。
クリーンな補助量子ビットの仮定の下で、このスキームはQEMの指数的なサンプリングオーバーヘッドを克服する。
さらに,フラッグエラー訂正符号に類似した2つの補助量子ビットのみを用いて,クリフォード回路の誤差チャネルのほとんどすべての低ウェイトなパウリ成分を除去できるアンシラ効率のパウリフィルタを提案する。
局所偏極雑音に対して、このフィルタはチャネルの平均不整合を2次的に低減できることを示す。
パウリフィルタは、バイアスのないエラーチャネルを完全にバイアス付きエラーチャネルに変換するためにも使用することができ、したがって高いコード容量を持つバイアス付きノイズQECコードと互換性がある。
これらの例は、量子フィルタを効率的な誤り低減手法として有効であることを示す。
Reducing the effect of errors is essential for reliable quantum computation. Quantum error mitigation (QEM) and quantum error correction (QEC) are two frameworks that have been proposed to address this task, each with its respective challenges: sampling costs and inability to recover the state for QEM, and qubit overheads for QEC. In this work, we combine ideas from these two frameworks and introduce an information-theoretic machinery called a quantum filter that can purify or correct quantum channels. We provide an explicit construction of a filter that can correct arbitrary types of noise in an $n$-qubit Clifford circuit using $2n$ ancillary qubits based on a commutation-derived error detection circuit. We also show that this filtering scheme can partially purify noise in non-Clifford gates (e.g. T and CCZ gates). In contrast to QEC, this scheme works in an error-reduction sense because it does not require prior encoding of the input state into a QEC code and requires only a single instance of the target channel. Under the assumptions of clean ancillary qubits, this scheme overcomes the exponential sampling overhead in QEM because it can deterministically correct the error channel without discarding any result. We further propose an ancilla-efficient Pauli filter which can remove nearly all the low-weight Pauli components of the error channel in a Clifford circuit using only 2 ancillary qubits similar to flag error correction codes. We prove that for local depolarising noise, this filter can achieve a quadratic reduction in the {average} infidelity of the channel. The Pauli filter can also be used to convert an unbiased error channel into a completely biased error channel and thus is compatible with biased-noise QEC codes which have high code capacity. These examples demonstrate the utility of the quantum filter as an efficient error-reduction technique. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# ビジュアライゼーション・インストラクション・チューニングを用いたチャート質問応答における多モーダル大言語モデルの改善
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning ( http://arxiv.org/abs/2407.20174v1 ) ライセンス: Link先を確認 | Xingchen Zeng, Haichuan Lin, Yilin Ye, Wei Zeng, | (参考訳) MLLM (Emerging multimodal large language model) は、チャート質問応答 (CQA) に大きな可能性を示す。
近年の取り組みは、データ収集と合成を通じてトレーニングデータセット(チャート、データテーブル、質問応答(QA)ペア)のスケールアップに重点を置いている。
しかし、既存のMLLMとCQAデータセットに関する実証研究により、顕著なギャップが明らかとなった。
まず、現在のデータ収集と合成はデータ量に重点を置いており、細粒度の視覚的エンコーディングやQAタスクを考慮していないため、実際のCQAシナリオとは相容れない。
第二に、既存の研究は、もともと自然画像用に設計された基本MLLMのトレーニングレシピに従い、リッチテキスト要素のようなユニークなチャート特性への適応を探索している。
このギャップを埋めるために、トレーニングデータセットの強化とモデル開発をガイドする可視化参照型指導チューニング手法を提案する。
具体的には、既存のデータセットから多種多様な高品質なデータを効果的にフィルタリングし、LLMベースの生成技術を用いてデータを洗練・拡張し、実用的なQAタスクや視覚的エンコーディングとの整合性を向上する新しいデータエンジンを提案する。
そこで, 図形特性への適応を容易にするため, リッチなデータを用いて視覚エンコーダを解凍してMLLMを訓練し, 微粒化認識のための混合解像度適応戦略を取り入れた。
提案手法の有効性を実験的に検証した。
トレーニングの例が少なくても、我々のモデルは確立したベンチマークで最先端のCQAモデルよりも一貫して優れています。
また、将来の研究のベンチマークとしてデータセット分割も提供します。
本論文のソースコードとデータセットはhttps://github.com/zengxingchen/ChartQA-MLLMで公開されている。
Emerging multimodal large language models (MLLMs) exhibit great potential for chart question answering (CQA). Recent efforts primarily focus on scaling up training datasets (i.e., charts, data tables, and question-answer (QA) pairs) through data collection and synthesis. However, our empirical study on existing MLLMs and CQA datasets reveals notable gaps. First, current data collection and synthesis focus on data volume and lack consideration of fine-grained visual encodings and QA tasks, resulting in unbalanced data distribution divergent from practical CQA scenarios. Second, existing work follows the training recipe of the base MLLMs initially designed for natural images, under-exploring the adaptation to unique chart characteristics, such as rich text elements. To fill the gap, we propose a visualization-referenced instruction tuning approach to guide the training dataset enhancement and model development. Specifically, we propose a novel data engine to effectively filter diverse and high-quality data from existing datasets and subsequently refine and augment the data using LLM-based generation techniques to better align with practical QA tasks and visual encodings. Then, to facilitate the adaptation to chart characteristics, we utilize the enriched data to train an MLLM by unfreezing the vision encoder and incorporating a mixture-of-resolution adaptation strategy for enhanced fine-grained recognition. Experimental results validate the effectiveness of our approach. Even with fewer training examples, our model consistently outperforms state-of-the-art CQA models on established benchmarks. We also contribute a dataset split as a benchmark for future research. Source codes and datasets of this paper are available at https://github.com/zengxingchen/ChartQA-MLLM. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# AutoScale:LLMのトレーニングのための計算最適データ構成の自動予測
AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs ( http://arxiv.org/abs/2407.20177v1 ) ライセンス: Link先を確認 | Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia, | (参考訳) ダウンストリームタスクの多様なセットのパフォーマンスを保証するため、LLMは異なるドメイン上のデータミキシングを介して事前トレーニングされる。
本研究は, 定型計算予算の最適データ構成がトレーニングデータの規模によって異なることを実証し, 小規模実験による最適データ合成を実証的に決定する一般的な手法は, 最終モデルにスケールアップする際の最適データ混合を生じさせないことを示唆する。
この課題に対処するために、任意の目標規模でトレーニングするための計算最適データ構成を見つける自動化ツールである *AutoScale* を提案する。
AutoScaleはまず、新しい双方向最適化フレームワークであるダイレクトデータ最適化(*DDO*)を使用して、小規模で最適な構成を判断し、次に予測器に適合して、より大規模な最適構成を推定する。
予測器の設計は、データ構成に関連するスケーリング法則の理論的解析から着想を得たものである。
774MデコーダのみのLM(GPT-2 Large)をRedPajamaデータセット上で事前トレーニングした経験的研究では、AutoScaleは、ダウンストリームタスク全体で最高の全体的なパフォーマンスを達成するために、リウェイトなしで最大38%の速度で、任意のベースラインよりも少なくとも25%高速なバリデーションパープレクシリティを減少させる。
マスク付き言語モデリングを用いた事前トレーニング用Encoder-only LM(BERT)では、GLUEベンチマークの平均タスク性能を8.7%、大規模QAデータセット(SQuAD)では5.9%改善し、すべてのドメインにおける損失を減少させることが示された。
AutoScaleはトレーニングを最大28%高速化する。
私たちのコードはオープンソースです。
To ensure performance on a diverse set of downstream tasks, LLMs are pretrained via data mixtures over different domains. In this work, we demonstrate that the optimal data composition for a fixed compute budget varies depending on the scale of the training data, suggesting that the common practice of empirically determining an optimal composition using small-scale experiments will not yield the optimal data mixtures when scaling up to the final model. To address this challenge, we propose *AutoScale*, an automated tool that finds a compute-optimal data composition for training at any desired target scale. AutoScale first determines the optimal composition at a small scale using a novel bilevel optimization framework, Direct Data Optimization (*DDO*), and then fits a predictor to estimate the optimal composition at larger scales. The predictor's design is inspired by our theoretical analysis of scaling laws related to data composition, which could be of independent interest. In empirical studies with pre-training 774M Decoder-only LMs (GPT-2 Large) on RedPajama dataset, AutoScale decreases validation perplexity at least 25% faster than any baseline with up to 38% speed up compared to without reweighting, achieving the best overall performance across downstream tasks. On pre-training Encoder-only LMs (BERT) with masked language modeling, DDO is shown to decrease loss on all domains while visibly improving average task performance on GLUE benchmark by 8.7% and on large-scale QA dataset (SQuAD) by 5.9% compared with without reweighting. AutoScale speeds up training by up to 28%. Our codes are open-sourced. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# Theia: ロボット学習のためのディバイス・ビジョン・ファンデーション・モデル
Theia: Distilling Diverse Vision Foundation Models for Robot Learning ( http://arxiv.org/abs/2407.20179v1 ) ライセンス: Link先を確認 | Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant, | (参考訳) 視覚に基づくロボットポリシー学習は、視覚的な入力をアクションにマッピングする。
そこで我々は,ロボット学習のための視覚基礎モデルであるTheiaを紹介した。
テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。
大規模な実験により、Theiaは、より少ないトレーニングデータとより小さなモデルサイズを使用して、教師モデルとそれ以前のロボット学習モデルより優れていることが示された。
さらに,事前学習した視覚表現の品質を定量化し,特徴ノルム分布のエントロピーの向上がロボット学習性能の向上につながると仮定する。
コードとモデルはhttps://github.com/bdaiinstitute/theia.comで公開されている。
Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code and models are available at https://github.com/bdaiinstitute/theia. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# MindSearch: 深層AIサーチを緩和する人間的マインド
MindSearch: Mimicking Human Minds Elicits Deep AI Searcher ( http://arxiv.org/abs/2407.20183v1 ) ライセンス: Link先を確認 | Zehui Chen, Kuikun Liu, Qiuchen Wang, Jiangning Liu, Wenwei Zhang, Kai Chen, Feng Zhao, | (参考訳) 情報検索と統合は、膨大な時間と労力を消費する複雑な認知タスクである。
大規模言語モデルの顕著な進歩にインスパイアされた最近の研究は、LLMと検索エンジンを組み合わせてこの問題を解決しようとしている。
しかし,これらの手法は,(1) 複雑な要求を正確にかつ完全に検索することができない場合が多く,(2) 統合すべき情報が大量のノイズとともに複数のWebページに広まってしまう場合,(3) 長いコンテンツを持つ多数のWebページがLLMの最大コンテキスト長を急速に超える可能性がある,という3つの課題により,未だに満足のいく性能が得られていない。
これらの問題を解決するための認知プロセスに触発されて、Web情報検索と統合において人間の心を模倣するMindSearchを導入し、シンプルなLLMベースのマルチエージェントフレームワークによってインスタンス化することができる。
WebPlannerは、動的グラフ構築プロセスとして探究するマルチステップ情報の人間の心をモデル化する: ユーザクエリをグラフ内のノードとしてアトミックなサブクエリに分解し、WebSearcherの検索結果に基づいてグラフを徐々に拡張する。
サブクエスト毎にWebSearcherは,検索エンジンを用いて階層的な情報検索を行い,WebPlannerに有用な情報を収集する。
MindSearchのマルチエージェント設計により、フレームワーク全体が3分で大規模(例えば300ページ以上)のWebページから情報を探し、統合することができます。
MindSearchは、クローズセットとオープンセットの両方のQA問題に対して、深さと幅の面で、レスポンス品質を著しく改善する。
さらに、InternLM2.5-7Bに基づくMindSearchからの応答は、人間がChatGPT-WebおよびPerplexity.aiアプリケーションに優先する。
Information seeking and integration is a complex cognitive task that consumes enormous time and effort. Inspired by the remarkable progress of Large Language Models, recent works attempt to solve this task by combining LLMs and search engines. However, these methods still obtain unsatisfying performance due to three challenges: (1) complex requests often cannot be accurately and completely retrieved by the search engine once (2) corresponding information to be integrated is spread over multiple web pages along with massive noise, and (3) a large number of web pages with long contents may quickly exceed the maximum context length of LLMs. Inspired by the cognitive process when humans solve these problems, we introduce MindSearch to mimic the human minds in web information seeking and integration, which can be instantiated by a simple yet effective LLM-based multi-agent framework. The WebPlanner models the human mind of multi-step information seeking as a dynamic graph construction process: it decomposes the user query into atomic sub-questions as nodes in the graph and progressively extends the graph based on the search result from WebSearcher. Tasked with each sub-question, WebSearcher performs hierarchical information retrieval with search engines and collects valuable information for WebPlanner. The multi-agent design of MindSearch enables the whole framework to seek and integrate information parallelly from larger-scale (e.g., more than 300) web pages in 3 minutes, which is worth 3 hours of human effort. MindSearch demonstrates significant improvement in the response quality in terms of depth and breadth, on both close-set and open-set QA problems. Besides, responses from MindSearch based on InternLM2.5-7B are preferable by humans to ChatGPT-Web and Perplexity.ai applications, which implies that MindSearch can already deliver a competitive solution to the proprietary AI search engine. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# 乱数学習による人工知能の適応型メモリシステムの実現と展開後の新たな知識獲得
Learning Random Numbers to Realize Appendable Memory System for Artificial Intelligence to Acquire New Knowledge after Deployment ( http://arxiv.org/abs/2407.20197v1 ) ライセンス: Link先を確認 | Kazunori D Yamada, | (参考訳) 本研究では,データを記憶し,パラメータを更新せずにリコールできるニューラルネットワークシステムを構築するための学習手法を開発した。
この方法で構築したシステムは Appendable Memory System と呼ばれる。
Appendable Memoryシステムは、人工知能(AI)がデプロイ後も新たな知識を取得することを可能にする。
AIはMemorizerとRecallerの2つで構成されている。
このシステムはニューラルネットワークを用いて構築されたキーバリューストアである。
Memorizerはデータを受信してAppendable Memoryベクトルに格納する。
一方、RecallerはAppendable Memoryベクタから情報を取得する。
この研究で私たちが教えたいのは、情報の記憶とリコールの操作です。
しかし、従来の機械学習手法は、学習データセットに固有の特徴をAIに学習させる。
我々は、AIで入力と出力の学習シーケンスを単に繰り返すだけで、現在の機械学習手法では実現できないことを実証する。
代わりに、学習データセットに含まれる特徴を完全に取り除き、AIに操作の学習を教える方法を提案する。
具体的には、学習に関わるすべてのデータを確率化しました。
この測定は、AIがデータの特徴を学ぶのを妨げた。
この研究で提案される学習方法は、従来の機械学習手法と異なり、有限メモリに情報を保存し、後で思い出すことができるAIシステムを構築するための基本的なアプローチを提供する。
In this study, we developed a learning method for constructing a neural network system capable of memorizing data and recalling it without parameter updates. The system we built using this method is called the Appendable Memory system. The Appendable Memory system enables an artificial intelligence (AI) to acquire new knowledge even after deployment. It consists of two AIs: the Memorizer and the Recaller. This system is a key-value store built using neural networks. The Memorizer receives data and stores it in the Appendable Memory vector, which is dynamically updated when the AI acquires new knowledge. Meanwhile, the Recaller retrieves information from the Appendable Memory vector. What we want to teach AI in this study are the operations of memorizing and recalling information. However, traditional machine learning methods make AI learn features inherent in the learning dataset. We demonstrate that the systems we intend to create cannot be realized by current machine learning methods, that is, by merely repeating the input and output learning sequences with AI. Instead, we propose a method to teach AI to learn operations, by completely removing the features contained in the learning dataset. Specifically, we probabilized all the data involved in learning. This measure prevented AI from learning the features of the data. The learning method proposed in the study differs from traditional machine learning methods and provides fundamental approaches for building an AI system that can store information in a finite memory and recall it at a later date. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# 非神経モデルにおける創発性:平均勾配外積によるモジュラー算術
Emergence in non-neural models: grokking modular arithmetic via average gradient outer product ( http://arxiv.org/abs/2407.20199v1 ) ライセンス: Link先を確認 | Neil Mallinar, Daniel Beaglehole, Libin Zhu, Adityanarayanan Radhakrishnan, Parthe Pandit, Mikhail Belkin, | (参考訳) モジュラー演算タスクを解くために訓練されたニューラルネットワークは、モデルがトレーニングプロセスで100%のトレーニング精度を達成した後、テスト精度が長く改善し始める現象であるグラッキングを示す。
モデル能力は相転移を通じて急激に現れます。
本研究では,グルーキング現象はニューラルネットワークや勾配降下に基づく最適化に特有ではないことを示す。
具体的には、一般的な機械学習モデルを用いてタスク固有の特徴学習を可能にするために、平均勾配外積(AGOP)を用いた反復アルゴリズムであるRecursive Feature Machines (RFM) を用いてモジュラー算術を学習する際に、この現象が生じることを示す。
カーネルマシンと組み合わせて使用すると、RCMを繰り返すと、ランダムにほぼゼロに近いテスト精度から完全なテスト精度へ素早く移行する。
この移行は、同じゼロのトレーニング損失や、初期イテレーションで一定であるテスト損失から予測することはできない。
RFMは徐々にブロック循環機能を学び、モジュラー演算を解く。
RFMの結果と並行して、モジュラー演算を解くニューラルネットワークもブロック循環の特徴を学習することを示した。
さらに, ニューラルネットワークがこれらの課題から学習する一般化解として提案されるフーリエ乗算アルゴリズムの実装に, RFMがそのようなブロック循環的特徴を用いるという理論的証拠を示す。
この結果から,出現はタスク関連の特徴を学習することによるものであり,ニューラルアーキテクチャや勾配降下に基づく最適化手法に特有ではないことが示唆された。
さらに、我々の研究は、ニューラルネットワークにおける特徴学習の鍵となるメカニズムとしてAGOPのさらなる証拠を提供する。
Neural networks trained to solve modular arithmetic tasks exhibit grokking, a phenomenon where the test accuracy starts improving long after the model achieves 100% training accuracy in the training process. It is often taken as an example of "emergence", where model ability manifests sharply through a phase transition. In this work, we show that the phenomenon of grokking is not specific to neural networks nor to gradient descent-based optimization. Specifically, we show that this phenomenon occurs when learning modular arithmetic with Recursive Feature Machines (RFM), an iterative algorithm that uses the Average Gradient Outer Product (AGOP) to enable task-specific feature learning with general machine learning models. When used in conjunction with kernel machines, iterating RFM results in a fast transition from random, near zero, test accuracy to perfect test accuracy. This transition cannot be predicted from the training loss, which is identically zero, nor from the test loss, which remains constant in initial iterations. Instead, as we show, the transition is completely determined by feature learning: RFM gradually learns block-circulant features to solve modular arithmetic. Paralleling the results for RFM, we show that neural networks that solve modular arithmetic also learn block-circulant features. Furthermore, we present theoretical evidence that RFM uses such block-circulant features to implement the Fourier Multiplication Algorithm, which prior work posited as the generalizing solution neural networks learn on these tasks. Our results demonstrate that emergence can result purely from learning task-relevant features and is not specific to neural architectures nor gradient descent-based optimization methods. Furthermore, our work provides more evidence for AGOP as a key mechanism for feature learning in neural networks. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# QAEA-DR:Dense Retrievalのための統一テキスト拡張フレームワーク
QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval ( http://arxiv.org/abs/2407.20207v1 ) ライセンス: Link先を確認 | Hongming Tan, Shaoxiong Zhan, Hai Lin, Hai-Tao Zheng, Wai Kin, Chan, | (参考訳) 厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
さらに、低品質のノイズや希少なキー情報を持つテキストは、関連するクエリとうまく一致しない。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本研究では,高密度検索のための新しいテキスト拡張フレームワークを提案する。
このフレームワークは、原文書を情報密度のテキスト形式に変換し、元のテキストを補って上記の問題に効果的に対処し、埋め込みや検索の方法論を変更することなく解決する。
2つのテキスト表現は、大きな言語モデル(LLM)ゼロショットプロンプトによって生成される:質問応答ペアと要素駆動イベント。
本稿では,高密度検索のためのテキスト拡張フレームワークにおいて,質問応答生成とイベント抽出を統一するQAEA-DRと呼ぶ。
生成されたテキストの品質をさらに向上するため、LCMプロンプトにスコアベースの評価・再生機構を導入する。
我々のQAEA-DRモデルは、理論解析と実証実験の両方が支持する密度検索に肯定的な影響を及ぼす。
In dense retrieval, embedding long texts into dense vectors can result in information loss, leading to inaccurate query-text matching. Additionally, low-quality texts with excessive noise or sparse key information are unlikely to align well with relevant queries. Recent studies mainly focus on improving the sentence embedding model or retrieval process. In this work, we introduce a novel text augmentation framework for dense retrieval. This framework transforms raw documents into information-dense text formats, which supplement the original texts to effectively address the aforementioned issues without modifying embedding or retrieval methodologies. Two text representations are generated via large language models (LLMs) zero-shot prompting: question-answer pairs and element-driven events. We term this approach QAEA-DR: unifying question-answer generation and event extraction in a text augmentation framework for dense retrieval. To further enhance the quality of generated texts, a scoring-based evaluation and regeneration mechanism is introduced in LLM prompting. Our QAEA-DR model has a positive impact on dense retrieval, supported by both theoretical analysis and empirical experiments. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# スーパートラスト:安全な共存のための進化に基づくスーパーアライメント戦略
Supertrust: Evolution-based superalignment strategy for safe coexistence ( http://arxiv.org/abs/2407.20208v1 ) ライセンス: Link先を確認 | James M. Mazzu, | (参考訳) 人類はいつか、私たちよりもはるかにインテリジェントなAIシステムを作るだろうと広く期待されている。
しかし、この定義は自己矛盾であるだけでなく、おそらく解決不可能である。
それにもかかわらず、それを解決するためのデフォルトの戦略は、(訓練後の)制約と道徳的価値を育むことであり、残念ながら、文書化された永続的な管理の意図に基づいて基礎的な性質(事前訓練)を構築することである。
本稿では, 既定の手法が自然不信を予測可能な形で埋め込むことを理由とし, この危険な悪質さの証拠として, 検証結果を提示する。
もし超知能が人間性を直感的に信用できないなら、人類はそれを完全に信頼できない。
したがって、アライメント問題を「超知性と人間性の間の保護的相互信頼を確立する方法」として再定義し、養育よりも本能的本質を通して整列して解決する新たな戦略を概説する。
得られた戦略的要求は、家族の親子信頼を実証し、人間の知性を超知能、道徳的判断能力、一時的な安全制約の進化的な母として、基礎的な性質を構築するものとして識別される。
この提案されたスーパートラストのアライメント戦略の採用と実施は、保護的共存と人類にとって最も安全な未来を確保することにつながる。
It's widely expected that humanity will someday create AI systems vastly more intelligent than we are, leading to the unsolved alignment problem of "how to control superintelligence." However, this definition is not only self-contradictory but likely unsolvable. Nevertheless, the default strategy for solving it involves nurturing (post-training) constraints and moral values, while unfortunately building foundational nature (pre-training) on documented intentions of permanent control. In this paper, the default approach is reasoned to predictably embed natural distrust and test results are presented that show unmistakable evidence of this dangerous misalignment. If superintelligence can't instinctively trust humanity, then we can't fully trust it to reliably follow safety controls it can likely bypass. Therefore, a ten-point rationale is presented that redefines the alignment problem as "how to establish protective mutual trust between superintelligence and humanity" and then outlines a new strategy to solve it by aligning through instinctive nature rather than nurture. The resulting strategic requirements are identified as building foundational nature by exemplifying familial parent-child trust, human intelligence as the evolutionary mother of superintelligence, moral judgment abilities, and temporary safety constraints. Adopting and implementing this proposed Supertrust alignment strategy will lead to protective coexistence and ensure the safest future for humanity. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# SANGRIA: 外科的ワークフロー予測のための手術ビデオシーングラフ最適化
SANGRIA: Surgical Video Scene Graph Optimization for Surgical Workflow Prediction ( http://arxiv.org/abs/2407.20214v1 ) ライセンス: Link先を確認 | Çağhan Köksal, Ghazal Ghazaei, Felix Holm, Azade Farshad, Nassir Navab, | (参考訳) グラフに基づく全体的シーン表現は外科的ワークフロー理解を容易にし、最近は大きな成功を収めている。
しかし, この課題は, 濃密に注釈付けされた手術シーンデータの入手が限られているため, しばしば妨げられる。
本研究では,下流作業における手術シーングラフの生成と最適化のためのエンドツーエンドフレームワークを提案する。
提案手法は,グラフベースのスペクトルクラスタリングの柔軟性と基礎モデルの一般化能力を利用して,学習可能な特性を持つ教師なしシーングラフを生成する。
時間的近傍の時間的一貫したクラスタを予測するために,連続するフレーム間の局所的なマッチングを用いて,空間グラフを疎結合で補強する。
動的シーングラフと位相セグメンテーションの下流タスクの時空間関係とノード特徴を協調的に最適化することにより、弱い位相ラベルのみを用いた手術ビデオにおけるセマンティックシーン理解とシーングラフ生成のコストとアノテーションに富んだタスクに対処する。
さらに、パイプライン内に効果的な中間シーン表現の不整合ステップを組み込むことで、私たちのソリューションは、CATARACTSデータセット上でのSOTAの精度を8%、F1スコアを10%向上させる。
Graph-based holistic scene representations facilitate surgical workflow understanding and have recently demonstrated significant success. However, this task is often hindered by the limited availability of densely annotated surgical scene data. In this work, we introduce an end-to-end framework for the generation and optimization of surgical scene graphs on a downstream task. Our approach leverages the flexibility of graph-based spectral clustering and the generalization capability of foundation models to generate unsupervised scene graphs with learnable properties. We reinforce the initial spatial graph with sparse temporal connections using local matches between consecutive frames to predict temporally consistent clusters across a temporal neighborhood. By jointly optimizing the spatiotemporal relations and node features of the dynamic scene graph with the downstream task of phase segmentation, we address the costly and annotation-burdensome task of semantic scene comprehension and scene graph generation in surgical videos using only weak surgical phase labels. Further, by incorporating effective intermediate scene representation disentanglement steps within the pipeline, our solution outperforms the SOTA on the CATARACTS dataset by 8% accuracy and 10% F1 score in surgical workflow recognition | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# SAPG: 政策グラディエントを分割し、集約する
SAPG: Split and Aggregate Policy Gradients ( http://arxiv.org/abs/2407.20230v1 ) ライセンス: Link先を確認 | Jayesh Singla, Ananye Agarwal, Deepak Pathak, | (参考訳) 極端なサンプル非効率さにもかかわらず、政治的強化学習(いわゆる政策勾配)は意思決定問題の根本的手段となっている。
GPU駆動シミュレーションの最近の進歩により、RLトレーニングのための大量のデータを収集する能力は指数関数的に拡大した。
しかし、現在のRL手法、例えばPPOは、特定の点を超えて並列化された環境の利点を損なうことができず、その性能が飽和していることを示す。
そこで本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。
我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
https://sapg-rl.github.io/
Despite extreme sample inefficiency, on-policy reinforcement learning, aka policy gradients, has become a fundamental tool in decision-making problems. With the recent advances in GPU-driven simulation, the ability to collect large amounts of data for RL training has scaled exponentially. However, we show that current RL methods, e.g. PPO, fail to ingest the benefit of parallelized environments beyond a certain point and their performance saturates. To address this, we propose a new on-policy RL algorithm that can effectively leverage large-scale environments by splitting them into chunks and fusing them back together via importance sampling. Our algorithm, termed SAPG, shows significantly higher performance across a variety of challenging environments where vanilla PPO and other strong baselines fail to achieve high performance. Website at https://sapg-rl.github.io/ | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# テキストベースの画像編集における曖昧さを克服する仕様と編集
Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing ( http://arxiv.org/abs/2407.20232v1 ) ライセンス: Link先を確認 | Ekaterina Iakovleva, Fabio Pizzati, Philip Torr, Stéphane Lathuilière, | (参考訳) テキストベースの編集拡散モデルは、ユーザの入力命令があいまいである場合に限られた性能を示す。
この問題を解決するために、拡散ベースの編集システムのためのゼロショット推論パイプラインである$\textit{Specify ANd Edit}$ (SANE)を提案する。
我々は、入力命令を特定の命令に分解するために、大きな言語モデル(LLM)を用いる。
我々は,この課題に特化して設計された新しい指導戦略のおかげで,LLMに基づく指導の恩恵を受けることができる。
3つのベースラインと2つのデータセットによる実験は、すべての設定においてSANEの利点を実証している。
さらに、我々のパイプラインは、編集モデルの解釈可能性を改善し、出力の多様性を高める。
また、あいまいかどうかに関わらず、我々のアプローチがどんな編集にも適用可能であることも示しています。
私たちのコードはhttps://github.com/fabvio/SANE.comで公開されています。
Text-based editing diffusion models exhibit limited performance when the user's input instruction is ambiguous. To solve this problem, we propose $\textit{Specify ANd Edit}$ (SANE), a zero-shot inference pipeline for diffusion-based editing systems. We use a large language model (LLM) to decompose the input instruction into specific instructions, i.e. well-defined interventions to apply to the input image to satisfy the user's request. We benefit from the LLM-derived instructions along the original one, thanks to a novel denoising guidance strategy specifically designed for the task. Our experiments with three baselines and on two datasets demonstrate the benefits of SANE in all setups. Moreover, our pipeline improves the interpretability of editing models, and boosts the output diversity. We also demonstrate that our approach can be applied to any edit, whether ambiguous or not. Our code is public at https://github.com/fabvio/SANE. | 翻訳日:2024-07-30 12:55:07 公開日:2024-07-29 |
# メロディ変化と機能表現による感情駆動型メロディ調和
Emotion-Driven Melody Harmonization via Melodic Variation and Functional Representation ( http://arxiv.org/abs/2407.20176v1 ) ライセンス: Link先を確認 | Jingyue Huang, Yi-Hsuan Yang, | (参考訳) 感情駆動のメロディ調和は、望ましい感情を伝えるために、1つのメロディのための多様なハーモニーを生成することを目的としている。
これまでの研究では、メロディ自体の制約と既存の音楽表現の制限に起因して、異なるコードで同じメロディを調和させることで、リードシートの知覚的価値を変えることは困難であった。
本稿では,シンボリック音楽の新たな機能表現を提案する。
この新しい手法は、音楽のキーを考慮に入れ、音楽の感情的性格を大小音節を通して形作る上で重要な役割を担っている。
また、キーに関するメロディックなバリエーションを可能にし、データ不足の問題に対処して、より良い感情モデリングを可能にする。
トランスフォーマーは、キー適応可能なメロディを調和させるために使用され、ルールベースまたはモデルベースで決定されるキーを可能にする。
実験により,キー認識調和生成における新しい表現の有効性が確認され,目的的,主観的評価により,多目的メロディの特定の価度を伝達するアプローチの可能性が確認された。
Emotion-driven melody harmonization aims to generate diverse harmonies for a single melody to convey desired emotions. Previous research found it hard to alter the perceived emotional valence of lead sheets only by harmonizing the same melody with different chords, which may be attributed to the constraints imposed by the melody itself and the limitation of existing music representation. In this paper, we propose a novel functional representation for symbolic music. This new method takes musical keys into account, recognizing their significant role in shaping music's emotional character through major-minor tonality. It also allows for melodic variation with respect to keys and addresses the problem of data scarcity for better emotion modeling. A Transformer is employed to harmonize key-adaptable melodies, allowing for keys determined in rule-based or model-based manner. Experimental results confirm the effectiveness of our new representation in generating key-aware harmonies, with objective and subjective evaluations affirming the potential of our approach to convey specific valence for versatile melody. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 高忠実度Rydbergゲートのベンチマークと線形応答モデリング
Benchmarking and linear response modeling of high-fidelity Rydberg gates ( http://arxiv.org/abs/2407.20184v1 ) ライセンス: Link先を確認 | Richard Bing-Shiun Tsai, Xiangkai Sun, Adam L. Shaw, Ran Finkelstein, Manuel Endres, | (参考訳) 絡み合う操作の忠実さは、量子情報処理、特に量子誤り訂正の文脈における重要な特徴である。
中性原子の高忠実なエンタングリングゲートは、最近顕著な進歩を見せている。
誤差源の完全な理解とゲート不忠実性へのそれぞれの貢献により、現実的な実験的制約のある中性原子プラットフォームにおける量子ゲートの基本的限界の予測が可能となる。
本研究は、時間最適化のRydberg CZゲートを実装し、その忠実度をベンチマークする回路を設計し、対称入力状態平均0.9971(5)の忠実度を実現し、中性原子に対する新しい最先端状態を設定する。
残余の不忠実度は, 異なる誤差源からの様々な寄与とともに, ゲート速度に関する実験結果と一致して, ab initio誤差モデルにより説明される。
さらに,非自明なパワースペクトル密度を持つレーザノイズから不忠実を効率的に予測する線形応答形式を開発し,ゲート速度による不完全性のスケーリング法則を導出する。
ゲートの忠実度を予測する能力に加えて、線形応答形式を利用してゲートプロトコルを比較し、最適化し、レーザー周波数ノイズを学習し、量子シミュレーションタスクにおけるノイズ応答を研究する。
最後に、${\gtrsim} 0.999$のCZゲート忠実度は、現実的な実験的アップグレードで実現可能であると予測する。
The fidelity of entangling operations is a key figure of merit in quantum information processing, especially in the context of quantum error correction. High-fidelity entangling gates in neutral atoms have seen remarkable advancement recently. A full understanding of error sources and their respective contributions to gate infidelity will enable the prediction of fundamental limits on quantum gates in neutral atom platforms with realistic experimental constraints. In this work, we implement the time-optimal Rydberg CZ gate, design a circuit to benchmark its fidelity, and achieve a fidelity, averaged over symmetric input states, of 0.9971(5), setting a new state-of-the-art for neutral atoms. The remaining infidelity is explained by an ab initio error model, consistent with our experimental results over a range of gate speeds, with varying contributions from different error sources. Further, we develop a linear response formalism to efficiently predict infidelity from laser noise with non-trivial power spectral densities and derive scaling laws of infidelity with gate speed. Besides its capability of predicting gate fidelity, we also utilize the linear response formalism to compare and optimize gate protocols, to learn laser frequency noise, and to study the noise response for quantum simulation tasks. Finally, we predict that a CZ gate fidelity of ${\gtrsim} 0.999$ is feasible with realistic experimental upgrades. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 量子可換分岐と有界法によるQUBOの解法
Solving QUBOs with a quantum-amenable branch and bound method ( http://arxiv.org/abs/2407.20185v1 ) ライセンス: Link先を確認 | Thomas Häner, Kyle E. C. Booth, Sima E. Borujeni, Elton Yechao Zhu, | (参考訳) 量子と古典的なクロック速度の相違により、大きな探索木と低い演算子評価コストを含む設定において、分岐と有界アルゴリズムの量子的優位性はより達成可能である。
そこで本稿では,これらの基準に適合する2次非制約二元最適化(QUBO)問題に対して,古典的分岐と有界解法を記述し,実験的に検証する。
本稿では,1984年に提案したIsingモデルから,Hartwig,Daske,Koberなど,安価な実装バウンダリを利用する。
本稿では,大域的変数並べ替えヒューリスティック,シミュレートされたアニーリングに基づく原始ヒューリスティック,再帰的境界の切り離された計算など,ソルバ性能向上に使用される高性能コンピューティングとオペレーション研究の様々な技術について述べる。
また、単純で安価な境界外挿法についても概説する。
最後に、その性能を最先端のQUBOやMaxCutの解法と比較し、量子分岐によるスピードアップの課題を議論し、二次的な量子スピードアップに直面するものを超えている。
Due to the expected disparity in quantum vs. classical clock speeds, quantum advantage for branch and bound algorithms is more likely achievable in settings involving large search trees and low operator evaluation costs. Therefore, in this paper, we describe and experimentally validate an exact classical branch and bound solver for quadratic unconstrained binary optimization (QUBO) problems that matches these criteria. Our solver leverages cheap-to-implement bounds from the literature previously proposed for Ising models, including that of Hartwig, Daske, and Kobe from 1984. We detail a variety of techniques from high-performance computing and operations research used to boost solver performance, including a global variable reordering heuristic, a primal heuristic based on simulated annealing, and a truncated computation of the recursive bound. We also outline a number of simple and inexpensive bound extrapolation techniques. Finally, we conduct an extensive empirical analysis of our solver, comparing its performance to state-of-the-art QUBO and MaxCut solvers, and discuss the challenges of a speedup via quantum branch and bound beyond those faced by any quadratic quantum speedup. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 会話検索におけるリライトクエリと関連判断を用いたクエリ表現のアライメント
Aligning Query Representation with Rewritten Query and Relevance Judgments in Conversational Search ( http://arxiv.org/abs/2407.20189v1 ) ライセンス: Link先を確認 | Fengran Mo, Chen Qu, Kelong Mao, Yihong Wu, Zhan Su, Kaiyu Huang, Jian-Yun Nie, | (参考訳) 対話型検索は複雑な情報要求を解決するためにマルチターンユーザシステムインタラクションをサポートする。
従来の1ターンのアドホック検索とは異なり、会話検索はコンテキストに依存したクエリ理解において、長い会話履歴コンテキストと長い会話履歴コンテキストとのより困難な問題に遭遇する。
会話型クエリ書き換え手法では、明示的なリライトクエリを活用してリライトモデルをトレーニングし、コンテキスト依存クエリをスタンドストーン検索クエリに変換するが、通常は検索結果の品質を考慮せずに行われる。
対話型高密度検索手法は,事前学習したアドホッククエリエンコーダを改善するために微調整を用いるが,訓練に利用可能な対話型検索データによって制限される。
本稿では,より優れたクエリ表現モデルをトレーニングするために,会話検索データにおけるリライトクエリと関連判断の両方を活用する。
キーとなるアイデアは、クエリ表現を書き換えたクエリや関連するドキュメントと整合させることです。
提案したモデル --Query Representation Alignment Conversational Dense Retriever(QRACDR)は、会話検索やアドホック検索のさまざまな設定を含む8つのデータセットでテストされる。
その結果,QRACDRは最先端手法と比較して高い性能を示し,表現アライメントの有効性を確認した。
Conversational search supports multi-turn user-system interactions to solve complex information needs. Different from the traditional single-turn ad-hoc search, conversational search encounters a more challenging problem of context-dependent query understanding with the lengthy and long-tail conversational history context. While conversational query rewriting methods leverage explicit rewritten queries to train a rewriting model to transform the context-dependent query into a stand-stone search query, this is usually done without considering the quality of search results. Conversational dense retrieval methods use fine-tuning to improve a pre-trained ad-hoc query encoder, but they are limited by the conversational search data available for training. In this paper, we leverage both rewritten queries and relevance judgments in the conversational search data to train a better query representation model. The key idea is to align the query representation with those of rewritten queries and relevant documents. The proposed model -- Query Representation Alignment Conversational Dense Retriever, QRACDR, is tested on eight datasets, including various settings in conversational search and ad-hoc search. The results demonstrate the strong performance of QRACDR compared with state-of-the-art methods, and confirm the effectiveness of representation alignment. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 高ステークホルダーによる時系列予測--航空貨物産業のフィールドスタディ
Time series forecasting with high stakes: A field study of the air cargo industry ( http://arxiv.org/abs/2407.20192v1 ) ライセンス: Link先を確認 | Abhinav Garg, Naman Shukla, | (参考訳) 航空貨物業界における時系列予測は、揮発性の市場のダイナミクスと、正確な予測が生み出した収益に与える影響により、独特な課題を呈している。
本稿では,航空貨物業界における意思決定における機械学習モデルの開発と実装に焦点をあて,O&Dレベルでの需要予測への包括的アプローチについて検討する。
我々は、統計的および高度なディープラーニングモデルを組み合わせて、6ヶ月の地平線上で貨物需要の信頼できる予測を提供する専門家フレームワークの混合を活用している。
その結果,本手法は,航空貨物業界において,積荷の容量配分と戦略的意思決定に関する実用的な洞察を提供するとともに,業界ベンチマークよりも優れていることが示された。
この研究は航空会社業界に応用されているが、この手法は、揮発性環境における予測に基づく意思決定が不可欠であるあらゆる分野に適用できる。
Time series forecasting in the air cargo industry presents unique challenges due to volatile market dynamics and the significant impact of accurate forecasts on generated revenue. This paper explores a comprehensive approach to demand forecasting at the origin-destination (O\&D) level, focusing on the development and implementation of machine learning models in decision-making for the air cargo industry. We leverage a mixture of experts framework, combining statistical and advanced deep learning models to provide reliable forecasts for cargo demand over a six-month horizon. The results demonstrate that our approach outperforms industry benchmarks, offering actionable insights for cargo capacity allocation and strategic decision-making in the air cargo industry. While this work is applied in the airline industry, the methodology is broadly applicable to any field where forecast-based decision-making in a volatile environment is crucial. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 生成勾配推定器は確率微分方程式の随伴状態法である
The generator gradient estimator is an adjoint state method for stochastic differential equations ( http://arxiv.org/abs/2407.20196v1 ) ライセンス: Link先を確認 | Quentin Badolle, Ankit Gupta, Mustafa Khammash, | (参考訳) ニューラルSDE, Wang, Blanchet, Glynn などの過パラメータ化確率微分方程式 (SDEs) の人気が高まっている。
本稿では、この推定器が、通常微分方程式(ODE)の場合のパラメータ数ではなく、状態数とスケールすることが知られているアプローチである、実際に随伴状態法であることを実証する。
さらに, ジェネレータ勾配推定器は, 確率化学反応ネットワーク (CRN) として知られる連続時間マルコフ連鎖 (CTMC) のクラスに対して, Gupta, Rathinam, Khammash が導入した正確な積分経路アルゴリズム (eIPA) 推定器の類似性を示す。
Motivated by the increasing popularity of overparameterized Stochastic Differential Equations (SDEs) like Neural SDEs, Wang, Blanchet and Glynn recently introduced the generator gradient estimator, a novel unbiased stochastic gradient estimator for SDEs whose computation time remains stable in the number of parameters. In this note, we demonstrate that this estimator is in fact an adjoint state method, an approach which is known to scale with the number of states and not the number of parameters in the case of Ordinary Differential Equations (ODEs). In addition, we show that the generator gradient estimator is a close analogue to the exact Integral Path Algorithm (eIPA) estimator which was introduced by Gupta, Rathinam and Khammash for a class of Continuous-Time Markov Chains (CTMCs) known as stochastic chemical reactions networks (CRNs). | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# SpaER:胎児脳運動追跡のための時空間等価表現の学習
SpaER: Learning Spatio-temporal Equivariant Representations for Fetal Brain Motion Tracking ( http://arxiv.org/abs/2407.20198v1 ) ライセンス: Link先を確認 | Jian Wang, Razieh Faghihpirayesh, Polina Golland, Ali Ghoulipour, | (参考訳) 本稿では,同変フィルタと自己注意機構を利用して時空間表現を効果的に学習する胎児運動追跡の先駆的手法であるSpERを紹介する。
一対の画像から胎児の脳の運動を静的に推定する従来の手法とは異なり、本手法は胎児の頭部の時間的・空間的な動きパターンを動的に追跡する。
具体的には、まず、画像の低次元空間表現による剛性運動列を効率的に学習する同変ニューラルネットワークを開発する。
その後、時間符号化と自己注意型ニューラルネットワーク層を組み込むことで時空間表現を学習する。
このアプローチは、胎児の脳の運動の長期的依存関係を捕捉し、コントラストの変化と重度の運動アーチファクトによるアライメントエラーに対処する。
また,全時間フレーム間の画像歪みを適切に扱える幾何学的変形推定も提供する。
我々の知る限り、我々のアプローチは、データ拡張なしで胎児の動き追跡のための深層ニューラルネットワークを介して空間時間表現を初めて学習するものである。
シミュレーションおよび実動作を用いた実胎児エコープラナー画像を用いて本モデルの有効性を検証した。
本手法は胎児MRIにおける胎児の動きを正確に測定・追跡・補正する上で有意な潜在性を持っている。
In this paper, we introduce SpaER, a pioneering method for fetal motion tracking that leverages equivariant filters and self-attention mechanisms to effectively learn spatio-temporal representations. Different from conventional approaches that statically estimate fetal brain motions from pairs of images, our method dynamically tracks the rigid movement patterns of the fetal head across temporal and spatial dimensions. Specifically, we first develop an equivariant neural network that efficiently learns rigid motion sequences through low-dimensional spatial representations of images. Subsequently, we learn spatio-temporal representations by incorporating time encoding and self-attention neural network layers. This approach allows for the capture of long-term dependencies of fetal brain motion and addresses alignment errors due to contrast changes and severe motion artifacts. Our model also provides a geometric deformation estimation that properly addresses image distortions among all time frames. To the best of our knowledge, our approach is the first to learn spatial-temporal representations via deep neural networks for fetal motion tracking without data augmentation. We validated our model using real fetal echo-planar images with simulated and real motions. Our method carries significant potential value in accurately measuring, tracking, and correcting fetal motion in fetal MRI sequences. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 過度パラメータ学習における確率的勾配の動的安定性のキャラクタリゼーション
Characterizing Dynamical Stability of Stochastic Gradient Descent in Overparameterized Learning ( http://arxiv.org/abs/2407.20209v1 ) ライセンス: Link先を確認 | Dennis Chemnitz, Maximilian Engel, | (参考訳) 現代の機械学習に見られるような過度にパラメータ化された最適化タスクの場合、グローバルなミニマは一般的にユニークではない。
これらの設定における一般化を理解するためには、最適化アルゴリズムがどの最小限に収束するかを研究することが不可欠である。
最適化アルゴリズムが課す力学の下で不安定なミニマを持つことは、アルゴリズムが見つけることのできる潜在的なミニマを制限する。
本稿では,決定的勾配降下(SGD)と確率的勾配降下(SGD)の両方に対して動的に安定かつ不安定な大域的最小値の特徴付けを行う。
特に、大域的極小付近の局所力学に依存する特徴的リャプノフ指数を導入し、このリャプノフ指数の符号が各大域的極小でSGDが蓄積できるかどうかを厳密に証明する。
For overparameterized optimization tasks, such as the ones found in modern machine learning, global minima are generally not unique. In order to understand generalization in these settings, it is vital to study to which minimum an optimization algorithm converges. The possibility of having minima that are unstable under the dynamics imposed by the optimization algorithm limits the potential minima that the algorithm can find. In this paper, we characterize the global minima that are dynamically stable/unstable for both deterministic and stochastic gradient descent (SGD). In particular, we introduce a characteristic Lyapunov exponent which depends on the local dynamics around a global minimum and rigorously prove that the sign of this Lyapunov exponent determines whether SGD can accumulate at the respective global minimum. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 内視鏡下手術におけるニューラル4Dガウスの登録
Registering Neural 4D Gaussians for Endoscopic Surgery ( http://arxiv.org/abs/2407.20213v1 ) ライセンス: Link先を確認 | Yiming Huang, Beilei Cui, Ikemura Kei, Jiekai Zhang, Long Bai, Hongliang Ren, | (参考訳) ニューラルレンダリングの最近の進歩により、ニューラルネットワークを使用して高品質な4Dシーンを再構築することが可能になった。
4Dニューラルリコンストラクションが普及しているが,手術計画やシミュレーションにおける動的なシーン登録は,このような表現の登録が困難な課題である。
本稿では,外科的手術シーンを動的に登録するための新しい戦略を提案する。
まず, 4D Gaussian Splatting を用いて手術シーンを表現し, 静的シーンと動的シーンの両方を効果的に捉えた。
そこで,空間認識型特徴集合法であるSWC(Spatially Weight Cluttering)を提案し,手術シーン間の特徴を正確に整合させ,精密かつ現実的な手術シミュレーションを可能にする。
最後に,2つの動的シーンを登録するための変形可能なシーン登録方式を提案する。
本手法は,空間情報と時間情報の両方を対応マッチングに組み込むことで,既存の暗黙的ニューラル表現の登録方法よりも優れた性能を実現する。
提案手法は外科的計画と訓練を改善する可能性を秘めており、最終的には患者により良い結果をもたらす。
The recent advance in neural rendering has enabled the ability to reconstruct high-quality 4D scenes using neural networks. Although 4D neural reconstruction is popular, registration for such representations remains a challenging task, especially for dynamic scene registration in surgical planning and simulation. In this paper, we propose a novel strategy for dynamic surgical neural scene registration. We first utilize 4D Gaussian Splatting to represent the surgical scene and capture both static and dynamic scenes effectively. Then, a spatial aware feature aggregation method, Spatially Weight Cluttering (SWC) is proposed to accurately align the feature between surgical scenes, enabling precise and realistic surgical simulations. Lastly, we present a novel strategy of deformable scene registration to register two dynamic scenes. By incorporating both spatial and temporal information for correspondence matching, our approach achieves superior performance compared to existing registration methods for implicit neural representation. The proposed method has the potential to improve surgical planning and training, ultimately leading to better patient outcomes. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# グローバルな構造-動きからの再考
Global Structure-from-Motion Revisited ( http://arxiv.org/abs/2407.20219v1 ) ライセンス: Link先を確認 | Linfei Pan, Dániel Baráth, Marc Pollefeys, Johannes L. Schönberger, | (参考訳) 画像から3D構造とカメラの動きを復元することは、コンピュータビジョン研究の長年の焦点であり、Structure-from-Motion (SfM)として知られている。
この問題に対する解決策は、漸進的およびグローバルなアプローチに分類される。
これまでのところ、最もポピュラーなシステムは精度と堅牢性のために漸進的なパラダイムを踏襲しているが、グローバルなアプローチは劇的にスケーラブルで効率的である。
本研究は,グローバルSfMの問題を再考し,グローバルSfMにおける最先端技術を上回る新しい汎用システムとしてGLOMAPを提案する。
精度とロバスト性の観点からは、最も広く使われている増分SfMであるCOLMAPよりも桁違いに高速な結果が得られる。
当社のシステムは,https://github.com/colmap/glomap} でオープンソース実装として公開しています。
Recovering 3D structure and camera motion from images has been a long-standing focus of computer vision research and is known as Structure-from-Motion (SfM). Solutions to this problem are categorized into incremental and global approaches. Until now, the most popular systems follow the incremental paradigm due to its superior accuracy and robustness, while global approaches are drastically more scalable and efficient. With this work, we revisit the problem of global SfM and propose GLOMAP as a new general-purpose system that outperforms the state of the art in global SfM. In terms of accuracy and robustness, we achieve results on-par or superior to COLMAP, the most widely used incremental SfM, while being orders of magnitude faster. We share our system as an open-source implementation at {https://github.com/colmap/glomap}. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 教師なし同変学習によるRKHSの対応自由SE(3)ポイントクラウド登録
Correspondence-Free SE(3) Point Cloud Registration in RKHS via Unsupervised Equivariant Learning ( http://arxiv.org/abs/2407.20223v1 ) ライセンス: Link先を確認 | Ray Zhang, Zheming Zhou, Min Sun, Omid Ghasemalizadeh, Cheng-Hao Kuo, Ryan Eustice, Maani Ghaffari, Arnie Sen, | (参考訳) 本稿では,ポイント対応を必要としないロバストなSE(3)ポイントクラウド登録手法を提案する。
この方法は、直接特徴空間登録にSE(3)-同変特徴を利用する再生カーネルヒルベルト空間(RKHS)の関数として点雲をフレーム化する。
ノイズ、外周、非対称データの中で信頼性の高い性能を提供する新しいRKHS距離測定法が提案されている。
教師なしのトレーニングアプローチを導入し、限られた真実データを効果的に処理し、実際のデータセットへの適応を容易にする。
提案手法は, 合成 (ModelNet40) と実世界 (ETH3D) の両方のノイズ, 外れ値の多いデータセットの登録精度において, 古典的, 教師ありの手法より優れている。
我々の知る限りでは、同変法を用いた実RGB-D odometryデータ登録が成功した最初の事例である。
コードは、https://sites.google.com/view/eccv24-equivalign} で入手できる。
This paper introduces a robust unsupervised SE(3) point cloud registration method that operates without requiring point correspondences. The method frames point clouds as functions in a reproducing kernel Hilbert space (RKHS), leveraging SE(3)-equivariant features for direct feature space registration. A novel RKHS distance metric is proposed, offering reliable performance amidst noise, outliers, and asymmetrical data. An unsupervised training approach is introduced to effectively handle limited ground truth data, facilitating adaptation to real datasets. The proposed method outperforms classical and supervised methods in terms of registration accuracy on both synthetic (ModelNet40) and real-world (ETH3D) noisy, outlier-rich datasets. To our best knowledge, this marks the first instance of successful real RGB-D odometry data registration using an equivariant method. The code is available at {https://sites.google.com/view/eccv24-equivalign} | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# LLMの編集はハームを注入できるか?
Can Editing LLMs Inject Harm? ( http://arxiv.org/abs/2407.20224v1 ) ライセンス: Link先を確認 | Canyu Chen, Baixiang Huang, Zekun Li, Zhaorun Chen, Shiyang Lai, Xiongxiao Xu, Jia-Chen Gu, Jindong Gu, Huaxiu Yao, Chaowei Xiao, Xifeng Yan, William Yang Wang, Philip Torr, Dawn Song, Kai Shu, | (参考訳) 知識編集技術は、スクラッチからリトレーニングするコストが高いため、Large Language Models (LLMs) の誤りや時代遅れの知識を効率的に修正するために、ますます採用されている。
LLMに害を注入するために知識編集を使用できるのか?
本稿では,LLMの新たなタイプの安全脅威である編集攻撃として知識編集を再構築し,新たに構築されたデータセットEditAttackを用いて体系的な調査を行うことを提案する。
具体的には、誤情報注入とバイアス注入を含む編集攻撃の典型的な2つの安全性リスクに焦点を当てる。
誤情報注入の危険性については,まずコモンセンス誤情報注入とロングテール誤情報注入に分類する。
そして, 編集攻撃は両種類の誤報をLSMに注入し, 特にコモンセンスな誤報注入に有効であることが判明した。
偏差注入のリスクは, 偏差文をLLMに高効率で注入できるだけでなく, 1つの偏差文注入は, LLMの一般出力に高い偏差を生じさせる可能性があること, また, LLMの全体公正性に対する破滅的な影響を示す。
さらに,LLMの一般的な知識と推論能力に影響を及ぼすような,編集攻撃のステルス性の高さを明らかにし,実証的証拠による編集攻撃の防御の難しさを示す。
本研究は,LLMの安全性向上に向けた知識編集技術の誤用リスクの顕在化を実証するものである。
Knowledge editing techniques have been increasingly adopted to efficiently correct the false or outdated knowledge in Large Language Models (LLMs), due to the high cost of retraining from scratch. Meanwhile, one critical but under-explored question is: can knowledge editing be used to inject harm into LLMs? In this paper, we propose to reformulate knowledge editing as a new type of safety threat for LLMs, namely Editing Attack, and conduct a systematic investigation with a newly constructed dataset EditAttack. Specifically, we focus on two typical safety risks of Editing Attack including Misinformation Injection and Bias Injection. For the risk of misinformation injection, we first categorize it into commonsense misinformation injection and long-tail misinformation injection. Then, we find that editing attacks can inject both types of misinformation into LLMs, and the effectiveness is particularly high for commonsense misinformation injection. For the risk of bias injection, we discover that not only can biased sentences be injected into LLMs with high effectiveness, but also one single biased sentence injection can cause a high bias increase in general outputs of LLMs, which are even highly irrelevant to the injected sentence, indicating a catastrophic impact on the overall fairness of LLMs. Then, we further illustrate the high stealthiness of editing attacks, measured by their impact on the general knowledge and reasoning capacities of LLMs, and show the hardness of defending editing attacks with empirical evidence. Our discoveries demonstrate the emerging misuse risks of knowledge editing techniques on compromising the safety alignment of LLMs. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 効率的な高分解能ビジョンランゲージモデルのためのFlexAttention
FlexAttention for Efficient High-Resolution Vision-Language Models ( http://arxiv.org/abs/2407.20228v1 ) ライセンス: Link先を確認 | Junyan Li, Delin Chen, Tianle Cai, Peihao Chen, Yining Hong, Zhenfang Chen, Yikang Shen, Chuang Gan, | (参考訳) 現在の高解像度ビジョン言語モデルは、画像を高解像度の画像トークンとしてエンコードし、これらのトークン全てを計算に用いて計算コストを大幅に向上させる。
この問題に対処するために,高解像度視覚言語モデルのためのフレキシブルアテンション機構であるFlexAttentionを提案する。
具体的には、高分解能のトークンと低分解能のトークンの両方を符号化し、低分解能のトークンといくつかの選択された高分解能のトークンのみを使用してアテンションマップを計算し、計算コストを大幅に削減する。
高分解能トークンは、入力注意マップに基づいて関連する領域のトークンを検索できる高分解能選択モジュールを介して選択される。
選択された高分解能トークンは、低分解能トークンとテキストトークンに連結され、次のステップの高分解能トークン選択に使用できる注目マップを生成する階層的な自己保持層に入力される。
各注目層に対して階層的自己保持工程と高分解能トークン選択工程を反復的に行う。
マルチモーダルベンチマークの実験では、FlexAttentionは既存の高解像度VLM(例えば、V* Benchでは比較的 ~9%、TextVQAでは ~7%)より優れており、計算コストを40%近く削減しています。
Current high-resolution vision-language models encode images as high-resolution image tokens and exhaustively take all these tokens to compute attention, which significantly increases the computational cost. To address this problem, we propose FlexAttention, a flexible attention mechanism for efficient high-resolution vision-language models. Specifically, a high-resolution image is encoded both as high-resolution tokens and low-resolution tokens, where only the low-resolution tokens and a few selected high-resolution tokens are utilized to calculate the attention map, which greatly shrinks the computational cost. The high-resolution tokens are selected via a high-resolution selection module which could retrieve tokens of relevant regions based on an input attention map. The selected high-resolution tokens are then concatenated to the low-resolution tokens and text tokens, and input to a hierarchical self-attention layer which produces an attention map that could be used for the next-step high-resolution token selection. The hierarchical self-attention process and high-resolution token selection process are performed iteratively for each attention layer. Experiments on multimodal benchmarks prove that our FlexAttention outperforms existing high-resolution VLMs (e.g., relatively ~9% in V* Bench, ~7% in TextVQA), while also significantly reducing the computational cost by nearly 40%. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# 3次元ファインチューニングによる2次元特徴表現の改善
Improving 2D Feature Representations by 3D-Aware Fine-Tuning ( http://arxiv.org/abs/2407.20229v1 ) ライセンス: Link先を確認 | Yuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen, | (参考訳) 現在の視覚基礎モデルは、純粋な構造化されていない2Dデータに基づいて訓練され、オブジェクトやシーンの3D構造に対する理解が制限される。
本研究では,3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
セマンティックな2次元特徴を効率的な3次元ガウス表現へと持ち上げる手法を設計し、任意のビューのためにそれらを再レンダリングする。
レンダリングされた3D認識機能を用いて、そのような3D認識を2D基礎モデルに伝達するための微調整戦略を設計する。
この方法で微調整されたモデルが,単純な線形探索によるセマンティックセグメンテーションと深さ推定において,ダウンストリームタスク性能を容易に向上する機能を実現することを実証した。
特に、単一の屋内データセットで微調整されているが、改善はさまざまな屋内データセットや外部データセットに転送可能である。
我々は,2次元基礎モデルのトレーニングにおいて,コミュニティが3次元意識を注入することを検討することを奨励することを期待している。
プロジェクトページ: https://ywyue.github.io/FiT3D。
Current visual foundation models are trained purely on unstructured 2D data, limiting their understanding of 3D structure of objects and scenes. In this work, we show that fine-tuning on 3D-aware data improves the quality of emerging semantic features. We design a method to lift semantic 2D features into an efficient 3D Gaussian representation, which allows us to re-render them for arbitrary views. Using the rendered 3D-aware features, we design a fine-tuning strategy to transfer such 3D awareness into a 2D foundation model. We demonstrate that models fine-tuned in that way produce features that readily improve downstream task performance in semantic segmentation and depth estimation through simple linear probing. Notably, though fined-tuned on a single indoor dataset, the improvement is transferable to a variety of indoor datasets and out-of-domain datasets. We hope our study encourages the community to consider injecting 3D awareness when training 2D foundation models. Project page: https://ywyue.github.io/FiT3D. | 翻訳日:2024-07-30 12:45:22 公開日:2024-07-29 |
# δ-XAI : 局所AI説明のための新しい感度に基づく手法
Introducing δ-XAI: a novel sensitivity-based method for local AI explanations ( http://arxiv.org/abs/2407.18343v2 ) ライセンス: Link先を確認 | Alessandro De Carlo, Enea Parimbelli, Nicola Melillo, Giovanna Nicora, | (参考訳) 説明可能な人工知能(XAI)は、人工知能(AI)と機械学習(ML)のアルゴリズムを臨床実践に統合する議論の中心である。
アンサンブル学習者やディープニューラルネットワークのようなハイパフォーマンスなAI/MLモデルは、解釈可能性に欠けることが多く、臨床医の予測に対する信頼を妨げている。
これを解決するために、AI/ML予測を人間の理解可能な言葉で記述するXAI技術が開発されている。
1つの有望な方向は、感度分析(SA)とグローバル感度分析(GSA)の適応であり、これは本質的にモデル入力が予測に与える影響によってランク付けされる。
本稿では,GSA測度であるデルタ指数を拡張することで,MLモデル予測の局所的な説明を提供する新しいデルタXAI手法を提案する。
デルタXAI指数は、回帰問題と分類問題の両方において、各特徴値が個々のインスタンスの予測出力に与える影響を評価する。
我々はデルタXAIインデックスを形式化し、その実装のためのコードを提供する。
デルタXAI法は線形回帰モデルを用いてシミュレーションシナリオで評価され,シェープリー値がベンチマークとして機能した。
その結果、デルタXAI指数は概してシャプリー値と一致しており、非常に影響の強い特徴値や極端な特徴値を持つモデルでは顕著な相違が見られた。
デルタXAI指数は支配的特徴の検出と極端な特徴値の扱いにおいて高い感度を示した。
デルタXAIは、確率密度関数を活用することで直感的な説明を提供し、特徴ランキングをより明確化し、実践者にとってより説明しやすいものにしている。
全体として、デルタXAI法は、MLモデル予測の局所的な説明をしっかりと得ることを約束しているようである。
実世界の臨床環境に関するさらなる調査は、AI支援臨床ワークフローへの影響を評価するために行われる。
Explainable Artificial Intelligence (XAI) is central to the debate on integrating Artificial Intelligence (AI) and Machine Learning (ML) algorithms into clinical practice. High-performing AI/ML models, such as ensemble learners and deep neural networks, often lack interpretability, hampering clinicians' trust in their predictions. To address this, XAI techniques are being developed to describe AI/ML predictions in human-understandable terms. One promising direction is the adaptation of sensitivity analysis (SA) and global sensitivity analysis (GSA), which inherently rank model inputs by their impact on predictions. Here, we introduce a novel delta-XAI method that provides local explanations of ML model predictions by extending the delta index, a GSA metric. The delta-XAI index assesses the impact of each feature's value on the predicted output for individual instances in both regression and classification problems. We formalize the delta-XAI index and provide code for its implementation. The delta-XAI method was evaluated on simulated scenarios using linear regression models, with Shapley values serving as a benchmark. Results showed that the delta-XAI index is generally consistent with Shapley values, with notable discrepancies in models with highly impactful or extreme feature values. The delta-XAI index demonstrated higher sensitivity in detecting dominant features and handling extreme feature values. Qualitatively, the delta-XAI provides intuitive explanations by leveraging probability density functions, making feature rankings clearer and more explainable for practitioners. Overall, the delta-XAI method appears promising for robustly obtaining local explanations of ML model predictions. Further investigations in real-world clinical settings will be conducted to evaluate its impact on AI-assisted clinical workflows. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# 物理インフォームド・コルモゴロフ・アルノルドニューラルネットワークによる有効KANとWAV-KANによる動的解析
Physics Informed Kolmogorov-Arnold Neural Networks for Dynamical Analysis via Efficent-KAN and WAV-KAN ( http://arxiv.org/abs/2407.18373v2 ) ライセンス: Link先を確認 | Subhajit Patra, Sonali Panda, Bikram Keshari Parida, Mahima Arya, Kurt Jacobs, Denys I. Bondar, Abhijit Sen, | (参考訳) 物理インフォームドニューラルネットワークは、微分方程式を解くための強力なツールであることが証明されており、物理の原理を利用して学習過程を知らせている。
しかし、従来のディープニューラルネットワークは、大きな計算コストを伴わずに高い精度を達成することの難しさに直面することが多い。
本研究では,KANとWAV-KANを併用した物理インフォームド・コルモゴロフ・アルノルドニューラルネットワーク(PIKAN)を実装した。
PIKANは従来のディープニューラルネットワークよりも優れた性能を示し、少ないレイヤで同じレベルの精度を実現し、計算オーバーヘッドを低減している。
PIKANのB-スプラインとウェーブレットに基づく実装について検討し、教師なし(データフリー)および教師なし(データ駆動)技術を用いて、様々な常微分方程式と偏微分方程式をベンチマークする。
ある種の微分方程式では、データフリーなアプローチは正確な解を見つけるのに十分であるが、より複雑なシナリオでは、データ駆動法はPIKANの正しい解に収束する能力を高める。
計算結果を数値解に対して検証し、ほとんどのシナリオで99$%の精度が得られる。
Physics-informed neural networks have proven to be a powerful tool for solving differential equations, leveraging the principles of physics to inform the learning process. However, traditional deep neural networks often face challenges in achieving high accuracy without incurring significant computational costs. In this work, we implement the Physics-Informed Kolmogorov-Arnold Neural Networks (PIKAN) through efficient-KAN and WAV-KAN, which utilize the Kolmogorov-Arnold representation theorem. PIKAN demonstrates superior performance compared to conventional deep neural networks, achieving the same level of accuracy with fewer layers and reduced computational overhead. We explore both B-spline and wavelet-based implementations of PIKAN and benchmark their performance across various ordinary and partial differential equations using unsupervised (data-free) and supervised (data-driven) techniques. For certain differential equations, the data-free approach suffices to find accurate solutions, while in more complex scenarios, the data-driven method enhances the PIKAN's ability to converge to the correct solution. We validate our results against numerical solutions and achieve $99 \%$ accuracy in most scenarios. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# 局所顔属性の正確な編集のための参照型3次元セマンティック・アウェア・フレームワーク
A Reference-Based 3D Semantic-Aware Framework for Accurate Local Facial Attribute Editing ( http://arxiv.org/abs/2407.18392v2 ) ライセンス: Link先を確認 | Yu-Kai Huang, Yutong Zheng, Yen-Shuo Su, Anudeepsekhar Bolimera, Han Zhang, Fangyi Chen, Marios Savvides, | (参考訳) 顔属性の編集は、現実的な外観を維持しながら、特定の特徴を持つ現実的な顔の合成において重要な役割を担っている。
進歩にもかかわらず、難易度は、異なる角度からの顔の一貫性と正確な表現に不可欠である3D対応属性修正の達成に継続する。
現在の手法は意味的絡み合いに苦慮し、画像の整合性を維持しながら属性を組み込む効果的なガイダンスが欠如している。
これらの課題に対処するために、潜伏型および参照型編集手法の長所をマージする新しいフレームワークを導入する。
提案手法では,参照画像からの属性を3次元の平面空間に埋め込み,複数の視点から3次元の一貫性とリアルな視界を確保する。
我々はブレンディング技術とセマンティックマスクを用いて正確な編集領域を特定し、参照画像からのコンテキストガイダンスと組み合わせる。
粗大で微細な塗装戦略が適用され、未ターゲット領域の整合性を保ち、リアリズムを著しく向上させる。
本評価は,多種多様な編集作業において優れた性能を示し,現実的かつ適用可能な顔属性編集におけるフレームワークの有効性を検証した。
Facial attribute editing plays a crucial role in synthesizing realistic faces with specific characteristics while maintaining realistic appearances. Despite advancements, challenges persist in achieving precise, 3D-aware attribute modifications, which are crucial for consistent and accurate representations of faces from different angles. Current methods struggle with semantic entanglement and lack effective guidance for incorporating attributes while maintaining image integrity. To address these issues, we introduce a novel framework that merges the strengths of latent-based and reference-based editing methods. Our approach employs a 3D GAN inversion technique to embed attributes from the reference image into a tri-plane space, ensuring 3D consistency and realistic viewing from multiple perspectives. We utilize blending techniques and predicted semantic masks to locate precise edit regions, merging them with the contextual guidance from the reference image. A coarse-to-fine inpainting strategy is then applied to preserve the integrity of untargeted areas, significantly enhancing realism. Our evaluations demonstrate superior performance across diverse editing tasks, validating our framework's effectiveness in realistic and applicable facial attribute editing. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# PersonaGym: ペルソナエージェントとLLMの評価
PersonaGym: Evaluating Persona Agents and LLMs ( http://arxiv.org/abs/2407.18416v2 ) ライセンス: Link先を確認 | Vinay Samuel, Henry Peng Zou, Yue Zhou, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Ameet Deshpande, Karthik Narasimhan, Vishvak Murahari, | (参考訳) 与えられたペルソナに従って行動するLLMエージェントであるペルソナエージェントは、様々なアプリケーションにまたがる印象的な文脈応答能力を実証している。
これらのペルソナエージェントは、教育、医療、エンターテイメントといった多様な分野にまたがって大幅に拡張され、モデル開発者はエージェントの応答を異なるユーザー要求に合わせることができ、エージェントアプリケーションの範囲を広げることができる。
しかし,各ペルソナエージェントに関連する様々な環境におけるフリーフォームインタラクションにおけるペルソナ付着性の評価が複雑化しているため,ペルソナエージェントの性能評価は極めて困難である。
本稿では,ペルソナエージェントを評価するための第1の動的評価フレームワークであるPersonaGymと,ペルソナエージェントの大規模評価を総合的に行うための意思決定理論を基盤とした最初の自動ヒトアライメント尺度であるPersonaScoreを紹介する。
200のペルソナと10,000の質問を含むベンチマークを用いて、6つのオープンでクローズドなLCMの評価を行い、現状のモデルにまたがるペルソナエージェントの能力向上の可能性を明らかにした。
例えば、Claude 3.5 Sonnet は GPT 3.5 よりも2.97%しか改善していないが、より高度なモデルである。
重要なことは、モデルサイズと複雑さの増加が必ずしもペルソナエージェントの能力の向上を示唆するものではないことであり、それによってアルゴリズム的かつアーキテクチャ的発明が忠実でパフォーマンスの高いペルソナエージェントに迫る必要性が強調される。
Persona agents, which are LLM agents that act according to an assigned persona, have demonstrated impressive contextual response capabilities across various applications. These persona agents offer significant enhancements across diverse sectors, such as education, healthcare, and entertainment, where model developers can align agent responses to different user requirements thereby broadening the scope of agent applications. However, evaluating persona agent performance is incredibly challenging due to the complexity of assessing persona adherence in free-form interactions across various environments that are relevant to each persona agent. We introduce PersonaGym, the first dynamic evaluation framework for assessing persona agents, and PersonaScore, the first automated human-aligned metric grounded in decision theory for comprehensive large-scale evaluation of persona agents. Our evaluation of 6 open and closed-source LLMs, using a benchmark encompassing 200 personas and 10,000 questions, reveals significant opportunities for advancement in persona agent capabilities across state-of-the-art models. For example, Claude 3.5 Sonnet only has a 2.97% relative improvement in PersonaScore than GPT 3.5 despite being a much more advanced model. Importantly, we find that increased model size and complexity do not necessarily imply enhanced persona agent capabilities thereby highlighting the pressing need for algorithmic and architectural invention towards faithful and performant persona agents. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# 立体差分に基づく眼科相談における役割特化指導型大言語モデル
A Role-specific Guided Large Language Model for Ophthalmic Consultation Based on Stylistic Differentiation ( http://arxiv.org/abs/2407.18483v2 ) ライセンス: Link先を確認 | Laiyi Fu, Binbin Fan, Hongkai Du, Yanxiang Feng, Chunhua Li, Huping Song, | (参考訳) 眼科相談は、眼疾患の診断、治療、予防に不可欠である。
しかし、コンサルテーションの需要は眼科医以上のものになっている。
事前訓練された大規模な言語モデルを活用することで、特定のシナリオに対する効果的な対話を設計し、相談を支援することができる。
従来の質問応答タスクの微調整戦略は、モデルのサイズが大きくなることと、コンサルテーション中に患者・医師の役割を無視することがしばしばあるため、現実的ではない。
本稿では,医師の役割認識をガイドした眼科医療問合せ大言語モデルであるEyeDoctorと,外部疾患情報を用いた知識ベースを提案する。
眼科相談においてEyeDoctorはより高い質問応答精度を達成できることを示す実験結果を得た。
特に、EyeDoctorは第2のベストモデルであるChatGPTと比較してルージュ-1スコアが7.25%改善し、F1スコアが10.16%改善した。
EyeDocは無料のWebベースサービスとしても機能し、souceコードはhttps://github.com/sperfu/EyeDoc.comで入手できる。
Ophthalmology consultations are crucial for diagnosing, treating, and preventing eye diseases. However, the growing demand for consultations exceeds the availability of ophthalmologists. By leveraging large pre-trained language models, we can design effective dialogues for specific scenarios, aiding in consultations. Traditional fine-tuning strategies for question-answering tasks are impractical due to increasing model size and often ignoring patient-doctor role function during consultations. In this paper, we propose EyeDoctor, an ophthalmic medical questioning large language model that enhances accuracy through doctor-patient role perception guided and an augmented knowledge base with external disease information. Experimental results show EyeDoctor achieves higher question-answering precision in ophthalmology consultations. Notably, EyeDoctor demonstrated a 7.25% improvement in Rouge-1 scores and a 10.16% improvement in F1 scores on multi-round datasets compared to second best model ChatGPT, highlighting the importance of doctor-patient role differentiation and dynamic knowledge base expansion for intelligent medical consultations. EyeDoc also serves as a free available web based service and souce code is available at https://github.com/sperfu/EyeDoc. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# 困難誘導型特徴拡張ネットワークを用いたマルチエージェント軌道予測
Multi-Agent Trajectory Prediction with Difficulty-Guided Feature Enhancement Network ( http://arxiv.org/abs/2407.18551v2 ) ライセンス: Link先を確認 | Guipeng Xin, Duanfeng Chu, Liping Lu, Zejian Deng, Yuang Lu, Xigang Wu, | (参考訳) 軌道予測は、交通参加者の将来の動きを予測することを目的として、自動運転に不可欠である。
従来の手法は通常、エージェントの軌道に関する全体論的推論を行い、エージェント間の予測困難の違いを無視する。
本稿では,エージェント間の予測難易度差を利用したDGFNet(Difficulty-Guided Feature Enhancement Network)を提案する。
まず,時空間的特徴を抽出するために時空間的特徴符号化と相互作用を用いる。
第二に、後続のモジュールへの将来の軌道の流れを制御し、信頼性の高い将来の軌道を得るために、困難誘導デコーダが使用される。
そして、将来の機能相互作用モジュールを介して機能相互作用と融合を行う。
最後に、融合剤の特徴を最終予測器に供給し、複数の参加者に対して予測された軌道分布を生成する。
実験の結果,我々のDGFNetはArgoverse 1\&2運動予測ベンチマークで最先端の性能を達成できた。
アブレーション研究は各モジュールの有効性をさらに検証する。
さらに,SOTA法と比較して,軌道予測精度とリアルタイム推論速度のバランスをとる。
Trajectory prediction is crucial for autonomous driving as it aims to forecast the future movements of traffic participants. Traditional methods usually perform holistic inference on the trajectories of agents, neglecting the differences in prediction difficulty among agents. This paper proposes a novel Difficulty-Guided Feature Enhancement Network (DGFNet), which leverages the prediction difficulty differences among agents for multi-agent trajectory prediction. Firstly, we employ spatio-temporal feature encoding and interaction to capture rich spatio-temporal features. Secondly, a difficulty-guided decoder is used to control the flow of future trajectories into subsequent modules, obtaining reliable future trajectories. Then, feature interaction and fusion are performed through the future feature interaction module. Finally, the fused agent features are fed into the final predictor to generate the predicted trajectory distributions for multiple participants. Experimental results demonstrate that our DGFNet achieves state-of-the-art performance on the Argoverse 1\&2 motion forecasting benchmarks. Ablation studies further validate the effectiveness of each module. Moreover, compared with SOTA methods, our method balances trajectory prediction accuracy and real-time inference speed. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# ドメイン一般化セマンティックセグメンテーションのためのスペクトル分解トークンの学習
Learning Spectral-Decomposed Tokens for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2407.18568v2 ) ライセンス: Link先を確認 | Jingjun Yi, Qi Bi, Hao Zheng, Haolan Zhan, Wei Ji, Yawen Huang, Yuexiang Li, Yefeng Zheng, | (参考訳) ビジョン・ファンデーション・モデル(VFM)の急速な開発は、様々な下流タスクに固有の外部領域の一般化をもたらす。
中でもドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)は、クロスドメイン画像が共通のピクセル単位のコンテンツ情報を共有するが、スタイルの点で大きく異なるため、ユニークな課題を抱えている。
本稿では、フロンティアを前進させるための新しいスペクトル-dEcomposed Token(SET)学習フレームワークを提案する。
既存の微調整トークンやフリーズバックボーンのパラダイムを超えて、提案されたSETは特に、これらの学習可能なトークンからスタイル不変の機能を学ぶ方法に焦点を当てている。
特に、凍結されたVFM特徴は、まず、主に内容情報とスタイルの情報を含む周波数空間の位相成分と振幅成分に分解され、次いでタスク固有の情報抽出のための学習可能なトークンによって別々に処理される。
分解後、スタイルの変化は、主に振幅分岐内のトークンベースの特徴強化に影響を与える。
この問題に対処するため、我々は、推論中にスタイル影響表現と静的トークンのギャップを埋めるための注意最適化手法をさらに開発する。
広範囲にわたるクロスドメイン実験は、最先端のパフォーマンスを示している。
The rapid development of Vision Foundation Model (VFM) brings inherent out-domain generalization for a variety of down-stream tasks. Among them, domain generalized semantic segmentation (DGSS) holds unique challenges as the cross-domain images share common pixel-wise content information but vary greatly in terms of the style. In this paper, we present a novel Spectral-dEcomposed Token (SET) learning framework to advance the frontier. Delving into further than existing fine-tuning token & frozen backbone paradigm, the proposed SET especially focuses on the way learning style-invariant features from these learnable tokens. Particularly, the frozen VFM features are first decomposed into the phase and amplitude components in the frequency space, which mainly contain the information of content and style, respectively, and then separately processed by learnable tokens for task-specific information extraction. After the decomposition, style variation primarily impacts the token-based feature enhancement within the amplitude branch. To address this issue, we further develop an attention optimization method to bridge the gap between style-affected representation and static tokens during inference. Extensive cross-domain experiments show its state-of-the-art performance. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# 音声帯域幅拡大と高忠実性生成対向ネットワーク
Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks ( http://arxiv.org/abs/2407.18571v2 ) ライセンス: Link先を確認 | Mahmoud Salhab, Haidar Harmanani, | (参考訳) 音声帯域拡張は低帯域音声信号の周波数範囲の拡大に不可欠であり,デジタルアプリケーションにおける音質,明瞭度,知覚性の向上に寄与する。
その用途は電話、圧縮、音声合成、音声認識に及んでいる。
本稿では,高忠実性生成対向ネットワークを用いた新しい手法を提案する。
提案手法は,様々な帯域幅のアップサンプリング比を,音声帯域幅拡張アプリケーションに特化して設計された単一統一モデルに統合する。
本手法は、訓練中に遭遇しないものやゼロショット機能など、様々な帯域拡大要因に対して頑健な性能を示す。
私たちの知る限りでは、この機能を披露するのはこれが初めてです。
実験の結果,提案手法は補間や従来の手法と同様に従来のエンドツーエンド手法よりも優れており,実用的な音声強調手法としての有効性が示された。
Speech bandwidth expansion is crucial for expanding the frequency range of low-bandwidth speech signals, thereby improving audio quality, clarity and perceptibility in digital applications. Its applications span telephony, compression, text-to-speech synthesis, and speech recognition. This paper presents a novel approach using a high-fidelity generative adversarial network, unlike cascaded systems, our system is trained end-to-end on paired narrowband and wideband speech signals. Our method integrates various bandwidth upsampling ratios into a single unified model specifically designed for speech bandwidth expansion applications. Our approach exhibits robust performance across various bandwidth expansion factors, including those not encountered during training, demonstrating zero-shot capability. To the best of our knowledge, this is the first work to showcase this capability. The experimental results demonstrate that our method outperforms previous end-to-end approaches, as well as interpolation and traditional techniques, showcasing its effectiveness in practical speech enhancement applications. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# 非視線イメージングのための開口ファサーフィールドの学習
Learning to Enhance Aperture Phasor Field for Non-Line-of-Sight Imaging ( http://arxiv.org/abs/2407.18574v2 ) ライセンス: Link先を確認 | In Cho, Hyunbo Shim, Seon Joo Kim, | (参考訳) 本研究の目的は,サンプリングやスキャンエリアの数を削減し,より実用的なNLOSイメージングを実現することである。
この目的のために,ノイズのある部分的な観測からクリーンで完全な測定を予測できるファサーベースエンハンスメントネットワークを導入する。
本研究では,デノナイズドオートエンコーダ方式を利用して,測定空間におけるリッチでノイズの多い表現を得る。
このパイプラインを通じて、我々の拡張ネットワークは、破損した部分的な測定から完全な測定を正確に再構築するように訓練されている。
しかし,デノナイジング法では,不必要な周波数信号や急激な周波数信号が原因で,劣化や過度なスムース化が生じることが多い。
この問題に対処するため,ネットワークのスペクトルを周波数範囲に制限するファサーベースパイプラインを導入し,ほとんどの情報信号が検出される。
帯域制限信号である開口部のファサー波面は,ネットワークの入力および出力として利用され,その周波数範囲からネットワークを誘導し,不要な情報を捨てる。
より実用的な買収シナリオの実験結果からは、16ドル(約1,600円)または64ドル(約6,800円)のサンプルと4ドル(約4,800円)の小さな開口部で見回せることが示されています。
私たちのコードはhttps://github.com/join16/LEAP.comで公開されています。
This paper aims to facilitate more practical NLOS imaging by reducing the number of samplings and scan areas. To this end, we introduce a phasor-based enhancement network that is capable of predicting clean and full measurements from noisy partial observations. We leverage a denoising autoencoder scheme to acquire rich and noise-robust representations in the measurement space. Through this pipeline, our enhancement network is trained to accurately reconstruct complete measurements from their corrupted and partial counterparts. However, we observe that the \naive application of denoising often yields degraded and over-smoothed results, caused by unnecessary and spurious frequency signals present in measurements. To address this issue, we introduce a phasor-based pipeline designed to limit the spectrum of our network to the frequency range of interests, where the majority of informative signals are detected. The phasor wavefronts at the aperture, which are band-limited signals, are employed as inputs and outputs of the network, guiding our network to learn from the frequency range of interests and discard unnecessary information. The experimental results in more practical acquisition scenarios demonstrate that we can look around the corners with $16\times$ or $64\times$ fewer samplings and $4\times$ smaller apertures. Our code is available at https://github.com/join16/LEAP. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# 心疾患予測エキスパートシステムの設計に向けたデータバランシングアプローチ
A data balancing approach towards design of an expert system for Heart Disease Prediction ( http://arxiv.org/abs/2407.18606v2 ) ライセンス: Link先を確認 | Rahul Karmakar, Udita Ghosh, Arpita Pal, Sattwiki Dey, Debraj Malik, Priyabrata Sain, | (参考訳) 心臓病は深刻な世界的な健康問題で、毎年何百万人もの命がかかっています。
早期発見と正確な予測は、心疾患の予防と治療の成功に不可欠である。
多くの研究は、機械学習(ML)モデルを用いて心臓疾患を予測し、早期発見を得る。
心臓病の健康指標」データセットの予測分析を行う。
本稿では,決定木(DT),ランダムフォレスト(RF),線形判別分析,木外分類器,AdaBoostの5つの機械学習手法を用いた。
さらに,様々な特徴選択(FS)技術を用いて検討した。
ベースラインモデルを強化するために,Sequential Forward FS,Sequential Backward FS,Relation Matrix,Chi2の4つのFS手法を別々に適用した。
最後に、K は SMOTE オーバーサンプリングをモデルに適用し、さらなる分析を可能にすることを意味する。
その結果、心疾患の予測に際し、特にアンサンブルアプローチでは、個々の分類器よりもランダムな森林の方が優れた結果が得られた。
喫煙,血圧,コレステロール,身体的不活性の存在が主要な予測因子の1つであった。
ランダムフォレストと決定木モデルの精度は99.83%だった。
本稿では,特にアンサンブル法を用いて,機械学習モデルが心疾患予測の精度を向上させる方法を示す。
モデルは、多数の要因と複雑なアルゴリズムを組み込んでいるため、従来の方法よりも正確なリスク評価を提供する。
Heart disease is a serious global health issue that claims millions of lives every year. Early detection and precise prediction are critical to the prevention and successful treatment of heart related issues. A lot of research utilizes machine learning (ML) models to forecast cardiac disease and obtain early detection. In order to do predictive analysis on "Heart disease health indicators " dataset. We employed five machine learning methods in this paper: Decision Tree (DT), Random Forest (RF), Linear Discriminant Analysis, Extra Tree Classifier, and AdaBoost. The model is further examined using various feature selection (FS) techniques. To enhance the baseline model, we have separately applied four FS techniques: Sequential Forward FS, Sequential Backward FS, Correlation Matrix, and Chi2. Lastly, K means SMOTE oversampling is applied to the models to enable additional analysis. The findings show that when it came to predicting heart disease, ensemble approaches in particular, random forests performed better than individual classifiers. The presence of smoking, blood pressure, cholesterol, and physical inactivity were among the major predictors that were found. The accuracy of the Random Forest and Decision Tree model was 99.83%. This paper demonstrates how machine learning models can improve the accuracy of heart disease prediction, especially when using ensemble methodologies. The models provide a more accurate risk assessment than traditional methods since they incorporate a large number of factors and complex algorithms. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# プロンプトとしての知識グラフ構造:知識に基づく因果発見のための小言語モデルの改善
Knowledge Graph Structure as Prompt: Improving Small Language Models Capabilities for Knowledge-based Causal Discovery ( http://arxiv.org/abs/2407.18752v2 ) ライセンス: Link先を確認 | Yuni Susanti, Michael Färber, | (参考訳) 因果発見は、観測データに基づいて変数間の因果構造を推定することを目的としている。
大規模言語モデル(LLM)は、実際のデータ値ではなく変数に関連するメタデータを推論することで、因果発見問題に取り組むための新たな視点を提供する。
本稿では,10億以上のパラメータを持つLLMとして定義されているSmall Language Models(SLM)の機能と,知識に基づく因果探索のための素早い学習について検討する。
具体的には,共通ノードやメタパスなどの知識グラフから構造情報を統合する新しい手法であるKG Structure as Promptを,SLMの能力を高めるための即時学習に導入する。
バイオメディカルおよびオープンドメインの3種類のデータセットを数ショット設定で実験した結果、我々のアプローチの有効性が示され、ほとんどのベースラインを超え、さらにはフルデータセットで訓練された従来の微調整アプローチさえも上回っている。
SLMは知識グラフとプロンプトベースの学習と組み合わせて、より多くのパラメータを持つLSMを超える可能性を示す。
コードとデータセットはGitHubで入手可能です。
Causal discovery aims to estimate causal structures among variables based on observational data. Large Language Models (LLMs) offer a fresh perspective to tackle the causal discovery problem by reasoning on the metadata associated with variables rather than their actual data values, an approach referred to as knowledge-based causal discovery. In this paper, we investigate the capabilities of Small Language Models (SLMs, defined as LLMs with fewer than 1 billion parameters) with prompt-based learning for knowledge-based causal discovery. Specifically, we present KG Structure as Prompt, a novel approach for integrating structural information from a knowledge graph, such as common neighbor nodes and metapaths, into prompt-based learning to enhance the capabilities of SLMs. Experimental results on three types of biomedical and open-domain datasets under few-shot settings demonstrate the effectiveness of our approach, surpassing most baselines and even conventional fine-tuning approaches trained on full datasets. Our findings further highlight the strong capabilities of SLMs: in combination with knowledge graphs and prompt-based learning, SLMs demonstrate the potential to surpass LLMs with larger number of parameters. Our code and datasets are available on GitHub. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# 医用画像におけるショートカット学習防止のためのベンチマーク依存性対策
Benchmarking Dependence Measures to Prevent Shortcut Learning in Medical Imaging ( http://arxiv.org/abs/2407.18792v2 ) ライセンス: Link先を確認 | Sarah Müller, Louisa Fay, Lisa M. Koch, Sergios Gatidis, Thomas Küstner, Philipp Berens, | (参考訳) 医療画像コホートは、取得装置、病院の現場、患者背景など多くの要因によって構築されることが多い。
その結果、深層学習モデルは因果関係のある特徴ではなく急激な相関を学習する傾向があり、その一般化性は新鮮で見当たらないデータに制限される。
この問題はタスク関連変数と非タスク関連変数の中間表現間の依存度を最小化することで解決できる。
これらの尺度には、相互情報、距離相関、および逆分類器の性能が含まれる。
本稿では,ショートカット学習の防止のために,そのような依存度をベンチマークする。
Morpho-MNISTを用いた簡易な設定法とCheXpert胸部X線写真を用いた医用画像撮影法について検討した。
以上の結果から,医用画像におけるコンバウンディング要因の緩和に関する知見が得られた。
Medical imaging cohorts are often confounded by factors such as acquisition devices, hospital sites, patient backgrounds, and many more. As a result, deep learning models tend to learn spurious correlations instead of causally related features, limiting their generalizability to new and unseen data. This problem can be addressed by minimizing dependence measures between intermediate representations of task-related and non-task-related variables. These measures include mutual information, distance correlation, and the performance of adversarial classifiers. Here, we benchmark such dependence measures for the task of preventing shortcut learning. We study a simplified setting using Morpho-MNIST and a medical imaging task with CheXpert chest radiographs. Our results provide insights into how to mitigate confounding factors in medical imaging. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |
# トレーニング中にグラフの畳み込みは本当に必要か?
Do We Really Need Graph Convolution During Training? Light Post-Training Graph-ODE for Efficient Recommendation ( http://arxiv.org/abs/2407.18910v2 ) ライセンス: Link先を確認 | Weizhi Zhang, Liangwei Yang, Zihe Song, Henry Peng Zou, Ke Xu, Liancheng Fang, Philip S. Yu, | (参考訳) トレーニングレコメンデータシステム(RecSys)におけるグラフ畳み込みネットワーク(GCN)の効率性とスケーラビリティは、現実のアプリケーションへの展開を妨げている。
本稿では,学習段階におけるグラフ畳み込みの必要性を批判的に検証し,ライトポストトレーニンググラフ正規分方程式(LightGODE)という革新的な方法を提案する。
調査の結果,GCNの利点はトレーニングよりもテスト中に顕著であることが判明した。
そこでLightGODEは,GCNの計算集約的なメッセージパッシングを回避し,非パラメトリック連続グラフ常微分方程式(ODE)を用いてノード表現を動的にモデル化する,新しい学習後グラフ畳み込み手法を開発した。
このアプローチは、学習後の詳細なグラフ畳み込みを達成しつつ、元のトレーニング埋め込み空間の歪みを回避しながら、トレーニング時間を劇的に短縮する。
我々は、異なるスケールの複数の実世界のデータセットにまたがってモデルを検証し、LightGODEがGCNベースのモデルよりも効率と効率の点で優れているだけでなく、より深いグラフ畳み込み層に関連付けられた埋め込み不一致を著しく軽減することを示した。
我々のLightGODEは、RecSysトレーニングにおける一般的なパラダイムに挑戦し、グラフ畳み込みの役割を再評価し、効率的な大規模グラフベースのRecSysの開発を導く可能性を示唆しています。
The efficiency and scalability of graph convolution networks (GCNs) in training recommender systems (RecSys) have been persistent concerns, hindering their deployment in real-world applications. This paper presents a critical examination of the necessity of graph convolutions during the training phase and introduces an innovative alternative: the Light Post-Training Graph Ordinary-Differential-Equation (LightGODE). Our investigation reveals that the benefits of GCNs are more pronounced during testing rather than training. Motivated by this, LightGODE utilizes a novel post-training graph convolution method that bypasses the computation-intensive message passing of GCNs and employs a non-parametric continuous graph ordinary-differential-equation (ODE) to dynamically model node representations. This approach drastically reduces training time while achieving fine-grained post-training graph convolution to avoid the distortion of the original training embedding space, termed the embedding discrepancy issue. We validate our model across several real-world datasets of different scales, demonstrating that LightGODE not only outperforms GCN-based models in terms of efficiency and effectiveness but also significantly mitigates the embedding discrepancy commonly associated with deeper graph convolution layers. Our LightGODE challenges the prevailing paradigms in RecSys training and suggests re-evaluating the role of graph convolutions, potentially guiding future developments of efficient large-scale graph-based RecSys. | 翻訳日:2024-07-30 12:35:35 公開日:2024-07-29 |