このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240518となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 超Pixelのサンプルモデルステアリング
Fully Exploiting Every Real Sample: SuperPixel Sample Gradient Model Stealing ( http://arxiv.org/abs/2406.18540v1 ) ライセンス: Link先を確認 | Yunlong Zhao, Xiaoheng Deng, Yijing Liu, Xinjun Pei, Jiazhi Xia, Wei Chen, | (参考訳) モデルステルス(MS)は、機械学習モデルの出力をクエリして観察することで、その能力を盗む。
クエリデータの品質は非常に重要ですが、MSのための大量の実データを取得することは、しばしば困難です。
近年の研究では、生成モデルを用いることで、実際のデータへの依存を減らしている。
しかし,高次元クエリデータが必要な場合,クエリのコストが高く,モデル崩壊のリスクがあるため,これらの手法は実用的ではない。
本研究では,SGが被害者モデルの決定境界について重要なガイダンスを提供するため,サンプル勾配(SG)を用いて実サンプルの有用性を高めることを提案する。
しかし、モデルステルスシナリオにおけるSGの利用には、以下の2つの課題がある。
1. 画素レベルの勾配推定には、広範囲なクエリボリュームが必要で、ディフェンスの影響を受けやすい。
2) 試料勾配の推定には大きなばらつきがある。
本稿では,限られた実サンプルの制約下でのモデルステイリングのためのSuperpixel Sample Gradient stealing (SPSG)を提案する。
SPSGは、ピクセルレベルの勾配ではなく、被害者モデルの低分散パッチレベルの勾配を模倣するという基本的な考え方により、2つのステップで効率的なサンプル勾配推定を実現する。
まず,問合せ画像のパッチワイド摂動を行い,各領域の平均勾配を推定する。
次に、勾配をしきい値戦略でフィルタリングし、分散を低減する。
実験により、SPSGは実サンプルの数と同じで、現在の最先端のMS法をはるかに上回る精度、合意、および対角的な成功率を達成することが示された。
コードはhttps://github.com/zyl123456aB/SPSG_ attackで公開されている。
Model stealing (MS) involves querying and observing the output of a machine learning model to steal its capabilities. The quality of queried data is crucial, yet obtaining a large amount of real data for MS is often challenging. Recent works have reduced reliance on real data by using generative models. However, when high-dimensional query data is required, these methods are impractical due to the high costs of querying and the risk of model collapse. In this work, we propose using sample gradients (SG) to enhance the utility of each real sample, as SG provides crucial guidance on the decision boundaries of the victim model. However, utilizing SG in the model stealing scenario faces two challenges: 1. Pixel-level gradient estimation requires extensive query volume and is susceptible to defenses. 2. The estimation of sample gradients has a significant variance. This paper proposes Superpixel Sample Gradient stealing (SPSG) for model stealing under the constraint of limited real samples. With the basic idea of imitating the victim model's low-variance patch-level gradients instead of pixel-level gradients, SPSG achieves efficient sample gradient estimation through two steps. First, we perform patch-wise perturbations on query images to estimate the average gradient in different regions of the image. Then, we filter the gradients through a threshold strategy to reduce variance. Exhaustive experiments demonstrate that, with the same number of real samples, SPSG achieves accuracy, agreements, and adversarial success rate significantly surpassing the current state-of-the-art MS methods. Codes are available at https://github.com/zyl123456aB/SPSG_attack. | 翻訳日:2024-07-01 06:12:00 公開日:2024-05-18 |
# 位相構造に基づく量子消去
Quantum erasure based on phase structure ( http://arxiv.org/abs/2406.04358v1 ) ライセンス: Link先を確認 | Ye Yang, Chengyuan Wang, Yun Chen, Jianyi Xv, Xin Yang, Jinwen Wang, Shuwei Qiu, Hong Gao, Fuli Li, | (参考訳) 量子消去効果は、古典的な直観に挑戦し、光の波動-粒子双対性を露出する量子力学の異なる性質を例証する。
この効果は様々な実験で広く研究されているが、これらの研究の多くは偏光を利用してどの経路情報を識別し、光子の波面である位相構造に注意が払われていない。
本研究では, 位相構造に着目し, 実験的にそれを実証する量子消去理論フレームワークを提案する。
この実験では、MZI(Mach-Zehnder Interferometer)を用いて、1次スパイラルフェーズプレート(SPP)を腕の1つに統合する。
このセットアップでは、光子に軌道角運動量(OAM)を適用し、所定の一方の情報を確立した。
その結果、光子はその粒子特性を示し、MZIの出力ポートでの干渉がない。
出力光子から位相構造を消去するために追加のSPPを用いることで、測定後のシナリオで観測可能な、明らかな干渉パターンが得られる。
この結果により、量子消去において光場の同相平面の構造情報を含めることができる。
この結果は、SPPのその後の選択が空間的な分離に従うことを考えると、古典物理学における伝統的な因果関係に挑戦する。
The quantum eraser effect exemplifies the distinct properties of quantum mechanics that challenge classical intuition and expose the wave-particle duality of light. This effect has been extensively explored in various experiments; most of these investigations use polarisation to distinguish which path information, and less attention has been paid to the phase structure which is related wavefront of photon. In this study, we introduce a theoretical framework for quantum erasure that focusses on the phase structure and demonstrate it experimentally. In this experiment, we employ a Mach-Zehnder interferometer (MZI) where a first-order spiral phase plate (SPP) is integrated into one of its arms. This setup applied orbital angular momentum (OAM) to the photons and established predetermined which-way information. Consequently, the photon demonstrates its particle characteristics, with absence of interference at the MZI's output ports. Utilizing an additional SPP to erase the phase structure from the output photon results in pronounced interference patterns, observable in a post-measurement scenario. This result allows us to include the structure information of the equiphase plane of the light field in quantum erasure. The results challenge the traditional cause-effect relationship in classical physics, given that the subsequent choice of the SPP adheres to a space-like separation. | 翻訳日:2024-06-23 14:05:12 公開日:2024-05-18 |
# マルチセンサ侵入検知システム
Multi-sensor Intrusion Detection System ( http://arxiv.org/abs/2406.05137v1 ) ライセンス: Link先を確認 | Victor Arinde, Liberty Idowu, | (参考訳) 外部の脅威に対する保護として定義されたセキュリティは、家やオフィスにとって重要な関心事である。
不正アクセスを特徴とする侵入は、セキュリティを維持する上で大きな課題となる。
本研究の目的は,センサと通信技術を組み合わせた自動侵入検知システムの設計と実装である。
この研究は、家やオフィスの自動侵入検知システムを導入し、不正な動作を検出するPIRセンサー、不正な侵入検知のための磁気スイッチ、不動産所有者に通知するGSMモジュールなどのセンサーを組み合わせた。
ATmega328Pマイクロコントローラを利用することで、センサーデータを分析して早期侵入警告を生成し、GSMモジュール経由での通話通知を誘導する。
実践的な実装には、パンボード、はんだ付け、厳密なテストが含まれ、現実世界の条件下で適切な機能を保証する。
実装された侵入検知システムは、磁気スイッチとパッシブ赤外線(PIR)センサを有効利用して、構内における不正な侵入と動きを検出する。
検知すると、システムは直ちに状況を分析し、電話で所有者に警告し、迅速な応答対策を可能にする。
このリアルタイム通知システムは、積極的なセキュリティ管理を強化し、さらなる侵入のリスクを最小化し、資産の安全性を確保する。
PIRセンサ、磁気スイッチ、GSMベースの電話ゲートウェイを組み込んだマルチセンサ侵入検知システムにより、不動産所有者にリアルタイムに無許可侵入を警告する。
厳格なテストによってその効果を実証し、住宅と商業の両方の環境に対するセキュリティを強化する。
Security, defined as protection against external threats, is a critical concern for homes and offices. Intrusion, characterized by unauthorized access, presents a significant challenge to maintaining security. This research aims to address this issue by designing and implementing an automated intrusion detection system utilizing a combination of sensors and communication technologies. The research introduced an automated intrusion detection system for homes and offices, combining sensors such as a PIR sensor for detecting unauthorized motion, magnetic switches for unauthorized entry detection, and a GSM module for notifying property owners. Employing the ATmega328P microcontroller, sensor data is analysed to generate early intrusion alerts, prompting phone call notifications via the GSM module. Practical implementation involved breadboarding, soldering, and rigorous testing, ensuring proper functionality under real-world conditions. The implemented intrusion detection system effectively utilizes magnetic switches and a Passive Infrared (PIR) sensor to detect unauthorized entry and motion within the premises, respectively. Upon detection, the system promptly analyses the situation and alerts the property owner via phone call, enabling swift response measures. This real-time notification system enhances proactive security management, minimizing the risk of further intrusion and ensuring the safety of the property. The multi-sensor intrusion detection system, incorporating PIR sensors, magnetic switches, and a GSM-based phone call gateway, effectively alerts property owners of unauthorized intrusions in real-time. Demonstrating its efficacy through rigorous testing, the system offers enhanced security for both residential and commercial environments. | 翻訳日:2024-06-23 13:55:28 公開日:2024-05-18 |
# 地球観測衛星画像における移動物体の検出
Detection of Moving Objects in Earth Observation Satellite Images ( http://arxiv.org/abs/2406.07566v1 ) ライセンス: Link先を確認 | Eric Keto, Wesley Andres Watters, | (参考訳) 移動物体は、プッシュブルーム走査を用いた地球観測衛星によるマルチスペクトル画像に特徴的な特徴を持つ。
一般的な概念は、このタイプの全ての衛星に適用できるが、それぞれの衛星設計には独自のイメージングシステムがあり、特徴的シグネチャを分析するために独自の方法が必要である。
我々は、Planet Labs Corporationによる衛星画像とSuperDove衛星のコンステレーションの特定のアーカイブにおいて、移動物体の検出と速度測定の可能性を評価する。
Planet Labsのデータは、アーカイブ内の画像が個々の露出のモザイクであり、したがってユニークなタイムスタンプを持たないという点において、特別な課題を示している。
タイミング情報を間接的に復元する方法を説明する。
その結果,一般的な輸送車両,飛行機,車,ボートの移動を検知し,測定できることが示唆された。
Moving objects have characteristic signatures in multi-spectral images made by Earth observation satellites that use push broom scanning. While the general concept is applicable to all satellites of this type, each satellite design has its own unique imaging system and requires unique methods to analyze the characteristic signatures. We assess the feasibility of detecting moving objects and measuring their velocities in one particular archive of satellite images made by Planet Labs Corporation with their constellation of SuperDove satellites. Planet Labs data presents a particular challenge in that the images in the archive are mosaics of individual exposures and therefore do not have unique time stamps. We explain how the timing information can be restored indirectly. Our results indicate that the movement of common transportation vehicles, airplanes, cars, and boats, can be detected and measured. | 翻訳日:2024-06-23 13:45:35 公開日:2024-05-18 |
# EnterpriseEM: エンタープライズセマンティック検索のための微調整の埋め込み
EnterpriseEM: Fine-tuned Embeddings for Enterprise Semantic Search ( http://arxiv.org/abs/2406.00010v1 ) ライセンス: Link先を確認 | Kamalkumar Rathinasamy, Jayarama Nettar, Amit Kumar, Vishal Manchanda, Arun Vijayakumar, Ayush Kataria, Venkateshprasanna Manjunath, Chidambaram GS, Jaskirat Singh Sodhi, Shoeb Shaikh, Wasim Akhtar Khan, Prashant Singh, Tanishq Dattatray Ige, Vipin Tiwari, Rajab Ali Mondal, Harshini K, S Reka, Chetana Amancharla, Faiz ur Rahman, Harikrishnan P A, Indraneel Saha, Bhavya Tiwary, Navin Shankar Patel, Pradeep T S, Balaji A J, Priyapravas, Mohammed Rafee Tarafdar, | (参考訳) 企業は、プロプライエタリな非構造化データを管理するという重大な課題に対処し、効率的な情報検索を妨げる。
これにより、AIによる情報検索ソリューションが出現し、従業員の問い合わせに対処するために、適切な洞察を抽出するように設計されている。
これらのソリューションは、しばしば基礎成分として事前訓練された埋め込みモデルと生成モデルを利用する。
事前学習した埋め込みは、元のトレーニング目標に基づいて近接性や不均一性を示す可能性があるが、企業固有のデータの特徴と完全に一致しない可能性があり、企業環境の検索目標と最適以下に一致させる。
本稿では,企業環境に特化して事前学習した埋め込みモデルを微調整する手法を提案する。
企業で普及している検索課題に適合するように埋め込みを適応させることで,情報検索ソリューションの性能向上を目指す。
本稿では,微調整のプロセス,検索精度への影響,企業情報管理における潜在的メリットについて論じる。
本研究は,エンタープライズ環境での検索結果の精度と妥当性を向上させるため,微調整埋め込みモデルの有効性を示すものである。
Enterprises grapple with the significant challenge of managing proprietary unstructured data, hindering efficient information retrieval. This has led to the emergence of AI-driven information retrieval solutions, designed to adeptly extract relevant insights to address employee inquiries. These solutions often leverage pre-trained embedding models and generative models as foundational components. While pre-trained embeddings may exhibit proximity or disparity based on their original training objectives, they might not fully align with the unique characteristics of enterprise-specific data, leading to suboptimal alignment with the retrieval goals of enterprise environments. In this paper, we propose a methodology to fine-tune pre-trained embedding models specifically for enterprise environments. By adapting the embeddings to better suit the retrieval tasks prevalent in enterprises, we aim to enhance the performance of information retrieval solutions. We discuss the process of fine-tuning, its effect on retrieval accuracy, and the potential benefits for enterprise information management. Our findings demonstrate the efficacy of fine-tuned embedding models in improving the precision and relevance of search results in enterprise settings. | 翻訳日:2024-06-09 16:19:21 公開日:2024-05-18 |
# 時空間アテンションネットワークによる勾配型時系列記述に向けて
Towards Gradient-based Time-Series Explanations through a SpatioTemporal Attention Network ( http://arxiv.org/abs/2405.17444v1 ) ライセンス: Link先を確認 | Min Hun Lee, | (参考訳) 本稿では,変圧器をベースとした時空間アテンションネットワーク(STAN)の適用可能性について検討する。
まず、時系列データ(アクティビティの種類)に基づいて、グローバルおよびローカルなデータビューと弱い教師付きラベルを用いて、ビデオ分類のためのSTANモデルを訓練した。
次に、勾配に基づくXAI手法(例えばSaliency map)を活用し、時系列データの健全なフレームを同定した。
4つの医療関連活動のデータセットを用いた実験によると、STANモデルはビデオの重要なフレームを識別する可能性を示した。
In this paper, we explore the feasibility of using a transformer-based, spatiotemporal attention network (STAN) for gradient-based time-series explanations. First, we trained the STAN model for video classifications using the global and local views of data and weakly supervised labels on time-series data (i.e. the type of an activity). We then leveraged a gradient-based XAI technique (e.g. saliency map) to identify salient frames of time-series data. According to the experiments using the datasets of four medically relevant activities, the STAN model demonstrated its potential to identify important frames of videos. | 翻訳日:2024-06-02 14:30:04 公開日:2024-05-18 |
# ケースベース推論による財務質問応答の解法
Case-Based Reasoning Approach for Solving Financial Question Answering ( http://arxiv.org/abs/2405.13044v1 ) ライセンス: Link先を確認 | Yikyung Kim, Jay-Yoon Lee, | (参考訳) 機械の人間の言語に対する理解を測定するには、しばしば推論スキル、すなわち質問に対する回答を導出する論理的プロセスを評価する。
近年の言語モデルは、テキストベースタスクにおいて顕著な習熟度を示しているが、テキスト、表、数字などの異種情報を含む複雑な推論問題における有効性は、いまだに不明である。
このギャップに対処するため、FinQAは財務文書の数値推論データセットを導入し、同時にプログラム生成アプローチを提案した。
調査の結果,誤りの半数 (48%) が不正操作の発生によるものであることが判明した。
この問題に対処するため,ケースベース推論(CBR)を用いた数値推論問題の解法を提案する。
本モデルでは,質問に対処する関連事例を検索し,検索した事例と文脈情報に基づいて回答を生成する。
FinQAデータセットの実験を通じて、我々のアプローチの競合性能を実証し、さらにケースリポジトリを拡張することで、FinQAの弱点を示す複雑なマルチステッププログラムの解決に役立てることができることを示す。
Measuring a machine's understanding of human language often involves assessing its reasoning skills, i.e. logical process of deriving answers to questions. While recent language models have shown remarkable proficiency in text based tasks, their efficacy in complex reasoning problems involving heterogeneous information such as text, tables, and numbers remain uncertain. Addressing this gap, FinQA introduced a numerical reasoning dataset for financial documents and simultaneously proposed a program generation approach . Our investigation reveals that half of the errors (48%) stem from incorrect operations being generated. To address this issue, we propose a novel approach to tackle numerical reasoning problems using case based reasoning (CBR), an artificial intelligence paradigm that provides problem solving guidance by offering similar cases (i.e. similar questions and corresponding logical programs). Our model retrieves relevant cases to address a given question, and then generates an answer based on the retrieved cases and contextual information. Through experiments on the FinQA dataset, we demonstrate competitive performance of our approach and additionally show that by expanding case repository, we can help solving complex multi step programs which FinQA showed weakness of. | 翻訳日:2024-05-25 04:41:59 公開日:2024-05-18 |
# CoLay: 多条件遅延拡散による制御可能なレイアウト生成
CoLay: Controllable Layout Generation through Multi-conditional Latent Diffusion ( http://arxiv.org/abs/2405.13045v1 ) ライセンス: Link先を確認 | Chin-Yi Cheng, Ruiqi Gao, Forrest Huang, Yang Li, | (参考訳) レイアウトデザイン生成は、UI、グラフィック、フロアプランデザインなど、様々な分野の潜在的な応用により、最近大きな注目を集めている。
しかし、既存のモデルは、実践における採用を制限する2つの大きな課題に直面しています。
第一に、以前の作品で使用される個々の条件型の限定表現性は、設計者が複雑な設計意図や制約を伝達する能力を制限する。
第二に、既存のモデルのほとんどはラベルと座標の生成に重点を置いており、実際のレイアウトには様々なスタイルの特性が含まれている。
このような制約に対処するために,複数の条件タイプを統合し,多様なスタイル特性を持つ複雑なレイアウトを生成する新しいフレームワークであるCoLayを提案する。
提案手法は, 自然言語プロンプト, レイアウトガイドライン, 要素タイプ, 部分完備設計など, フレキシブルな組み合わせによる設計意図の表現をユーザに提供するとともに, 生成品質と条件満足度の観点から, 従来の作業よりも優れていた。
Layout design generation has recently gained significant attention due to its potential applications in various fields, including UI, graphic, and floor plan design. However, existing models face two main challenges that limits their adoption in practice. Firstly, the limited expressiveness of individual condition types used in previous works restricts designers' ability to convey complex design intentions and constraints. Secondly, most existing models focus on generating labels and coordinates, while real layouts contain a range of style properties. To address these limitations, we propose a novel framework, CoLay, that integrates multiple condition types and generates complex layouts with diverse style properties. Our approach outperforms prior works in terms of generation quality and condition satisfaction while empowering users to express their design intents using a flexible combination of modalities, including natural language prompts, layout guidelines, element types, and partially completed designs. | 翻訳日:2024-05-25 04:41:59 公開日:2024-05-18 |
# LeaPformer: 学習された確率による自動回帰タスクと同時タスクのための線形変換器の実現
LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions ( http://arxiv.org/abs/2405.13046v1 ) ライセンス: Link先を確認 | Victor Agostinelli, Sanghyun Hong, Lizhong Chen, | (参考訳) 線形変換器におけるモデル性能を維持するための有望なアプローチは、位置ベース再重み付け関数を採用することである。
しかし、最先端の再重み付け関数はターゲットのシーケンス長に大きく依存しているため、ターゲットと場合によっては入力シーケンス長が不明な自動回帰および同時タスクに適用することは困難または不可能である。
この問題に対処するため,Learnered Proportions (LeaP) とLeaPformersを提案する。
私たちのコントリビューションは2つの主要なコンポーネントの上に構築されています。
まず、明示的な位置表現とシーケンス長への依存を、再重み付けのためのシーケンス比への依存に一般化する。
第二に、静的な位置表現をコンパクトなモジュールによって導出される動的比例に置き換えることで、より柔軟な注意集中パターンを実現する。
我々はLeaPformerをLong-Range Arenaベンチマークの8つの代表的効率変換器に対して評価し、LeaPformerが最高の品質とスループットのトレードオフを達成し、LeaPformerはWikitext-103の自動回帰言語モデリングと2つの言語対の音声とテキストの同時変換を実現し、競争力のある結果が得られることを示した。
A promising approach to preserving model performance in linearized transformers is to employ position-based re-weighting functions. However, state-of-the-art re-weighting functions rely heavily on target sequence lengths, making it difficult or impossible to apply them to autoregressive and simultaneous tasks, where the target and sometimes even the input sequence length are unknown. To address this issue, we propose Learned Proportions (LeaP) and LeaPformers. Our contribution is built on two major components. First, we generalize the dependence on explicit positional representations and sequence lengths into dependence on sequence proportions for re-weighting. Second, we replace static positional representations with dynamic proportions derived via a compact module, enabling more flexible attention concentration patterns. We evaluate LeaPformer against eight representative efficient transformers on the Long-Range Arena benchmark, showing that LeaPformer achieves the best quality-throughput trade-off, as well as LeaPformer to Wikitext-103 autoregressive language modeling and simultaneous speech-to-text translation for two language pairs, achieving competitive results. | 翻訳日:2024-05-25 04:41:59 公開日:2024-05-18 |
# 資源制約下における神経モジュールの特殊化のダイナミクス
Dynamics of specialization in neural modules under resource constraints ( http://arxiv.org/abs/2106.02626v5 ) ライセンス: Link先を確認 | Gabriel Béna, Dan F. M. Goodman, | (参考訳) 脳は構造と機能の両方において高度にモジュール化されていると長い間信じられてきたが、最近の証拠は両方のモジュラリティの程度に疑問を呈している。
私たちは、構造的モジュラリティが機能的な特殊化を保証するのに十分であるという仮説をテストするために、人工ニューラルネットワークを使用しました。
次に,環境とネットワークのどの特徴が特殊化の出現に繋がるかを系統的に検証した。
我々は,単純な玩具環境,タスク,ネットワークを用いて,精密な制御を可能にし,この設定では,いくつかの異なる特殊化尺度が質的に類似した結果をもたらすことを示す。
さらに,(1) 環境の特徴が有意に分離可能な環境でのみ特殊化が実現可能であること,(2) ネットワークのリソース制約が強い場合に,専門化が優先的に現れること,(3) テストしたネットワークアーキテクチャのさまざまなバリエーションに対して,これらの発見が質的に類似していること,そして,その量的関係が正確なアーキテクチャに依存すること,などが確認された。
最後に,機能的特殊化は時間とともに動的に変化し,ネットワーク内の情報フローのタイミングと帯域幅に依存することを示す。
構造的モジュラリティに基づく静的な特殊化の概念は、生物学から脳にインスパイアされたニューロモルフィックシステムまで、現実世界の複雑さの状況における知性を理解するためのフレームワークとして、あまりにも単純すぎると結論付けている。
より複雑なデータ、ネットワークモデル、電気生理学的記録に拡張する前に、単純化されたシナリオにおける機能的モジュラリティの候補定義を徹底的に強調することが、実りあるアプローチである可能性が示唆された。
It has long been believed that the brain is highly modular both in terms of structure and function, although recent evidence has led some to question the extent of both types of modularity. We used artificial neural networks to test the hypothesis that structural modularity is sufficient to guarantee functional specialization, and find that in general, this doesn't necessarily hold. We then systematically tested which features of the environment and network do lead to the emergence of specialization. We used a simple toy environment, task and network, allowing us precise control, and show that in this setup, several distinct measures of specialization give qualitatively similar results. We further find that in this setup (1) specialization can only emerge in environments where features of that environment are meaningfully separable, (2) specialization preferentially emerges when the network is strongly resource-constrained, and (3) these findings are qualitatively similar across the different variations of network architectures that we tested, but that the quantitative relationships depend on the precise architecture. Finally, we show that functional specialization varies dynamically across time, and demonstrate that these dynamics depend on both the timing and bandwidth of information flow in the network. We conclude that a static notion of specialization, based on structural modularity, is likely too simple a framework for understanding intelligence in situations of real-world complexity, from biology to brain-inspired neuromorphic systems. We propose that thoroughly stress testing candidate definitions of functional modularity in simplified scenarios before extending to more complex data, network models and electrophysiological recordings is likely to be a fruitful approach. | 翻訳日:2024-05-22 19:47:36 公開日:2024-05-18 |
# 実時間囲碁予測:JFK空港を事例として
Real-Time Go-Around Prediction: A case study of JFK airport ( http://arxiv.org/abs/2405.12244v1 ) ライセンス: Link先を確認 | Ke Liu, Kaijing Ding, Lu Dai, Mark Hansen, Kennis Chan, John Schade, | (参考訳) 本稿では,JFK空港に近づき,滑走路しきい値の10nm以内に到達する時,リアルタイムの往復確率を予測するために,LSTM(Long-Short-Term-Memory Model)を用いる。
我々はまた,グローバルな視点と個々の飛行視点の両方から,周航現象の原因を調べる方法も開発している。
以上の結果から,車内間隔と滑走路同時運転が,全体の回避に寄与する主要な要因であると考えられた。
そして、これらの事前訓練されたモデルと分析をリアルタイムデータストリーミングと統合し、最終的に、以前デザインされた様々なコンポーネントをリアルタイムツールに統合したデモWebベースのユーザインターフェースを開発します。
In this paper, we employ the long-short-term memory model (LSTM) to predict the real-time go-around probability as an arrival flight is approaching JFK airport and within 10 nm of the landing runway threshold. We further develop methods to examine the causes to go-around occurrences both from a global view and an individual flight perspective. According to our results, in-trail spacing, and simultaneous runway operation appear to be the top factors that contribute to overall go-around occurrences. We then integrate these pre-trained models and analyses with real-time data streaming, and finally develop a demo web-based user interface that integrates the different components designed previously into a real-time tool that can eventually be used by flight crews and other line personnel to identify situations in which there is a high risk of a go-around. | 翻訳日:2024-05-22 17:43:12 公開日:2024-05-18 |
# Zero-Knowledge ゲーム
Zero-Knowledge Games ( http://arxiv.org/abs/2009.13521v4 ) ライセンス: Link先を確認 | Ian Malloy, | (参考訳) 本稿では,全ての最適戦略が不完全なリコールと不完全な情報を持つ非発見的ゲームとしてモデル化する。
さらに、修正されたスライディングブロックコードを擬似仮想記憶として使用することにより、線形変換はプレイヤーの情報伝達に関する共通知識を生成する。
究極的には、ゼロ知識ゲームにおけるn-プレイヤの間には、最終的に証明器と検証器が存在し、全てのプレイヤーが情報またはインフォームされた2-プレイヤゲームに相当する。
信頼の効用は混合戦略ナッシュ均衡の中で確立される。
In this paper we model a game such that all optimal strategies are non-revealing, with imperfect recall and incomplete information. Furthermore, using a modified sliding-block code as pseudo-virtual memory, the linear transformation generates common knowledge of how informed a player is. Ultimately, we see that between n-players in a zero-knowledge game there is ultimately a prover and verifier equivalent to a two-player game where all players are either informed or uninformed. The utility of trust is established within the mixed strategy Nash equilibrium. | 翻訳日:2024-05-22 03:18:46 公開日:2024-05-18 |
# 実時間における光子数正確に決定する
Precisely determining photon-number in real-time ( http://arxiv.org/abs/2012.10158v4 ) ライセンス: Link先を確認 | Leonardo Assis Morais, Till Weinhold, Marcelo Pereira de Almeida, Joshua Combes, Markus Rambach, Adriana Lita, Thomas Gerrits, Sae Woo Nam, Andrew G. White, Geoff Gillett, | (参考訳) 超伝導トランジションエッジセンサー(TES)は、非平行エネルギー分解能を持つ光子検出器として非常に感度の高いマイクロカロリメータである。
彼らは天文学的なスペクトルの測定から、0.6-2.33eVのエネルギーに対して、フォトン数の量子的性質($\hat{n} {=} \hat{a}^{\dag} \hat{a}$)を決定するための応用を発見した。
しかし、最適エネルギー解決を達成するためには、1GB/minのオーダーでかなりの量のデータ取得が必要であり、続いて処理後、リアルタイムにエネルギー情報にアクセスできない。
ここでは、独自のハードウェアプロセッサを使用して、TESパルスを処理し、新しい検出がまだ登録されている間に、光子数をリアルタイムで測定し、マグニチュードによるデータ要求を低減します。
我々は、天文学から量子技術へのTES検出器の応用のための変換能力を提供するため、n=16までの光子数を解決した。
Superconducting transition-edge sensors (TES) are extremely sensitive microcalorimeters used as photon detectors with unparalleled energy resolution. They have found application from measuring astronomical spectra through to determining the quantum property of photon-number, $\hat{n} {=} \hat{a}^{\dag} \hat{a}$, for energies from 0.6-2.33eV. However, achieving optimal energy resolution requires considerable data acquisition -- on the order of 1GB/min -- followed by post-processing, which does not allow access to energy information in real time. Here we use a custom hardware processor to process TES pulses while new detections are still being registered, allowing photon-number to be measured in real time as well as reducing data requirements by orders-of-magnitude. We resolve photon number up to n=16 -- achieving up to parts-per-billion discrimination for low photon numbers on the fly -- providing transformational capacity for applications of TES detectors from astronomy through to quantum technology. | 翻訳日:2024-05-22 03:18:46 公開日:2024-05-18 |
# ディープラーニングは非パラメトリック回帰と出会う: ウェイトデケイドDNNは局所的に適応的か?
Deep Learning meets Nonparametric Regression: Are Weight-Decayed DNNs Locally Adaptive? ( http://arxiv.org/abs/2204.09664v4 ) ライセンス: Link先を確認 | Kaiqi Zhang, Yu-Xiang Wang, | (参考訳) 本研究では,古典的非パラメトリック回帰問題のレンズからニューラルネットワーク(NN)の理論を考察し,不均一な滑らかさを持つ関数を適応的に推定するNNの能力に着目した。
既存の作業では、関数空間とサンプルサイズに基づいてNNアーキテクチャをチューニングする必要がある。
深層ReLUネットワークの"Parallel NN"変種を考えると、標準$\ell_2$正規化は、エンドツーエンドの学習関数基底の係数ベクトル、すなわち辞書における$\ell_p$-sparsity$0<p<1$)の促進と同値であることを示す。
この等価性を用いて、正規化係数のみをチューニングすることにより、そのような並列NNはベソフクラスとBVクラスの両方のミニマックスレートに任意に近似する推定誤差を達成できることを示す。
特に、NNがより深くなるにつれて、ミニマックスに指数関数的に近づく。
私たちの研究は、なぜ深さが重要なのか、そしてNNがカーネルメソッドよりも強力であるかについて、新たな光を当てています。
We study the theory of neural network (NN) from the lens of classical nonparametric regression problems with a focus on NN's ability to adaptively estimate functions with heterogeneous smoothness -- a property of functions in Besov or Bounded Variation (BV) classes. Existing work on this problem requires tuning the NN architecture based on the function spaces and sample size. We consider a "Parallel NN" variant of deep ReLU networks and show that the standard $\ell_2$ regularization is equivalent to promoting the $\ell_p$-sparsity ($0<p<1$) in the coefficient vector of an end-to-end learned function bases, i.e., a dictionary. Using this equivalence, we further establish that by tuning only the regularization factor, such parallel NN achieves an estimation error arbitrarily close to the minimax rates for both the Besov and BV classes. Notably, it gets exponentially closer to minimax optimal as the NN gets deeper. Our research sheds new lights on why depth matters and how NNs are more powerful than kernel methods. | 翻訳日:2024-05-22 01:31:04 公開日:2024-05-18 |
# データに基づく価格差別の限界について
On the limitations of data-based price discrimination ( http://arxiv.org/abs/2204.12723v5 ) ライセンス: Link先を確認 | Haitian Xie, Ying Zhu, Denis Shishkin, | (参考訳) 近年の技術進歩により、企業はデータを価格差別に利用できるようになった。
本稿では,コバリアイトが連続しており,販売者にはデータの分布が不明な,無作為な評価データと共変量データのランダムなサンプルに基づいて,第3次価格判別(3PD)について検討する。
本稿ではまず,100ドル市場における経験的収益最大化(ERM)戦略を提案し,収益の収束率について検討する。
次に、データベースの価格戦略の基本的な情報理論的制限を確立し、$K$-markets ERMと$1$-market) ERM戦略が、それぞれ真流通3PDと一様最適の収益を最適なレートで、収束させることを示す。
情報理論の限界から得られる重要な点は、サンプルベースの3PD戦略が次元性の呪いから逃れられず、したがって$K$-markets ERM戦略は例外ではないということだ。
これにより、より具体的なケースで、K$-markets ERMと統一ERMの収益を比較することができる。
この比較は、古典的な価格問題と対照的に、第3級価格差別が収益を生み出す際の均一価格と同程度である既知の分布とは対照的である。
Recent technological advances have enabled firms to use data to price discriminate. This paper studies third-degree price discrimination (3PD) based on a random sample of valuation and covariate data, where the covariate is continuous, and the distribution of the data is unknown to the seller. We first propose a $K$-markets empirical revenue maximization (ERM) strategy and study its rates of convergence in revenue. We then establish the fundamental information-theoretic limitation of any data-based pricing strategy and show that the $K$-markets ERM and the uniform (i.e., $1$-market) ERM strategies generate revenue converging to that of the true-distribution 3PD and uniform optima, respectively, at the optimal rate. A key takeaway from our information-theoretic limitation results is that, no sample-based 3PD strategy is able to escape from the curse of dimensionality and hence the $K$-markets ERM strategy is not an exception. This result prompts us to compare the revenues from the $K$-markets ERM and the uniform ERM in more specific cases. This comparison is ambiguous, in contrast to the classic pricing problem with a known distribution where third-degree price discrimination is at least as good as uniform pricing in generating revenue. | 翻訳日:2024-05-22 01:31:04 公開日:2024-05-18 |
# 非古典性及び保全法の時限証人
Temporal witnesses of non-classicality and conservation laws ( http://arxiv.org/abs/2205.00198v4 ) ライセンス: Link先を確認 | Giuseppe Di Pietra, Chiara Marletto, | (参考訳) 一般の絡み合いに基づく非古典性の目撃者が最近提案され、重力における量子効果のテストに応用できる。
この証人は、メディエーターを介して2つの量子プローブ間の絡み合いを発生させることに基づいている。
本稿では, 媒介者の非古典性を評価するために, 単一量子プローブを用いて, この証人の「時間的」変種を提案する。
量子論の形式論の中で、$M$が保存則の存在下で量子系のコヒーレントな動的進化を誘導できるならば、$M$は古典的でないことが示される。
この議論は、特に量子重力や量子生物学において、多くのオープンな問題に適用できる単一の量子プローブに依存する非古典性の証人を支持する。
A general entanglement-based witness of non-classicality has recently been proposed, which can be applied to testing quantum effects in gravity. This witness is based on generating entanglement between two quantum probes via a mediator. In this paper we provide a "temporal" variant of this witness, using a single quantum probe to assess the non-classicality of the mediator. Within the formalism of quantum theory, we show that if a system $M$ is capable of inducing a coherent dynamical evolution of a quantum system $Q$, in the presence of a conservation law, then $M$ must be non-classical. This argument supports witnesses of non-classicality relying on a single quantum probe, which can be applied to a number of open issues, notably in quantum gravity or quantum biology. | 翻訳日:2024-05-22 01:31:04 公開日:2024-05-18 |
# 概念化による抽象コモンセンス知識の獲得とモデル化
Acquiring and Modelling Abstract Commonsense Knowledge via Conceptualization ( http://arxiv.org/abs/2206.01532v2 ) ライセンス: Link先を確認 | Mutian He, Tianqing Fang, Weiqi Wang, Yangqiu Song, | (参考訳) 概念化(英: conceptualization)または概念化(英: conceptualization)とは、抽象概念を念頭に置き、それに基づいて推論を行うことによって、常識推論のための人間の知性において重要な要素となる概念である。
ニューラルネットワークモデルとコモンセンス知識グラフ(CKG)によるコモンセンスの獲得とモデル化に関する人工知能の最近の進歩にもかかわらず、概念化はまだ徹底的に導入されておらず、現在のアプローチは現実世界の無数の多様な実体や状況に関する知識をカバーできない。
そこで我々は,概念化の役割を包括的に研究し,抽象概念に関する事象に関する抽象的知識を習得し,より高レベルな三重項や推論を導き,人間の概念化を再現する枠組みを定式化する。
次に,この枠組みをヒトに注釈を付けた大規模CKGであるATOMICに適用する。
我々は,ATOMICからイベントレベルとトリプルレベルの両方において,文脈化された概念化の有効性に関するデータセットを注釈し,言語的特徴に基づく一連のヒューリスティックルールを開発し,抽象知識の生成と検証のために一連のニューラルネットワークを訓練する。
これらのコンポーネントに基づいて、抽象知識を取得するパイプラインが構築される。
ATOMIC上の大きな抽象CKGが誘導され、未確認の実体や状況について推論するようにインスタンス化される。
最後に、コモンセンス推論やゼロショットコモンセンスQAのような下流タスクにおいて、抽象的な知識でCKGを増強する利点を実証的に示す。
Conceptualization, or viewing entities and situations as instances of abstract concepts in mind and making inferences based on that, is a vital component in human intelligence for commonsense reasoning. Despite recent progress in artificial intelligence to acquire and model commonsense attributed to neural language models and commonsense knowledge graphs (CKGs), conceptualization is yet to be introduced thoroughly, making current approaches ineffective to cover knowledge about countless diverse entities and situations in the real world. To address the problem, we thoroughly study the role of conceptualization in commonsense reasoning, and formulate a framework to replicate human conceptual induction by acquiring abstract knowledge about events regarding abstract concepts, as well as higher-level triples or inferences upon them. We then apply the framework to ATOMIC, a large-scale human-annotated CKG, aided by the taxonomy Probase. We annotate a dataset on the validity of contextualized conceptualizations from ATOMIC on both event and triple levels, develop a series of heuristic rules based on linguistic features, and train a set of neural models to generate and verify abstract knowledge. Based on these components, a pipeline to acquire abstract knowledge is built. A large abstract CKG upon ATOMIC is then induced, ready to be instantiated to infer about unseen entities or situations. Finally, we empirically show the benefits of augmenting CKGs with abstract knowledge in downstream tasks like commonsense inference and zero-shot commonsense QA. | 翻訳日:2024-05-22 01:31:04 公開日:2024-05-18 |
# セマンティックマスク世界モデルによるエンドツーエンドの都市自律走行のサンプル効率とロバスト性
Enhance Sample Efficiency and Robustness of End-to-end Urban Autonomous Driving via Semantic Masked World Model ( http://arxiv.org/abs/2210.04017v4 ) ライセンス: Link先を確認 | Zeyu Gao, Yao Mu, Chen Chen, Jingliang Duan, Shengbo Eben Li, Ping Luo, Yanfeng Lu, | (参考訳) エンドツーエンドの自律運転は、前面カメラから直接生の画素を信号にマッピングすることで、全体の運転システム性能を自動で最大化する手段を提供する。
最近の高度な手法は、高次元の観測結果をコンパクトな潜在空間にマッピングする潜在世界モデルを構築している。
しかし、従来の研究で提案された世界モデルに埋め込まれた潜伏状態には、大量のタスク関連情報が含まれており、サンプリング効率が低く、入力摂動に対する堅牢性が低い。
一方、トレーニングデータ分布は通常不均衡であり、学習されたポリシーは、運転中のコーナーケースに対処することが困難である。
上記の課題を解決するために,SEMantic Masked Recurrent World Model (SEM2)を提案する。セマンティック・マスクド・リカレント・ワールド・モデルでは,キー駆動関連特徴を抽出し,フィルタ機能を介して決定を行うセマンティック・フィルタを導入し,共通データと複数のコーナーケースデータを単一のバッチで集約するマルチソース・データ・サンプリング器を用いて訓練を行い,データの分散のバランスをとる。
CARLAの大規模実験により,提案手法はサンプル効率と入力順列に対する堅牢性の観点から,最先端の手法よりも優れていた。
End-to-end autonomous driving provides a feasible way to automatically maximize overall driving system performance by directly mapping the raw pixels from a front-facing camera to control signals. Recent advanced methods construct a latent world model to map the high dimensional observations into compact latent space. However, the latent states embedded by the world model proposed in previous works may contain a large amount of task-irrelevant information, resulting in low sampling efficiency and poor robustness to input perturbations. Meanwhile, the training data distribution is usually unbalanced, and the learned policy is challenging to cope with the corner cases during the driving process. To solve the above challenges, we present a SEMantic Masked recurrent world model (SEM2), which introduces a semantic filter to extract key driving-relevant features and make decisions via the filtered features, and is trained with a multi-source data sampler, which aggregates common data and multiple corner case data in a single batch, to balance the data distribution. Extensive experiments on CARLA show our method outperforms the state-of-the-art approaches in terms of sample efficiency and robustness to input permutations. | 翻訳日:2024-05-22 01:20:28 公開日:2024-05-18 |
# 脳波システムにおけるXAI法の適用に向けて
Toward the application of XAI methods in EEG-based systems ( http://arxiv.org/abs/2210.06554v4 ) ライセンス: Link先を確認 | Andrea Apicella, Francesco Isgrò, Andrea Pollastro, Roberto Prevete, | (参考訳) 良く知られたデータセットシフト問題の興味深い例は、脳-コンピュータインタフェース(BCI)の文脈における脳波(EEG)信号の分類である。
脳波信号の非定常性は、同じ主題から異なるセッションで使用されるBCI分類システムにおける一般化性能の低下につながる可能性がある。
本稿では,データセットシフト問題を,適切なeXplainable Artificial Intelligence(XAI)手法を用いて,分類目標の入力の関連特性を特定し,変換することで緩和できるという仮説から始める。
特に、感情認識のための典型的な脳波データセットに基づいて訓練されたMLシステムにおいて、XAI法によって生成された説明を実験的に分析することに焦点を当てた。
結果は、XAIメソッドで見つかる多くの関連コンポーネントがセッション間で共有され、より良い一般化が可能なシステムを構築するのに使用できることを示している。
しかし、入力信号の関連成分も入力自体に大きく依存しているように見える。
An interesting case of the well-known Dataset Shift Problem is the classification of Electroencephalogram (EEG) signals in the context of Brain-Computer Interface (BCI). The non-stationarity of EEG signals can lead to poor generalisation performance in BCI classification systems used in different sessions, also from the same subject. In this paper, we start from the hypothesis that the Dataset Shift problem can be alleviated by exploiting suitable eXplainable Artificial Intelligence (XAI) methods to locate and transform the relevant characteristics of the input for the goal of classification. In particular, we focus on an experimental analysis of explanations produced by several XAI methods on an ML system trained on a typical EEG dataset for emotion recognition. Results show that many relevant components found by XAI methods are shared across the sessions and can be used to build a system able to generalise better. However, relevant components of the input signal also appear to be highly dependent on the input itself. | 翻訳日:2024-05-22 01:20:28 公開日:2024-05-18 |
# 信頼度予測によるオンライン配電シフト検出
Online Distribution Shift Detection via Recency Prediction ( http://arxiv.org/abs/2211.09916v4 ) ライセンス: Link先を確認 | Rachel Luo, Rohan Sinha, Yixiao Sun, Ali Hindy, Shengjia Zhao, Silvio Savarese, Edward Schmerling, Marco Pavone, | (参考訳) 最新の機械学習対応ロボットシステムをハイテイクなアプリケーションにデプロイする場合、分散シフトを検出することが重要となる。
しかし、分散シフトを検出する既存の方法のほとんどは、データがストリーミング形式で到着することが多く、非常に高次元であるロボットの設定に適していない。
本研究は, 偽陽性率を保証した分布シフトを検出するオンライン手法を提案する。つまり, 分布シフトがない場合, 警告を誤発行する確率が$<epsilon$) である可能性が極めて低い。
提案手法は,高次元データでも効率的に検出できるように設計されており,実際の偽陰性率を低く保ちつつ,従来の作業に比べて最大11倍高速なリアルロボティクス設定検出を実現している(実験で分布シフトがあった場合,実際に警告を発する)。
本稿では,視覚サーボ作業におけるシミュレーションとハードウェアの両面でのアプローチを実証し,本手法が障害発生前に警告を発していることを示す。
When deploying modern machine learning-enabled robotic systems in high-stakes applications, detecting distribution shift is critical. However, most existing methods for detecting distribution shift are not well-suited to robotics settings, where data often arrives in a streaming fashion and may be very high-dimensional. In this work, we present an online method for detecting distribution shift with guarantees on the false positive rate - i.e., when there is no distribution shift, our system is very unlikely (with probability $< \epsilon$) to falsely issue an alert; any alerts that are issued should therefore be heeded. Our method is specifically designed for efficient detection even with high dimensional data, and it empirically achieves up to 11x faster detection on realistic robotics settings compared to prior work while maintaining a low false negative rate in practice (whenever there is a distribution shift in our experiments, our method indeed emits an alert). We demonstrate our approach in both simulation and hardware for a visual servoing task, and show that our method indeed issues an alert before a failure occurs. | 翻訳日:2024-05-22 01:20:28 公開日:2024-05-18 |
# 古典的シャドウのための量子回路切断
Quantum Circuit Cutting for Classical Shadows ( http://arxiv.org/abs/2212.00761v3 ) ライセンス: Link先を確認 | Daniel T. Chen, Zain H. Saleem, Michael A. Perlin, | (参考訳) 古典的なシャドウトモグラフィーは、量子システムを特徴づけ、多くの特性を予測するためのサンプリング効率の良い手法である。
回路切断は、大きな量子回路をより小さな断片に分割し、少ない量子資源でより堅牢に実行できる技術である。
本稿では,古典的な影を用いた観測者の期待値を推定するための分割・対流回路切断手法を提案する。
回路フラグメントの古典的影を任意に切断した回路から予測する一般的な公式を導出し,フラグメント間で可観測値が分解される場合のサンプル複雑性解析を行う。
そこで,本手法は,多くの量子ビット上で非自明に作用する高強度観測器を推定する際に,従来の非切断陰影トモグラフィよりも優れていることを示すとともに,この利点のメカニズムについて考察する。
Classical shadow tomography is a sample-efficient technique for characterizing quantum systems and predicting many of their properties. Circuit cutting is a technique for dividing large quantum circuits into smaller fragments that can be executed more robustly using fewer quantum resources. We introduce a divide-and-conquer circuit cutting method for estimating the expectation values of observables using classical shadows. We derive a general formula for making predictions using the classical shadows of circuit fragments from arbitrarily cut circuits, and provide the sample complexity analysis for the case when observables factorize across fragments. Then, we numerically show that our divide-and-conquer method outperforms traditional uncut shadow tomography when estimating high-weight observables that act non-trivially on many qubits, and discuss the mechanisms for this advantage. | 翻訳日:2024-05-22 01:20:28 公開日:2024-05-18 |
# 一般化不可能な非制限逆行訓練
Provable Unrestricted Adversarial Training without Compromise with Generalizability ( http://arxiv.org/abs/2301.09069v2 ) ライセンス: Link先を確認 | Lilin Zhang, Ning Yang, Yanchao Sun, Philip S. Yu, | (参考訳) 敵の攻撃から守るための最も有望な戦略として、敵の訓練(AT)が広く考えられており、研究者の関心も高まっている。
しかし、既存のAT方式には2つの課題がある。
まず、観測例に$l_p$ノルムで束縛された摂動を加えることで生成される制限された逆例(RAEs)とは対照的に、スクラッチから構築される非制限逆例(UAEs)を扱うことができない。
第2に、既存のAT法は、標準的な一般化可能性(すなわち自然例の精度)を犠牲にして、それらの間のトレードオフを行うため、しばしば逆の堅牢性を達成する。
これらの課題を克服するために,UAEを知覚不能な未観測例として理解するユニークな視点を提案する。
また、このトレードオフは、逆例と自然例の分布の分離によってもたらされる。
これらの考え方に基づいて,UAEとRAEの双方に対して包括的対角的堅牢性を持つ目標分類器を提供し,同時に標準一般化性を向上させる,Provable Unrestricted Adversarial Training (PUAT) と呼ばれる新しいATアプローチを提案する。
特にPUATは、部分的にラベル付けされたデータを用いて、新しい3重GANを通じて自然データ分布を正確にキャプチャし、効果的なUAE生成を実現する。
同時に、PUATは、目標分類器の教師付き損失を対向損失に導入し、UAE分布、自然データ分布、および分類器が学習した分布との整合性を達成することにより、強化三重GANの協調により従来のATを拡張した。
最後に、広く使われているベンチマークで行った固形理論解析と広範な実験により、PUATの優位性が示された。
Adversarial training (AT) is widely considered as the most promising strategy to defend against adversarial attacks and has drawn increasing interest from researchers. However, the existing AT methods still suffer from two challenges. First, they are unable to handle unrestricted adversarial examples (UAEs), which are built from scratch, as opposed to restricted adversarial examples (RAEs), which are created by adding perturbations bound by an $l_p$ norm to observed examples. Second, the existing AT methods often achieve adversarial robustness at the expense of standard generalizability (i.e., the accuracy on natural examples) because they make a tradeoff between them. To overcome these challenges, we propose a unique viewpoint that understands UAEs as imperceptibly perturbed unobserved examples. Also, we find that the tradeoff results from the separation of the distributions of adversarial examples and natural examples. Based on these ideas, we propose a novel AT approach called Provable Unrestricted Adversarial Training (PUAT), which can provide a target classifier with comprehensive adversarial robustness against both UAE and RAE, and simultaneously improve its standard generalizability. Particularly, PUAT utilizes partially labeled data to achieve effective UAE generation by accurately capturing the natural data distribution through a novel augmented triple-GAN. At the same time, PUAT extends the traditional AT by introducing the supervised loss of the target classifier into the adversarial loss and achieves the alignment between the UAE distribution, the natural data distribution, and the distribution learned by the classifier, with the collaboration of the augmented triple-GAN. Finally, the solid theoretical analysis and extensive experiments conducted on widely-used benchmarks demonstrate the superiority of PUAT. | 翻訳日:2024-05-22 01:10:43 公開日:2024-05-18 |
# 逆薬物事象検出のための概念認識型知識増強型グラフニューラルネットワーク
Knowledge-augmented Graph Neural Networks with Concept-aware Attention for Adverse Drug Event Detection ( http://arxiv.org/abs/2301.10451v3 ) ライセンス: Link先を確認 | Shaoxiong Ji, Ya Gao, Pekka Marttinen, | (参考訳) 副作用薬物イベント(ADEs)は、薬物の安全性の重要な側面である。
バイオメディカル文学、薬物レビュー、ソーシャルメディアや医療フォーラムでのユーザー投稿など、様々なテキストにはADEに関する情報が豊富に含まれている。
近年,テキストからのADE検出を自動化するために,単語埋め込みとディープラーニングに基づく自然言語処理を適用している。
しかし、薬物や副作用やそれに対応する特徴学習に関する明確な医学的知識を取り入れようとはしなかった。
本稿では, 文書, 単語, 概念間の関係を記述した異種テキストグラフを導入し, 統一医療言語システムから医療知識を付加し, グラフ内の異なる種類のノードの特徴を異なる形で学習する概念認識型注意機構を提案する。
さらに、事前訓練された言語モデルと畳み込みグラフニューラルネットワークの文脈的埋め込みを利用して、効率的な特徴表現と関係学習を行う。
4つの公開データセットの実験により、我々のモデルは最近の進歩と競合する性能を達成し、概念認識の注意は他の注意機構よりも一貫して優れていることが示された。
Adverse drug events (ADEs) are an important aspect of drug safety. Various texts such as biomedical literature, drug reviews, and user posts on social media and medical forums contain a wealth of information about ADEs. Recent studies have applied word embedding and deep learning -based natural language processing to automate ADE detection from text. However, they did not explore incorporating explicit medical knowledge about drugs and adverse reactions or the corresponding feature learning. This paper adopts the heterogenous text graph which describes relationships between documents, words and concepts, augments it with medical knowledge from the Unified Medical Language System, and proposes a concept-aware attention mechanism which learns features differently for the different types of nodes in the graph. We further utilize contextualized embeddings from pretrained language models and convolutional graph neural networks for effective feature representation and relational learning. Experiments on four public datasets show that our model achieves performance competitive to the recent advances and the concept-aware attention consistently outperforms other attention mechanisms. | 翻訳日:2024-05-22 01:10:43 公開日:2024-05-18 |
# 制約付きオンライン2段階確率最適化:逆学習による近似アルゴリズム
Constrained Online Two-stage Stochastic Optimization: Near Optimal Algorithms via Adversarial Learning ( http://arxiv.org/abs/2302.00997v5 ) ライセンス: Link先を確認 | Jiashuo Jiang, | (参考訳) 有限地平線上の長期制約付きオンライン2段階確率最適化をT$周期で検討する。
それぞれの期間において、第1段階のアクションを取り、モデルパラメータの実現を観察し、第1段階の決定とモデルパラメータの両方に依存する実行可能なセットから第2段階のアクションを取ります。
我々は,長期平均2段階決定が集合に属することを保証しながら,累積目標値の最小化を目指す。
対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。
また、我々のアルゴリズムカムの後悔の限界は、組込み逆学習アルゴリズムの後悔の限界に還元される。
フレームワークに基づいて、さまざまな設定で新しい結果を得る。
それぞれの周期におけるモデルパラメータが同じ分布から引き出されるとき、特別な場合において以前の境界を改善するために \textit{state-of-art} $O(\sqrt{T})$ regret を導出する。
また,本アルゴリズムはモデルパラメータ実現の逆汚職に対しても頑健である。
モデルパラメータが未知の非定常分布から引き出され、分布のマシン学習予測が与えられると、我々は、後悔する$O(W_T+\sqrt{T})$で新しいアルゴリズムを開発する。
We consider an online two-stage stochastic optimization with long-term constraints over a finite horizon of $T$ periods. At each period, we take the first-stage action, observe a model parameter realization and then take the second-stage action from a feasible set that depends both on the first-stage decision and the model parameter. We aim to minimize the cumulative objective value while guaranteeing that the long-term average second-stage decision belongs to a set. We develop online algorithms for the online two-stage problem from adversarial learning algorithms. Also, the regret bound of our algorithm cam be reduced to the regret bound of embedded adversarial learning algorithms. Based on our framework, we obtain new results under various settings. When the model parameter at each period is drawn from identical distributions, we derive \textit{state-of-art} $O(\sqrt{T})$ regret that improves previous bounds under special cases. Our algorithm is also robust to adversarial corruptions of model parameter realizations. When the model parameters are drawn from unknown non-stationary distributions and we are given machine-learned predictions of the distributions, we develop a new algorithm from our framework with a regret $O(W_T+\sqrt{T})$, where $W_T$ measures the total inaccuracy of the machine-learned predictions. | 翻訳日:2024-05-22 01:10:43 公開日:2024-05-18 |
# 効率的なNeRFアーキテクチャ変換のためのアクティブラーニングによる進行ボリューム蒸留
Progressive Volume Distillation with Active Learning for Efficient NeRF Architecture Conversion ( http://arxiv.org/abs/2304.04012v2 ) ライセンス: Link先を確認 | Shuangkang Fang, Yufeng Wang, Yi Yang, Weixin Xu, Heng Wang, Wenrui Ding, Shuchang Zhou, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、3Dシーンの実用的で多用途な表現として広く採用されており、様々な下流タスクを容易にしている。
しかし、Multi-Layer Perceptron (MLP)、Tensors、低ランクのTensors、Hashtables、およびそれらの組み合わせを含む様々なアーキテクチャは、異なるトレードオフを必要とする。
例えば、Hashtablesに基づく表現はより高速なレンダリングを可能にするが、明確な幾何学的意味が欠如しているため、空間関係対応編集の課題を提起する。
この制限に対処し, 各アーキテクチャのポテンシャルを最大化するために, 多様なアーキテクチャ間の任意の変換を可能にする系統的蒸留法である, PVD-AL(Progressive Volume Distillation with Active Learning)を提案する。
PVD-ALは、各構造を2つの部分に分解し、より浅いものからより深いボリューム表現への蒸留を段階的に実行し、レンダリングプロセスから取得した有効な情報を活用する。
さらに,3段階の能動学習技術により,蒸留プロセス中に教師から生徒への継続的なフィードバックが得られ,高い結果が得られた。
複数のベンチマークデータセットにまたがって,本手法の有効性を示す実験的エビデンスを示す。
例えば、PVD-ALは、Hashtablesベースのモデルから10~20倍高速かつ0.8dB~2dB高いPSNRでMLPベースのモデルを蒸留することができる。
さらにPVD-ALは、異なる構造間の多様な機能の融合を可能にし、複数の編集特性を持つモデルを可能にし、モバイルデバイスのようなリアルタイム要件を満たすためのより効率的なモデルを提供する。
プロジェクトウェブサイト: https://sk-fun.fun/PVD-AL.com
Neural Radiance Fields (NeRF) have been widely adopted as practical and versatile representations for 3D scenes, facilitating various downstream tasks. However, different architectures, including the plain Multi-Layer Perceptron (MLP), Tensors, low-rank Tensors, Hashtables, and their combinations, entail distinct trade-offs. For instance, representations based on Hashtables enable faster rendering but lack clear geometric meaning, thereby posing challenges for spatial-relation-aware editing. To address this limitation and maximize the potential of each architecture, we propose Progressive Volume Distillation with Active Learning (PVD-AL), a systematic distillation method that enables any-to-any conversion between diverse architectures. PVD-AL decomposes each structure into two parts and progressively performs distillation from shallower to deeper volume representation, leveraging effective information retrieved from the rendering process. Additionally, a three-level active learning technique provides continuous feedback from teacher to student during the distillation process, achieving high-performance outcomes. Experimental evidence showcases the effectiveness of our method across multiple benchmark datasets. For instance, PVD-AL can distill an MLP-based model from a Hashtables-based model at a 10~20X faster speed and 0.8dB~2dB higher PSNR than training the MLP-based model from scratch. Moreover, PVD-AL permits the fusion of diverse features among distinct structures, enabling models with multiple editing properties and providing a more efficient model to meet real-time requirements like mobile devices. Project website: https://sk-fun.fun/PVD-AL. | 翻訳日:2024-05-22 01:10:43 公開日:2024-05-18 |
# 部分的参加によるハイブリッド・フェデレーション・ラーニング・コンバージェンスの向上
Accelerating Hybrid Federated Learning Convergence under Partial Participation ( http://arxiv.org/abs/2304.05397v2 ) ライセンス: Link先を確認 | Jieming Bian, Lei Wang, Kun Yang, Cong Shen, Jie Xu, | (参考訳) 過去数年間、フェデレート・ラーニング(FL)は分散機械学習のパラダイムとして人気を博してきた。
FLには、集中型サーバの協調の下で共通のモデルを学ぶために協力する分散型データを持つクライアントのグループが含まれており、クライアントのプライバシを保護することを目的として、ローカルデータセットがクライアントを離れないことと、サーバがモデルアグリゲーションのみを実行することを保証する。
しかし、現実的なシナリオでは、サーバは人口分布を概ね模倣し、学習プロセスを実行する強力な計算能力を持つ少量のデータを集めることができるかもしれない。
この問題に対処するため,本稿では,ハイブリッドFLフレームワークに焦点をあてる。
従来のハイブリッドFL研究は、クライアントとサーバの代替トレーニングが収束速度を向上できることを示したが、クライアントが完全に参加し、部分参加の否定的な効果を無視するシナリオに焦点を当てた。
本稿では、クライアントの部分的参加の下でのハイブリッドFLの理論解析を行い、部分的参加が収束速度の鍵となる制約であることを検証する。
次に、ハイブリッドFLにおけるサーバの2倍の役割を調査するFedCLGという新しいアルゴリズムを提案する。
まず、サーバーはその少量のローカルデータセットを使用してトレーニングステップを処理する必要がある。
第2に、サーバの計算した勾配は、参加するクライアントのトレーニングとサーバのアグリゲーションを導く必要がある。
本稿では,FedCLG法が最先端の手法より優れていることを示す数値実験により理論的知見を検証した。
Over the past few years, Federated Learning (FL) has become a popular distributed machine learning paradigm. FL involves a group of clients with decentralized data who collaborate to learn a common model under the coordination of a centralized server, with the goal of protecting clients' privacy by ensuring that local datasets never leave the clients and that the server only performs model aggregation. However, in realistic scenarios, the server may be able to collect a small amount of data that approximately mimics the population distribution and has stronger computational ability to perform the learning process. To address this, we focus on the hybrid FL framework in this paper. While previous hybrid FL work has shown that the alternative training of clients and server can increase convergence speed, it has focused on the scenario where clients fully participate and ignores the negative effect of partial participation. In this paper, we provide theoretical analysis of hybrid FL under clients' partial participation to validate that partial participation is the key constraint on convergence speed. We then propose a new algorithm called FedCLG, which investigates the two-fold role of the server in hybrid FL. Firstly, the server needs to process the training steps using its small amount of local datasets. Secondly, the server's calculated gradient needs to guide the participated clients' training and the server's aggregation. We validate our theoretical findings through numerical experiments, which show that our proposed method FedCLG outperforms state-of-the-art methods. | 翻訳日:2024-05-22 01:10:43 公開日:2024-05-18 |
# COKE:マインドマシン理論のための認知知識グラフ
COKE: A Cognitive Knowledge Graph for Machine Theory of Mind ( http://arxiv.org/abs/2305.05390v2 ) ライセンス: Link先を確認 | Jincenzi Wu, Zhuang Chen, Jiawen Deng, Sahand Sabour, Helen Meng, Minlie Huang, | (参考訳) 心の理論(りょうせい、英: Theory of Mind)とは、他者の欲求、信念、意図を理解し、推測する人間の能力のこと。
ToMの獲得は、人間の社会的認知と対人関係において重要な役割を果たしている。
ソーシャルインテリジェンスには不可欠だが、トレーニングコーパスの下の人間の精神状態や認知プロセスにアクセスできないため、ToMは現代AIやNLPシステムにはまだ欠落している。
ToM能力でAIシステムを強化し、彼らと人間のギャップを狭めるために、本論文では、心の機械理論のための最初の認知知識グラフであるCOKEを提案する。
特に、COKEはToMを、特定の社会的状況に直面した際の人間の精神活動とその後の行動・影響を特徴付ける45k以上の認知的連鎖のコレクションとして定式化している。
さらに、LLMを用いてCOKEをさらに一般化し、認知的推論に適した強力な生成モデルCOLMを構築する。
自動評価と人的評価の両方の実験結果から,COKEの高品質化,COLMのToM能力の向上,社会応用の大幅な向上の可能性が確認された。
Theory of mind (ToM) refers to humans' ability to understand and infer the desires, beliefs, and intentions of others. The acquisition of ToM plays a key role in humans' social cognition and interpersonal relations. Though indispensable for social intelligence, ToM is still lacking for modern AI and NLP systems since they cannot access the human mental state and cognitive process beneath the training corpus. To empower AI systems with the ToM ability and narrow the gap between them and humans, in this paper, we propose COKE: the first cognitive knowledge graph for machine theory of mind. Specifically, COKE formalizes ToM as a collection of 45k+ manually verified cognitive chains that characterize human mental activities and subsequent behavioral/affective responses when facing specific social circumstances. In addition, we further generalize COKE using LLMs and build a powerful generation model COLM tailored for cognitive reasoning. Experimental results in both automatic and human evaluation demonstrate the high quality of COKE, the superior ToM ability of COLM, and its potential to significantly enhance social applications. | 翻訳日:2024-05-22 01:00:22 公開日:2024-05-18 |
# リフティングトポロジカルコード:二次元エノンモデルからの3次元サブシステムコード
Lifting topological codes: Three-dimensional subsystem codes from two-dimensional anyon models ( http://arxiv.org/abs/2305.06365v3 ) ライセンス: Link先を確認 | Jacob C. Bridgeman, Aleksander Kubica, Michael Vasmer, | (参考訳) 3次元のトポロジカルサブシステム符号は、測定ノイズの存在下であっても、時間オーバーヘッドのない量子誤差補正を可能にする。
この単発特性の物理的起源は、部分的には既知のモデルが不足しているため、解明され続けている。
この課題に対処するために、アーベル量子二重モデルから構築された3次元の位相的サブシステムのクラスを1次元未満で体系的に構築する。
我々の構成は、最近導入されたサブシステムトーリックコード(Kubica and Vasmer, Nat. Commun. 13, 6272 (2022))を一般化するだけでなく、ゲージフラックスのガウス法の起源やコードファミリーの境界条件など、原モデルのいくつかの側面について新たな視点を提供する。
次に,このクラスの最初の数個の符号を現象ノイズに対して数値的に解析し,その単発特性を検証する。
最後に、これらの符号に自然に関連づけられたハミルトン派について論じ、それらがギャップのないものであるかもしれないと論じる。
Topological subsystem codes in three spatial dimensions allow for quantum error correction with no time overhead, even in the presence of measurement noise. The physical origins of this single-shot property remain elusive, in part due to the scarcity of known models. To address this challenge, we provide a systematic construction of a class of topological subsystem codes in three dimensions built from abelian quantum double models in one fewer dimension. Our construction not only generalizes the recently introduced subsystem toric code [Kubica and Vasmer, Nat. Commun. 13, 6272 (2022)] but also provides a new perspective on several aspects of the original model, including the origin of the Gauss law for gauge flux, and boundary conditions for the code family. We then numerically study the performance of the first few codes in this class against phenomenological noise to verify their single-shot property. Lastly, we discuss Hamiltonians naturally associated with these codes, and argue that they may be gapless. | 翻訳日:2024-05-22 01:00:22 公開日:2024-05-18 |
# ハミルトン構造とQAOAエネルギーとフーリエ景観構造をつなぐ
Connecting the Hamiltonian structure to the QAOA energy and Fourier landscape structure ( http://arxiv.org/abs/2305.13594v3 ) ライセンス: Link先を確認 | Michał Stęchły, Lanruo Gao, Boniface Yogendran, Enrico Fontana, Manuel Rudolph, | (参考訳) 本稿では,量子近似最適化アルゴリズム(QAOA)におけるハミルトニアンの構成と対応するコストランドスケープ特性との関係の理解を深めることを目的とする。
QAOAは、組合せ最適化に最もよく用いられる変分量子アルゴリズム(VQA)の顕著な例である。
QAOAの成功はパラメータ最適化に大きく依存している。
したがって、コスト関数のランドスケープを理解することは、より良い最適化ヒューリスティックを設計するのに役立ち、結果として最終的な価値を提供する可能性がある。
最大5つの局所項と最大20量子ビットを持つハミルトニアンの1層QAOAの場合を考える。
コストランドスケープの可視化に加えて、それらのフーリエ変換を計算し、補完的な視点からハミルトニアンの構造との関係を研究する。
さらに、景観の粗さを定量化するための指標を導入し、高次元のパラメタライズドランドスケープの性質に関する貴重な洞察を提供する。
これらの手法により、ハミルトン構造、項の順序、係数が最適化ランドスケープの粗さに与える影響を解明できるが、第一原理からVQAの複雑なランドスケープを予測することは非常に困難であり、一般的には実現不可能である。
In this paper, we aim to expand the understanding of the relationship between the composition of the Hamiltonian in the Quantum Approximate Optimization Algorithm (QAOA) and the corresponding cost landscape characteristics. QAOA is a prominent example of a Variational Quantum Algorithm (VQA), which is most commonly used for combinatorial optimization. The success of QAOA heavily relies on parameter optimization, which is a great challenge, especially on scarce noisy quantum hardware. Thus understanding the cost function landscape can aid in designing better optimization heuristics and therefore potentially provide eventual value. We consider the case of 1-layer QAOA for Hamiltonians with up to 5-local terms and up to 20 qubits. In addition to visualizing the cost landscapes, we calculate their Fourier transform to study the relationship with the structure of the Hamiltonians from a complementary perspective. Furthermore, we introduce metrics to quantify the roughness of the landscape, which provide valuable insights into the nature of high-dimensional parametrized landscapes. While these techniques allow us to elucidate the role of Hamiltonian structure, order of the terms and their coefficients on the roughness of the optimization landscape, we also find that predicting the intricate landscapes of VQAs from first principles is very challenging and unlikely to be feasible in general. | 翻訳日:2024-05-22 01:00:22 公開日:2024-05-18 |
# リスク制御による推論時間確率ランク付け
Inference-time Stochastic Ranking with Risk Control ( http://arxiv.org/abs/2306.07188v3 ) ライセンス: Link先を確認 | Ruocheng Guo, Jean-François Ton, Yang Liu, Hang Li, | (参考訳) オンライン経済においてLearning to Rank(LTR)手法は不可欠であり、ユーザやアイテムプロバイダに影響を与える。
LTRモデルの公正性は、アイテムの関連性に比例して露光を割り当てることに不可欠である。
広く使われている決定論的LTRモデルは、特に同じ関連性のあるアイテムがわずかに異なるランキングスコアを受けた場合、不公平な露出分布につながる可能性がある。
確率的LTRモデルは、プラケット・ルーシ(PL)ランキングモデルを導入し、公正性の問題に対処するが、高いトレーニングコストに悩まされる。
さらに、実用性や公正性を保証することはできず、公正性のために最適化された場合、劇的に劣化した実用性をもたらす可能性がある。
これらの制約を克服するために,予測時確率ランク付けとリスク制御(ISRR)を提案する。これは,決定論的あるいは確率的LTRモデルから事前訓練されたスコアリング関数を与えられた保証された実用性や公平性を用いて,推論時に確率ランク付けを行う新しい手法である。
広く採用されている3つのデータセットの総合的な実験結果から,提案手法は計算コストがはるかに低い既存の確率的ランキング法に匹敵する実用性と公平性を実現することを示す。
さらに,本手法が有効性と公平性に対する有限サンプル保証を提供することを確認した。
この進歩は、確率的ランキングと公正なLTRの分野への重要な貢献であり、将来的な現実世界の応用である。
Learning to Rank (LTR) methods are vital in online economies, affecting users and item providers. Fairness in LTR models is crucial to allocate exposure proportionally to item relevance. Widely used deterministic LTR models can lead to unfair exposure distribution, especially when items with the same relevance receive slightly different ranking scores. Stochastic LTR models, incorporating the Plackett-Luce (PL) ranking model, address fairness issues but suffer from high training cost. In addition, they cannot provide guarantees on the utility or fairness, which can lead to dramatic degraded utility when optimized for fairness. To overcome these limitations, we propose Inference-time Stochastic Ranking with Risk Control (ISRR), a novel method that performs stochastic ranking at inference time with guanranteed utility or fairness given pretrained scoring functions from deterministic or stochastic LTR models. Comprehensive experimental results on three widely adopted datasets demonstrate that our proposed method achieves utility and fairness comparable to existing stochastic ranking methods with much lower computational cost. In addition, results verify that our method provides finite-sample guarantee on utility and fairness. This advancement represents a significant contribution to the field of stochastic ranking and fair LTR with promising real-world applications. | 翻訳日:2024-05-22 00:50:05 公開日:2024-05-18 |
# チェーン・オブ・サート・アトリビュート操作によるFew-Shotテキストマイニングのための制御可能なデータ拡張
Controllable Data Augmentation for Few-Shot Text Mining with Chain-of-Thought Attribute Manipulation ( http://arxiv.org/abs/2307.07099v2 ) ライセンス: Link先を確認 | Letian Peng, Yuwei Zhang, Jingbo Shang, | (参考訳) データ拡張のための大規模言語モデル(LLM)のプロンプティングは、最近、数ショットのNLPタスクにおいて一般的なプラクティスとなっている。
本稿では,ユーザが提供するタスク固有の属性,例えば感情極性,あるいは映画レビューのトピックを微調整するだけで,既存の事例から新たなデータを生成する新しい手法であるChain-of-Thought Attribute Manipulation (CoTAM)を提案する。
従来の潜在表現制御の代わりに,(1)属性分解,(2)操作提案,(3)文再構成という3つのステップでテキストを直接編集するよう促すチェーン・オブ・シントを利用する。
テキスト(ペア)分類やアスペクトベースの感情分析,条件付きテキスト生成など,さまざまなタスクにおける広範囲な結果から,微調整とインコンテクスト学習の両方のトレーニング例と同じ数で,他のLCMベースの拡張手法よりもCoTAMの方が優れていることが検証された。
注目すべきは、主成分分析を用いた拡張データセットの2次元可視化により、属性操作によって示唆される可能性の高い人間の認識可能な決定境界が明らかとなり、提案手法の可能性が示されたことである。
Prompting large language models (LLMs) for data augmentation has recently become a common practice in few-shot NLP tasks. In this paper, we propose Chain-of-Thought Attribute Manipulation (CoTAM), a novel approach that generates new data from existing examples by only tweaking in the user-provided, task-specific attribute, e.g., sentiment polarity or topic in movie reviews. Instead of conventional latent representation controlling, we leverage the chain-of-thought prompting to directly edit the text in three steps, (1) attribute decomposition, (2) manipulation proposal, and (3) sentence reconstruction. Extensive results on various tasks, such as text (pair) classification, aspect-based sentiment analysis, and conditional text generation, verify the superiority of CoTAM over other LLM-based augmentation methods with the same number of training examples for both fine-tuning and in-context learning. Remarkably, the 2D visualization of the augmented dataset using principal component analysis revealed a human-recognizable decision boundary that is likely hinted by the attribute manipulation, demonstrating the potential of our proposed approach. | 翻訳日:2024-05-22 00:50:05 公開日:2024-05-18 |
# VulLibGen: 大規模言語モデルによる脆弱性影響パッケージ名の生成
VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model ( http://arxiv.org/abs/2308.04662v3 ) ライセンス: Link先を確認 | Tianyu Chen, Lin Li, Liuchuan Zhu, Zongyang Li, Xueqing Liu, Guangtai Liang, Qianxiang Wang, Tao Xie, | (参考訳) セキュリティ実践者は、セキュリティリスクを軽減するために脆弱性レポート(GitHub Advisoryなど)を維持する。
これらのデータベースにとって重要なタスクは、レポートに記載されている構造化情報、例えば影響を受けるソフトウェアパッケージを自動的に抽出して、脆弱性エコシステムの防衛を加速することである。
しかし、影響を受けるパッケージ識別に関する既存の作業は、高い精度で達成することは困難である。
一つの理由は、既存の全ての作業が比較的小さなモデルに焦点を当てているため、大きな言語モデルの知識と意味の能力を活用できないからである。
この制限に対処するため、影響を受けるパッケージ識別に LLM を使用する最初の方法である VulLibGen を提案する。
既存の作業とは対照的に、VulLibGenは影響を受けるパッケージを直接生成する新しいアイデアを提案している。
精度を向上させるため、VulLibGenは教師付き微調整(SFT)、検索拡張生成(RAG)、局所探索アルゴリズムを採用している。
局所探索アルゴリズムは、生成したパッケージの幻覚を低減するために導入された新しい後処理アルゴリズムである。
VulLibGenはGitHub Advisory(Java、JS、Python、Go)の4つの最も人気のあるエコシステムにおいて、脆弱性のあるパッケージを識別するための平均精度0.806であり、以前の作業で最高の平均精度は0.721である。
さらに、VulLibGenはセキュリティプラクティスに高い価値があります。私たちはGitHub Advisory(4つのエコシステムをカバー)に60組の<vulnerability, affected package>ペアを提出しました。
34件が承認され、合併され、20件が承認待ちである。
コードとデータセットは添付ファイルにある。
Security practitioners maintain vulnerability reports (e.g., GitHub Advisory) to help developers mitigate security risks. An important task for these databases is automatically extracting structured information mentioned in the report, e.g., the affected software packages, to accelerate the defense of the vulnerability ecosystem. However, it is challenging for existing work on affected package identification to achieve a high accuracy. One reason is that all existing work focuses on relatively smaller models, thus they cannot harness the knowledge and semantic capabilities of large language models. To address this limitation, we propose VulLibGen, the first method to use LLM for affected package identification. In contrast to existing work, VulLibGen proposes the novel idea to directly generate the affected package. To improve the accuracy, VulLibGen employs supervised fine-tuning (SFT), retrieval augmented generation (RAG) and a local search algorithm. The local search algorithm is a novel postprocessing algorithm we introduce for reducing the hallucination of the generated packages. Our evaluation results show that VulLibGen has an average accuracy of 0.806 for identifying vulnerable packages in the four most popular ecosystems in GitHub Advisory (Java, JS, Python, Go) while the best average accuracy in previous work is 0.721. Additionally, VulLibGen has high value to security practice: we submitted 60 <vulnerability, affected package> pairs to GitHub Advisory (covers four ecosystems). 34 of them have been accepted and merged and 20 are pending approval. Our code and dataset can be found in the attachments. | 翻訳日:2024-05-22 00:40:21 公開日:2024-05-18 |
# Flamingo: プライベートフェデレーションラーニングに応用したマルチロードシングルサーバセキュアアグリゲーション
Flamingo: Multi-Round Single-Server Secure Aggregation with Applications to Private Federated Learning ( http://arxiv.org/abs/2308.09883v3 ) ライセンス: Link先を確認 | Yiping Ma, Jess Woods, Sebastian Angel, Antigoni Polychroniadou, Tal Rabin, | (参考訳) 本稿では,大規模なクライアント間でデータをセキュアに集約するシステムであるFlamingoを紹介する。
セキュアアグリゲーションでは、サーバはクライアントのプライベートインプットを合計し、最終アグリゲーションによって入力されるもの以上の個々のインプットについて何も学ばずに結果を得る。
フラミンゴは、モデルウェイトを連続的に総和(アラーム)して良いモデルを導出するフェデレートラーニングで見つかる多ラウンド設定に焦点を当てている。
Bell et al (CCS '20) のような以前のプロトコルは、単一ラウンド用に設計されており、プロトコルを何度も繰り返して、連邦学習環境に適応している。
Flamingoは、以前のプロトコルのラウンド単位のセットアップの必要性を排除し、クライアントが和の中央に残れば、サーバが意味のある結果を得ることができることを保証するために、新しい軽量なドロップアウトレジリエンスプロトコルを備えている。
さらに、Flamingo氏は、Bell氏らによって導入されたいわゆるクライアント地区をローカルに選択する新しい方法を紹介している。これらのテクニックは、Flammingoがクライアントとサーバ間のインタラクションの数を減らすのに役立つ。
我々はFlamingoを実装して評価し、(拡張)MNISTとCIFAR-100データセット上でニューラルネットワークをセキュアにトレーニングできることを示し、非プライベートなフェデレート学習システムと比較して精度を損なうことなくモデルを収束させる。
This paper introduces Flamingo, a system for secure aggregation of data across a large set of clients. In secure aggregation, a server sums up the private inputs of clients and obtains the result without learning anything about the individual inputs beyond what is implied by the final sum. Flamingo focuses on the multi-round setting found in federated learning in which many consecutive summations (averages) of model weights are performed to derive a good model. Previous protocols, such as Bell et al. (CCS '20), have been designed for a single round and are adapted to the federated learning setting by repeating the protocol multiple times. Flamingo eliminates the need for the per-round setup of previous protocols, and has a new lightweight dropout resilience protocol to ensure that if clients leave in the middle of a sum the server can still obtain a meaningful result. Furthermore, Flamingo introduces a new way to locally choose the so-called client neighborhood introduced by Bell et al. These techniques help Flamingo reduce the number of interactions between clients and the server, resulting in a significant reduction in the end-to-end runtime for a full training session over prior work. We implement and evaluate Flamingo and show that it can securely train a neural network on the (Extended) MNIST and CIFAR-100 datasets, and the model converges without a loss in accuracy, compared to a non-private federated learning system. | 翻訳日:2024-05-22 00:40:21 公開日:2024-05-18 |
# TransGNN:リコメンダシステムのためのトランスフォーマーとグラフニューラルネットワークの協調力を損なう
TransGNN: Harnessing the Collaborative Power of Transformers and Graph Neural Networks for Recommender Systems ( http://arxiv.org/abs/2308.14355v3 ) ライセンス: Link先を確認 | Peiyan Zhang, Yuchen Yan, Xi Zhang, Chaozhuo Li, Senzhang Wang, Feiran Huang, Sunghun Kim, | (参考訳) Graph Neural Networks(GNN)は、ユーザとイテムの相互作用グラフのモデリングを通じて、協調フィルタリング(CF)のための有望なソリューションとして登場した。
既存のGNNベースのレコメンデータシステムの核となるのは、エンコードされた埋め込みを洗練させるために、ユーザとテムのインタラクションエッジに沿って再帰的なメッセージパッシングである。
これらの効果が実証されているにもかかわらず、現在のGNNベースの手法は、限られた受容領域とノイズの多い「関心のない」接続の存在という課題に直面している。
対照的に、Transformerベースの手法は、情報を適応的かつグローバルに集約する上で優れている。
それにもかかわらず、大規模な相互作用グラフへのそれらの応用は、固有の複雑さと複雑で絡み合った構造情報を取得する際の課題によって妨げられている。
本稿では,Transformer層とGNN層を統合して相互に機能を強化する新しいモデルであるTransGNNを提案する。
具体的には、TransGNNはTransformerレイヤを活用して、受容界を広げ、エッジから情報をアンタングルすることで、より関連するノードからの情報を集約し、GNNのメッセージパッシングを強化する。
さらに、グラフ構造情報を効果的にキャプチャするために、位置符号化をGNN層に微妙に設計して統合し、そのような構造知識をノード属性に符号化することにより、グラフ上のTransformerの性能を向上させる。
また、Transformerの最も関連性の高いノードのサンプリングと、複雑さを低減するための2つの効率的なサンプル更新戦略を提案することにより、効率の考慮も緩和される。
さらに、理論解析により、TransGNNはGNNよりも表現性が高く、線形複雑性の限界的な増加しか示さない。
5つの公開データセットに関する大規模な実験は、TransGNNの有効性と効率を検証している。
Graph Neural Networks (GNNs) have emerged as promising solutions for collaborative filtering (CF) through the modeling of user-item interaction graphs. The nucleus of existing GNN-based recommender systems involves recursive message passing along user-item interaction edges to refine encoded embeddings. Despite their demonstrated effectiveness, current GNN-based methods encounter challenges of limited receptive fields and the presence of noisy "interest-irrelevant" connections. In contrast, Transformer-based methods excel in aggregating information adaptively and globally. Nevertheless, their application to large-scale interaction graphs is hindered by inherent complexities and challenges in capturing intricate, entangled structural information. In this paper, we propose TransGNN, a novel model that integrates Transformer and GNN layers in an alternating fashion to mutually enhance their capabilities. Specifically, TransGNN leverages Transformer layers to broaden the receptive field and disentangle information aggregation from edges, which aggregates information from more relevant nodes, thereby enhancing the message passing of GNNs. Additionally, to capture graph structure information effectively, positional encoding is meticulously designed and integrated into GNN layers to encode such structural knowledge into node attributes, thus enhancing the Transformer's performance on graphs. Efficiency considerations are also alleviated by proposing the sampling of the most relevant nodes for the Transformer, along with two efficient sample update strategies to reduce complexity. Furthermore, theoretical analysis demonstrates that TransGNN offers increased expressiveness compared to GNNs, with only a marginal increase in linear complexity. Extensive experiments on five public datasets validate the effectiveness and efficiency of TransGNN. | 翻訳日:2024-05-22 00:40:21 公開日:2024-05-18 |
# グラフ注意ネットワークによる動きからの学習
Learning Structure-from-Motion with Graph Attention Networks ( http://arxiv.org/abs/2308.15984v3 ) ライセンス: Link先を確認 | Lucas Brynte, José Pedro Iglesias, Carl Olsson, Fredrik Kahl, | (参考訳) 本稿では,グラフアテンションネットワークを用いてSfM(Structure-from-Motion)を学習する問題に取り組む。
SfMは昔ながらのコンピュータビジョン問題であり、再射誤差の反復最小化(BA)は良い初期化から始まっている。
BAに対する十分な初期化を得るためには、従来の手法は、BAを用いて洗練できる初期解を提供する一連のサブプロブレム(ペアのポーズ推定、ポーズ平均化、三角形化など)に依存している。
本研究では,複数のビューにまたがって検出された2Dキーポイントを入力として扱うモデルを学習し,対応するカメラポーズと3Dキーポイント座標を出力することによって,これらのサブプロブレムを置き換える。
本モデルでは,SfM固有のプリミティブを学習するために,グラフニューラルネットワークを利用する。
実験の結果,提案手法は競合する学習手法よりも優れており,ランタイムが低い場合にはCOLMAPに挑戦することが示された。
私たちのコードはhttps://github.com/lucasbrynte/gasfm/で利用可能です。
In this paper we tackle the problem of learning Structure-from-Motion (SfM) through the use of graph attention networks. SfM is a classic computer vision problem that is solved though iterative minimization of reprojection errors, referred to as Bundle Adjustment (BA), starting from a good initialization. In order to obtain a good enough initialization to BA, conventional methods rely on a sequence of sub-problems (such as pairwise pose estimation, pose averaging or triangulation) which provide an initial solution that can then be refined using BA. In this work we replace these sub-problems by learning a model that takes as input the 2D keypoints detected across multiple views, and outputs the corresponding camera poses and 3D keypoint coordinates. Our model takes advantage of graph neural networks to learn SfM-specific primitives, and we show that it can be used for fast inference of the reconstruction for new and unseen sequences. The experimental results show that the proposed model outperforms competing learning-based methods, and challenges COLMAP while having lower runtime. Our code is available at https://github.com/lucasbrynte/gasfm/. | 翻訳日:2024-05-22 00:40:21 公開日:2024-05-18 |
# 曲面時空における2つの超微粒子間の重力誘起絡み合い:I.シュワルツシルト背景
Gravity-induced entanglement between two massive microscopic particles in curved spacetime: I.The Schwarzschild background ( http://arxiv.org/abs/2308.16526v2 ) ライセンス: Link先を確認 | Chi Zhang, Fu-Wen Shu, | (参考訳) 重力場による2つの大きな粒子の絡み合いを含む実験は、重力の量子的特性を識別するために考案された。
本稿では,この実験の適用性をより一般化された曲線時空に拡張する手法を提案する。
具体的には、星間物質を横切る粒子のような天体物理学現象において、質量の量子重力誘起絡み合い(QGEM)に注意を向ける。
特に、時空の重力場は、メソスコピック質量よりもかなり小さい粒子を扱う場合であっても、両方のシナリオで粒子対間の観測可能な絡み合いを誘導できる。
さらに,様々なシナリオにまたがるQGEMの特徴スペクトルを抽出し,今後の実験結果に光を当てる。
このアプローチは、重力の量子的影響をより顕著かつ広範囲に表すだけでなく、将来的な天文学的な実験のための道を開く。
これらの実験は、我々の仮定と一致し、量子重力の検出において大きな利点と意味を持ち、将来の設計のために想定できる。
The experiment involving the entanglement of two massive particles through gravitational fields has been devised to discern the quantum attributes of gravity. In this paper, we present a scheme to extend this experiment's applicability to more generalized curved spacetimes, with the objective of validating universal quantum gravity within broader contexts. Specifically, we direct our attention towards the quantum gravity induced entanglement of mass (QGEM) in astrophysical phenomena, such as particles traversing the interstellar medium. Notably, we ascertain that the gravitational field within curved spacetime can induce observable entanglement between particle pairs in both scenarios, even when dealing with particles significantly smaller than mesoscopic masses. Furthermore, we obtain the characteristic spectra of QGEM across diverse scenarios, shedding light on potential future experimental examinations. This approach not only establishes a more pronounced and extensive manifestation of the quantum influences of gravity compared to the original scheme but also opens avenues for prospective astronomical experiments. These experiments, aligned with our postulates, hold immense advantages and implications for the detection of quantum gravity and can be envisioned for future design. | 翻訳日:2024-05-22 00:40:21 公開日:2024-05-18 |
# OccupancyDETR:DTRを用いた混合密度スパース3次元活動予測
OccupancyDETR: Using DETR for Mixed Dense-sparse 3D Occupancy Prediction ( http://arxiv.org/abs/2309.08504v3 ) ライセンス: Link先を確認 | Yupeng Jia, Jie He, Runze Chen, Fang Zhao, Haiyong Luo, | (参考訳) 視覚に基づく3Dセマンティック占有感は、自動運転車を含むロボティクスにとって重要な技術であり、3Dによる環境の理解を深める。
しかし、このアプローチは一般的に、BEVや2Dメソッドよりも多くの計算資源を必要とする。
本稿では,DTRのような物体検出技術を用いた3次元意味的占有認識手法OccupancyDETRを提案する。
私たちのアプローチは、シーン内の前景と背景を区別します。
最初は、DETRのような物体検出を用いて、前景の物体を検出する。
その後、前景オブジェクトと背景オブジェクトの両方のクエリを混合密度の3D占有デコーダに入力し、それぞれ密度の低いメソッドとスパースメソッドでアップサンプリングを行う。
最後に、MaskFormerを使用して、バックグラウンドのvoxelのセマンティクスを推測する。
提案手法は, 効率と精度のバランスをとっており, より高速な推測時間, リソース消費の低減, 小型物体検出の性能向上を実現している。
提案手法をSemanticKITTIデータセットに適用し,14のmIoUと10FPSの処理速度を示した。
Visual-based 3D semantic occupancy perception is a key technology for robotics, including autonomous vehicles, offering an enhanced understanding of the environment by 3D. This approach, however, typically requires more computational resources than BEV or 2D methods. We propose a novel 3D semantic occupancy perception method, OccupancyDETR, which utilizes a DETR-like object detection, a mixed dense-sparse 3D occupancy decoder. Our approach distinguishes between foreground and background within a scene. Initially, foreground objects are detected using the DETR-like object detection. Subsequently, queries for both foreground and background objects are fed into the mixed dense-sparse 3D occupancy decoder, performing upsampling in dense and sparse methods, respectively. Finally, a MaskFormer is utilized to infer the semantics of the background voxels. Our approach strikes a balance between efficiency and accuracy, achieving faster inference times, lower resource consumption, and improved performance for small object detection. We demonstrate the effectiveness of our proposed method on the SemanticKITTI dataset, showcasing an mIoU of 14 and a processing speed of 10 FPS, thereby presenting a promising solution for real-time 3D semantic occupancy perception. | 翻訳日:2024-05-22 00:30:29 公開日:2024-05-18 |
# 全ラベルを考慮した自然言語推論における事前学習言語モデルの性バイアス評価
Evaluating Gender Bias of Pre-trained Language Models in Natural Language Inference by Considering All Labels ( http://arxiv.org/abs/2309.09697v3 ) ライセンス: Link先を確認 | Panatchakorn Anantaprayoon, Masahiro Kaneko, Naoaki Okazaki, | (参考訳) 複数の言語を対象とした事前学習言語モデル(PLM)では、差別的な性バイアスが発見されている。
自然言語推論(NLI)において、既存のバイアス評価手法は、中性などの3つのラベルのうち1つの特定のラベルの予測結果に焦点を当てている。
しかし、ユニークなバイアス付き推論がユニークな予測ラベルと関連付けられているため、そのような評価手法は不正確である。
この制限に対処するため、NLIタスクの3つのラベルをすべて考慮した、NLI-CoALと呼ばれるPLMのバイアス評価手法を提案する。
まず、異なる種類のバイアスを表す3つの評価データグループを作成します。
次に,各データ群のラベル出力に基づいてバイアス尺度を定義する。
実験では,NLI偏差測定のメタ評価手法を導入し,偏差測定が非偏差的推論と非偏差的推論との偏差を識別し,より正確な偏差評価を行う。
我々は、英語、日本語、中国語でデータセットを作成し、複数の言語にまたがるバイアス尺度の適合性を検証することに成功した。
最後に、異なる言語のPLMにおけるバイアス傾向を観察する。
我々の知る限り、我々はまず評価データセットを構築し、日本語と中国語のNLIからPLMのバイアスを測定する。
Discriminatory gender biases have been found in Pre-trained Language Models (PLMs) for multiple languages. In Natural Language Inference (NLI), existing bias evaluation methods have focused on the prediction results of one specific label out of three labels, such as neutral. However, such evaluation methods can be inaccurate since unique biased inferences are associated with unique prediction labels. Addressing this limitation, we propose a bias evaluation method for PLMs, called NLI-CoAL, which considers all the three labels of NLI task. First, we create three evaluation data groups that represent different types of biases. Then, we define a bias measure based on the corresponding label output of each data group. In the experiments, we introduce a meta-evaluation technique for NLI bias measures and use it to confirm that our bias measure can distinguish biased, incorrect inferences from non-biased incorrect inferences better than the baseline, resulting in a more accurate bias evaluation. We create the datasets in English, Japanese, and Chinese, and successfully validate the compatibility of our bias measure across multiple languages. Lastly, we observe the bias tendencies in PLMs of different languages. To our knowledge, we are the first to construct evaluation datasets and measure PLMs' bias from NLI in Japanese and Chinese. | 翻訳日:2024-05-22 00:30:29 公開日:2024-05-18 |
# K-pop Lyric Translation:データセット,解析,ニューラルモデリング
K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling ( http://arxiv.org/abs/2309.11093v4 ) ライセンス: Link先を確認 | Haven Kim, Jongmin Jung, Dasaem Jeong, Juhan Nam, | (参考訳) 歌詞翻訳は1世紀以上にわたって研究されてきた分野であり、現在では計算言語学の研究者を惹きつけている。
我々は以前の研究で2つの限界を特定した。
第一に、歌詞翻訳の研究は西洋のジャンルや言語に重点を置いており、その人気にもかかわらずK-popを中心にした以前の研究は行われていない。
第二に、歌詞翻訳の分野は、公開データセットの欠如に悩まされており、私たちの知る限り、そのようなデータセットは存在しない。
歌詞翻訳研究におけるジャンルや言語の範囲を広げるために,K-popの歌詞からなる歌詞翻訳データセットを新たに導入する。
このデータセットは、韓国語と英語の歌詞を並べて、セクションごとに並べる。
我々は、このデータセットを利用して、K-pop歌詞翻訳の特徴を明らかにし、他の広く研究されているジャンルと区別し、ニューラル・歌詞翻訳モデルを構築し、歌唱可能な歌詞翻訳のための専用のデータセットの重要性を強調した。
Lyric translation, a field studied for over a century, is now attracting computational linguistics researchers. We identified two limitations in previous studies. Firstly, lyric translation studies have predominantly focused on Western genres and languages, with no previous study centering on K-pop despite its popularity. Second, the field of lyric translation suffers from a lack of publicly available datasets; to the best of our knowledge, no such dataset exists. To broaden the scope of genres and languages in lyric translation studies, we introduce a novel singable lyric translation dataset, approximately 89\% of which consists of K-pop song lyrics. This dataset aligns Korean and English lyrics line-by-line and section-by-section. We leveraged this dataset to unveil unique characteristics of K-pop lyric translation, distinguishing it from other extensively studied genres, and to construct a neural lyric translation model, thereby underscoring the importance of a dedicated dataset for singable lyric translations. | 翻訳日:2024-05-22 00:30:29 公開日:2024-05-18 |
# 局所・グローバル情報統合のためのモデル非依存グラフニューラルネットワーク
A Model-Agnostic Graph Neural Network for Integrating Local and Global Information ( http://arxiv.org/abs/2309.13459v3 ) ライセンス: Link先を確認 | Wenzhuo Zhou, Annie Qu, Keiland W. Cooper, Norbert Fortin, Babak Shahbaba, | (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフにフォーカスしたタスクにおいて、有望なパフォーマンスを実現している。
しかし、その成功にもかかわらず、既存のGNNには、ブラックボックスの性質による結果の解釈可能性の欠如と、さまざまな順序の表現を学べないという2つの大きな制限がある。
これらの問題に対処するために、様々な順序の情報を効果的に統合し、高次隣人から知識を抽出し、影響力のあるコンパクトグラフ構造を識別して有意義かつ解釈可能な結果を提供する、新しい \textbf{M}odel-\textbf{a}gnostic \textbf{G}raph Neural \textbf{Net}work (MaGNet) フレームワークを提案する。
特に、MaGNetは、グラフトポロジに基づく複雑な関係の潜在表現のための推定モデルと、影響のあるノード、エッジ、ノードの特徴を識別する解釈モデルである。
理論的には、経験的ラデマッハ複雑性によりMaGNetの一般化誤差を確立し、その層状近傍混合を表現する力を示す。
シミュレーションデータを用いて総合的な数値研究を行い,MaGNetの優れた性能を示す。
さらに,脳活動データからタスククリティカル情報を抽出することを目的とした実世界のケーススタディにMaGNetを適用し,科学研究の進展におけるその効果を明らかにする。
Graph Neural Networks (GNNs) have achieved promising performance in a variety of graph-focused tasks. Despite their success, however, existing GNNs suffer from two significant limitations: a lack of interpretability in results due to their black-box nature, and an inability to learn representations of varying orders. To tackle these issues, we propose a novel \textbf{M}odel-\textbf{a}gnostic \textbf{G}raph Neural \textbf{Net}work (MaGNet) framework, which is able to effectively integrate information of various orders, extract knowledge from high-order neighbors, and provide meaningful and interpretable results by identifying influential compact graph structures. In particular, MaGNet consists of two components: an estimation model for the latent representation of complex relationships under graph topology, and an interpretation model that identifies influential nodes, edges, and node features. Theoretically, we establish the generalization error bound for MaGNet via empirical Rademacher complexity, and demonstrate its power to represent layer-wise neighborhood mixing. We conduct comprehensive numerical studies using simulated data to demonstrate the superior performance of MaGNet in comparison to several state-of-the-art alternatives. Furthermore, we apply MaGNet to a real-world case study aimed at extracting task-critical information from brain activity data, thereby highlighting its effectiveness in advancing scientific research. | 翻訳日:2024-05-22 00:30:29 公開日:2024-05-18 |
# メタモデリングによるリガンド-タンパク質結合親和性の予測
Improved prediction of ligand-protein binding affinities by meta-modeling ( http://arxiv.org/abs/2310.03946v3 ) ライセンス: Link先を確認 | Ho-Joon Lee, Prashant S. Emani, Mark B. Gerstein, | (参考訳) 計算的アプローチによる標的タンパク質に対する薬物リガンド候補の正確なスクリーニングは、医薬品開発における主要な関心事である。
このような仮想スクリーニングは、リガンドとタンパク質の結合親和性を予測する方法に部分的に依存する。
結合親和性予測のための多くの計算モデルが開発されているが、ターゲット毎に異なる結果が得られた。
モデル固有のバイアスを低減するために,アンサンブル法やメタモデリング法が大きな可能性を秘めていることを考慮し,提案した力場に基づく経験的ドッキングとシーケンスに基づくディープラーニングモデルを統合するフレームワークを開発した。
このフレームワークを構築する際に、個々のベースモデル、トレーニングデータベース、およびいくつかのメタモデリングアプローチの多くの組み合わせを評価します。
メタモデルの多くは,ベースモデルに対する親和性予測を大幅に改善している。
我々の最高のメタモデルは、構造のみに基づく最先端のディープラーニングツールに匹敵する性能を実現し、物理化学的特性や分子記述子といった特徴を明示的に含み、データベースのスケーラビリティと柔軟性を向上させる。
全体として、結合親和性予測を改善するために、多様なモデリングアプローチが組み合わされることを実証する。
The accurate screening of candidate drug ligands against target proteins through computational approaches is of prime interest to drug development efforts. Such virtual screening depends in part on methods to predict the binding affinity between ligands and proteins. Many computational models for binding affinity prediction have been developed, but with varying results across targets. Given that ensembling or meta-modeling methods have shown great promise in reducing model-specific biases, we develop a framework to integrate published force-field-based empirical docking and sequence-based deep learning models. In building this framework, we evaluate many combinations of individual base models, training databases, and several meta-modeling approaches. We show that many of our meta-models significantly improve affinity predictions over base models. Our best meta-models achieve comparable performance to state-of-the-art deep learning tools exclusively based on structures, while allowing for improved database scalability and flexibility through the explicit inclusion of features such as physicochemical properties or molecular descriptors. Overall, we demonstrate that diverse modeling approaches can be ensembled together to gain improvement in binding affinity prediction. | 翻訳日:2024-05-22 00:20:28 公開日:2024-05-18 |
# 情報分解による解釈可能な拡散
Interpretable Diffusion via Information Decomposition ( http://arxiv.org/abs/2310.07972v3 ) ライセンス: Link先を確認 | Xianghao Kong, Ollie Liu, Han Li, Dani Yogatama, Greg Ver Steeg, | (参考訳) デノイング拡散モデルは、画像やテキストのような複雑な関係の条件生成と密度モデリングを可能にする。
しかし、学習された関係の性質は不透明であるため、どの単語と画像の部分の関係が捉えられるのかを正確に理解したり、介入の効果を予測することは困難である。
拡散モデルにより学習された微粒な関係を,拡散と情報分解の正確な関係に注意して照明する。
具体的相互情報表現と条件付き相互情報表現は、デノナイジングモデルを用いて記述することができる。
さらに、ポイントワイズ推定も容易であり、特定の画像とキャプションの関係について質問することができる。
さらに情報を分解して、高次元空間のどの変数が情報を運ぶかを理解することは、長年にわたる問題である。
拡散モデルでは、相互情報の自然な非負分解が出現し、画像中の単語と画素間の情報的関係を定量化できることを示す。
我々はこれらの新たな関係を利用して拡散モデルの構成的理解を計測し、画像中の物体の教師なしの局所化を行い、迅速な介入を通して画像の選択的編集を行う際の効果を測定する。
Denoising diffusion models enable conditional generation and density modeling of complex relationships like images and text. However, the nature of the learned relationships is opaque making it difficult to understand precisely what relationships between words and parts of an image are captured, or to predict the effect of an intervention. We illuminate the fine-grained relationships learned by diffusion models by noticing a precise relationship between diffusion and information decomposition. Exact expressions for mutual information and conditional mutual information can be written in terms of the denoising model. Furthermore, pointwise estimates can be easily estimated as well, allowing us to ask questions about the relationships between specific images and captions. Decomposing information even further to understand which variables in a high-dimensional space carry information is a long-standing problem. For diffusion models, we show that a natural non-negative decomposition of mutual information emerges, allowing us to quantify informative relationships between words and pixels in an image. We exploit these new relations to measure the compositional understanding of diffusion models, to do unsupervised localization of objects in images, and to measure effects when selectively editing images through prompt interventions. | 翻訳日:2024-05-22 00:20:28 公開日:2024-05-18 |
# 制約量子時間進化の最適圧縮
Optimal compression of constrained quantum time evolution ( http://arxiv.org/abs/2311.06347v3 ) ライセンス: Link先を確認 | Maurits S. J. Tepaske, David J. Luitz, Dominik Hahn, | (参考訳) 量子多体系の時間進化は、短期量子コンピュータにおける最も有望な応用の1つである。
しかし、現在の量子デバイスの有用性は、ハードウェアエラーの増大によって強く妨げられている。
したがって、浅い回路は一般にデコヒーレンスに弱いため、与えられた量子アルゴリズムの回路深さの最小化は極めて望ましい。
近年,パラメータの最適選択は計算に要求されるタスクであるにもかかわらず,変分回路はトロッター分解のような最先端の手法より優れた手法であることが示されている。
本研究では,物理系の制約を直接符号化することにより,局所ハミルトニアンの時間発展演算子を実装する回路の変動最適化の単純化を実証する。
このような制約付き変動回路の異なるモデルと制約に対する表現性について検討する。
本結果から,制約の符号化により,ほとんどのシステムにおいて精度を損なうことなく,最大1桁以上の最適化コストとスケーラビリティを任意の大規模システムサイズに削減できることが示唆された。
さらに、局所的に制約されたシステムにおける例外について議論し、制約を回路に組み込んだ後、制限された光円錐幅による説明を行う。
The time evolution of quantum many-body systems is one of the most promising applications for near-term quantum computers. However, the utility of current quantum devices is strongly hampered by the proliferation of hardware errors. The minimization of the circuit depth for a given quantum algorithm is therefore highly desirable, since shallow circuits generally are less vulnerable to decoherence. Recently, it was shown that variational circuits are a promising approach to outperform current state-of-the-art methods such as Trotter decomposition, although the optimal choice of parameters is a computationally demanding task. In this work, we demonstrate a simplification of the variational optimization of circuits implementing the time evolution operator of local Hamiltonians by directly encoding constraints of the physical system under consideration. We study the expressibility of such constrained variational circuits for different models and constraints. Our results show that the encoding of constraints allows a reduction of optimization cost by more than one order of magnitude and scalability to arbitrary large system sizes, without loosing accuracy in most systems. Furthermore, we discuss the exceptions in locally-constrained systems and provide an explanation by means of an restricted lightcone width after incorporating the constraints into the circuits. | 翻訳日:2024-05-22 00:10:05 公開日:2024-05-18 |
# 決定論的画像復元における知覚・ロバスト性トレードオフ
The Perception-Robustness Tradeoff in Deterministic Image Restoration ( http://arxiv.org/abs/2311.09253v3 ) ライセンス: Link先を確認 | Guy Ohayon, Tomer Michaeli, Michael Elad, | (参考訳) 本研究では,画像の逆問題に対する決定論的手法の挙動について検討する。
これらの手法は,(1)高い知覚品質を達成すること,(2)測定値に整合した再構成を生成すること,の2つの目標を達成するために設計されている。
我々は、予測器がこれらの2つの要件を満たすほど、そのリプシッツ定数が大きくなるほど、関連する分解の性質に関係なく、より厳密な証明を与える。
特に、完全な知覚品質と完全整合性にアプローチするには、モデルのリプシッツ定数は無限大に成長しなければならない。
このことは、このような手法が敵の攻撃の影響を受けやすいことを暗示している。
我々は単一画像の超解像アルゴリズムについて,ノイズと雑音の両方に対処する理論を実証する。
また、この望ましくない振る舞いを利用して後続分布を探索し、決定論的モデルが確率的手法を模倣できることを示す。
We study the behavior of deterministic methods for solving inverse problems in imaging. These methods are commonly designed to achieve two goals: (1) attaining high perceptual quality, and (2) generating reconstructions that are consistent with the measurements. We provide a rigorous proof that the better a predictor satisfies these two requirements, the larger its Lipschitz constant must be, regardless of the nature of the degradation involved. In particular, to approach perfect perceptual quality and perfect consistency, the Lipschitz constant of the model must grow to infinity. This implies that such methods are necessarily more susceptible to adversarial attacks. We demonstrate our theory on single image super-resolution algorithms, addressing both noisy and noiseless settings. We also show how this undesired behavior can be leveraged to explore the posterior distribution, thereby allowing the deterministic model to imitate stochastic methods. | 翻訳日:2024-05-22 00:10:05 公開日:2024-05-18 |
# RISAM: 相互認識型アテンション機能によるイメージセグメンテーションの参照
RISAM: Referring Image Segmentation via Mutual-Aware Attention Features ( http://arxiv.org/abs/2311.15727v3 ) ライセンス: Link先を確認 | Mengxi Zhang, Yiming Liu, Kang Rong, | (参考訳) イメージセグメンテーション(RIS)は、言語表現プロンプトに基づいて特定の領域をセグメンテーションすることを目的としている。
既存の手法では、言語的特徴を視覚的特徴に取り入れ、マスク復号のためのマルチモーダル特徴を得る。
しかし、これらの手法は、多モードの特徴が豊富な視覚的コンテキストに支配されるため、正しい参照領域の代わりに視覚的に健全な実体を分割することができる。
本稿では,Segment Anything Model(SAM)を利用した参照画像分割手法MARISを提案する。
具体的には、視覚的特徴と言語的特徴の関係を双方向にモデル化する視覚誘導注意と言語誘導注意から構成される。
それに対応して,言語表現とのより一貫性のあるセグメンテーションのために,明示的な言語指導を可能にするマスクデコーダを設計する。
この目的のために,言語情報を統合し,同時に視覚情報と対話するマルチモーダルクエリトークンを提案する。
3つのベンチマークデータセットの大規模な実験により、我々の手法は最先端のRIS法よりも優れていることが示された。
私たちのコードは公開されます。
Referring image segmentation (RIS) aims to segment a particular region based on a language expression prompt. Existing methods incorporate linguistic features into visual features and obtain multi-modal features for mask decoding. However, these methods may segment the visually salient entity instead of the correct referring region, as the multi-modal features are dominated by the abundant visual context. In this paper, we propose MARIS, a referring image segmentation method that leverages the Segment Anything Model (SAM) and introduces a mutual-aware attention mechanism to enhance the cross-modal fusion via two parallel branches. Specifically, our mutual-aware attention mechanism consists of Vision-Guided Attention and Language-Guided Attention, which bidirectionally model the relationship between visual and linguistic features. Correspondingly, we design a Mask Decoder to enable explicit linguistic guidance for more consistent segmentation with the language expression. To this end, a multi-modal query token is proposed to integrate linguistic information and interact with visual information simultaneously. Extensive experiments on three benchmark datasets show that our method outperforms the state-of-the-art RIS methods. Our code will be publicly available. | 翻訳日:2024-05-22 00:00:07 公開日:2024-05-18 |
# 変換器はカルマンフィルタを表現できるか?
Can a Transformer Represent a Kalman Filter? ( http://arxiv.org/abs/2312.06937v3 ) ライセンス: Link先を確認 | Gautam Goel, Peter Bartlett, | (参考訳) トランスフォーマーは、様々なビジョン、言語、ロボット工学のタスクで最先端のパフォーマンスを達成した、自己回帰的なディープラーニングアーキテクチャのクラスである。
線形力学系におけるカルマンフィルタの問題を再検討し、変換器がカルマンフィルタを強い意味で近似できることを示す。
具体的には、任意の可観測LTIシステムに対して、カルマンフィルタを実装した明示的な因果行列変換器を構築する。
私たちの建設は2段階の削減に基づいている。
まず、ソフトマックス自己アテンションブロックは、ガウス核を持つナダラヤ・ワトソン核平滑化推定器を正確に表現できることを示す。
次に、この推定器がカルマンフィルタに近似していることを示す。
また、トランスフォーマーフィルタを計測フィードバック制御にどのように使用できるかを検討し、結果の非線形制御器がLQGコントローラのような標準最適制御ポリシーの性能を近似することを証明した。
Transformers are a class of autoregressive deep learning architectures which have recently achieved state-of-the-art performance in various vision, language, and robotics tasks. We revisit the problem of Kalman Filtering in linear dynamical systems and show that Transformers can approximate the Kalman Filter in a strong sense. Specifically, for any observable LTI system we construct an explicit causally-masked Transformer which implements the Kalman Filter, up to a small additive error which is bounded uniformly in time; we call our construction the Transformer Filter. Our construction is based on a two-step reduction. We first show that a softmax self-attention block can exactly represent a Nadaraya-Watson kernel smoothing estimator with a Gaussian kernel. We then show that this estimator closely approximates the Kalman Filter. We also investigate how the Transformer Filter can be used for measurement-feedback control and prove that the resulting nonlinear controllers closely approximate the performance of standard optimal control policies such as the LQG controller. | 翻訳日:2024-05-21 23:50:08 公開日:2024-05-18 |
# 一般オルンシュタイン・ウレンベック橋による画像復元
Image Restoration Through Generalized Ornstein-Uhlenbeck Bridge ( http://arxiv.org/abs/2312.10299v2 ) ライセンス: Link先を確認 | Conghan Yue, Zhengwei Peng, Junlong Ma, Shiyan Du, Pengxu Wei, Dongyu Zhang, | (参考訳) 拡散モデルは、逆確率微分方程式によるデータへのノイズマッピングを可能にする強力な生成能力を示す。
しかし、画像復元においては、低品質画像から高品質画像へのマッピング関係に焦点が当てられている。
本稿では,一般オルンシュタイン・ウレンベック橋(GOUB)モデルについて紹介する。
一般化されたOUプロセスの自然な平均回帰特性を活用し、さらにDoobのh-transformによる定常分布のばらつきを排除し、低品質画像から高品質画像の回復を可能にする点から点への拡散写像を実現する。
さらに,GOUBの特殊な例である各種橋梁モデルで共有される基本的な数学的概念を明らかにし,提案モデルの最適性を実証的に示す。
さらに,画素レベルの細部と構造的知覚の両方を捉えるのに有効な平均ODEモデルを提案する。
実験結果は、インペイント、デラリニング、超解像といった様々なタスクで両モデルが達成した最先端のパフォーマンスを示している。
コードは \url{https://github.com/Hammour-steak/GOUB} で公開されている。
Diffusion models exhibit powerful generative capabilities enabling noise mapping to data via reverse stochastic differential equations. However, in image restoration, the focus is on the mapping relationship from low-quality to high-quality images. Regarding this issue, we introduce the Generalized Ornstein-Uhlenbeck Bridge (GOUB) model. By leveraging the natural mean-reverting property of the generalized OU process and further eliminating the variance of its steady-state distribution through the Doob's h-transform, we achieve diffusion mappings from point to point enabling the recovery of high-quality images from low-quality ones. Moreover, we unravel the fundamental mathematical essence shared by various bridge models, all of which are special instances of GOUB and empirically demonstrate the optimality of our proposed models. Additionally, we present the corresponding Mean-ODE model adept at capturing both pixel-level details and structural perceptions. Experimental outcomes showcase the state-of-the-art performance achieved by both models across diverse tasks, including inpainting, deraining, and super-resolution. Code is available at \url{https://github.com/Hammour-steak/GOUB}. | 翻訳日:2024-05-21 23:50:08 公開日:2024-05-18 |
# SI-MIL:ギガピクセル病理における自己解釈性のための深部MILのモデリング
SI-MIL: Taming Deep MIL for Self-Interpretability in Gigapixel Histopathology ( http://arxiv.org/abs/2312.15010v2 ) ライセンス: Link先を確認 | Saarthak Kapse, Pushpak Pati, Srijan Das, Jingwei Zhang, Chao Chen, Maria Vakalopoulou, Joel Saltz, Dimitris Samaras, Rajarsi R. Gupta, Prateek Prasanna, | (参考訳) ギガピクセルスライドの複雑さを考えると、全スライド画像(WSI)解析のための解釈可能性と推論をMIL(Multiple Instance Learning)手法に導入することは困難である。
伝統的に、MILの解釈容易性は下流の作業に関係していると考えられる有能な領域を特定することに限定されており、これらの選択の背景にある理論的根拠についてエンドユーザー(病理学者)にはほとんど洞察を与えていない。
そこで本研究では,自己解釈型MIL(Self-Interpretable MIL, SI-MIL)を提案する。
SI-MILは、手作りの病理学的特徴に基づく解釈可能な分岐を導くために深いMILフレームワークを使用し、線形予測を容易にする。
SI-MILは、正常な領域を識別する以外に、WSIの病理学的洞察に根ざした特徴レベルの解釈を提供する。
特に、SI-MILは線形予測制約を伴い、モデル解釈可能性と性能の間の必然的なトレードオフの神話に挑戦し、3種類の癌に対してWSIレベルの予測タスクに関する最先端の手法と比較して、競争の結果を示す。
さらに,SI-MILの局所的・グローバル的解釈可能性について,統計的分析,ドメイン専門家の研究,解釈可能性,すなわちユーザフレンドリさと忠実さの観点から徹底的に評価する。
Introducing interpretability and reasoning into Multiple Instance Learning (MIL) methods for Whole Slide Image (WSI) analysis is challenging, given the complexity of gigapixel slides. Traditionally, MIL interpretability is limited to identifying salient regions deemed pertinent for downstream tasks, offering little insight to the end-user (pathologist) regarding the rationale behind these selections. To address this, we propose Self-Interpretable MIL (SI-MIL), a method intrinsically designed for interpretability from the very outset. SI-MIL employs a deep MIL framework to guide an interpretable branch grounded on handcrafted pathological features, facilitating linear predictions. Beyond identifying salient regions, SI-MIL uniquely provides feature-level interpretations rooted in pathological insights for WSIs. Notably, SI-MIL, with its linear prediction constraints, challenges the prevalent myth of an inevitable trade-off between model interpretability and performance, demonstrating competitive results compared to state-of-the-art methods on WSI-level prediction tasks across three cancer types. In addition, we thoroughly benchmark the local and global-interpretability of SI-MIL in terms of statistical analysis, a domain expert study, and desiderata of interpretability, namely, user-friendliness and faithfulness. | 翻訳日:2024-05-21 23:40:18 公開日:2024-05-18 |
# 校正攻撃 : モデル信頼度に対する敵攻撃の包括的研究
Calibration Attacks: A Comprehensive Study of Adversarial Attacks on Model Confidence ( http://arxiv.org/abs/2401.02718v2 ) ライセンス: Link先を確認 | Stephen Obadinma, Xiaodan Zhu, Hongyu Guo, | (参考訳) 本研究は, 予測ラベルを変更することなく, 被害者モデルに過度に誤判定を加えることを目的とした攻撃形態であるキャリブレーション・アタック(キャリブレーション・アタック)について, 包括的に検討し, 実施する。
我々は,ブラックボックスとホワイトボックスの双方で実施される,信頼度,過信度,最大誤校正,ランダムな信頼度攻撃の4種類のキャリブレーション攻撃を提案する。
この攻撃は畳み込みモデルと注目モデルの両方で非常に効果的であることが実証された。
本研究は, 危険リスクを考慮し, 被害を軽減するための校正攻撃に特化して設計された防衛を含む, 幅広い敵防衛・再校正手法の有効性について検討する。
ECE と KS のスコアから,キャリブレーション攻撃にはまだ大きな制限があることが明らかとなった。
われわれの知る限りでは、この研究は校正に焦点を絞った攻撃に関する総合的な調査を提供する最初の研究である。
この研究がこの種の攻撃により多くの注意を惹きつけるのに役立つことを願っています。
この目的のために、この研究は攻撃の特性を理解するための詳細な分析も提供する。
In this work, we highlight and perform a comprehensive study on calibration attacks, a form of adversarial attacks that aim to trap victim models to be heavily miscalibrated without altering their predicted labels, hence endangering the trustworthiness of the models and follow-up decision making based on their confidence. We propose four typical forms of calibration attacks: underconfidence, overconfidence, maximum miscalibration, and random confidence attacks, conducted in both the black-box and white-box setups. We demonstrate that the attacks are highly effective on both convolutional and attention-based models: with a small number of queries, they seriously skew confidence without changing the predictive performance. Given the potential danger, we further investigate the effectiveness of a wide range of adversarial defence and recalibration methods, including our proposed defences specifically designed for calibration attacks to mitigate the harm. From the ECE and KS scores, we observe that there are still significant limitations in handling calibration attacks. To the best of our knowledge, this is the first dedicated study that provides a comprehensive investigation on calibration-focused attacks. We hope this study helps attract more attention to these types of attacks and hence hamper their potential serious damages. To this end, this work also provides detailed analyses to understand the characteristics of the attacks. | 翻訳日:2024-05-21 23:40:18 公開日:2024-05-18 |
# メモリデコヒーレンスの存在下での分散曲面符号の閾値
Thresholds for the distributed surface code in the presence of memory decoherence ( http://arxiv.org/abs/2401.10770v2 ) ライセンス: Link先を確認 | Sébastian de Bone, Paul Möller, Conor E. Bradley, Tim H. Taminiau, David Elkouss, | (参考訳) スケーラブルでフォールトトレラントな量子コンピューティングの探索において、分散量子コンピュータは有望な候補である。
これらのシステムは、大規模量子ネットワークで実現したり、近接したノードを持つ単一のチップに凝縮されたりすることができる。
分散トーリックサーフェスコードを用いてメモリチャネルの数値シミュレーションを行うためのフレームワークを提案する。コードの各データキュービットは別個のノードの一部であり、誤り検出性能はノード間で発生する4量子グリーンバーガー・ホルン・ザイリンガー状態の品質に依存する。
メモリデコヒーレンスの影響を定量的に検討し、デコヒーレンスレベルに合わせたGHZ生成プロトコルの利点を評価する。
我々は, 窒素空孔中心を実験的に評価したモデルを用いて, ダイヤモンド中の色中心の特定のケースに我々の枠組みを適用した。
ダイヤモンド色中心では、絡み合い発生時のコヒーレンス時間は、アイドリングキュービットのコヒーレンス時間よりも桁違いに低い。
これらのコヒーレンス時間(英語版)は、アプリケーションの制限要因であるが、以前の表面コードシミュレーションではそのような扱いはしなかった。
顕著なノイズファクターとしてのコヒーレンス時間制限の導入は、現実的な演算時間をシミュレーションに統合し、演算スケジューリングの戦略を取り入れることが不可欠である。
本モデルでは,より理想的なノイズモデルを用いた前処理と比較して,ゲートと測定の誤差確率閾値を少なくとも3倍に低減する。
また、エンタングルメント生成とデコヒーレンス率の比で4\cdot10^2$の閾値が得られ、実験進行のベンチマークが設定される。
In the search for scalable, fault-tolerant quantum computing, distributed quantum computers are promising candidates. These systems can be realized in large-scale quantum networks or condensed onto a single chip with closely situated nodes. We present a framework for numerical simulations of a memory channel using the distributed toric surface code, where each data qubit of the code is part of a separate node, and the error-detection performance depends on the quality of four-qubit Greenberger-Horne-Zeilinger (GHZ) states generated between the nodes. We quantitatively investigate the effect of memory decoherence and evaluate the advantage of GHZ creation protocols tailored to the level of decoherence. We do this by applying our framework for the particular case of color centers in diamond, employing models developed from experimental characterization of nitrogen-vacancy centers. For diamond color centers, coherence times during entanglement generation are orders of magnitude lower than coherence times of idling qubits. These coherence times represent a limiting factor for applications, but previous surface code simulations did not treat them as such. Introducing limiting coherence times as a prominent noise factor makes it imperative to integrate realistic operation times into simulations and incorporate strategies for operation scheduling. Our model predicts error probability thresholds for gate and measurement reduced by at least a factor of three compared to prior work with more idealized noise models. We also find a threshold of $4\cdot10^2$ in the ratio between the entanglement generation and the decoherence rates, setting a benchmark for experimental progress. | 翻訳日:2024-05-21 23:30:28 公開日:2024-05-18 |
# ループホールフリー遺伝子非局在試験における最小検出効率
Minimum Detection Efficiencies for Loophole-free Genuine Nonlocality Tests ( http://arxiv.org/abs/2401.16134v2 ) ライセンス: Link先を確認 | Subhendu B. Ghosh, Snehasish Roy Chowdhury, Ranendu Adhikary, Arup Roy, Tamal Guha, | (参考訳) デバイスに依存しない技術を設計する上で重要な量子非局所性の認定は、深刻な実験的課題に直面している。
検出の抜け穴は、完全な検出器が利用できないことから生まれたもので、それらの中で大きな問題の1つだ。
本研究では,関係当事者に課せられる因果的制約の種類から,様々な非局所性の検出に必要な最小検出効率(MDE)に着目した。
この文脈では、最近提案された$T_2$型非局所性は完全性から著しく逸脱することを示した。
さらに,Svetlichny の非局所性を示すのに必要な MDE を計算した。
最後に、ノイズの存在を必然的に考慮し、$T_2$型非局所性を証明する不完全検出器のロバスト性を示す。
The certification of quantum nonlocality, which has immense significance in architecting device-independent technologies, confronts severe experimental challenges. Detection loophole, originating from the unavailability of perfect detectors, is one of the major issues amongst them. In the present study we focus on the minimum detection efficiency (MDE) required to detect various forms of genuine nonlocality, originating from the type of causal constraints imposed on the involved parties. In this context, we demonstrate that the MDE needed to manifest the recently suggested $T_2$-type nonlocality deviates significantly from perfection. Additionally, we have computed the MDE necessary to manifest Svetlichny's nonlocality, with state-independent approach markedly reducing the previously established bound. Finally, considering the inevitable existence of noise we demonstrate the robustness of the imperfect detectors to certify $T_2$-type nonlocality. | 翻訳日:2024-05-21 23:30:28 公開日:2024-05-18 |
# Calibration-then-Calculation:Deep Click-Through Rate予測モデルにおける可変化メトリックフレームワーク
Calibration-then-Calculation: A Variance Reduced Metric Framework in Deep Click-Through Rate Prediction Models ( http://arxiv.org/abs/2401.16692v2 ) ライセンス: Link先を確認 | Yewen Fan, Nian Si, Xiangchen Song, Kun Zhang, | (参考訳) さまざまな分野にわたるディープラーニングの採用は広く行われているが、ディープラーニングパイプラインのパフォーマンス評価に重点が置かれていない。
通常、大規模なデータセットと複雑なモデルの使用が増えると、トレーニングプロセスは一度だけ実行され、その結果は以前のベンチマークと比較される。
このプラクティスは、トレーニングプロセスの固有のランダム性に由来するニューラルネットワーク評価指標のばらつきによる不正確な比較につながる可能性がある。
トレーニングプロセスを複数回実行するような従来のソリューションは、計算上の制約のため、しばしば実現不可能である。
本稿では,従来からある分散を低減し,この問題に対処するために設計された新しい計量フレームワークCalibrated Loss Metricを紹介する。
これにより、効果的なモデリング改善を検出する精度が向上する。
提案手法は,Deep Click-Through Rate Prediction Modelの文脈における理論的正当性および広範囲な実験的検証によって実証された。
The adoption of deep learning across various fields has been extensive, yet there is a lack of focus on evaluating the performance of deep learning pipelines. Typically, with the increased use of large datasets and complex models, the training process is run only once and the result is compared to previous benchmarks. This practice can lead to imprecise comparisons due to the variance in neural network evaluation metrics, which stems from the inherent randomness in the training process. Traditional solutions, such as running the training process multiple times, are often infeasible due to computational constraints. In this paper, we introduce a novel metric framework, the Calibrated Loss Metric, designed to address this issue by reducing the variance present in its conventional counterpart. Consequently, this new metric enhances the accuracy in detecting effective modeling improvements. Our approach is substantiated by theoretical justifications and extensive experimental validations within the context of Deep Click-Through Rate Prediction Models. | 翻訳日:2024-05-21 23:30:28 公開日:2024-05-18 |
# 内積グラフデコーダの符号ランク制限
Sign Rank Limitations for Inner Product Graph Decoders ( http://arxiv.org/abs/2402.06662v2 ) ライセンス: Link先を確認 | Su Hyeong Lee, Qingqi Zhang, Risi Kondor, | (参考訳) 内部製品ベースのデコーダは、潜伏埋め込みから有意義なデータを抽出するために使用される最も影響力のあるフレームワークの一つである。
しかし、そのようなデコーダは、特にグラフ再構成問題において顕著な多くの著作において、表現能力の限界を示している。
本稿では, この普及現象をグラフデータで初めて理論的に解明し, 内部積の枠組みから逸脱することなく, この問題を回避するための簡単な修正を提案する。
Inner product-based decoders are among the most influential frameworks used to extract meaningful data from latent embeddings. However, such decoders have shown limitations in representation capacity in numerous works within the literature, which have been particularly notable in graph reconstruction problems. In this paper, we provide the first theoretical elucidation of this pervasive phenomenon in graph data, and suggest straightforward modifications to circumvent this issue without deviating from the inner product framework. | 翻訳日:2024-05-21 23:20:37 公開日:2024-05-18 |
# 実践が完璧になる - スキルパラメータポリシーを学ぶ計画
Practice Makes Perfect: Planning to Learn Skill Parameter Policies ( http://arxiv.org/abs/2402.15025v2 ) ライセンス: Link先を確認 | Nishanth Kumar, Tom Silver, Willie McClinton, Linfeng Zhao, Stephen Proulx, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Jennifer Barry, | (参考訳) 複雑な長期タスクにおける効果的なロボット意思決定への有望なアプローチの1つは、パラメータ化されたスキルをまとめることである。
本稿では,(1)パラメータ化されたスキルのライブラリ,(2)目標とするスキルをまとめてシーケンスするAIプランナ,(3)スキルパラメータを選択するための非常に一般的な事前分布について考察する。
ロボットは、一度配備されると、特定の対象、目標、制約にスキルパラメータ選択ポリシーを特化することにより、その性能向上を迅速かつ自律的に学ばなければならない。
本研究では,将来的なタスクの成功を最大化するために,どのスキルを実践するかという,アクティブな学習問題に焦点をあてる。
そこで本研究では,ロボットが各スキルの能力を推定し,能力の外挿を行い(「実践によって能力はどの程度改善されるのか?」と問う),能力認識計画を通じてタスク分布のスキルを定めておくことを提案する。
このアプローチは、ロボットが環境をリセットせずに繰り返し計画し、実践し、学習する完全に自律的なシステム内で実装される。
シミュレーション実験により,本手法は複数のベースラインよりも効率的なパラメータポリシーをより効率的に学習できることが判明した。
実世界の実験では、知覚と制御からノイズを処理し、数時間の自律的な練習の後、ロボットが2つの長い水平移動操作タスクを解く能力を向上させる方法が実証された。
プロジェクトウェブサイト: http://ees.csail.mit.edu
One promising approach towards effective robot decision making in complex, long-horizon tasks is to sequence together parameterized skills. We consider a setting where a robot is initially equipped with (1) a library of parameterized skills, (2) an AI planner for sequencing together the skills given a goal, and (3) a very general prior distribution for selecting skill parameters. Once deployed, the robot should rapidly and autonomously learn to improve its performance by specializing its skill parameter selection policy to the particular objects, goals, and constraints in its environment. In this work, we focus on the active learning problem of choosing which skills to practice to maximize expected future task success. We propose that the robot should estimate the competence of each skill, extrapolate the competence (asking: "how much would the competence improve through practice?"), and situate the skill in the task distribution through competence-aware planning. This approach is implemented within a fully autonomous system where the robot repeatedly plans, practices, and learns without any environment resets. Through experiments in simulation, we find that our approach learns effective parameter policies more sample-efficiently than several baselines. Experiments in the real-world demonstrate our approach's ability to handle noise from perception and control and improve the robot's ability to solve two long-horizon mobile-manipulation tasks after a few hours of autonomous practice. Project website: http://ees.csail.mit.edu | 翻訳日:2024-05-21 23:10:31 公開日:2024-05-18 |
# 圧縮状態の重畳に基づく偏光単光子源
Heralded single-photon source based on superpositions of squeezed states ( http://arxiv.org/abs/2402.17118v2 ) ライセンス: Link先を確認 | Hiroo Azuma, William J. Munro, Kae Nemoto, | (参考訳) ビームスプリッタに逆圧縮状態の重畳を注入し, 重み付き単一光子源を提案する。
我々の励起状態の重ね合わせは、光子数状態(光子の個数は2,6,10,...$と等しい)のみで構成されており、これは、共有単光子イベントとして与えられる発光単光子の確率が、通常の2モード励起状態から得られるものよりも高いことを意味する。
これにより、強化されたヘラルド化された単一光子源を実現することができる。
本稿では, シングルモード圧縮状態とクロスカー非線形性を用いた圧縮状態の重ね合わせについて論じる。
提案手法は, 自発パラメトリックダウンコンバージョンと比較して, 単光子を放出する確率を著しく向上させる。
We propose a heralded single-photon source based on injecting a superposition of oppositely squeezed states onto a beam splitter. Our superposition of squeezed states is composed of only even photon number states (the number of photons is equal to $2,6,10,...$) meaning the probability for an emitted single photon given as a heralded single-photon event is higher than what one can achieve from the usual two-mode squeezed state. This enables one to realize an enhanced heralded single-photon source. We discuss how to create this superposition of squeezed states utilizing a single-mode squeezed state and the cross-Kerr nonlinearity. Our proposed method significantly improves the probability of emitting the heralded single photon compared to spontaneous parametric down-conversion. | 翻訳日:2024-05-21 23:10:31 公開日:2024-05-18 |
# RAGFormer: 意味的属性の学習とフラッド検出のためのトポロジ的構造
RAGFormer: Learning Semantic Attributes and Topological Structure for Fraud Detection ( http://arxiv.org/abs/2402.17472v3 ) ライセンス: Link先を確認 | Haolin Li, Shuyang Jiang, Lifeng Zhang, Siyuan Du, Guangnan Ye, Hongfeng Chai, | (参考訳) 不正検出は、詐欺行為の複雑で詐欺的な性質のため、依然として困難な課題である。
現在のアプローチでは、グラフのトポロジ的構造や個々のノードの属性といった、グラフの1つの観点のみを学ぶことに集中している。
しかし、これらの2種類の特徴は、ほぼ直交するが、それぞれ独立して有効であることを示す実証的研究を行う。
その結果,従来の手法では不正グラフの包括的特徴を完全に把握できないことがわかった。
このジレンマに対処するために,transFormer~(RAGFormer)を用いたRelation-Aware GNNという新しいフレームワークを提案する。
単純なネットワークはセマンティックエンコーダ、トポロジーエンコーダ、アテンション融合モジュールで構成される。
セマンティックエンコーダはTransformerを使用して、異なる関係をまたいだ意味的特徴とノード間の相互作用を学習する。
トポロジ・エンコーダとしてRelation-Aware GNNを導入し,各関係のトポロジ的特徴とノード間相互作用を学習する。
これら2つの相補的特徴は、両方の直交的特徴による予測をサポートするために、注意融合モジュールを介してインターリーブされる。
2つの人気のある公開データセットに関する大規模な実験は、RAGFormerが最先端のパフォーマンスを達成することを実証している。
産業用クレジットカード不正検出データセットにおけるRAGFormerの大幅な改善は、実世界のビジネスシナリオにおける我々の手法の適用性をさらに検証する。
Fraud detection remains a challenging task due to the complex and deceptive nature of fraudulent activities. Current approaches primarily concentrate on learning only one perspective of the graph: either the topological structure of the graph or the attributes of individual nodes. However, we conduct empirical studies to reveal that these two types of features, while nearly orthogonal, are each independently effective. As a result, previous methods can not fully capture the comprehensive characteristics of the fraud graph. To address this dilemma, we present a novel framework called Relation-Aware GNN with transFormer~(RAGFormer) which simultaneously embeds both semantic and topological features into a target node. The simple yet effective network consists of a semantic encoder, a topology encoder, and an attention fusion module. The semantic encoder utilizes Transformer to learn semantic features and node interactions across different relations. We introduce Relation-Aware GNN as the topology encoder to learn topological features and node interactions within each relation. These two complementary features are interleaved through an attention fusion module to support prediction by both orthogonal features. Extensive experiments on two popular public datasets demonstrate that RAGFormer achieves state-of-the-art performance. The significant improvement of RAGFormer in an industrial credit card fraud detection dataset further validates the applicability of our method in real-world business scenarios. | 翻訳日:2024-05-21 23:10:31 公開日:2024-05-18 |
# リアルな人間-AIコラボレーションハイブリッドテキストにおけるAI生成文の検出:課題、戦略、洞察
Detecting AI-Generated Sentences in Realistic Human-AI Collaborative Hybrid Texts: Challenges, Strategies, and Insights ( http://arxiv.org/abs/2403.03506v3 ) ライセンス: Link先を確認 | Zijie Zeng, Shiqi Liu, Lele Sha, Zhuang Li, Kaixun Yang, Sannyuya Liu, Dragan Gašević, Guanliang Chen, | (参考訳) 本研究では,人間-AI協調テキストにおける文レベルAI生成テキスト検出の課題について検討する。
ハイブリッドテキストに対するAI生成テキスト検出の既存の研究は、しばしば合成データセットに依存している。
これらは典型的には、境界が限られているハイブリッドテキストを含む。
ハイブリッドテキスト中のAI生成コンテンツを検出する研究は、現実的な設定で生成されたさまざまなタイプのハイブリッドテキストをカバーし、現実世界のアプリケーションにより良い情報を提供するべきだ、と我々は主張する。
そこで本研究では,マルチターンインタラクションにおけるヒューマンライターとインテリジェントライティングシステムによるコラボレーションを通じて生成される,多種多様なハイブリッドテキストを含むCoAuthorデータセットを用いた。
私たちは2段階のセグメンテーションベースのパイプラインを採用しています。
(i)各セグメントが一貫した著者の文を含む所定のハイブリッドテキスト内のセグメントを検出し、
(ii)各特定セグメントのオーサシップを分類する。
1) ハイブリッドテキストにおけるAI生成文の検出は,(1.1) 個人の嗜好に基づくAI生成文の選択や編集が難しいこと,(1.2) ハイブリッドテキスト内の隣接文間のオーサシップの頻繁な変更は,オーサシップ一貫性のあるセグメントを識別するセグメント検出の困難を生じさせること,(1.3) ハイブリッドテキスト内のテキストセグメントの短さは,信頼性の高いオーサシップ決定のための限定的なスタイリスティックなキューを提供すること,(2) 検出プロセスを開始する前に,ハイブリッドテキスト内のセグメントの平均的な長さを評価することが有用であること,など,全体として難しい課題である。
この評価は (2.1) がより長いセグメントを持つハイブリッドテキストに対してテキストセグメンテーションに基づく戦略を採用するか (2.2) または (2.2) が短いセグメントを持つテキストに対して直接文単位の分類戦略を採用するかを決定するのに役立つ。
This study explores the challenge of sentence-level AI-generated text detection within human-AI collaborative hybrid texts. Existing studies of AI-generated text detection for hybrid texts often rely on synthetic datasets. These typically involve hybrid texts with a limited number of boundaries. We contend that studies of detecting AI-generated content within hybrid texts should cover different types of hybrid texts generated in realistic settings to better inform real-world applications. Therefore, our study utilizes the CoAuthor dataset, which includes diverse, realistic hybrid texts generated through the collaboration between human writers and an intelligent writing system in multi-turn interactions. We adopt a two-step, segmentation-based pipeline: (i) detect segments within a given hybrid text where each segment contains sentences of consistent authorship, and (ii) classify the authorship of each identified segment. Our empirical findings highlight (1) detecting AI-generated sentences in hybrid texts is overall a challenging task because (1.1) human writers' selecting and even editing AI-generated sentences based on personal preferences adds difficulty in identifying the authorship of segments; (1.2) the frequent change of authorship between neighboring sentences within the hybrid text creates difficulties for segment detectors in identifying authorship-consistent segments; (1.3) the short length of text segments within hybrid texts provides limited stylistic cues for reliable authorship determination; (2) before embarking on the detection process, it is beneficial to assess the average length of segments within the hybrid text. This assessment aids in deciding whether (2.1) to employ a text segmentation-based strategy for hybrid texts with longer segments, or (2.2) to adopt a direct sentence-by-sentence classification strategy for those with shorter segments. | 翻訳日:2024-05-21 23:00:48 公開日:2024-05-18 |
# ビジョンランゲージ・プレトレインモデルにおけるパラメータ効率的な微調整に関する実証的研究
An Empirical Study of Parameter Efficient Fine-tuning on Vision-Language Pre-train Model ( http://arxiv.org/abs/2403.08433v2 ) ライセンス: Link先を確認 | Yuxin Tian, Mouxing Yang, Yunfan Li, Dayiheng Liu, Xingzhang Ren, Xi Peng, Jiancheng Lv, | (参考訳) 近年, パラメータ効率向上技術 (PEFT) を用いて, プレトレーニングと下流の性能ギャップを効率的に狭めている。
PEFTには、アクセス可能なデータサイズと微調整可能なパラメータサイズという、2つの重要な要素がある。
PEFTの自然な期待は、様々なPEFTの性能がデータサイズと微調整可能なパラメータサイズに肯定的な関係があることである。
しかし、2つの下流視覚言語(VL)タスクにおける5つのPEFTの評価によると、そのような直観は、下流のデータとタスクが事前学習と一致していない場合にのみ成立する。
事前トレーニングと整合した下流の微調整では、データサイズはもはやパフォーマンスに影響を与えず、微調整可能なパラメータサイズの影響は単調ではない。
このような観察は、様々なPEFTのトレーニング戦略の選択を導くことができると信じている。
Recent studies applied Parameter Efficient Fine-Tuning techniques (PEFTs) to efficiently narrow the performance gap between pre-training and downstream. There are two important factors for various PEFTs, namely, the accessible data size and fine-tunable parameter size. A natural expectation for PEFTs is that the performance of various PEFTs is positively related to the data size and fine-tunable parameter size. However, according to the evaluation of five PEFTs on two downstream vision-language (VL) tasks, we find that such an intuition holds only if the downstream data and task are not consistent with pre-training. For downstream fine-tuning consistent with pre-training, data size no longer affects the performance, while the influence of fine-tunable parameter size is not monotonous. We believe such an observation could guide the choice of training strategy for various PEFTs. | 翻訳日:2024-05-21 23:00:48 公開日:2024-05-18 |
# テキスト・ビデオ品質評価のための主観的アライメント・データセットとメトリクス
Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment ( http://arxiv.org/abs/2403.11956v4 ) ライセンス: Link先を確認 | Tengchuan Kou, Xiaohong Liu, Zicheng Zhang, Chunyi Li, Haoning Wu, Xiongkuo Min, Guangtao Zhai, Ning Liu, | (参考訳) 生成モデルの急速な発展に伴い、AIGC(Artificial Intelligence-Generated Contents)は、日常生活において指数関数的に増加している。
このうち、テキスト・トゥ・ビデオ(T2V)世代は広く注目を集めている。
高い知覚品質のビデオを生成するための多くのT2Vモデルがリリースされているが、これらのビデオの品質を定量的に評価する方法がまだ存在しない。
この問題を解決するため,これまでで最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築した。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
また、各ビデオの対応する平均意見スコアを得るための主観的研究を行う。
本稿では,T2VQA-DBに基づくテキスト・ツー・ビデオ品質評価(T2VQA)のためのトランスフォーマーモデルを提案する。
このモデルはテキスト・ビデオのアライメントとビデオの忠実度の観点から特徴を抽出し,大言語モデルの能力を活用して予測スコアを与える。
実験の結果,T2VQAは既存のT2VメトリクスとSOTAビデオ品質評価モデルより優れていた。
定量的分析により、T2VQAは主観的適応予測を行い、その効果を検証できることが示された。
データセットとコードはhttps://github.com/QMME/T2VQAで公開される。
With the rapid development of generative models, Artificial Intelligence-Generated Contents (AIGC) have exponentially increased in daily lives. Among them, Text-to-Video (T2V) generation has received widespread attention. Though many T2V models have been released for generating high perceptual quality videos, there is still lack of a method to evaluate the quality of these videos quantitatively. To solve this issue, we establish the largest-scale Text-to-Video Quality Assessment DataBase (T2VQA-DB) to date. The dataset is composed of 10,000 videos generated by 9 different T2V models. We also conduct a subjective study to obtain each video's corresponding mean opinion score. Based on T2VQA-DB, we propose a novel transformer-based model for subjective-aligned Text-to-Video Quality Assessment (T2VQA). The model extracts features from text-video alignment and video fidelity perspectives, then it leverages the ability of a large language model to give the prediction score. Experimental results show that T2VQA outperforms existing T2V metrics and SOTA video quality assessment models. Quantitative analysis indicates that T2VQA is capable of giving subjective-align predictions, validating its effectiveness. The dataset and code will be released at https://github.com/QMME/T2VQA. | 翻訳日:2024-05-21 23:00:48 公開日:2024-05-18 |
# STG-Mamba:選択状態空間モデルによる時空間グラフ学習
STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model ( http://arxiv.org/abs/2403.12418v4 ) ライセンス: Link先を確認 | Lincan Li, Hanchen Wang, Wenjie Zhang, Adelle Coster, | (参考訳) 時空間グラフ(STG)データは動的,異種,非定常的に特徴付けられ,空間時空間グラフ学習の継続的な課題に繋がる。
近年,STGネットワークのノード間の関係を模倣することにのみ焦点をあて,STGシステムに存在する固有の特徴をモデル化することの重要性を無視して,様々なGNNベースの手法が提案されている。
対照的に、現代の選択的状態空間モデル(SSSM)は、STGネットワークをシステムとして扱う新しいアプローチを示し、時間次元にわたってSTGシステムの動的状態進化を慎重に探求する。
本研究では,STGネットワークをシステムとして扱うことによってSTG学習のための強力な選択的状態空間モデルを活用するための最初の探索として空間時空間グラフマンバ(STG-Mamba)を導入し,選択されたSTG潜在機能に正確にフォーカスするために空間時空間選択的状態空間モジュール(ST-S3M)を用いる。
さらに、選択状態空間モデルの設定下でSTGデータをモデル化するGNNの能力を強化するために、学習可能なカルマンフィルタリング統計理論に基づくアプローチにより、異なる時間的粒度からSTG埋め込みを動的に統合し、アップグレードするカルマンフィルタグラフニューラルネットワーク(KFGN)を提案する。
3つのベンチマークSTG予測データセットを用いて,STG-Mambaの性能優位性と計算効率を実証した。
STG予測性能の点で既存の最先端手法を超えるだけでなく、大規模グラフネットワークの計算ボトルネックを効果的に軽減し、FLOPの計算コストとテスト推論時間を削減している。
実装コードは: \url{https://github.com/LincanLi98/STG-Mamba} で利用可能である。
Spatial-Temporal Graph (STG) data is characterized as dynamic, heterogenous, and non-stationary, leading to the continuous challenge of spatial-temporal graph learning. In the past few years, various GNN-based methods have been proposed to solely focus on mimicking the relationships among node individuals of the STG network, ignoring the significance of modeling the intrinsic features that exist in STG system over time. In contrast, modern Selective State Space Models (SSSMs) present a new approach which treat STG Network as a system, and meticulously explore the STG system's dynamic state evolution across temporal dimension. In this work, we introduce Spatial-Temporal Graph Mamba (STG-Mamba) as the first exploration of leveraging the powerful selective state space models for STG learning by treating STG Network as a system, and employing the Spatial-Temporal Selective State Space Module (ST-S3M) to precisely focus on the selected STG latent features. Furthermore, to strengthen GNN's ability of modeling STG data under the setting of selective state space models, we propose Kalman Filtering Graph Neural Networks (KFGN) for dynamically integrate and upgrade the STG embeddings from different temporal granularities through a learnable Kalman Filtering statistical theory-based approach. Extensive empirical studies are conducted on three benchmark STG forecasting datasets, demonstrating the performance superiority and computational efficiency of STG-Mamba. It not only surpasses existing state-of-the-art methods in terms of STG forecasting performance, but also effectively alleviate the computational bottleneck of large-scale graph networks in reducing the computational cost of FLOPs and test inference time. The implementation code is available at: \url{https://github.com/LincanLi98/STG-Mamba}. | 翻訳日:2024-05-21 22:50:58 公開日:2024-05-18 |
# ミニ・スプレイティング:ガウスの制約された数のシーンを表現
Mini-Splatting: Representing Scenes with a Constrained Number of Gaussians ( http://arxiv.org/abs/2403.14166v2 ) ライセンス: Link先を確認 | Guangchi Fang, Bing Wang, | (参考訳) 本研究では,ガウスの制約の多いシーンを効率よく表現することの課題について検討する。
従来のグラフィックスと2次元コンピュータビジョンから点雲の視点へ移行し,ガウス表現の非効率な空間分布をモデル性能の重要な限界として強調した。
そこで我々は, ブラース分割, 深さ再初期化, 交差点保存, サンプリングによる簡易化など, 密度化のための戦略を導入する。
これらの技術はガウシアンの空間的位置を再編成し、レンダリング品質、リソース消費、ストレージ圧縮の観点から、様々なデータセットやベンチマークに大幅な改善をもたらした。
我々のMini-Splattingはオリジナルのラスタライゼーションパイプラインとシームレスに統合され、ガウス・スプレイティングに基づく将来の研究の強力なベースラインを提供する。
https://github.com/fatPeter/mini-splatting}{Code is available}
In this study, we explore the challenge of efficiently representing scenes with a constrained number of Gaussians. Our analysis shifts from traditional graphics and 2D computer vision to the perspective of point clouds, highlighting the inefficient spatial distribution of Gaussian representation as a key limitation in model performance. To address this, we introduce strategies for densification including blur split and depth reinitialization, and simplification through intersection preserving and sampling. These techniques reorganize the spatial positions of the Gaussians, resulting in significant improvements across various datasets and benchmarks in terms of rendering quality, resource consumption, and storage compression. Our Mini-Splatting integrates seamlessly with the original rasterization pipeline, providing a strong baseline for future research in Gaussian-Splatting-based works. \href{https://github.com/fatPeter/mini-splatting}{Code is available}. | 翻訳日:2024-05-21 22:50:58 公開日:2024-05-18 |
# 脆弱性検出のためのLLMによるマルチロールコンセンサス
Multi-role Consensus through LLMs Discussions for Vulnerability Detection ( http://arxiv.org/abs/2403.14274v4 ) ライセンス: Link先を確認 | Zhenyu Mao, Jialong Li, Dongming Jin, Munan Li, Kenji Tei, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア品質保証の重要なコンポーネントである脆弱性検出の可能性を強調している。
このような進歩にもかかわらず、ほとんどの研究は、開発者とテスターの両方を含む典型的なソフトウェア開発ライフサイクルにおいて、さまざまな役割からさまざまな視点を欠いているテスターという、単一の役割の観点に限られている。
そこで本研究では,実生活におけるコードレビュープロセスのシミュレーションと,コード内の脆弱性の存在と分類に関するコンセンサスに向けた議論を行う上で,LLMをさまざまな役割として活用するためのマルチロールアプローチを提案する。
このアプローチの予備評価は、精度が13.48%、リコールレートが18.25%、F1スコアが16.13%上昇していることを示している。
Recent advancements in large language models (LLMs) have highlighted the potential for vulnerability detection, a crucial component of software quality assurance. Despite this progress, most studies have been limited to the perspective of a single role, usually testers, lacking diverse viewpoints from different roles in a typical software development life-cycle, including both developers and testers. To this end, this paper introduces a multi-role approach to employ LLMs to act as different roles simulating a real-life code review process and engaging in discussions toward a consensus on the existence and classification of vulnerabilities in the code. Preliminary evaluation of this approach indicates a 13.48% increase in the precision rate, an 18.25% increase in the recall rate, and a 16.13% increase in the F1 score. | 翻訳日:2024-05-21 22:50:58 公開日:2024-05-18 |
# 室内照明解析におけるパノラマ3次元推定の評価
Evaluating Panoramic 3D Estimation in Indoor Lighting Analysis ( http://arxiv.org/abs/2403.14836v2 ) ライセンス: Link先を確認 | Zining Cheng, Guanzhou Ji, | (参考訳) 本稿では, 照明シミュレーションにおけるパノラマ3次元推定の利用について述べる。
従来の照明シミュレーションでは、詳細なモデリングを入力として必要としており、かなりの労力と時間的コストがかかる。
この3次元レイアウト推定法は,1つのパノラマを直接入力とし,室内形状と窓開口を有する照明シミュレーションモデルを生成する。
本研究では, 現場高ダイナミックレンジ(HDR)写真, 3次元推定モデル, パノラマ表現の詳細なモデルと魚眼視点の輝度誤差を比較し, シミュレーション結果を評価した。
選択したシーンから, 推定室内配置が照明シミュレーションに信頼性があることを実証した。
This paper presents the use of panoramic 3D estimation in lighting simulation. Conventional lighting simulation necessitates detailed modeling as input, resulting in significant labor effort and time cost. The 3D layout estimation method directly takes a single panorama as input and generates a lighting simulation model with room geometry and window aperture. We evaluate the simulation results by comparing the luminance errors between on-site High Dynamic Range (HDR) photographs, 3D estimation model, and detailed model in panoramic representation and fisheye perspective. Given the selected scene, the results demonstrate the estimated room layout is reliable for lighting simulation. | 翻訳日:2024-05-21 22:50:58 公開日:2024-05-18 |
# LLMは、インコンテクストの低リソース言語学習者がほとんどいない
LLMs Are Few-Shot In-Context Low-Resource Language Learners ( http://arxiv.org/abs/2403.16512v3 ) ライセンス: Link先を確認 | Samuel Cahyawijaya, Holy Lovenia, Pascale Fung, | (参考訳) In-context Learning (ICL) は、大規模な言語モデル(LLM)に対して、短いインコンテキスト情報のみを使用して、不足言語で多様なタスクを実行する権限を与え、高リソースと低リソースの言語間のギャップを狭めるための重要な手段を提供する。
それにもかかわらず、低リソース言語のためのICLを探究する研究はごくわずかであり、そのほとんどはフランス語やスペイン語のような比較的高リソース言語に焦点を当てている。
本研究では,25の低リソース言語と7の比較的高リソース言語に対して,ICLとその言語間変動(X-ICL)を広範囲に研究する。
本研究は、低リソース言語におけるILCとLLMの有効性を評価するだけでなく、テキスト内ラベルアライメントの欠点を識別し、より効果的な代替手段であるクエリアライメントを導入する。
さらに、低リソース言語に対するICLの様々な側面に関する貴重な洞察を提供する。
本研究は,LLMの低リソース理解の質を高めるために,目的言語における言語ギャップを閉じ,目標とする低リソースと高リソース言語とのセマンティクスを整合させることにより,意味的関連情報を通じて,低リソース理解の質を高めることの重要性を結論づける。
我々の研究は、特に低リソース言語において、ICL研究を進めることの重要性を強調しています。
In-context learning (ICL) empowers large language models (LLMs) to perform diverse tasks in underrepresented languages using only short in-context information, offering a crucial avenue for narrowing the gap between high-resource and low-resource languages. Nonetheless, there is only a handful of works explored ICL for low-resource languages with most of them focusing on relatively high-resource languages, such as French and Spanish. In this work, we extensively study ICL and its cross-lingual variation (X-ICL) on 25 low-resource and 7 relatively higher-resource languages. Our study not only assesses the effectiveness of ICL with LLMs in low-resource languages but also identifies the shortcomings of in-context label alignment, and introduces a more effective alternative: query alignment. Moreover, we provide valuable insights into various facets of ICL for low-resource languages. Our study concludes the significance of few-shot in-context information on enhancing the low-resource understanding quality of LLMs through semantically relevant information by closing the language gap in the target language and aligning the semantics between the targeted low-resource and the high-resource language that the model is proficient in. Our work highlights the importance of advancing ICL research, particularly for low-resource languages. | 翻訳日:2024-05-21 22:50:58 公開日:2024-05-18 |
# ニューラルネットワークのためのクラスタベース正規化層
Cluster-Based Normalization Layer for Neural Networks ( http://arxiv.org/abs/2403.16798v2 ) ライセンス: Link先を確認 | Bilal Faye, Hanane Azzag, Mustapha Lebbah, | (参考訳) ディープラーニングは、ニューラルネットワークのトレーニング、特に内部共変量シフトとラベルシフトの課題に悩まされている。
バッチ正規化(BN)のような従来の正規化技術は、これらの問題を部分的に緩和するが、バッチサイズや分散仮定への依存のような制約によって妨げられる。
同様に、混合正規化(MN)は様々なガウス分布を扱う際の計算障壁に遭遇する。
本稿では,クラスタベース正規化(CB-Norm)を導入し,クラスタベース正規化(SCB-Norm)とクラスタベース正規化(UCB-Norm)の2つのバリエーションについて述べる。
CB-Normは勾配安定性と学習加速問題に対処するためにガウス混合モデルを採用している。
SCB-Normは、事前定義されたクラスタと呼ばれるデータパーティショニングを使用して正規化を監督し、UCB-Normはトレーニング中にニューロンの活性化を適応的にクラスタ化し、事前定義されたパーティショニングへの依存を排除している。
このアプローチは、ニューラルネットワーク内のクラスタリングと解決タスクに同時に取り組み、既存の方法と比較して計算複雑性を低減します。
CB-NormはBNやMNといった従来のテクニックよりも優れており、さまざまな学習シナリオでニューラルネットワークのパフォーマンスが向上している。
Deep learning grapples with challenges in training neural networks, notably internal covariate shift and label shift. Conventional normalization techniques like Batch Normalization (BN) partially mitigate these issues but are hindered by constraints such as dependency on batch size and distribution assumptions. Similarly, mixture normalization (MN) encounters computational barriers in handling diverse Gaussian distributions. This paper introduces Cluster-based Normalization (CB-Norm), presenting two variants: Supervised Cluster-based Normalization (SCB-Norm) and Unsupervised Cluster-based Normalization (UCB-Norm), offering a pioneering single-step normalization strategy. CB-Norm employs a Gaussian mixture model to address gradient stability and learning acceleration challenges. SCB-Norm utilizes predefined data partitioning, termed clusters, for supervised normalization, while UCB-Norm adaptively clusters neuron activations during training, eliminating reliance on predefined partitions. This approach simultaneously tackles clustering and resolution tasks within neural networks, reducing computational complexity compared to existing methods. CB-Norm outperforms traditional techniques like BN and MN, enhancing neural network performance across diverse learning scenarios. | 翻訳日:2024-05-21 22:50:58 公開日:2024-05-18 |
# ボリューム画像分割のための2次元ネットワーク構築のためのコンテキスト埋め込み学習
Contextual Embedding Learning to Enhance 2D Networks for Volumetric Image Segmentation ( http://arxiv.org/abs/2404.01723v2 ) ライセンス: Link先を確認 | Zhuoyuan Wang, Dong Sun, Xiangyun Zeng, Ruodai Wu, Yi Wang, | (参考訳) ボリューム医療画像における臓器の分節化は,コンピュータ支援による診断・治療・手術計画において重要な役割を担っている。
従来の2次元畳み込みニューラルネットワーク(CNN)は、体積データの空間的相関をほとんど利用できない。
現在の3D CNNは、より強力なボリューム表現を抽出する利点があるが、通常は過剰なメモリと計算を占有する。
本研究では,2次元ネットワークを文脈情報で拡張し,ボリューム画像のセグメンテーションを改善することを目的とする。
そこで本稿では,空間情報を適切に捉えた2次元CNNを容易にするためのコンテキスト埋め込み学習手法を提案する。
提案手法では,学習した埋め込みとスライスワイズマッチングをソフトキューとして活用し,ネットワークを誘導する。
このように、コンテキスト情報をスライス・バイ・スライスで転送することで、ネットワークの容積表現が向上する。
前立腺MRIデータセット(PROMISE12)と腹部CTデータセット(CHAOS)の実験は、文脈埋め込み学習がスライス間コンテキストを効果的に活用し、セグメンテーション性能を向上させることを示す。
提案手法は、ボリュームセグメンテーションのための2次元ネットワークを強化するための、プラグアンドプレイとメモリ効率のソリューションである。
私たちのコードはhttps://github.com/JuliusWang-7/CE_Block.comで公開されています。
The segmentation of organs in volumetric medical images plays an important role in computer-aided diagnosis and treatment/surgery planning. Conventional 2D convolutional neural networks (CNNs) can hardly exploit the spatial correlation of volumetric data. Current 3D CNNs have the advantage to extract more powerful volumetric representations but they usually suffer from occupying excessive memory and computation nevertheless. In this study we aim to enhance the 2D networks with contextual information for better volumetric image segmentation. Accordingly, we propose a contextual embedding learning approach to facilitate 2D CNNs capturing spatial information properly. Our approach leverages the learned embedding and the slice-wisely neighboring matching as a soft cue to guide the network. In such a way, the contextual information can be transferred slice-by-slice thus boosting the volumetric representation of the network. Experiments on challenging prostate MRI dataset (PROMISE12) and abdominal CT dataset (CHAOS) show that our contextual embedding learning can effectively leverage the inter-slice context and improve segmentation performance. The proposed approach is a plug-and-play, and memory-efficient solution to enhance the 2D networks for volumetric segmentation. Our code is publicly available at https://github.com/JuliusWang-7/CE_Block. | 翻訳日:2024-05-21 22:41:01 公開日:2024-05-18 |
# 人工心臓伝導システム:高度計算問題解決のための心臓機能シミュレーション
Artificial Cardiac Conduction System: Simulating Heart Function for Advanced Computational Problem Solving ( http://arxiv.org/abs/2404.02907v2 ) ライセンス: Link先を確認 | Rebaz Mohammed Dler Omer, Nawzad K. Al-Salihi, Tarik A. Rashid, Aso M. Aladdin, Mokhtar Mohammadi, Jafar Majidpour, | (参考訳) 本研究は,ヒト心臓伝導系にインスパイアされた人工心臓伝導系(ACCS)と呼ばれる,バイオインスパイアされた新しいメタヒューリスティックを提案する。
ACCSアルゴリズムは人間の心臓の機能的振る舞いを模倣し、心臓筋肉に信号を生成し、収縮を開始する。
心筋層の4つのノードは、洞房、房室、His束、Purkinje繊維などの心拍数の生成と制御に関与している。
これら4つのノードを通して心拍数を制御する機構が実装されている。
アルゴリズムは、アルゴリズムのエクスプロイトと探索能力を決定するために、19のよく知られた数学的なテスト関数でベンチマークされる。
その結果, Whale Optimization Algorithm (WOA), Particle Swarm Optimization (PSO), Gravitational Search Algorithm (GSA), Differential Evolution (DE), Fast Evolutionary Programming (FEP) を用いて検証した。
このアルゴリズムは、CEC-C06 2019 Benchmark Test Functionsを使用して厳格な評価を行い、エクスプロイトと探索の両方においてその有効性を示す。
検証は、Dragonfly Algorithm (DA)、WOA、PSO、Lagrange elementary Optimization (Leo)、Ant Nesting Algorithm (ANA)を含む微妙な比較分析によって行われる。
その結果、ACCSアルゴリズムは、これらのよく知られたメタヒューリスティックスや他の従来の手法と比較して、非常に競争力のある結果が得られることが示された。
This work proposes a novel bio-inspired metaheuristic called Artificial Cardiac Conduction System (ACCS) inspired by the human cardiac conduction system. The ACCS algorithm imitates the functional behaviour of the human heart that generates and sends signals to the heart muscle, initiating it to contract. Four nodes in the myocardium layer participate in generating and controlling heart rate, such as the sinoatrial, atrioventricular, bundle of His, and Purkinje fibres. The mechanism of controlling the heart rate through these four nodes is implemented. The algorithm is then benchmarked on 19 well-known mathematical test functions as it can determine the exploitation and exploration capability of the algorithm. The results are verified by a comparative study with Whale Optimization Algorithm (WOA), Particle Swarm Optimization (PSO), Gravitational Search Algorithm (GSA), Differential Evolution (DE), and Fast Evolutionary Programming (FEP). The algorithm undergoes a rigorous evaluation using the CEC-C06 2019 Benchmark Test Functions, illuminating its adeptness in both exploitation and exploration. Validation ensues through a meticulous comparative analysis involving the Dragonfly Algorithm (DA), WOA, PSO, Lagrange Elementary Optimization (Leo), and the Ant Nesting Algorithm (ANA). The results show that the ACCS algorithm can provide very competitive results compared to these well-known metaheuristics and other conventional methods. | 翻訳日:2024-05-21 22:41:01 公開日:2024-05-18 |
# 量子位相空間上の三角形窓関数をもつ非断熱場
Nonadiabatic Field with Triangle Window Functions on Quantum Phase Space ( http://arxiv.org/abs/2404.05432v2 ) ライセンス: Link先を確認 | Xin He, Xiangsong Cheng, Baihua Wu, Jian Liu, | (参考訳) 有限状態量子系の制約座標-運動位相空間(CPS)の定式化は、最近、三角形ウィンドウ関数アプローチが、2状態系の正確な人口-人口相関関数の同型表現であることを明らかにした。
我々は、トライアングルウィンドウ(TW)関数とCPSマッピングカーネル要素を用いて、離散電子自由度(DOF)の新たな有用な表現を定式化する。
非断熱場(NaF)力学を用いる場合、NaFアプローチの新しい変種(NaF-TW)が提案される。
凝縮相とガス相の両方におけるモデルシステムの広範囲なベンチマークテストは、NaF-TWアプローチが電子と核のDOF間の動的相互作用を忠実に捉えていることを示している。
三角形ウィンドウ関数が最初に提案された対称準古典法(SQC)と比較して、漸近領域における原子運動の分岐特性が重要である場合、NaF-TWの性能は著しく向上する。
The constraint coordinate-momentum phase space (CPS) formulation of finite-state quantum systems has recently revealed that the triangle window function approach is an isomorphic representation of the exact population-population correlation function of the two-state system. We use the triangle window (TW) function and the CPS mapping kernel element to formulate a novel useful representation of discrete electronic degrees of freedom (DOFs). When it is employed with nonadiabatic field (NaF) dynamics, a new variant of the NaF approach (i.e., NaF-TW) is proposed. Extensive benchmark tests of model systems in both the condensed phase and gas phase demonstrate that the NaF-TW approach is competent in faithfully capturing the dynamical interplay between electronic and nuclear DOFs. In comparison to the symmetrical quasi-classical (SQC) method where triangle window functions were originally proposed, the performance of NaF-TW is significantly better when the bifurcation characteristic of nuclear motion in the asymptotic region is important. | 翻訳日:2024-05-21 22:41:01 公開日:2024-05-18 |
# Humanoid-Gym:Zero-Shot Sim2Real Transferによるヒューマノイドロボットの強化学習
Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer ( http://arxiv.org/abs/2404.05695v2 ) ライセンス: Link先を確認 | Xinyang Gu, Yen-Jen Wang, Jianyu Chen, | (参考訳) Humanoid-GymはNvidia Isaac GymをベースとしたRLフレームワークで、ヒューマノイドロボットのロコモーションスキルをトレーニングし、シミュレーションから実環境へのゼロショット転送を強調している。
また、Humanoid-GymはIsaac Gym氏によるsim-to-simフレームワークをMujocoに統合し、トレーニングされたポリシーをさまざまな物理シミュレーションで検証し、ポリシーの堅牢性と一般化を保証する。
このフレームワークは、ZeroEraのXBot-S(高さ1.2メートルのヒューマノイドロボット)とXBot-L(高さ1.65メートルのヒューマノイドロボット)によって、ゼロショットシミュレートで現実の環境で検証される。
プロジェクトのWebサイトとソースコードは、https://sites.google.com/view/ Humanoid-gym/.comで見ることができる。
Humanoid-Gym is an easy-to-use reinforcement learning (RL) framework based on Nvidia Isaac Gym, designed to train locomotion skills for humanoid robots, emphasizing zero-shot transfer from simulation to the real-world environment. Humanoid-Gym also integrates a sim-to-sim framework from Isaac Gym to Mujoco that allows users to verify the trained policies in different physical simulations to ensure the robustness and generalization of the policies. This framework is verified by RobotEra's XBot-S (1.2-meter tall humanoid robot) and XBot-L (1.65-meter tall humanoid robot) in a real-world environment with zero-shot sim-to-real transfer. The project website and source code can be found at: https://sites.google.com/view/humanoid-gym/. | 翻訳日:2024-05-21 22:41:01 公開日:2024-05-18 |
# 直接空気捕獲用材料発見における量子コンピューティングの探索
Exploration of Quantum Computing in Materials Discovery for Direct Air Capture Applications ( http://arxiv.org/abs/2404.13122v3 ) ライセンス: Link先を確認 | Marco Antonio Barroca, Rodrigo Neumann Barros Ferreira, Mathias Steiner, | (参考訳) 二酸化炭素の直接空気捕捉(DAC)は気候変動を緩和するための有望な方法である。
金属-有機フレームワークのような固形剤は、現在DACアプリケーションでテストされている。
しかし、大規模に展開する可能性は完全には実現されていない。
膨大な化学探索空間と分子選択性に対するDAC要求を考えると、固体の吸着剤の計算的な発見は困難である。
量子コンピューティングは、分子結合エネルギーを予測することによって、DACのための固体の吸着剤の発見を加速させる可能性がある。
本研究では, 量子コンピュータを用いた金属-有機系におけるガス吸着のシミュレーション法とアルゴリズムについて検討する。
具体的には、典型的な金属-有機化合物の結合部位を表すMg+2金属中心におけるCO2,N2,H2O分子のポテンシャルエネルギー面をシミュレートする。
量子ビット-ADAPT-VQE法を用いて,従来の計算ハードウェアと量子コンピューティングハードウェアの両方でシミュレーションを行い,ハードウェア効率を保ちながら妥当な精度を実現する。
Direct air capture (DAC) of carbon dioxide is a promising method for mitigating climate change. Solid sorbents, such as metal-organic frameworks, are currently being tested for DAC application. However, their potential for deployment at scale has not been fully realized. The computational discovery of solid sorbents is challenging, given the vast chemical search space and the DAC requirements for molecular selectivity. Quantum computing can potentially accelerate the discovery of solid sorbents for DAC by predicting molecular binding energies. In this work, we explore simulation methods and algorithms for predicting gas adsorption in metal-organic frameworks using a quantum computer. Specifically, we simulate the potential energy surfaces of CO2, N2, and H2O molecules at the Mg+2 metal center that represents the binding sites of typical metal-organic frameworks. We apply the qubit-ADAPT-VQE technique to run simulations on both classical computing and quantum computing hardware, and achieve reasonable accuracy while maintaining hardware efficiency. | 翻訳日:2024-05-21 22:31:13 公開日:2024-05-18 |
# ST-Mamba:交通流予測のための時空間選択状態空間モデル
ST-Mamba: Spatial-Temporal Selective State Space Model for Traffic Flow Prediction ( http://arxiv.org/abs/2404.13257v2 ) ライセンス: Link先を確認 | Zhiqi Shao, Michael G. H. Bell, Ze Wang, D. Glenn Geers, Haoning Xi, Junbin Gao, | (参考訳) インテリジェントトランスポートシステムの重要な側面であるトラフィックフロー予測は、広範なトラフィックデータの提供によって、人工知能の分野でますます人気を博している。
交通流予測の現在の課題は、計算複雑性と効率的な長距離および大規模予測に必要な精度とのトレードオフをバランスしながら、多様な要因を統合することである。
これらの課題に対処するために,グラフモデリングを使わずに交通流予測における時空間学習の力を活用した時空間選択状態空間(ST-Mamba)モデルを提案する。
ST-Mambaモデルは、トラフィックフローデータの長距離依存性を効果的に捉え、過度なスムーシングの問題を回避できる。
提案したST-Mambaモデルでは,効率的な時空間ミキサー(ST-Mixer)を用いて,空間データ処理と時間データ処理をシームレスに統合し,空間時空間選択状態空間(ST-SSM)ブロックを用いて計算効率を向上させる。
空間時空間データに特化して設計されたST-Mambaモデルは,処理手順を簡略化し,一般化機能を強化し,長距離交通流予測の精度を大幅に向上させる。
従来の最先端(SOTA)モデルと比較して,提案したST-Mambaモデルでは計算速度が61.11\%向上し,予測精度が0.67\%向上した。
実世界の交通データセットを用いた大規模な実験により, 交通流予測における新しいベンチマークを設定し, 長距離および短距離の予測の計算効率においてSOTA性能を達成し, 交通管理の全体的な効率と効率を大幅に向上することを示した。
Traffic flow prediction, a critical aspect of intelligent transportation systems, has been increasingly popular in the field of artificial intelligence, driven by the availability of extensive traffic data. The current challenges of traffic flow prediction lie in integrating diverse factors while balancing the trade-off between computational complexity and the precision necessary for effective long-range and large-scale predictions. To address these challenges, we introduce a Spatial-Temporal Selective State Space (ST-Mamba) model, which is the first to leverage the power of spatial-temporal learning in traffic flow prediction without using graph modeling. The ST-Mamba model can effectively capture the long-range dependency for traffic flow data, thereby avoiding the issue of over-smoothing. The proposed ST-Mamba model incorporates an effective Spatial-Temporal Mixer (ST-Mixer) to seamlessly integrate spatial and temporal data processing into a unified framework and employs a Spatial-Temporal Selective State Space (ST-SSM) block to improve computational efficiency. The proposed ST-Mamba model, specifically designed for spatial-temporal data, simplifies processing procedure and enhances generalization capabilities, thereby significantly improving the accuracy of long-range traffic flow prediction. Compared to the previous state-of-the-art (SOTA) model, the proposed ST-Mamba model achieves a 61.11\% improvement in computational speed and increases prediction accuracy by 0.67\%. Extensive experiments with real-world traffic datasets demonstrate that the \textsf{ST-Mamba} model sets a new benchmark in traffic flow prediction, achieving SOTA performance in computational efficiency for both long- and short-range predictions and significantly improving the overall efficiency and effectiveness of traffic management. | 翻訳日:2024-05-21 22:31:13 公開日:2024-05-18 |
# ブラインド画像品質評価におけるマルチモーダル・プロンプト学習
Multi-Modal Prompt Learning on Blind Image Quality Assessment ( http://arxiv.org/abs/2404.14949v2 ) ライセンス: Link先を確認 | Wensheng Pan, Timin Gao, Yan Zhang, Runze Hu, Xiawu Zheng, Enwei Zhang, Yuting Gao, Yutao Liu, Yunhang Shen, Ke Li, Shengchuan Zhang, Liujuan Cao, Rongrong Ji, | (参考訳) 画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
現在、IQAを強化するために意味情報を活用することが重要な研究方向である。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
しかしながら、これらの事前訓練されたビジョン・ランゲージ(VL)モデルの一般性は、IQA固有のタスクに最適化されることが多い。
近年のアプローチでは、このミスマッチに即時技術を用いて対処する試みがあるが、これらの解決策には欠点がある。
既存のプロンプトベースのVLモデルは、テキストからのインクリメンタルなセマンティック情報に過度にフォーカスし、ビジュアルデータ分析から得られる豊富な洞察を無視します。
これによりIQAタスクのパフォーマンス改善が制限される。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
我々のアプローチでは、視覚データと言語データの両方から漸進的な意味情報をシナジスティックにマイニングする、慎重に構築されたプロンプトが採用されている。
具体的には、視覚分岐において、VLモデルの適応性を高めるために、多層プロンプト構造を導入する。
テキストブランチでは、シーンカテゴリと歪みタイプを識別・区別するデュアルプロンプト方式を配置し、画像品質を評価するためのモデルの能力を改善する。
実験結果から,既存のBlind Image Quality Assessment (BIQA) アプローチよりも提案手法の有効性が示唆された。
特に、さまざまなデータセット間での競合性能を示している。
本研究では,SPearman Rank correlation Coefficient (SRCC) の値として 0.961 (CSIQで0.946) と 0.941 (KADIDで0.930) を達成し,その頑健さと精度を多種多様な文脈で評価した。
Image Quality Assessment (IQA) models benefit significantly from semantic information, which allows them to treat different types of objects distinctly. Currently, leveraging semantic information to enhance IQA is a crucial research direction. Traditional methods, hindered by a lack of sufficiently annotated data, have employed the CLIP image-text pretraining model as their backbone to gain semantic awareness. However, the generalist nature of these pre-trained Vision-Language (VL) models often renders them suboptimal for IQA-specific tasks. Recent approaches have attempted to address this mismatch using prompt technology, but these solutions have shortcomings. Existing prompt-based VL models overly focus on incremental semantic information from text, neglecting the rich insights available from visual data analysis. This imbalance limits their performance improvements in IQA tasks. This paper introduces an innovative multi-modal prompt-based methodology for IQA. Our approach employs carefully crafted prompts that synergistically mine incremental semantic information from both visual and linguistic data. Specifically, in the visual branch, we introduce a multi-layer prompt structure to enhance the VL model's adaptability. In the text branch, we deploy a dual-prompt scheme that steers the model to recognize and differentiate between scene category and distortion type, thereby refining the model's capacity to assess image quality. Our experimental findings underscore the effectiveness of our method over existing Blind Image Quality Assessment (BIQA) approaches. Notably, it demonstrates competitive performance across various datasets. Our method achieves Spearman Rank Correlation Coefficient (SRCC) values of 0.961(surpassing 0.946 in CSIQ) and 0.941 (exceeding 0.930 in KADID), illustrating its robustness and accuracy in diverse contexts. | 翻訳日:2024-05-21 22:21:29 公開日:2024-05-18 |
# 重力エントロピーは観測者に依存している
Gravitational entropy is observer-dependent ( http://arxiv.org/abs/2405.00114v2 ) ライセンス: Link先を確認 | Julian De Vuyst, Stefan Eccles, Philipp A. Hoehn, Josh Kirklin, | (参考訳) 量子重力学において、観測者が果たす役割の適切な説明は、与えられた時空部分領域においてIII型からII型への可観測体のフォン・ノイマン代数を促進すると論じられている。
これは、数学的に正確なエントロピーの定義を可能にするが、この手順は、どのオブザーバが使用されるかに依存することを示す。
従来のアプローチを一般化することで、異なるオブザーバ(およびオブザーバの任意のコレクション)に対する部分領域の密度演算子を導出し、関連するエントロピーを半古典的なシステマで計算し、また、このシステマを超越したいくつかの具体例で計算する。
異なる観測者によって見られるエントロピーは、大きく異なる可能性がある。
我々の研究は、量子参照フレーム(QRF)の定式化を広く利用しています。
この過程で、Chandrasekaran et al [arXiv:2206.10780] によって引き起こされる物理的状態や観測可能な状態の記述が、Page-Wootters形式と等価であることを示し、非公式なスローガン「PW=CLPW」に繋がった。
この論文は、QRFと量子重力場の間の長期にわたる結合を動機付けるのに役立ちます。
詳細は共用紙に記載されている。
In quantum gravity, it has been argued that a proper accounting of the role played by an observer promotes the von Neumann algebra of observables in a given spacetime subregion from Type III to Type II. While this allows for a mathematically precise definition of its entropy, we show that this procedure depends on which observer is employed. We make this precise by considering a setup in which many possible observers are present; by generalising previous approaches, we derive density operators for the subregion relative to different observers (and relative to arbitrary collections of observers), and we compute the associated entropies in a semiclassical regime, as well as in some specific examples that go beyond this regime. We find that the entropies seen by distinct observers can drastically differ. Our work makes extensive use of the formalism of quantum reference frames (QRF); indeed, as we point out, the 'observers' considered here and in the previous works are nothing but QRFs. In the process, we demonstrate that the description of physical states and observables invoked by Chandrasekaran et al. [arXiv:2206.10780] is equivalent to the Page-Wootters formalism, leading to the informal slogan "PW=CLPW". It is our hope that this paper will help motivate a long overdue union between the QRF and quantum gravity communities. Further details will appear in a companion paper. | 翻訳日:2024-05-21 22:21:29 公開日:2024-05-18 |
# 懸濁演算子による確率的・因果推論について
On Probabilistic and Causal Reasoning with Summation Operators ( http://arxiv.org/abs/2405.03069v2 ) ライセンス: Link先を確認 | Duligur Ibeling, Thomas F. Icard, Milan Mossé, | (参考訳) Ibeling et al (2023年)。
Axiomatize increasingly expressive languages of causation and probability, and Mosse et al (2024) shows that reasoning in each causal language(特に、満足度問題) as as reasoning in the only probabilistic or "correlational" which.
アプリケーションに現れる一般的なデバイスをキャプチャするための和演算子の導入 - 因果推論のための$do$-calculus of Pearl (2009) など - 辺縁化を十分に活用する - van der Zander et al (2023) は、これらの初期の複雑性結果を因果的および確率的言語に部分的に拡張している。
我々はこの拡張を完了し、確率的および因果的推論の複雑さを和で完全に特徴づけ、これらが再び同様に困難であることを示す。
意外なことに、ランダム変数値に対する自由変数の許容は、これらのランダム変数の範囲が制限されない限り、決定不可能なシステムをもたらす。
最終的に、Ibeling et al (2023) が提起したオープンな疑問を解き明かし、辺境化(あるいはより一般的に要約)を特徴とするこれらの言語を公理化する。
Ibeling et al. (2023). axiomatize increasingly expressive languages of causation and probability, and Mosse et al. (2024) show that reasoning (specifically the satisfiability problem) in each causal language is as difficult, from a computational complexity perspective, as reasoning in its merely probabilistic or "correlational" counterpart. Introducing a summation operator to capture common devices that appear in applications -- such as the $do$-calculus of Pearl (2009) for causal inference, which makes ample use of marginalization -- van der Zander et al. (2023) partially extend these earlier complexity results to causal and probabilistic languages with marginalization. We complete this extension, fully characterizing the complexity of probabilistic and causal reasoning with summation, demonstrating that these again remain equally difficult. Surprisingly, allowing free variables for random variable values results in a system that is undecidable, so long as the ranges of these random variables are unrestricted. We finally axiomatize these languages featuring marginalization (or more generally summation), resolving open questions posed by Ibeling et al. (2023). | 翻訳日:2024-05-21 22:21:29 公開日:2024-05-18 |
# StyleSeg V2:最適化不要登録誤り認識による脳組織のロバストワンショット分割に向けて
StyleSeg V2: Towards Robust One-shot Segmentation of Brain Tissue via Optimization-free Registration Error Perception ( http://arxiv.org/abs/2405.03197v2 ) ライセンス: Link先を確認 | Zhiwei Wang, Xiaoyu Zeng, Chongwei Wu, Jinxin lv, Xu Zhang, Wei Fang, Qiang Li, | (参考訳) 脳組織の1ショットのセグメンテーションでは、トレーニング登録セグメンテーション(reg-seg)二重モデルが反復的に必要となる。
しかし、不完全なreg-モデルがイメージマスクの異常を誘発し、セグ-モデルに毒を盛る。
最近のStyleSegは、ラベルのないイメージを歪んだatlasのコピーに置き換えることで、このボトルネックを回避しているが、スタイル変換を通じてさまざまなイメージパターンを借用する必要がある。
ここでは、StyleSegから継承されたStyleSeg V2を提示するが、登録エラーを認識する能力を認めた。
その動機は、良好な登録がミラー化された画像に対してミラー化された方法で振る舞うことである。
したがって、StyleSeg V2 は入力を単純にミラーリング(対称的に脳を反転させる)することで、reg-model 自体が正しく一致しない領域を "speak out" でき、登録エラーは元の入力とミラーされた入力の出力の対称的な矛盾である。
このため、StyleSeg V2は、セグモデルを未ラベル画像の正しく整列された領域の使用を可能にし、また、登録誤差に応じて局所変換強度を重み付けすることで、スタイル変換されたアトラス画像の忠実度を高める。
3つの公開データセットの実験結果から、提案したStyleSeg V2は、他の最先端技術よりもかなり優れており、平均Diceを2.4%以上増やすことでStyleSegを上回っていることが示された。
One-shot segmentation of brain tissue requires training registration-segmentation (reg-seg) dual-model iteratively, where reg-model aims to provide pseudo masks of unlabeled images for seg-model by warping a carefully-labeled atlas. However, the imperfect reg-model induces image-mask misalignment, poisoning the seg-model subsequently. Recent StyleSeg bypasses this bottleneck by replacing the unlabeled images with their warped copies of atlas, but needs to borrow the diverse image patterns via style transformation. Here, we present StyleSeg V2, inherited from StyleSeg but granted the ability of perceiving the registration errors. The motivation is that good registration behaves in a mirrored fashion for mirrored images. Therefore, almost at no cost, StyleSeg V2 can have reg-model itself "speak out" incorrectly-aligned regions by simply mirroring (symmetrically flipping the brain) its input, and the registration errors are symmetric inconsistencies between the outputs of original and mirrored inputs. Consequently, StyleSeg V2 allows the seg-model to make use of correctly-aligned regions of unlabeled images and also enhances the fidelity of style-transformed warped atlas image by weighting the local transformation strength according to registration errors. The experimental results on three public datasets demonstrate that our proposed StyleSeg V2 outperforms other state-of-the-arts by considerable margins, and exceeds StyleSeg by increasing the average Dice by at least 2.4%. | 翻訳日:2024-05-21 20:25:40 公開日:2024-05-18 |
# 知識グラフに基づくニューラルシンボリックシステムの研究
Exploring knowledge graph-based neural-symbolic system from application perspective ( http://arxiv.org/abs/2405.03524v3 ) ライセンス: Link先を確認 | Shenzhe Zhu, Shengxiang Sun, | (参考訳) 人工知能(AI)とディープニューラルネットワークの進歩は、視覚とテキスト処理に大きな進歩をもたらした。
しかし、AIシステムにおける人間のような推論と解釈可能性を達成することは、依然として大きな課題である。
ニューラルネットワークをシンボリックシステムと統合するNeural-Symbolicパラダイムは、より解釈可能なAIへの有望な経路を提供する。
このパラダイムの中では、知識グラフ(KG)が重要であり、相互接続された実体や関係を通じて知識を表現する構造的かつ動的な方法を提供する。
本稿では、KGに基づくニューラルシンボリック統合の最近の進歩について、ニューラルネットワークの論理的知識による推論と解釈可能性の向上(Symbol for Neural)、ニューラルネットワーク手法(Neural for Symbol)によるシンボリックシステムの完全性と正確性の改善(Neural for Symbol)、ハイブリッドニューラルシンボリック統合(Hybrid Neural-Symbolic Integration)におけるそれらの組み合わせ適用の促進という、3つのカテゴリの統合をサポートする方法について検討する。
最新のトレンドを強調し、Neural-Symbolic AIにおける今後の研究方向を提案する。
Advancements in Artificial Intelligence (AI) and deep neural networks have driven significant progress in vision and text processing. However, achieving human-like reasoning and interpretability in AI systems remains a substantial challenge. The Neural-Symbolic paradigm, which integrates neural networks with symbolic systems, presents a promising pathway toward more interpretable AI. Within this paradigm, Knowledge Graphs (KG) are crucial, offering a structured and dynamic method for representing knowledge through interconnected entities and relationships, typically as triples (subject, predicate, object). This paper explores recent advancements in neural-symbolic integration based on KG, examining how it supports integration in three categories: enhancing the reasoning and interpretability of neural networks with symbolic knowledge (Symbol for Neural), refining the completeness and accuracy of symbolic systems via neural network methodologies (Neural for Symbol), and facilitating their combined application in Hybrid Neural-Symbolic Integration. It highlights current trends and proposes future research directions in Neural-Symbolic AI. | 翻訳日:2024-05-21 20:25:40 公開日:2024-05-18 |
# 自動運転の職業認知に関する調査研究:情報融合の視点から
A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective ( http://arxiv.org/abs/2405.05173v2 ) ライセンス: Link先を確認 | Huaiyuan Xu, Junliang Chen, Shiyu Meng, Yi Wang, Lap-Pui Chau, | (参考訳) 3D占有感技術は、自動運転車の密集した3D環境を観察し理解することを目的としている。
包括的な認識能力のため、この技術は自律運転認識システムのトレンドとして現れており、産業と学術の両方から大きな注目を集めている。
従来の鳥眼視(BEV)と同様に、3D占有感は多ソース入力の性質と情報融合の必要性を持っている。
しかし、違いは2次元のBEVによって無視される垂直構造を捉えることである。
本稿では,3次元占有感に関する最近の研究を概観し,様々な入力モダリティを持つ方法論の詳細な分析を行う。
具体的には、一般的なネットワークパイプラインを要約し、情報融合技術を強調し、効果的なネットワークトレーニングについて議論する。
我々は,最もポピュラーなデータセット上での最先端技術の占有感性能を評価し,分析する。
さらに,課題と今後の研究方向性についても論じる。
この論文がコミュニティを刺激し、3D占有感のさらなる研究を促進することを願っている。
この調査の包括的な研究リストは、最新の成果を継続的に収集するアクティブリポジトリで公開されている。
3D occupancy perception technology aims to observe and understand dense 3D environments for autonomous vehicles. Owing to its comprehensive perception capability, this technology is emerging as a trend in autonomous driving perception systems, and is attracting significant attention from both industry and academia. Similar to traditional bird's-eye view (BEV) perception, 3D occupancy perception has the nature of multi-source input and the necessity for information fusion. However, the difference is that it captures vertical structures that are ignored by 2D BEV. In this survey, we review the most recent works on 3D occupancy perception, and provide in-depth analyses of methodologies with various input modalities. Specifically, we summarize general network pipelines, highlight information fusion techniques, and discuss effective network training. We evaluate and analyze the occupancy perception performance of the state-of-the-art on the most popular datasets. Furthermore, challenges and future research directions are discussed. We hope this paper will inspire the community and encourage more research work on 3D occupancy perception. A comprehensive list of studies in this survey is publicly available in an active repository that continuously collects the latest work: https://github.com/HuaiyuanXu/3D-Occupancy-Perception. | 翻訳日:2024-05-21 20:25:40 公開日:2024-05-18 |
# Poissonエラーの運転は、臨床タスクの分類エラーを相殺できる
Driving down Poisson error can offset classification error in clinical tasks ( http://arxiv.org/abs/2405.06065v2 ) ライセンス: Link先を確認 | Charles B. Delahunt, Courosh Mehanian, Matthew P. Horning, | (参考訳) 医学機械学習アルゴリズムは通常、精度に基づいて評価されるが、臨床医が定義した真実は、訓練された臨床医が通常、MLモデルよりも優れた分類器であるので、合理的な初期選択である。
しかし、この測定基準は実際の臨床的タスクを完全に捉えていない。ヒトが完全に正確であっても、稀な事象のポアソン統計から非自明な誤りを犯しているという事実を無視する。
例えば、薄い血液膜上でマラリアを定量化するために、臨床医は2000個の赤血球(0.0004 uL)しか検査せず、これは実際の寄生虫数に大きなポアソン変動をもたらすので、完全なヒトの数は真の平均負荷と大きく異なる。
対照的に、MLシステムはオブジェクトレベルでは正確ではないかもしれないが、より多くの血液(例えば0.1uL、250x)を調べるオプションもある。
寄生虫同定誤差は高いが, 標本サイズが大きいため, 推定値のポアソン変動は小さい。
臨床展開の資格を得るためには、MLシステムのパフォーマンスは現在のケアの標準(典型的には非常に要求の多い目標)と一致しなければならない。
これを実現するために、サンプルサイズを大きくしてポアソン誤差を低減することにより、MLシステムの低い精度を相殺することが可能であり、したがって、より小さいサンプルサイズで制限された完全精度の人間と同一の臨床性能を得ることができる。
本稿では,ポアソン誤差,分類誤差,総誤差の関係を数学的に解析する。
この数学的ツールキットにより、チームはMLシステムを最適化し、相対的な強度(より大きなサンプルサイズ)を利用して相対的な弱点(分類精度)を相殺することができる。
本手法は,血液膜上のマラリアの診断と定量化の2つの具体例で説明する。
Medical machine learning algorithms are typically evaluated based on accuracy vs. a clinician-defined ground truth, a reasonable initial choice since trained clinicians are usually better classifiers than ML models. However, this metric does not fully capture the actual clinical task: it neglects the fact that humans, even with perfect accuracy, are subject to non-trivial error from the Poisson statistics of rare events, because clinical protocols often specify a relatively small sample size. For example, to quantitate malaria on a thin blood film a clinician examines only 2000 red blood cells (0.0004 uL), which can yield large Poisson variation in the actual number of parasites present, so that a perfect human's count can differ substantially from the true average load. In contrast, an ML system may be less accurate on an object level, but it may also have the option to examine more blood (e.g. 0.1 uL, or 250x). Then while its parasite identification error is higher, the Poisson variability of its estimate is lower due to larger sample size. To qualify for clinical deployment, an ML system's performance must match current standard of care, typically a very demanding target. To achieve this, it may be possible to offset the ML system's lower accuracy by increasing its sample size to reduce Poisson error, and thus attain the same net clinical performance as a perfectly accurate human limited by smaller sample size. In this paper, we analyse the mathematics of the relationship between Poisson error, classification error, and total error. This mathematical toolkit enables teams optimizing ML systems to leverage a relative strength (larger sample sizes) to offset a relative weakness (classification accuracy). We illustrate the methods with two concrete examples: diagnosis and quantitation of malaria on blood films. | 翻訳日:2024-05-21 20:25:40 公開日:2024-05-18 |
# PCLMix:Pixel-Level Contrastive LearningとDynamic Mix Augmentationによる医用画像分割の監視
PCLMix: Weakly Supervised Medical Image Segmentation via Pixel-Level Contrastive Learning and Dynamic Mix Augmentation ( http://arxiv.org/abs/2405.06288v3 ) ライセンス: Link先を確認 | Yu Lei, Haolun Luo, Lituan Wang, Zhenwei Zhang, Lei Zhang, | (参考訳) 弱監督型医用画像分割では、構造的事前の欠如、階級的特徴分布の離散性が課題となる。
そこで本研究では,動的混合強化,画素レベルのコントラスト学習,整合性正規化戦略を含む医用画像分割フレームワークPCLMixを提案する。
具体的には、PCLMixは不均一なデュアルデコーダのバックボーン上に構築されており、トレーニング中に動的混合強化の戦略を通じて構造的事前の欠如に対処する。
クラス特徴の離散分布に対処するため、PCLMixは予測不確実性に基づく画素レベルのコントラスト学習を導入し、クラス間の差分とクラス間の一貫性を識別するモデルの能力を効果的に強化する。
さらに、セグメント化一貫性とロバスト性を強化するために、PCLMixは二重整合正則化のための補助デコーダを採用している。
推論フェーズでは、補助デコーダを落とし、計算複雑性が増大しない。
ACDCデータセットの大規模な実験により、PCLMixは局所的な監視信号をグローバルスケールに適切に伝播し、弱教師付きセグメンテーションと完全教師付きセグメンテーションのギャップをさらに狭めることが示されている。
私たちのコードはhttps://github.com/Torpedo2648/PCLMix.comで公開されています。
In weakly supervised medical image segmentation, the absence of structural priors and the discreteness of class feature distribution present a challenge, i.e., how to accurately propagate supervision signals from local to global regions without excessively spreading them to other irrelevant regions? To address this, we propose a novel weakly supervised medical image segmentation framework named PCLMix, comprising dynamic mix augmentation, pixel-level contrastive learning, and consistency regularization strategies. Specifically, PCLMix is built upon a heterogeneous dual-decoder backbone, addressing the absence of structural priors through a strategy of dynamic mix augmentation during training. To handle the discrete distribution of class features, PCLMix incorporates pixel-level contrastive learning based on prediction uncertainty, effectively enhancing the model's ability to differentiate inter-class pixel differences and intra-class consistency. Furthermore, to reinforce segmentation consistency and robustness, PCLMix employs an auxiliary decoder for dual consistency regularization. In the inference phase, the auxiliary decoder will be dropped and no computation complexity is increased. Extensive experiments on the ACDC dataset demonstrate that PCLMix appropriately propagates local supervision signals to the global scale, further narrowing the gap between weakly supervised and fully supervised segmentation methods. Our code is available at https://github.com/Torpedo2648/PCLMix. | 翻訳日:2024-05-21 20:25:40 公開日:2024-05-18 |
# LLMディスカッション: 議論フレームワークとロールプレイによる大規模言語モデルの創造性向上
LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play ( http://arxiv.org/abs/2405.06373v3 ) ライセンス: Link先を確認 | Li-Chun Lu, Shou-Jen Chen, Tsung-Min Pai, Chan-Hung Yu, Hung-yi Lee, Shao-Hua Sun, | (参考訳) 大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLMクリエイティビティを高めるために、我々の重要な洞察は、多様な背景や視点から参加者と議論することで、集団クリエイティビティを誘発する人間のプロセスをエミュレートすることである。
そこで本研究では,アイデア交換の活発化と多様化を促進し,創造的回答への収束を保証する3段階の議論フレームワークであるLSM議論を提案する。
さらに,LLMの均一性と戦うために,異なる役割をLLMに割り当てることで,ロールプレイング手法を採用する。
提案手法の有効性を, LLM評価と人的学習の両面から評価し, 代替利用テスト, 類似性テスト, 事例試験, 科学的創造性テストを用いて評価した。
提案するフレームワークは,様々なクリエイティビティ指標において,シングルLLMアプローチや既存のマルチLLMフレームワークより優れています。
Large language models (LLMs) have shown exceptional proficiency in natural language processing but often fall short of generating creative and original responses to open-ended questions. To enhance LLM creativity, our key insight is to emulate the human process of inducing collective creativity through engaging discussions with participants from diverse backgrounds and perspectives. To this end, we propose LLM Discussion, a three-phase discussion framework that facilitates vigorous and diverging idea exchanges and ensures convergence to creative answers. Moreover, we adopt a role-playing technique by assigning distinct roles to LLMs to combat the homogeneity of LLMs. We evaluate the efficacy of the proposed framework with the Alternative Uses Test, Similarities Test, Instances Test, and Scientific Creativity Test through both LLM evaluation and human study. Our proposed framework outperforms single-LLM approaches and existing multi-LLM frameworks across various creativity metrics. | 翻訳日:2024-05-21 20:15:46 公開日:2024-05-18 |
# 相互作用型多重励起系における量子状態伝達
Quantum State Transfer in Interacting, Multiple-Excitation Systems ( http://arxiv.org/abs/2405.06853v2 ) ライセンス: Link先を確認 | Alexander Yue, Rubem Mondaini, Qiujiang Guo, Richard T. Scalettar, | (参考訳) 量子状態伝達(QST)は、あるネットワーク内のあるノードから別のノードへの量子情報のコヒーレントな通過を記述する。
QSTの実験は多種多様なプラットフォームにまたがって行われ、現在、数百ナノ秒の時間に最大数十のノードをまたがる輸送を報告している。
理論的な研究は、与えられた(エルミート)格子ハミルトンに付随するロスレス時間進化と、損失を許容するマスター方程式に基づく方法の両方を研究する。
本稿では,高忠実度QSTを与えるハミルトニアンの発見を可能にするモンテカルロ法について述べる。
我々は、光共振器・エミッタアレイの結合に適する測地線における我々のアプローチをベンチマークし、伝導帯に結合した局在軌道の凝縮物質ハミルトニアンの接続について議論する。
その結果生まれたJaynes-Cummings-Hubbardと周期的なAndersonモデルは、原則として、効率的なQSTを提供するための適切なハードウェアで設計することができる。
Quantum state transfer (QST) describes the coherent passage of quantum information from one node in a network to another. Experiments on QST span a diverse set of platforms and currently report transport across up to tens of nodes in times of several hundred nanoseconds with fidelities that can approach 90% or more. Theoretical studies examine both the lossless time evolution associated with a given (Hermitian) lattice Hamiltonian and methods based on the master equation that allows for losses. In this paper, we describe Monte Carlo techniques which enable the discovery of a Hamiltonian that gives high-fidelity QST. We benchmark our approach in geometries appropriate to coupled optical cavity-emitter arrays and discuss connections to condensed matter Hamiltonians of localized orbitals coupled to conduction bands. The resulting Jaynes-Cummings-Hubbard and periodic Anderson models can, in principle, be engineered in appropriate hardware to give efficient QST. | 翻訳日:2024-05-21 20:15:46 公開日:2024-05-18 |
# 有限ゲームの幾何学的分解:指数重みによる収束対再発
A geometric decomposition of finite games: Convergence vs. recurrence under exponential weights ( http://arxiv.org/abs/2405.07224v2 ) ライセンス: Link先を確認 | Davide Legacci, Panayotis Mertikopoulos, Bary Pradelski, | (参考訳) ゲームにおける学習のダイナミクスの複雑さを考慮すると、ゲームはより単純なコンポーネントに分解され、ダイナミクスの長期動作がよく理解される。
これに対する自然な出発点としてヘルムホルツの定理があり、ベクトル場をポテンシャルと非圧縮成分に分解する。
しかし、ゲーム力学の幾何学、特に指数的/乗法的重み(EW)スキームの力学はヘルムホルツの定理のユークリッドアンダーピンニングとは相容れない。
第一に、容積保存に加えて、非圧縮ゲームにおける連続時間EWダイナミクスは運動の定数を許容し、ポアンカーの繰り返しである、すなわち、プレイのほぼすべての軌道は、その出発点に無限に近づく。
第二に、よく知られたゲームの分解と(プレイヤーの目的がそれぞれ整列し、反整列している)ポテンシャルと調和成分との深い関係を確立する: ゲームが非圧縮的であることと、それが調和である場合に限り、EWダイナミクスがポインカーの繰り返しを調和ゲームで導くことを暗示する。
In view of the complexity of the dynamics of learning in games, we seek to decompose a game into simpler components where the dynamics' long-run behavior is well understood. A natural starting point for this is Helmholtz's theorem, which decomposes a vector field into a potential and an incompressible component. However, the geometry of game dynamics - and, in particular, the dynamics of exponential / multiplicative weights (EW) schemes - is not compatible with the Euclidean underpinnings of Helmholtz's theorem. This leads us to consider a specific Riemannian framework based on the so-called Shahshahani metric, and introduce the class of incompressible games, for which we establish the following results: First, in addition to being volume-preserving, the continuous-time EW dynamics in incompressible games admit a constant of motion and are Poincar\'e recurrent - i.e., almost every trajectory of play comes arbitrarily close to its starting point infinitely often. Second, we establish a deep connection with a well-known decomposition of games into a potential and harmonic component (where the players' objectives are aligned and anti-aligned respectively): a game is incompressible if and only if it is harmonic, implying in turn that the EW dynamics lead to Poincar\'e recurrence in harmonic games. | 翻訳日:2024-05-21 20:15:46 公開日:2024-05-18 |
# PLA-SGCN:類似ペアと半教師付きグラフ畳み込みネットワークの統合によるタンパク質-リガンド結合親和性予測
PLA-SGCN: Protein-Ligand Binding Affinity Prediction by Integrating Similar Pairs and Semi-supervised Graph Convolutional Network ( http://arxiv.org/abs/2405.07452v2 ) ライセンス: Link先を確認 | Karim Abbasi, Parvin Razzaghi, Amin Ghareyazi, Hamid R. Rabiee, | (参考訳) タンパク質リガンド結合親和性(PLA)予測目標は、リガンドがタンパク質配列に結合するかどうかを予測することである。
近年,PLA予測では,ディープラーニングが注目されている。
深層学習に基づくアプローチには,機能抽出とタスク予測という2つのステップがある。
多くのディープラーニングベースのアプローチは、新機能抽出ネットワークの導入、タンパク質とタンパク質の相互作用ネットワークや遺伝子オントロジーの知識といった補助的な知識の統合に重点を置いている。
すると、タスク予測ネットワークは、完全に接続されたレイヤをシンプルに設計する。
本稿では,検索した類似のタンパク質-リガンドペアを,半教師付きグラフ畳み込みネットワーク(GCN)を用いてPLA予測(タスク予測ステップ)に統合することを目的とする。
多様体の滑らか度制約に基づいて、入力クエリサンプル毎にハードタンパク質-リガンドペアを検索する。
そして、各ノードがタンパク質-リガンド対であるグラフを自動的に学習し、各エッジがペア間の類似性を表す。
言い換えれば、ハードな類似のサンプルを同時に検索し、タンパク質リガンド記述子を学習し、検索した類似のハードなサンプル(学習隣接行列)で入力されたサンプルのグラフトポロジーを学習し、半教師付きGCNを学習して、結合親和性(タスク予測子)を予測するエンド・ツー・エンドのフレームワークが提案される。
トレーニングステップはパラメータ値を調整し、推論ステップでは、各入力サンプルに対して学習されたモデルを微調整する。
提案手法を評価するために、有名な4つのPDBbind、Davis、KIBA、BindingDBデータセットに適用する。
その結果,提案手法は同等の手法よりも優れた性能を示した。
The protein-ligand binding affinity (PLA) prediction goal is to predict whether or not the ligand could bind to a protein sequence. Recently, in PLA prediction, deep learning has received much attention. Two steps are involved in deep learning-based approaches: feature extraction and task prediction step. Many deep learning-based approaches concentrate on introducing new feature extraction networks or integrating auxiliary knowledge like protein-protein interaction networks or gene ontology knowledge. Then, a task prediction network is designed simply using some fully connected layers. This paper aims to integrate retrieved similar hard protein-ligand pairs in PLA prediction (i.e., task prediction step) using a semi-supervised graph convolutional network (GCN). Hard protein-ligand pairs are retrieved for each input query sample based on the manifold smoothness constraint. Then, a graph is learned automatically in which each node is a protein-ligand pair, and each edge represents the similarity between pairs. In other words, an end-to-end framework is proposed that simultaneously retrieves hard similar samples, learns protein-ligand descriptor, learns the graph topology of the input sample with retrieved similar hard samples (learn adjacency matrix), and learns a semi-supervised GCN to predict the binding affinity (as task predictor). The training step adjusts the parameter values, and in the inference step, the learned model is fine-tuned for each input sample. To evaluate the proposed approach, it is applied to the four well-known PDBbind, Davis, KIBA, and BindingDB datasets. The results show that the proposed method significantly performs better than the comparable approaches. | 翻訳日:2024-05-21 20:15:46 公開日:2024-05-18 |
# 二重接合におけるジョセフソン効果とソートゥース電流に関するファインマン・パラドックス
Feynman Paradox about the Josephson effect and a sawtooth current in the double junction ( http://arxiv.org/abs/2405.07462v2 ) ライセンス: Link先を確認 | Zhi-Lei Zhang, Guo-Jian Qiao, C. P. Sun, | (参考訳) 我々は、そのモデリングに一対の線形結合方程式を用いるジョセフソン効果に対するファインマンのアプローチを再検討する。
結合強度が電圧よりも著しく低い場合、正確な解は交流ジョセフソン効果を考慮できるが、実際のシナリオでは直流ジョセフソン効果を生成できないことが判明した。
この基本的な相違に対処するために、BCS理論に基づく2つの相互接続超伝導体に対する結合ギンズバーグ・ランダウ方程式(GL)を導出する。
これらの方程式は、ファインマン法で見過ごされる非線形結合が超伝導体の自発的対称性の破れを記述するのに不可欠であることが示され、これは直流ジョセフソン効果を達成するための重要な要素である。
結合したGL方程式を二重接合に適用すると、ソートゥース電流パターンが出現し、ファインマンのアプローチでは達成できない。
We revisit the Feynman approach to the Josephson effect, which employs a pair of linear coupling equations for its modeling. It is found that while the exact solutions can account for the AC Josephson effect when the coupling strength is significantly less than the voltage, they fail to produce the DC Josephson effect in any practical scenario. To address this fundamental discrepancy, we derive the coupled Ginzburg-Landau (GL) equations for two interconnected superconductors based on BCS theory. These equations reveal that the nonlinear coupling, which is overlooked in the Feynman method, is crucial in describing the spontaneous symmetry breaking in superconductors, a critical factor for achieving the DC Josephson effect. When the coupled GL equations are applied to a double junction, a sawtooth current pattern emerges, a result unattainable via the Feynman approach. | 翻訳日:2024-05-21 20:15:46 公開日:2024-05-18 |
# 第一情報理論原理による非ランダムデータの幾何学的特性の復号化
Decoding Geometric Properties in Non-Random Data from First Information-Theoretic Principles ( http://arxiv.org/abs/2405.07803v2 ) ライセンス: Link先を確認 | Hector Zenil, Felipe S. Abrahão, | (参考訳) 情報理論,測度理論,理論計算機科学の原理に基づいて,符号化理論への幅広い応用,特に,事前の知識が得られず,返却メッセージが送信できない未知発生源からのメッセージの解読など,ゼロ知識の一方向通信チャネルにおいて,一変量信号デコンボリューション手法を導入する。
任意の受信信号からの多次元空間再構成法は、符号化・復号方式、計算モデル、プログラミング言語、形式理論、計算可能(あるいは半計算可能)なアルゴリズム複雑性への近似法、任意の選択された事象の確率測度など、無知なvis-a-visであることが証明された。
この方法は、任意の任意に仮定された事前確率分布に依存しないモデルの汎用モデルを構築することができる人工知能へのアプローチの原理から導かれる。
非ランダムデータを復号するこの最適で普遍的な方法は、信号処理、因果分解、トポロジカルおよび幾何学的性質の符号化、暗号、バイオおよびテクノシグナチャ検出に応用できると論じる。
Based on the principles of information theory, measure theory, and theoretical computer science, we introduce a univariate signal deconvolution method with a wide range of applications to coding theory, particularly in zero-knowledge one-way communication channels, such as in deciphering messages from unknown generating sources about which no prior knowledge is available and to which no return message can be sent. Our multidimensional space reconstruction method from an arbitrary received signal is proven to be agnostic vis-a-vis the encoding-decoding scheme, computation model, programming language, formal theory, the computable (or semi-computable) method of approximation to algorithmic complexity, and any arbitrarily chosen (computable) probability measure of the events. The method derives from the principles of an approach to Artificial General Intelligence capable of building a general-purpose model of models independent of any arbitrarily assumed prior probability distribution. We argue that this optimal and universal method of decoding non-random data has applications to signal processing, causal deconvolution, topological and geometric properties encoding, cryptography, and bio- and technosignature detection. | 翻訳日:2024-05-21 20:15:46 公開日:2024-05-18 |
# HGTDR:不均質グラフ変換器による薬物再精製の促進
HGTDR: Advancing Drug Repurposing with Heterogeneous Graph Transformers ( http://arxiv.org/abs/2405.08031v2 ) ライセンス: Link先を確認 | Ali Gharizadeh, Karim Abbasi, Amin Ghareyazi, Mohammad R. K. Mofrad, Hamid R. Rabiee, | (参考訳) モチベーション(Motivation): 薬物再資源化は、薬物開発に関連する時間とコストを削減するための有効な解決策である。
しかし、これまでのところ、提案されている薬物再資源化アプローチは依然として期待に応える必要がある。
したがって、コスト削減と人命向上のために、医薬品再資源化のための体系的なアプローチを提供することが不可欠である。
近年, 生物学的ネットワークを用いた薬物再資源化法は, 有望な結果を生んでいる。
しかし、これらの方法には制限がある。
主に、これらの手法の範囲は、彼らが効果的に扱えるデータのサイズと多様性に制限される。
もう一つの問題は、均質なデータに対処または変換する必要がある異質なデータを扱うことで起こり、情報の喪失につながる。
重大な欠点は、これらのアプローチのほとんどはエンドツーエンドの機能がなく、手動による実装と特定の段階でのエキスパートの知識を必要としていることです。
結果: 薬物再資源化に伴う課題に対処するため, HGTDR (Heterogeneous Graph Transformer for Drug Repurposing) を提案する。
HGTDRは知識グラフに基づく薬物再資源化のための3段階のアプローチである。
1)異種知識グラフの構築
2ヘテロジニアスグラフトランス網の利用、及び
3) 完全に接続されたネットワークを用いて, 計算関係のスコアを算出した。
HGTDRを利用することで、ユーザは入力グラフを操作し、多様なエンティティから情報を抽出し、所望の出力を得ることができる。
評価ステップでは,HGTDRが従来の手法と相容れない性能を示す。
さらに,本手法の薬品再資源化提案の上位10点を検証するため,医療研究をレビューし,有望な結果が得られた。
また,HGTDRは,薬物タンパク質や疾患タンパク質の相互関係などの数値的および実験的検証を通じて,他の種類の関係を予測する能力も実証した。
Motivation: Drug repurposing is a viable solution for reducing the time and cost associated with drug development. However, thus far, the proposed drug repurposing approaches still need to meet expectations. Therefore, it is crucial to offer a systematic approach for drug repurposing to achieve cost savings and enhance human lives. In recent years, using biological network-based methods for drug repurposing has generated promising results. Nevertheless, these methods have limitations. Primarily, the scope of these methods is generally limited concerning the size and variety of data they can effectively handle. Another issue arises from the treatment of heterogeneous data, which needs to be addressed or converted into homogeneous data, leading to a loss of information. A significant drawback is that most of these approaches lack end-to-end functionality, necessitating manual implementation and expert knowledge in certain stages. Results: We propose a new solution, HGTDR (Heterogeneous Graph Transformer for Drug Repurposing), to address the challenges associated with drug repurposing. HGTDR is a three-step approach for knowledge graph-based drug re-purposing: 1) constructing a heterogeneous knowledge graph, 2) utilizing a heterogeneous graph transformer network, and 3) computing relationship scores using a fully connected network. By leveraging HGTDR, users gain the ability to manipulate input graphs, extract information from diverse entities, and obtain their desired output. In the evaluation step, we demonstrate that HGTDR performs comparably to previous methods. Furthermore, we review medical studies to validate our method's top ten drug repurposing suggestions, which have exhibited promising results. We also demon-strated HGTDR's capability to predict other types of relations through numerical and experimental validation, such as drug-protein and disease-protein inter-relations. | 翻訳日:2024-05-21 20:15:46 公開日:2024-05-18 |
# 仮想環境における安全な人間-ロボットインタラクションのためのガウス過程による動作予測
Motion Prediction with Gaussian Processes for Safe Human-Robot Interaction in Virtual Environments ( http://arxiv.org/abs/2405.09109v2 ) ライセンス: Link先を確認 | Stanley Mugisha, Vamsi Krishna Guda, Christine Chevallereau, Damien Chablat, Matteo Zoppi, | (参考訳) 人間は様々なタスクを達成するためのツールとして協調ロボットを使用する。
人間とロボットの相互作用は、密接な共有ワークスペースで行われる。
しかし、これらの機械は事故による衝突のリスクを最小限に抑えるため、人間と共同で運用するには安全でなければならない。
安全を確保するには、動作中のトルクの減少や速度制限といった多くの制約が課されるため、多くのタスクを達成するための時間が増加する。
しかし、仮想現実アプリケーションのための間欠的な接触を伴う触覚インターフェースとして協調ロボットを使用するようなアプリケーションでは、速度制限がユーザエクスペリエンスの低下をもたらす。
本研究の目的は,協調作業ロボットの安全性を向上しつつ,協調作業ロボットの効率を向上させることである。
ガウス過程モデルを用いて人間の手の動きを予測し、手の動きと視線に基づく人間の意図検出のための戦略を開発し、仮想環境におけるロボットの時間と人間の安全を改善する。
その後、予測の効果を研究した。
比較の結果,予測モデルはロボットの時間を3倍に改善し,安全性を17倍に改善した。
視線とともに使用すると、ガウスのプロセスモデルによる予測により、ロボットの時間は2\%改善され、安全性は13\%向上した。
Humans use collaborative robots as tools for accomplishing various tasks. The interaction between humans and robots happens in tight shared workspaces. However, these machines must be safe to operate alongside humans to minimize the risk of accidental collisions. Ensuring safety imposes many constraints, such as reduced torque and velocity limits during operation, thus increasing the time to accomplish many tasks. However, for applications such as using collaborative robots as haptic interfaces with intermittent contacts for virtual reality applications, speed limitations result in poor user experiences. This research aims to improve the efficiency of a collaborative robot while improving the safety of the human user. We used Gaussian process models to predict human hand motion and developed strategies for human intention detection based on hand motion and gaze to improve the time for the robot and human security in a virtual environment. We then studied the effect of prediction. Results from comparisons show that the prediction models improved the robot time by 3\% and safety by 17\%. When used alongside gaze, prediction with Gaussian process models resulted in an improvement of the robot time by 2\% and the safety by 13\%. | 翻訳日:2024-05-21 20:06:02 公開日:2024-05-18 |
# 特徴融合ネットワークを用いた人・機械用スケーラブル画像符号化
Scalable Image Coding for Humans and Machines Using Feature Fusion Network ( http://arxiv.org/abs/2405.09152v2 ) ライセンス: Link先を確認 | Takahiro Shindo, Taiju Watanabe, Yui Tatsumi, Hiroshi Watanabe, | (参考訳) 画像認識モデルがより普及するにつれて、機械や人間のスケーラブルなコーディング方法がより重要になる。
画像認識モデルの応用例としては、交通監視と農業管理がある。
これらのユースケースでは、スケーラブルな符号化手法が有効であることが証明される。
人間や機械の既存の画像圧縮手法は、これらの要件をある程度満たしている。
しかし,これらの圧縮法は特定の画像認識モデルにのみ有効である。
本稿では,多数の画像認識モデルと互換性のある人や機械を対象とした,学習に基づくスケーラブルな画像符号化手法を提案する。
我々は,機械用画像圧縮モデルと圧縮モデルを組み合わせて,人間の画像復号を容易にするための追加情報を提供する。
これらの圧縮モデルの特徴は、効率的な画像圧縮を実現するために、特徴融合ネットワークを用いて融合される。
本手法では,特徴融合ネットワークにおいて,異なるサイズの特徴の組み合わせを可能とし,パラメータ数を削減するために,付加的な情報圧縮モデルを調整する。
提案手法では,パラメータ数を削減しつつ,画像圧縮モデルを効率よく組み合わせることを確認する。
さらに、デコードされた画像の品質とビットレートの観点から画像圧縮性能を評価することにより、提案手法の有効性を実証する。
As image recognition models become more prevalent, scalable coding methods for machines and humans gain more importance. Applications of image recognition models include traffic monitoring and farm management. In these use cases, the scalable coding method proves effective because the tasks require occasional image checking by humans. Existing image compression methods for humans and machines meet these requirements to some extent. However, these compression methods are effective solely for specific image recognition models. We propose a learning-based scalable image coding method for humans and machines that is compatible with numerous image recognition models. We combine an image compression model for machines with a compression model, providing additional information to facilitate image decoding for humans. The features in these compression models are fused using a feature fusion network to achieve efficient image compression. Our method's additional information compression model is adjusted to reduce the number of parameters by enabling combinations of features of different sizes in the feature fusion network. Our approach confirms that the feature fusion network efficiently combines image compression models while reducing the number of parameters. Furthermore, we demonstrate the effectiveness of the proposed scalable coding method by evaluating the image compression performance in terms of decoded image quality and bitrate. | 翻訳日:2024-05-21 20:06:02 公開日:2024-05-18 |
# Encrypted Container File:Hybrid-Encrypted Multi-Recipient File Structureの設計と実装
Encrypted Container File: Design and Implementation of a Hybrid-Encrypted Multi-Recipient File Structure ( http://arxiv.org/abs/2405.09398v2 ) ライセンス: Link先を確認 | Tobias J. Bauer, Andreas Aßmuth, | (参考訳) 開発者の国際チームによるクラウドネイティブソフトウェア開発へのモダンなソフトウェアエンジニアリングのトレンド。
GitHubのようなクラウドベースのバージョン管理サービスは、開発プロセス中に作成されたソースコードやその他のアーティファクトに使用されている。
しかしながら、そのようなサービスを使用することで、すべての開発者がプラットフォームに格納されたすべてのデータにアクセスできるようになる。
特に、開発者が異なる企業や組織に属している場合、機密性の高いファイルを暗号化することが望ましい。
本稿では,この問題に対処するツールについて検討するが,欠点はある。
そして、この問題に対して独自のソリューションであるEncrypted Container Files (ECF)を提示し、他のツールに見られる欠陥を取り除く。
Modern software engineering trends towards Cloud-native software development by international teams of developers. Cloud-based version management services, such as GitHub, are used for the source code and other artifacts created during the development process. However, using such a service usually means that every developer has access to all data stored on the platform. Particularly, if the developers belong to different companies or organizations, it would be desirable for sensitive files to be encrypted in such a way that these can only be decrypted again by a group of previously defined people. In this paper, we examine currently available tools that address this problem, but which have certain shortcomings. We then present our own solution, Encrypted Container Files (ECF), for this problem, eliminating the deficiencies found in the other tools. | 翻訳日:2024-05-21 20:06:02 公開日:2024-05-18 |
# パルシモニアス最適動的部分順序の低減
Parsimonious Optimal Dynamic Partial Order Reduction ( http://arxiv.org/abs/2405.11128v1 ) ライセンス: Link先を確認 | Parosh Aziz Abdulla, Mohamed Faouzi Atig, Sarbojit Das, Bengt Jonsson, Konstantinos Sagonas, | (参考訳) ステートレスモデルチェックは、全てのスレッドスケジューリングを探索して安全性違反をチェックする並列プログラムの完全な自動検証手法である。
動的部分順序減少(DPOR)と組み合わせることで、スケジューリングの等価性を導入し、必要な探索量を削減できる。
emph{optimal} である DPOR アルゴリズムは、各同値類から \emph{exactly} 1 つの実行を探索することを保証するという点で特に有効である。
残念なことに、既存のシーケンスベースの最適アルゴリズムは、分析プログラムのサイズが指数関数的なメモリを消費する最悪のケースがある。
本稿では,POP(Parsimonious-Optimal) DPORを提案する。POP(Parsimonious-Optimal) DPORは,POP(Parsimonious-Optimal) とPOP(Parsimonious-Optimal) DPOR(Parsimonious-Optimal) とPOP(Parsimonious-Optimal) DPOR(Parsimonious-Optimal) とPOP(Parsimonious-Optimal) DPOR(Parsimonious-Optimal) DPOR) の2つのアルゴリズムである。
POPはいくつかの新しいアルゴリズム技術を組み合わせる
(i)同じ人種の複数の逆転を避ける擬似的な人種逆転戦略。
(二 探索した実行の最初の断片の保存を避けるための熱狂的な競争逆転戦略、及び
三 余剰探査の防止のための空間効率のよいスキームで、睡眠セットの使用を代替する。
我々のNidhuggの実装は、これらの手法が並列プログラムの解析を著しく高速化し、メモリ消費を抑えられることを示している。
グラフが示すように、並列実行の異なる表現に対する関連する最適DPORアルゴリズムと比較すると、POPはより小さなベンチマークに対して同等の最悪の性能を示し、より大きなプログラムでは他方よりも優れている。
Stateless model checking is a fully automatic verification technique for concurrent programs that checks for safety violations by exploring all possible thread schedulings. It becomes effective when coupled with Dynamic Partial Order Reduction (DPOR), which introduces an equivalence on schedulings and reduces the amount of needed exploration. DPOR algorithms that are \emph{optimal} are particularly effective in that they guarantee to explore \emph{exactly} one execution from each equivalence class. Unfortunately, existing sequence-based optimal algorithms may in the worst case consume memory that is exponential in the size of the analyzed program. In this paper, we present Parsimonious-OPtimal (POP) DPOR, an optimal DPOR algorithm for analyzing multi-threaded programs under sequential consistency, whose space consumption is polynomial in the worst case. POP combines several novel algorithmic techniques, including (i) a parsimonious race reversal strategy, which avoids multiple reversals of the same race, (ii) an eager race reversal strategy to avoid storing initial fragments of to-be-explored executions, and (iii) a space-efficient scheme for preventing redundant exploration, which replaces the use of sleep sets. Our implementation in Nidhugg shows that these techniques can significantly speed up the analysis of concurrent programs, and do so with low memory consumption. Comparison to a related optimal DPOR algorithm for a different representation of concurrent executions as graphs shows that POP has comparable worst-case performance for smaller benchmarks and outperforms the other one for larger programs. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# MotionGS : 運動フィルタによる小型ガウス散乱SLAM
MotionGS : Compact Gaussian Splatting SLAM by Motion Filter ( http://arxiv.org/abs/2405.11129v1 ) ライセンス: Link先を確認 | Xinli Guo, Peng Han, Weidong Zhang, Hongtian Chen, | (参考訳) 高忠実度シーン表現能力により、SLAMフィールドの注意はニューラル放射場(NeRF)と3Dガウス散乱(DGS)に深く惹かれる。
最近、NeRFベースのSLAMではサージがあり、3DGSベースのSLAMは少ない。
本稿では,深部視覚特徴と2つのキーフレーム選択と3DGSを融合した新しい3DGSベースのSLAM手法を提案する。
既存の手法と比較して,提案手法は各フレーム上の特徴抽出と動作フィルタにより,選択的追跡を実現する。
ポーズと3Dガウスの合同最適化はマッピングプロセス全体を通して行われる。
さらに、粗いポーズ推定とコンパクトなガウスシーン表現は、二重鍵特徴選択と新規損失関数によって実現される。
実験の結果,提案アルゴリズムはトラッキングやマッピングにおいて既存の手法よりも優れているだけでなく,メモリ使用量も少ないことがわかった。
With their high-fidelity scene representation capability, the attention of SLAM field is deeply attracted by the Neural Radiation Field (NeRF) and 3D Gaussian Splatting (3DGS). Recently, there has been a Surge in NeRF-based SLAM, while 3DGS-based SLAM is sparse. A novel 3DGS-based SLAM approach with a fusion of deep visual feature, dual keyframe selection and 3DGS is presented in this paper. Compared with the existing methods, the proposed selectively tracking is achieved by feature extraction and motion filter on each frame. The joint optimization of pose and 3D Gaussian runs through the entire mapping process. Additionally, the coarse-to-fine pose estimation and compact Gaussian scene representation are implemented by dual keyfeature selection and novel loss functions. Experimental results demonstrate that the proposed algorithm not only outperforms the existing methods in tracking and mapping, but also has less memory usage. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# WIP: 自己指導型オンラインロボティクス学習のための単体テストフレームワーク
WIP: A Unit Testing Framework for Self-Guided Personalized Online Robotics Learning ( http://arxiv.org/abs/2405.11130v1 ) ライセンス: Link先を確認 | Ponkoj Chandra Shill, David Feil-Seifer, Jiullian-Lee Vargas Ruiz, Rui Wu, | (参考訳) 私たちのオンラインロボティクス教育プラットフォームの開発と展開は、ロボット工学におけるプログラミング概念を習得するのに不可欠なインタラクティブでフィードバックに富んだ学習環境を提供することのギャップを浮き彫りにした。
教育資源は限られているため、学生はプログラミングの課題における誤りを見つけ、修正するためにリアルタイムでフィードバックの恩恵を受ける。
これらの問題に対処するため、本論文では、コースワークフローに統合しながら、単体テストのためのシステムを構築することに焦点を当てる。
プログラミング課題の設計に単体テストを含めることで、このリアルタイムフィードバックを容易にし、学生が自分自身でエラーを理解し、修正できるようにし、インストラクターやTAの助けを借りずにボトルネックとなるようにします。
フレームワークのパーソナライズされた学生中心のアプローチに合わせて、この方法は学生がプログラミング作業の修正やデバッグをしやすくし、ハンズオン学習を奨励する。
単体テストを含むコースワークフローは、学習環境を強化し、学生が自己指導型でロボットをプログラムする方法を学習できるように、よりインタラクティブにする。
Our ongoing development and deployment of an online robotics education platform highlighted a gap in providing an interactive, feedback-rich learning environment essential for mastering programming concepts in robotics, which they were not getting with the traditional code-simulate-turn in workflow. Since teaching resources are limited, students would benefit from feedback in real-time to find and fix their mistakes in the programming assignments. To address these concerns, this paper will focus on creating a system for unit testing while integrating it into the course workflow. We facilitate this real-time feedback by including unit testing in the design of programming assignments so students can understand and fix their errors on their own and without the prior help of instructors/TAs serving as a bottleneck. In line with the framework's personalized student-centered approach, this method makes it easier for students to revise, and debug their programming work, encouraging hands-on learning. The course workflow updated to include unit tests will strengthen the learning environment and make it more interactive so that students can learn how to program robots in a self-guided fashion. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# XCAT-2.0:CTスキャンから得られた個人化デジタル双生児の総合ライブラリ
XCAT-2.0: A Comprehensive Library of Personalized Digital Twins Derived from CT Scans ( http://arxiv.org/abs/2405.11133v1 ) ライセンス: Link先を確認 | Lavsen Dahal, Mobina Ghojoghnejad, Dhrubajyoti Ghosh, Yubraj Bhandari, David Kim, Fong Chi Ho, Fakrul Islam Tushar, Ehsan Abadi, Ehsan Samei, Joseph Lo, Paul Segars, | (参考訳) VIT(Virtual Imaging Trials)は、医療画像技術の評価に費用効率が高くスケーラブルなアプローチを提供する。
実際の患者解剖学と生理学を模倣する計算幻覚は、VITにおいて中心的な役割を果たす。
しかし、現在の計算ファントムのライブラリは、特にサンプルサイズと多様性の点で制限に直面している。
異なる患者群にまたがる画像技術の正確な評価は, 人口ハマーの表現が不十分である。
伝統的に、ファントムは手作業によるセグメンテーションによって作られており、それは手間と時間を要する作業であり、ファントム図書館の拡張を妨げる。
本研究では,4種類の深層学習セグメンテーションモデルと3種類の自動臓器セグメンテーション品質制御を用いたリアルな計算ファントムモデリングの枠組みを提案する。
140以上の構造を持つ2500以上の計算ファントムが、詳細な解剖学的モデリングに対する洗練されたアプローチを実証している。
Phantomは、VoxelizedおよびSurface Meshフォーマットの両方で利用できる。
このフレームワークは、現実的なCT画像を生成するために、社内のCTスキャナーで集約される。
このフレームワークは、仮想画像治験を推進し、医療画像技術の総合的かつ信頼性の高い評価を促進する可能性がある。
Phantomsはhttps://cvit.duke.edu/resources/、コード、モデルの重み付け、サンプルCTイメージはhttps://xcat-2.github.ioで入手できる。
Virtual Imaging Trials (VIT) offer a cost-effective and scalable approach for evaluating medical imaging technologies. Computational phantoms, which mimic real patient anatomy and physiology, play a central role in VIT. However, the current libraries of computational phantoms face limitations, particularly in terms of sample size and diversity. Insufficient representation of the population hampers accurate assessment of imaging technologies across different patient groups. Traditionally, phantoms were created by manual segmentation, which is a laborious and time-consuming task, impeding the expansion of phantom libraries. This study presents a framework for realistic computational phantom modeling using a suite of four deep learning segmentation models, followed by three forms of automated organ segmentation quality control. Over 2500 computational phantoms with up to 140 structures illustrating a sophisticated approach to detailed anatomical modeling are released. Phantoms are available in both voxelized and surface mesh formats. The framework is aggregated with an in-house CT scanner simulator to produce realistic CT images. The framework can potentially advance virtual imaging trials, facilitating comprehensive and reliable evaluations of medical imaging technologies. Phantoms may be requested at https://cvit.duke.edu/resources/, code, model weights, and sample CT images are available at https://xcat-2.github.io. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# AquaLoRA:Watermark LoRAによるカスタマイズ安定拡散モデルのホワイトボックス保護に向けて
AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA ( http://arxiv.org/abs/2405.11135v1 ) ライセンス: Link先を確認 | Weitao Feng, Wenbo Zhou, Jiyan He, Jie Zhang, Tianyi Wei, Guanlin Li, Tianwei Zhang, Weiming Zhang, Nenghai Yu, | (参考訳) 拡散モデルは高品質な画像の生成において顕著な成功を収めた。
近年、SD(Stable Diffusion)で代表されるオープンソースモデルは繁栄しており、カスタマイズが可能であるため、クリエーターや愛好家による活発なコミュニティが生まれている。
しかし、カスタマイズされたSDモデルの普及により、未承認のモデル配布や未合意の商用利用といった著作権上の懸念が生じている。
この問題に対処するため、最近の研究はSDモデルがポストホック法医学のための透かし付きコンテンツを出力することを目標としている。
残念なことに、これらはいずれも難易度の高いホワイトボックス保護を達成できないため、悪意のあるユーザは、透かしモジュールを削除または置き換えて、その後の検証に失敗することが可能になる。
このため、このシナリオで最初に実装されるのが \texttt{\method} である。
簡単に言えば、透かしの低ランク適応(LoRA)モジュールを2段階的に使用して、透かし情報を安定拡散モデルのU-Netにマージする。
ウォーターマークLoRAモジュールの場合、再トレーニングせずに柔軟なメッセージ更新を実現するためのスケーリング行列を考案する。
本研究は,モデル分布への影響を最小限に抑えた透かし学習を実現するために,Prior Preserving Fine-Tuning (PPFT) を設計した。
最後に,我々の設計を検証するため,広範囲な実験とアブレーション研究を行った。
Diffusion models have achieved remarkable success in generating high-quality images. Recently, the open-source models represented by Stable Diffusion (SD) are thriving and are accessible for customization, giving rise to a vibrant community of creators and enthusiasts. However, the widespread availability of customized SD models has led to copyright concerns, like unauthorized model distribution and unconsented commercial use. To address it, recent works aim to let SD models output watermarked content for post-hoc forensics. Unfortunately, none of them can achieve the challenging white-box protection, wherein the malicious user can easily remove or replace the watermarking module to fail the subsequent verification. For this, we propose \texttt{\method} as the first implementation under this scenario. Briefly, we merge watermark information into the U-Net of Stable Diffusion Models via a watermark Low-Rank Adaptation (LoRA) module in a two-stage manner. For watermark LoRA module, we devise a scaling matrix to achieve flexible message updates without retraining. To guarantee fidelity, we design Prior Preserving Fine-Tuning (PPFT) to ensure watermark learning with minimal impacts on model distribution, validated by proofs. Finally, we conduct extensive experiments and ablation studies to verify our design. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# クラウドソーシングによるインターネットアクセスネットワーク性能測定のための空間モデル
Spatial Models for Crowdsourced Internet Access Network Performance Measurements ( http://arxiv.org/abs/2405.11138v1 ) ライセンス: Link先を確認 | Taveesh Sharma, Paul Schmitt, Francesco Bronzino, Nick Feamster, Nicole Marwell, | (参考訳) アクセスネットワークインフラに多大な投資をしているにもかかわらず、高品質なインターネット接続への普遍的なアクセスは依然として課題である。
政策立案者は、地理的領域にわたるアクセスネットワーク性能の分布を評価するために、大規模でクラウドソースの計測データセットを利用することが多い。
これらの決定は一般的に、インターネットのパフォーマンスが、ジップコード、国勢調査区域、コミュニティエリアなど、事前に定義された社会的境界内に均一に分散されているという前提に基づいている。
しかし、この仮定は、(1)クラウドソーシングによる測定では、地理的に一様でないサンプリング密度を示すことが多く、(2)事前に定義された社会的境界は、インターネットインフラの実際の境界と一致しない、という2つの理由から有効ではない。
本稿では,インターネットのパフォーマンスを空間的プロセスとしてモデル化する。
本研究では,(1) 地理的領域におけるインターネット性能の集約,(2) 様々なサンプリング境界選択を持つオーバーレイ補間マップ,(3) 類似の性能特性を持つ領域を特定するための空間クラスタ境界ユニットなど,一連の統計手法を適用し,評価する。
我々は,Ookla Speedtestの17ヶ月のクラウドソースデータセットを用いて,これらの有効性を評価した。
様々な空間スケールで複数の先行補間法を評価する。
さらに、データセットのより小さな実現のために、結果のバウンダリ間の類似性について検討する。
以上の結果から,本手法の組み合わせは,実測値よりも集計値に依存した従来の手法に比べて56%の類似点が得られることが示唆された。
我々の研究は、インターネットアクセス格差の理解と対処において、より高度な戦略に対する緊急の要求を強調している。
Despite significant investments in access network infrastructure, universal access to high-quality Internet connectivity remains a challenge. Policymakers often rely on large-scale, crowdsourced measurement datasets to assess the distribution of access network performance across geographic areas. These decisions typically rest on the assumption that Internet performance is uniformly distributed within predefined social boundaries, such as zip codes, census tracts, or community areas. However, this assumption may not be valid for two reasons: (1) crowdsourced measurements often exhibit non-uniform sampling densities within geographic areas; and (2) predefined social boundaries may not align with the actual boundaries of Internet infrastructure. In this paper, we model Internet performance as a spatial process. We apply and evaluate a series of statistical techniques to: (1) aggregate Internet performance over a geographic region; (2) overlay interpolated maps with various sampling boundary choices; and (3) spatially cluster boundary units to identify areas with similar performance characteristics. We evaluated the effectiveness of these using a 17-month-long crowdsourced dataset from Ookla Speedtest. We evaluate several leading interpolation methods at varying spatial scales. Further, we examine the similarity between the resulting boundaries for smaller realizations of the dataset. Our findings suggest that our combination of techniques achieves a 56% gain in similarity score over traditional methods that rely on aggregates over raw measurement values for performance summarization. Our work highlights an urgent need for more sophisticated strategies in understanding and addressing Internet access disparities. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# RuleFuser:ロバストなアウト・オブ・ディストリビューション・トラジェクトリ予測のためのエビデンシャル・ネットワークにおけるルール注入
RuleFuser: Injecting Rules in Evidential Networks for Robust Out-of-Distribution Trajectory Prediction ( http://arxiv.org/abs/2405.11139v1 ) ライセンス: Link先を確認 | Jay Patrikar, Sushant Veer, Apoorva Sharma, Marco Pavone, Sebastian Scherer, | (参考訳) 自律走行における現代の神経軌道予測器は、運転ログから模倣学習(IL)を用いて開発されている。
ILは、大きなデータセットからニュアンスとマルチモーダルな人間の運転行動を引き出す能力から恩恵を受けるが、結果として生じる予測者は、アウト・オブ・ディストリビューション(OOD)のシナリオとトラフィックルールのコンプライアンスに苦慮することが多い。
一方、古典的なルールベースの予測器は、OODシナリオに頑健でありながら、行動を満たすトラフィックルールを予測できるが、エージェントとエージェントの相互作用と人間のドライバーの意図のニュアンスを捕捉できない。
本稿では,ニューラル予測器と古典的ルールベースの予測器を組み合わせ,両者の相補的な利点を生かし,性能とトラヒックルールのコンプライアンスのバランスを損なうような,後続ネットにインスパイアされた暗示的フレームワークであるルールフューザーを提案する。
提案手法の有効性を実世界のnuPlanデータセットで実証した。このデータセットでは,ルールフェーザは,分布内(ID)シナリオにおけるニューラル予測器のより高い性能と,OODシナリオにおけるルールベースの予測器によって提供される安全性を活用している。
Modern neural trajectory predictors in autonomous driving are developed using imitation learning (IL) from driving logs. Although IL benefits from its ability to glean nuanced and multi-modal human driving behaviors from large datasets, the resulting predictors often struggle with out-of-distribution (OOD) scenarios and with traffic rule compliance. On the other hand, classical rule-based predictors, by design, can predict traffic rule satisfying behaviors while being robust to OOD scenarios, but these predictors fail to capture nuances in agent-to-agent interactions and human driver's intent. In this paper, we present RuleFuser, a posterior-net inspired evidential framework that combines neural predictors with classical rule-based predictors to draw on the complementary benefits of both, thereby striking a balance between performance and traffic rule compliance. The efficacy of our approach is demonstrated on the real-world nuPlan dataset where RuleFuser leverages the higher performance of the neural predictor in in-distribution (ID) scenarios and the higher safety offered by the rule-based predictor in OOD scenarios. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# 量子応用のための微細光ファイバー : 展望
Microstructured optical fibres for quantum applications: perspective ( http://arxiv.org/abs/2405.11140v1 ) ライセンス: Link先を確認 | Cameron McGarry, Kerrianne Harrington, Alex O. C. Davis, Peter J. Mosley, Kristina R. Rusimova, | (参考訳) 量子技術のための微細構造光ファイバーの開発と応用の最近の進歩を要約する。
固体コアおよびガス充填中空コアファイバーの非線形性は、既存の量子フォトニック材料アーキテクチャの動作波長間の量子周波数変換と同様に、量子リソース状態の生成に有用な媒体を提供する。
ホロウコアファイバーの低損失、低レイテンシ、低分散により、これらのファイバーは量子ネットワークにおける短距離リンクと長距離リンクの両方にとって特に魅力的である。
ホロコアファイバーはまた、幅広い原子実験で自由空間光学部品を置き換えることを約束している。
Recent progress in the development and applications of microstructured optical fibres for quantum technologies is summarised. The optical nonlinearity of solid-core and gas-filled hollow-core fibres provides a valuable medium for the generation of quantum resource states, as well as for quantum frequency conversion between the operating wavelengths of existing quantum photonic material architectures. The low loss, low latency and low dispersion of hollow-core fibres make these fibres particularly attractive for both short- and long-distance links in quantum networks. Hollow-core fibres also promise to replace free-space optical components in a wide range of atomic experiments. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# 統計的機械学習によるオートマタ学習の強化:ネットワークセキュリティケーススタディ
Enhancing Automata Learning with Statistical Machine Learning: A Network Security Case Study ( http://arxiv.org/abs/2405.11141v1 ) ライセンス: Link先を確認 | Negin Ayoughi, Shiva Nejati, Mehrdad Sabetzadeh, Patricio Saavedra, | (参考訳) 侵入検知システムはネットワークセキュリティにとって不可欠である。
これらのシステムの検証は、ネットワークプラットフォームの不均一性や、サイバー脅威の継続的な変化など、さまざまな要因によって複雑である。
本稿では,侵入検知システムの動作検証を支援することを目的とした,ネットワークトラヒックデータから状態マシンを抽出するオートマチック学習を提案する。
我々の研究の最も革新的な側面は、そのようなデータの数値的性質のため、既存のオートマトン学習技術をネットワークトラヒックデータに直接適用できないことである。
具体的には、解釈可能な機械学習(ML)を用いて、数値の範囲を、侵入検出に関するシステムの判断と強く相関する間隔に分割する。
これらの区間はその後、自動学習の前に数値範囲を抽象化するために使用される。
産業パートナーのRabbitRun Technologiesが開発した商用ネットワーク侵入検知システムに,機械学習による自動学習アプローチを適用した。
提案手法は,学習した状態マシンの状態を67.5%削減すると同時に,専門知識に基づく数値データ抽象化と比較して,平均28%の精度向上を実現している。
さらに、結果のステートマシンは、システムレベルのセキュリティ要件の検証や、モデルチェックや時間的クエリチェックを通じて、これまで知らなかったシステム動作の探索を支援する。
実装と実験データをオンラインで公開しています。
Intrusion detection systems are crucial for network security. Verification of these systems is complicated by various factors, including the heterogeneity of network platforms and the continuously changing landscape of cyber threats. In this paper, we use automata learning to derive state machines from network-traffic data with the objective of supporting behavioural verification of intrusion detection systems. The most innovative aspect of our work is addressing the inability to directly apply existing automata learning techniques to network-traffic data due to the numeric nature of such data. Specifically, we use interpretable machine learning (ML) to partition numeric ranges into intervals that strongly correlate with a system's decisions regarding intrusion detection. These intervals are subsequently used to abstract numeric ranges before automata learning. We apply our ML-enhanced automata learning approach to a commercial network intrusion detection system developed by our industry partner, RabbitRun Technologies. Our approach results in an average 67.5% reduction in the number of states and transitions of the learned state machines, while achieving an average 28% improvement in accuracy compared to using expertise-based numeric data abstraction. Furthermore, the resulting state machines help practitioners in verifying system-level security requirements and exploring previously unknown system behaviours through model checking and temporal query checking. We make our implementation and experimental data available online. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# ベースレス予測から不十分な文脈と不確実なマルチモーダル状況の検出
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions ( http://arxiv.org/abs/2405.11145v1 ) ライセンス: Link先を確認 | Junzhang Liu, Zhecan Wang, Hammad Ayyubi, Haoxuan You, Chris Thomas, Rui Sun, Shih-Fu Chang, Kai-Wei Chang, | (参考訳) VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG、VisualCOMETなどのVLUベンチマークが広く採用されているにもかかわらず、我々の分析は、その完全性に影響を与える広範囲な問題を明らかにしている。
このようなデータのトレーニングモデルは、モデルが同様に不確実な仮定をする傾向があるため、バイアス付き学習と幻覚を促進する。
この問題に対処するために,各サンプルのコンテキストデータを収集し,エビデンスに基づくモデル予測を容易にするために,コンテキスト選択モジュールを訓練する。
複数のベンチマークによる強力な改善は、我々のアプローチの有効性を示しています。
さらに,十分なコンテキストを持たないサンプルを識別し,必要なコンテキストがない場合の応答を控えることによりモデル精度を向上させる汎用なコンテキスト・アワレ認識(CARA)検出器を開発した。
CARAは、トレーニングされていない新しいベンチマークを一般化し、サンプルを不適切なコンテキストで検出またはクリーニングする将来のVLUベンチマークの有用性を強調している。
最後に,コンテクスト・アンビグニティ・サフィシアンシー・アセスメント(CASE,Context Ambiguity and Sufficiency Evaluation, コンテキスト・アンビグニティ・アンド・サフィシアンシー・アセスメント)を用いて,不十分なコンテキスト・ディテクターの性能をベンチマークする。
全体として、我々の研究は、複雑な現実世界のシナリオにおいて、視覚言語モデルが信頼できるエビデンスベースのアウトプットを生成することを保証する重要な進歩を表している。
Despite the widespread adoption of Vision-Language Understanding (VLU) benchmarks such as VQA v2, OKVQA, A-OKVQA, GQA, VCR, SWAG, and VisualCOMET, our analysis reveals a pervasive issue affecting their integrity: these benchmarks contain samples where answers rely on assumptions unsupported by the provided context. Training models on such data foster biased learning and hallucinations as models tend to make similar unwarranted assumptions. To address this issue, we collect contextual data for each sample whenever available and train a context selection module to facilitate evidence-based model predictions. Strong improvements across multiple benchmarks demonstrate the effectiveness of our approach. Further, we develop a general-purpose Context-AwaRe Abstention (CARA) detector to identify samples lacking sufficient context and enhance model accuracy by abstaining from responding if the required context is absent. CARA exhibits generalization to new benchmarks it wasn't trained on, underscoring its utility for future VLU benchmarks in detecting or cleaning samples with inadequate context. Finally, we curate a Context Ambiguity and Sufficiency Evaluation (CASE) set to benchmark the performance of insufficient context detectors. Overall, our work represents a significant advancement in ensuring that vision-language models generate trustworthy and evidence-based outputs in complex real-world scenarios. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# 点クラウドデータセットへの量子ニューラルネットワークの適用における正確な置換と回転対称性の強制
Enforcing exact permutation and rotational symmetries in the application of quantum neural network on point cloud datasets ( http://arxiv.org/abs/2405.11150v1 ) ライセンス: Link先を確認 | Zhelun Li, Lento Nagano, Koji Terashi, | (参考訳) 量子機械学習の分野での最近の進歩は、量子回路の構造に物理対称性を取り入れるというアイデアを推進してきた。
この領域における重要なマイルストーンは、入力オブジェクトの置換の下で同変である$S_{n}$-permutation等変量子ニューラルネットワーク(QNN)の実現である。
本稿では,ポイントクラウドデータセットの回転対称性をQNNに符号化することに焦点を当てる。
このアプローチのキーとなる洞察は、ベクトル入力を持つすべての回転不変関数は、ベクトル内部積の入力を持つ関数と等価であるということである。
プロトン-陽子衝突によって生じる高エネルギー粒子崩壊をSO(1,3)$ローレンツ対称性で数値的に証明し,その有効性を示す。
Recent developments in the field of quantum machine learning have promoted the idea of incorporating physical symmetries in the structure of quantum circuits. A crucial milestone in this area is the realization of $S_{n}$-permutation equivariant quantum neural networks (QNN) that are equivariant under permutations of input objects. In this work, we focus on encoding the rotational symmetry of point cloud datasets into the QNN. The key insight of the approach is that all rotationally invariant functions with vector inputs are equivalent to a function with inputs of vector inner products. We provide a novel structure of QNN that is exactly invariant to both rotations and permutations, with its efficacy demonstrated numerically in the problems of two-dimensional image classifications and identifying high-energy particle decays, produced by proton-proton collisions, with the $SO(1,3)$ Lorentz symmetry. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# ポリプセグメンテーションのための境界を考慮したマルチスケール情報共有・選択ネットワーク
Multi-scale Information Sharing and Selection Network with Boundary Attention for Polyp Segmentation ( http://arxiv.org/abs/2405.11151v1 ) ライセンス: Link先を確認 | Xiaolu Kang, Zhuoqi Ma, Kang Liu, Yunan Li, Qiguang Miao, | (参考訳) 大腸内視鏡検査におけるポリープセグメンテーションは臨床的に重要である。
大腸癌の診断と手術に有用な情報を提供することができる。
既存の手法は比較的良好な性能を示したが,(1)大腸内視鏡検査における照明条件の変化,およびポリプの位置,サイズ,形態の差異など,ポリプセグメンテーションは依然として課題に直面している。
2)ポリープと周囲組織の境界
これらの課題に対処するために,ポリプセグメンテーションタスクのためのMISNet(Multi-scale information sharing and selection network)を提案する。
我々は、情報共有と低レベル特徴と高レベル特徴のアクティブな選択を強制するSSFM(Selectively Shared Fusion Module)を設計し、包括的情報を捕捉するモデルの能力を向上する。
次に,バランシング重みモジュール(BWM)を設計し,ボトムアッププロセスにおける境界セグメンテーションの継続的な改善を容易にする。
5つのポリプセグメンテーションデータセットの実験により、MISNetはセグメンテーション結果の精度と明快さを向上し、最先端の手法より優れていることが示された。
Polyp segmentation for colonoscopy images is of vital importance in clinical practice. It can provide valuable information for colorectal cancer diagnosis and surgery. While existing methods have achieved relatively good performance, polyp segmentation still faces the following challenges: (1) Varying lighting conditions in colonoscopy and differences in polyp locations, sizes, and morphologies. (2) The indistinct boundary between polyps and surrounding tissue. To address these challenges, we propose a Multi-scale information sharing and selection network (MISNet) for polyp segmentation task. We design a Selectively Shared Fusion Module (SSFM) to enforce information sharing and active selection between low-level and high-level features, thereby enhancing model's ability to capture comprehensive information. We then design a Parallel Attention Module (PAM) to enhance model's attention to boundaries, and a Balancing Weight Module (BWM) to facilitate the continuous refinement of boundary segmentation in the bottom-up process. Experiments on five polyp segmentation datasets demonstrate that MISNet successfully improved the accuracy and clarity of segmentation result, outperforming state-of-the-art methods. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# 対向型プロンプトチューニングのロバスト一般化の再検討
Revisiting the Robust Generalization of Adversarial Prompt Tuning ( http://arxiv.org/abs/2405.11154v1 ) ライセンス: Link先を確認 | Fan Yang, Mingxuan Xia, Sangzhou Xia, Chicheng Ma, Hui Hui, | (参考訳) CLIPのような大規模トレーニング済みの視覚言語モデルの敵攻撃に対する脆弱性を理解することは、さまざまな下流タスクにおいてゼロショットの一般化能力を保証する鍵となる。
最先端の防御機構は、通常、下流タスクに適応する効率を維持しつつ、事前訓練されたモデルの敵の堅牢性を改善するために、敵の微調整のための迅速な学習戦略を採用する。
このようなセットアップは、クリーンな例と敵対的な例の両方においてモデルの一般化能力のさらなる改善を阻害するオーバーフィットの問題に繋がる。
本研究では,マルチモーダル・プロンプト・ラーニングを利用した適応型Consistency-Guided Adversarial Prompt Tuning(CAPT)フレームワークを提案する。
また、逆入力の整合性と、微調整モデルと事前学習モデルとの間のクリーン入力との整合性のバランスをとるために、新しい適応整合性目標関数を設計する。
我々は14のデータセットと4つのデータ間隔スキーム(1ショットから完全なトレーニングデータ設定まで)にわたる広範な実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
CAPTは、入力分布シフトおよびデータセット間の分散性能と一般化の点で優れた性能を示した。
Understanding the vulnerability of large-scale pre-trained vision-language models like CLIP against adversarial attacks is key to ensuring zero-shot generalization capacity on various downstream tasks. State-of-the-art defense mechanisms generally adopt prompt learning strategies for adversarial fine-tuning to improve the adversarial robustness of the pre-trained model while keeping the efficiency of adapting to downstream tasks. Such a setup leads to the problem of over-fitting which impedes further improvement of the model's generalization capacity on both clean and adversarial examples. In this work, we propose an adaptive Consistency-guided Adversarial Prompt Tuning (i.e., CAPT) framework that utilizes multi-modal prompt learning to enhance the alignment of image and text features for adversarial examples and leverage the strong generalization of pre-trained CLIP to guide the model-enhancing its robust generalization on adversarial examples while maintaining its accuracy on clean ones. We also design a novel adaptive consistency objective function to balance the consistency of adversarial inputs and clean inputs between the fine-tuning model and the pre-trained model. We conduct extensive experiments across 14 datasets and 4 data sparsity schemes (from 1-shot to full training data settings) to show the superiority of CAPT over other state-of-the-art adaption methods. CAPT demonstrated excellent performance in terms of the in-distribution performance and the generalization under input distribution shift and across datasets. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# 自己Validated Ensemble Models (SVEM) のためのランダム化置換全モデルテストヒューリスティック
A Randomized Permutation Whole-Model Test Heuristic for Self-Validated Ensemble Models (SVEM) ( http://arxiv.org/abs/2405.11156v1 ) ライセンス: Link先を確認 | Andrew T. Karl, | (参考訳) 本稿では,一定応答の零仮説に対する自己検証型アンサンブルモデル(SVEM)の適合性を検証するためのヒューリスティックな手法を提案する。
SVEMモデルは、ターゲットデータセットの小さな重み付けされたブートストラップに適用された、モデルのnBoot適合度から予測を平均化する。
トレーニングデータの検証コピーにそれぞれ適合するように調整し、トレーニングとバリデーションに反相関重みを利用する。
提案試験は, 応答列平均を中心とするSVEM予測を計算し, 係数空間全体に間隔を置いた各nPoint点のアンサンブル変動により正規化する。
SVEMモデルを応答列のnPermランダム化置換に適合させ、対応する標準化予測をnPointポイントに記録することにより、参照分布を構築する。
中央及びスケールしたnPerm x nPoint参照行列に適用された縮小階特異値分解を用いて、nPerm置換結果のそれぞれに対するマハラノビス距離と、元の応答列のジャックニフェ(ホールトアウト)マハラノビス距離を算出する。
このプロセスは実験中の各応答に対して独立に繰り返され、共同でグラフィカルな要約を生成する。
本稿では,シミュレーション駆動による電力解析を行い,モデルの柔軟性と設計精度に関するテストの限界について論じる。
このテストは、ベースSVEMモデルが観測値よりも多くのパラメータを含む場合でも、名目上のI型エラー率を維持する。
We introduce a heuristic to test the significance of fit of Self-Validated Ensemble Models (SVEM) against the null hypothesis of a constant response. A SVEM model averages predictions from nBoot fits of a model, applied to fractionally weighted bootstraps of the target dataset. It tunes each fit on a validation copy of the training data, utilizing anti-correlated weights for training and validation. The proposed test computes SVEM predictions centered by the response column mean and normalized by the ensemble variability at each of nPoint points spaced throughout the factor space. A reference distribution is constructed by refitting the SVEM model to nPerm randomized permutations of the response column and recording the corresponding standardized predictions at the nPoint points. A reduced-rank singular value decomposition applied to the centered and scaled nPerm x nPoint reference matrix is used to calculate the Mahalanobis distance for each of the nPerm permutation results as well as the jackknife (holdout) Mahalanobis distance of the original response column. The process is repeated independently for each response in the experiment, producing a joint graphical summary. We present a simulation driven power analysis and discuss limitations of the test relating to model flexibility and design adequacy. The test maintains the nominal Type I error rate even when the base SVEM model contains more parameters than observations. | 翻訳日:2024-05-21 19:17:16 公開日:2024-05-18 |
# LoRA ライブラリの構築と再利用によるモジュール LLM の実現に向けて
Towards Modular LLMs by Building and Reusing a Library of LoRAs ( http://arxiv.org/abs/2405.11157v1 ) ライセンス: Link先を確認 | Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni, | (参考訳) 基礎となる大規模言語モデル(LLM)のパラメータ効率適応の増大は、そのような訓練されたアダプタを再利用して新しいタスクのパフォーマンスを向上させることができるかどうかを研究することを要求する。
本研究では,マルチタスクデータに対して最適なアダプタライブラリを構築する方法と,そのようなライブラリのルーティングによるゼロショットおよび教師付きタスクの一般化のためのテクニックを考案する。
我々は、このライブラリを構築するための既存のアプローチをベンチマークし、モデルベースのクラスタリング(MBC)を導入し、そのパラメータの類似性に基づいてタスクをグループ化し、マルチタスクデータセット間の転送を間接的に最適化する手法を紹介した。
ライブラリを再使用するために,新たなゼロショットルーティング機構であるArrowを提案する。
MBCベースのアダプタとArrowルーティングが新しいタスクに優れた一般化をもたらすことを検証し、Phi-2 や Mistral といった複数の LLM を広範囲のホールドアウトタスクで実験した。
私たちは、従来のジョイントトレーニングにマッチしたり、より優れたりするモジュラーで適応可能なLLMを作成するためのステップを作成します。
The growing number of parameter-efficient adaptations of a base large language model (LLM) calls for studying whether we can reuse such trained adapters to improve performance for new tasks. We study how to best build a library of adapters given multi-task data and devise techniques for both zero-shot and supervised task generalization through routing in such library. We benchmark existing approaches to build this library and introduce model-based clustering, MBC, a method that groups tasks based on the similarity of their adapter parameters, indirectly optimizing for transfer across the multi-task dataset. To re-use the library, we present a novel zero-shot routing mechanism, Arrow, which enables dynamic selection of the most relevant adapters for new inputs without the need for retraining. We experiment with several LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying that MBC-based adapters and Arrow routing lead to superior generalization to new tasks. We make steps towards creating modular, adaptable LLMs that can match or outperform traditional joint training. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# Dusk Till Dawn:ビジュアルファンデーションモデルを用いた自己教師型夜間ステレオ深度推定
Dusk Till Dawn: Self-supervised Nighttime Stereo Depth Estimation using Visual Foundation Models ( http://arxiv.org/abs/2405.11158v1 ) ライセンス: Link先を確認 | Madhu Vankadari, Samuel Hodgson, Sangyun Shin, Kaichen Zhou Andrew Markham, Niki Trigoni, | (参考訳) 自己監督深度推定アルゴリズムはフレームワープ関係に大きく依存しており、照度条件の異なる低視認性シナリオや夜間シナリオなど、困難な状況に適用した場合に顕著な性能劣化を示す。
この課題に対処するため,夜間に焦点をあてた自己教師型ステレオ深度推定を行うアルゴリズムを提案する。
具体的には、事前学習された視覚基盤モデルを用いて、難易度の高いシーンにまたがる一般化された特徴を抽出し、これらの特徴をステレオフレームからマッチングし、統合する効率的な方法を提案する。
さらに,光度整合性仮定に違反する画素が奥行き予測に悪影響を及ぼすのを防止するために,そのような画素をフィルタリングする新しいマスキング手法を提案する。
最後に、現在の深さ推定アルゴリズムの評価における弱点に対処し、新しい評価指標を提案する。
Oxford RobotCarやMulti-Spectral Stereoといった挑戦的なデータセットを用いて,本手法が実現した堅牢な改善を実証した。
コードは、https://github.com/madhubabuv/dtdで入手できる。
Self-supervised depth estimation algorithms rely heavily on frame-warping relationships, exhibiting substantial performance degradation when applied in challenging circumstances, such as low-visibility and nighttime scenarios with varying illumination conditions. Addressing this challenge, we introduce an algorithm designed to achieve accurate self-supervised stereo depth estimation focusing on nighttime conditions. Specifically, we use pretrained visual foundation models to extract generalised features across challenging scenes and present an efficient method for matching and integrating these features from stereo frames. Moreover, to prevent pixels violating photometric consistency assumption from negatively affecting the depth predictions, we propose a novel masking approach designed to filter out such pixels. Lastly, addressing weaknesses in the evaluation of current depth estimation algorithms, we present novel evaluation metrics. Our experiments, conducted on challenging datasets including Oxford RobotCar and Multi-Spectral Stereo, demonstrate the robust improvements realized by our approach. Code is available at: https://github.com/madhubabuv/dtd | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# LG AI Research & KAIST - EHRSQL 2024: EHR上での信頼性の高いテキスト-SQLシステムに対する疑似ラベル付き未解決質問による大規模言語モデルの自己学習
LG AI Research & KAIST at EHRSQL 2024: Self-Training Large Language Models with Pseudo-Labeled Unanswerable Questions for a Reliable Text-to-SQL System on EHRs ( http://arxiv.org/abs/2405.11162v1 ) ライセンス: Link先を確認 | Yongrae Jo, Seongyun Lee, Minju Seo, Sung Ju Hwang, Moontae Lee, | (参考訳) テキストからSQLへのモデルは、Electronic Health Records(EHR)を、SQLの知識のない医療専門家にアクセスできるようにする上で重要なものだ。
大規模言語モデルの進歩により、これらのシステムはより複雑な質問をSQLクエリに変換するのに適している。
それでも、医療における信頼性に対する重要な必要性は、これらのモデルを正確に特定し、不確実な予測をし、誤った情報を防ぐ必要がある。
この問題に対処するために、擬似ラベル付き未解決質問を用いた自己学習戦略を提案し、EHRのテキスト-SQLモデルの信頼性を高める。
このアプローチには、2段階のトレーニングプロセスと、トークンエントロピーとクエリ実行に基づくフィルタリング方法が含まれている。
我々の方法論の有効性は、EHRSQL 2024共有タスクの最高のパフォーマンスによって検証され、より信頼性の高いテキスト・トゥ・SQLシステムを通じて医療上の意思決定を改善する可能性を示している。
Text-to-SQL models are pivotal for making Electronic Health Records (EHRs) accessible to healthcare professionals without SQL knowledge. With the advancements in large language models, these systems have become more adept at translating complex questions into SQL queries. Nonetheless, the critical need for reliability in healthcare necessitates these models to accurately identify unanswerable questions or uncertain predictions, preventing misinformation. To address this problem, we present a self-training strategy using pseudo-labeled unanswerable questions to enhance the reliability of text-to-SQL models for EHRs. This approach includes a two-stage training process followed by a filtering method based on the token entropy and query execution. Our methodology's effectiveness is validated by our top performance in the EHRSQL 2024 shared task, showcasing the potential to improve healthcare decision-making through more reliable text-to-SQL systems. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# MLLMのマルチレベル自動選好
Automated Multi-level Preference for MLLMs ( http://arxiv.org/abs/2405.11165v1 ) ライセンス: Link先を確認 | Mengxi Zhang, Kang Rong, | (参考訳) 現在のMLLM(Multimodal Large Language Models)は 'hallucination' に苦しむが、時には入力画像に基づかない応答を生成する。
この課題に対処するためには、人間からのフィードバック(RLHF)からの強化学習を利用することが期待できる。
二項選好(上、下、上、下)の一般的な実践を再考し、多水準選好(上、中、下)を採用する方が2つの利点があることを示す。
1) 隣接レベル間のギャップを狭くし, MLLMが微妙な違いを識別できるようにする。
2) クロスレベル比較(隣接レベル比較)をさらに統合し,幻覚例との比較範囲を広げた。
我々はMLLMのための自動多レベル推論(\textbf{AMP})フレームワークを提案する。
このフレームワークを容易にするために、まず、人間のアノテータを使わずに高品質なマルチレベル嗜好データセットを提供する自動データセット生成パイプラインを開発する。
さらに,多レベル直接選好最適化(MDPO)アルゴリズムを設計し,複雑な多レベル選好学習を行う。
さらに,新しい幻覚ベンチマークMRHal-Benchを提案する。
我々のMRHal-Benchと同様に、公衆の幻覚や一般ベンチマークの広範な実験により、提案手法の有効性を実証した。
Current multimodal Large Language Models (MLLMs) suffer from ``hallucination'', occasionally generating responses that are not grounded in the input images. To tackle this challenge, one promising path is to utilize reinforcement learning from human feedback (RLHF), which steers MLLMs towards learning superior responses while avoiding inferior ones. We rethink the common practice of using binary preferences (\emph{i.e.}, superior, inferior), and find that adopting multi-level preferences (\emph{e.g.}, superior, medium, inferior) is better for two benefits: 1) It narrows the gap between adjacent levels, thereby encouraging MLLMs to discern subtle differences. 2) It further integrates cross-level comparisons (beyond adjacent-level comparisons), thus providing a broader range of comparisons with hallucination examples. To verify our viewpoint, we present the Automated Multi-level Preference (\textbf{AMP}) framework for MLLMs. To facilitate this framework, we first develop an automated dataset generation pipeline that provides high-quality multi-level preference datasets without any human annotators. Furthermore, we design the Multi-level Direct Preference Optimization (MDPO) algorithm to robustly conduct complex multi-level preference learning. Additionally, we propose a new hallucination benchmark, MRHal-Bench. Extensive experiments across public hallucination and general benchmarks, as well as our MRHal-Bench, demonstrate the effectiveness of our proposed method. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# 変形誤差に対して頑健な最適量子制御
Optimal quantum controls robust against detuning error ( http://arxiv.org/abs/2405.11170v1 ) ライセンス: Link先を確認 | Shingo Kukita, Haruki Kiya, Yasushi Kondo, | (参考訳) 量子システムの精密制御は、計算、センシング、通信といった実用的な量子技術を達成する上で最も重要なマイルストーンの1つである。
いくつかの要因が制御精度を低下させ、その抑制が強く要求される。
主な要因の1つは体系的な誤りであり、これは制御における期待パラメータと実際の値との間の不一致によって引き起こされる。
複合パルスとして知られるエラー・ロバスト制御配列は、核磁気共鳴(NMR)の分野で発明されている。
これらのシーケンスは、主に1ビット制御におけるエラーの抑制に焦点を当てている。
広い範囲の量子技術において最も基本的な1量子ビット制御は、しばしばデチューニングエラーに悩まされる。
変形誤差に対して頑健な制御シーケンスが多数存在するため、操作に必要な時間や、制御に必要なエネルギーに対応するパルス領域といったいくつかのコスト関数に関して、"最適な"ロバストな制御を見つけることが事実上重要である。
本稿では、不等式制約下での最適化問題を解くツールであるポントリャーギンの最大原理(PMP)を用いて、時間とパルス領域の最適化問題を解く。
我々はパルス領域最適制御をデチューニング誤差に対して頑健に解析的に得る。
さらに,PMPによる時間最適解の候補として,現在知られている最短複合パルスである短CORPSEが考えられる。
パルス領域最適ロバスト制御と短寿命CORPSEの性能を,直接操作と比較して評価した。
Precise control of quantum systems is one of the most important milestones for achieving practical quantum technologies, such as computation, sensing, and communication. Several factors deteriorate the control precision and thus their suppression is strongly demanded. One of the dominant factors is systematic errors, which are caused by discord between an expected parameter in control and its actual value. Error-robust control sequences, known as composite pulses, have been invented in the field of nuclear magnetic resonance (NMR). These sequences mainly focus on the suppression of errors in one-qubit control. The one-qubit control, which is the most fundamental in a wide range of quantum technologies, often suffers from detuning error. As there are many possible control sequences robust against the detuning error, it will practically be important to find ``optimal" robust controls with respect to several cost functions such as time required for operation, and pulse-area during the operation, which corresponds to the energy necessary for control. In this paper, we utilize the Pontryagin's maximum principle (PMP), a tool for solving optimization problems under inequality constraints, to solve the time and pulse-area optimization problems. We analytically obtain pulse-area optimal controls robust against the detuning error. Moreover, we found that short-CORPSE, which is the shortest known composite pulse so far, is a probable candidate of the time optimal solution according to the PMP. We evaluate the performance of the pulse-area optimal robust control and the short-CORPSE, comparing with that of the direct operation. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# 類似アームを用いたグラフフィードバックバンド
Graph Feedback Bandits with Similar Arms ( http://arxiv.org/abs/2405.11171v1 ) ライセンス: Link先を確認 | Han Qi, Guo Fei, Li Zhu, | (参考訳) 本稿では,グラフフィードバックを用いた確率的マルチアームバンディット問題について検討する。
臨床試験とレコメンデーションの問題に動機付けられ、2つの腕が類似している場合(つまり、その手段が十分近い場合)に繋がると仮定する。
我々は、この新たなフィードバック構造に対する後悔の低い境界を確立し、問題非依存の後悔の上限を持つD-UCBと問題依存の上限を持つC-UCBという2つの UCB ベースのアルゴリズムを導入する。
類似性構造を利用することで、時間とともに腕の数が増加するシナリオも検討する。
このシナリオに関連する実践的なアプリケーションとしては、Q\&Aプラットフォーム(Reddit、Stack Overflow、Quora)や、AmazonとFlipkartの製品レビューなどがある。
回答(製品レビュー)はWebサイトに継続的に表示され、そのゴールは、最高の回答(製品レビュー)をトップに表示することです。
ある分布からアームの手段が独立に生成されるとき、両アルゴリズムに後悔すべき上限を与え、手段の分布に関して境界の準線型性について議論する。
最後に,理論結果の検証実験を行った。
In this paper, we study the stochastic multi-armed bandit problem with graph feedback. Motivated by the clinical trials and recommendation problem, we assume that two arms are connected if and only if they are similar (i.e., their means are close enough). We establish a regret lower bound for this novel feedback structure and introduce two UCB-based algorithms: D-UCB with problem-independent regret upper bounds and C-UCB with problem-dependent upper bounds. Leveraging the similarity structure, we also consider the scenario where the number of arms increases over time. Practical applications related to this scenario include Q\&A platforms (Reddit, Stack Overflow, Quora) and product reviews in Amazon and Flipkart. Answers (product reviews) continually appear on the website, and the goal is to display the best answers (product reviews) at the top. When the means of arms are independently generated from some distribution, we provide regret upper bounds for both algorithms and discuss the sub-linearity of bounds in relation to the distribution of means. Finally, we conduct experiments to validate the theoretical results. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# ボソニックマルコフ開量子系に対するTrncated Wigner近似の経路内定式化
Path-Integral Formulation of Truncated Wigner Approximation for Bosonic Markovian Open Quantum Systems ( http://arxiv.org/abs/2405.11173v1 ) ライセンス: Link先を確認 | Toma Yoneya, Kazuya Fujimoto, Yuki Kawaguchi, | (参考訳) truncated Wigner approximation (TWA)により、量子揺らぎの影響を考慮しつつボソニック量子多体ダイナミクスを計算することができる。
本研究では、ウィグナー関数を用いたコヒーレント状態パス積分法からゴリーニ・コサコフスキー・スダルシャン・リンドブラッド(GKSL)方程式によって記述されたボソニックマルコフ開量子系に対するTWAを定式化する。
我々は、TWAにおけるGKSL方程式の解析式を導出し、異なる状態を持たないジャンプ作用素を持つ任意のハミルトニアンを持つボソニック系を考える。
本定式化で得られた物理量の時間発展と非等時相関関数が,数値解法モデルで得られた正確な時間によく一致することを数値的に確認する。
The truncated Wigner approximation (TWA) enables us to calculate bosonic quantum many-body dynamics while accounting for the effects of quantum fluctuations. In this work, we formulate the TWA for bosonic Markovian open quantum systems described by the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) equation from the coherent-state path-integral approach using the Wigner function. We derive an analytical expression for the GKSL equation in the TWA where we consider a bosonic system with an arbitrary Hamiltonian with jump operators that do not couple different states. We numerically confirm that the time evolution of physical quantities and the non-equal time correlation functions obtained in our formulation agree well with the exact ones in the numerically solvable models. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# グラウンドセグメンテーションを活用したアウトリア・ローバスト長期ロボットマッピング
Outlier-Robust Long-Term Robotic Mapping Leveraging Ground Segmentation ( http://arxiv.org/abs/2405.11176v1 ) ライセンス: Link先を確認 | Hyungtae Lim, | (参考訳) 深層学習に基づく知覚技術と同時局所化とマッピング(SLAM)の顕著な進歩にもかかわらず、ロボットがモデル化された経験の外でシナリオに遭遇した場合、これらのアプローチの失敗に直面することができる(ここでは、‘textit{modeling’という用語は、従来のパターン発見とデータ駆動のアプローチの両方を包含する)。
特に、学習ベースの手法は、訓練されていない場面で運用する際に破滅的な失敗をする傾向があるため、現実世界のロボティクスサービスやSLAMコンペティションなど、さまざまなシナリオにおいて、最初から機能する従来の堅牢なアプローチには、依然として需要がある。
さらに、実世界の環境の動的な性質は、時間とともに環境が変化し、動く物体の存在が特徴であり、ロボットが位置や経路計画から妨げられるような望ましくないデータポイントにつながります。
そのため,マルチセッションSLAMや静的マップ構築など,長期マップ管理を可能にする手法が不可欠である。
そこで,まず最初に提案する,頑健な長期ロボットマッピングシステムを実現する。
(i)~高速で頑健な接地セグメント化は、特徴が無く、ローカライゼーションや写像には役に立たない基底点を拒絶する。
そして、卒業した非凸性~(GNC)の概念を取り入れて、提案する。
(ii)-特徴整合結果における総外乱の存在を克服する接地区分付き外乱登録
(iii)〜階層型マルチセッションSLAMは,提案したGNCベース登録だけでなく,GNCソルバを用いて外乱ループ候補に対して堅牢である。
最後に提案します
(4) 都市環境における移動物体のほとんどを地中と接触させることにより, 環境中における移動物体の存在を把握できる静地図構築法について検討した。
Despite the remarkable advancements in deep learning-based perception technologies and simultaneous localization and mapping~(SLAM), one can face the failure of these approaches when robots encounter scenarios outside their modeled experiences~(here, the term \textit{modeling} encompasses both conventional pattern finding and data-driven approaches). In particular, because learning-based methods are prone to catastrophic failure when operated in untrained scenes, there is still a demand for conventional yet robust approaches that work out of the box in diverse scenarios, such as real-world robotic services and SLAM competitions. In addition, the dynamic nature of real-world environments, characterized by changing surroundings over time and the presence of moving objects, leads to undesirable data points that hinder a robot from localization and path planning. Consequently, methodologies that enable long-term map management, such as multi-session SLAM and static map building, become essential. Therefore, to achieve a robust long-term robotic mapping system that can work out of the box, first, I propose (i)~fast and robust ground segmentation to reject the ground points, which are featureless and thus not helpful for localization and mapping. Then, by employing the concept of graduated non-convexity~(GNC), I propose (ii)~outlier-robust registration with ground segmentation that overcomes the presence of gross outliers within the feature matching results, and (iii)~hierarchical multi-session SLAM that not only uses our proposed GNC-based registration but also employs a GNC solver to be robust against outlier loop candidates. Finally, I propose (iv)~instance-aware static map building that can handle the presence of moving objects in the environment based on the observation that most moving objects in urban environments are inevitably in contact with the ground. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# 臨床面接におけるPTSD診断の自動化 : トラウマ評価のための大規模言語モデルの活用
Automating PTSD Diagnostics in Clinical Interviews: Leveraging Large Language Models for Trauma Assessments ( http://arxiv.org/abs/2405.11178v1 ) ライセンス: Link先を確認 | Sichang Tu, Abigail Powers, Natalie Merrill, Negar Fani, Sierra Carter, Stephen Doogan, Jinho D. Choi, | (参考訳) 臨床労働力の不足は、精神医療において重大な課題を示し、正式な診断やサービスへのアクセスを制限している。
我々は、ワークフローにカスタマイズされた大言語モデル(LLM)を統合することで、この不足に対処し、一般市民のためのメンタルヘルスのエクイティを促進することを目的としている。
LLMは、その臨床的意思決定能力を示したが、外傷後ストレス障害(PTSD)のような重篤な疾患への適応は、いまだに明らかにされていない。
そこで我々は,臨床医が担当する診断面接411件を収集し,高品質なデータを得るための新しいアプローチを考案した。
さらに,2つの最新のLCM,GPT-4,Llama-2を活用することで,インタビュー内容に基づくPTSD診断の自動化を行う総合的なフレームワークを構築し,より広範な臨床診断の可能性を秘めている。
以上の結果から, 臨床医が診断検証を行う上で, LLMs を有効活用できる可能性が示唆された。
私たちの知る限りでは、このAIシステムは、臨床医が担当する面接に基づいて精神疾患の評価を完全に自動化する最初のAIシステムです。
The shortage of clinical workforce presents significant challenges in mental healthcare, limiting access to formal diagnostics and services. We aim to tackle this shortage by integrating a customized large language model (LLM) into the workflow, thus promoting equity in mental healthcare for the general population. Although LLMs have showcased their capability in clinical decision-making, their adaptation to severe conditions like Post-traumatic Stress Disorder (PTSD) remains largely unexplored. Therefore, we collect 411 clinician-administered diagnostic interviews and devise a novel approach to obtain high-quality data. Moreover, we build a comprehensive framework to automate PTSD diagnostic assessments based on interview contents by leveraging two state-of-the-art LLMs, GPT-4 and Llama-2, with potential for broader clinical diagnoses. Our results illustrate strong promise for LLMs, tested on our dataset, to aid clinicians in diagnostic validation. To the best of our knowledge, this is the first AI system that fully automates assessments for mental illness based on clinician-administered interviews. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# 機械学習モデルを用いたマルチレベルマルコフ連鎖モンテカルロの高速化
Accelerating Multilevel Markov Chain Monte Carlo Using Machine Learning Models ( http://arxiv.org/abs/2405.11179v1 ) ライセンス: Link先を確認 | Sohail Reddy, Hillary Fairbanks, | (参考訳) 本研究は,マルチレベルマルコフ・チェイン・モンテカルロ(MCMC)サンプリングを低忠実度機械学習モデルを用いて高速化する効率的な手法を提案する。
大規模ベイズ推論の従来の手法は、しばしば計算に高価な高忠実度モデルを機械学習モデルに置き換え、近似誤差を導入するが、本手法は階層的な枠組みの中で低忠実度モデルで高忠実度モデルを増大させることにより、計算的に効率的な代替手段を提供する。
マルチレベルアプローチでは、低忠実度機械学習モデル(MLM)を用いて、提案したサンプルを安価に評価することにより、高忠実度モデルによるサンプルの受け入れを改善する。
多レベルアルゴリズムの階層構造は幾何学的多重グリッド階層から導かれる。
我々は,MLMを用いて粗度サンプリングを高速化する。
粗いレベルの機械学習モデルのトレーニングは、トレーニングデータの生成とモデルのトレーニングに関連する計算コストを著しく削減する。
MLMを用いた粗いレベルサンプリングを高速化するMCMCアルゴリズムを提案し,近似誤差を考慮に入れた。
詳細なバランスの理論的証明を提供し、我々のマルチレベルアプローチが一貫したMCMCアルゴリズムを構成することを示す。
さらに,より効率的な階層的サンプリングを容易にするために,機械学習モデルの精度に関する条件を導出する。
本手法は, 地下水流における標準ベンチマーク推定問題において, 4レベルMCMCアルゴリズムを用いて, 関心量の確率密度を推定する手法である。
提案アルゴリズムは,標準のマルチレベルアルゴリズムを用いたサンプリングと比較して,2倍の精度でマルチレベルサンプリングを高速化する。
This work presents an efficient approach for accelerating multilevel Markov Chain Monte Carlo (MCMC) sampling for large-scale problems using low-fidelity machine learning models. While conventional techniques for large-scale Bayesian inference often substitute computationally expensive high-fidelity models with machine learning models, thereby introducing approximation errors, our approach offers a computationally efficient alternative by augmenting high-fidelity models with low-fidelity ones within a hierarchical framework. The multilevel approach utilizes the low-fidelity machine learning model (MLM) for inexpensive evaluation of proposed samples thereby improving the acceptance of samples by the high-fidelity model. The hierarchy in our multilevel algorithm is derived from geometric multigrid hierarchy. We utilize an MLM to acclerate the coarse level sampling. Training machine learning model for the coarsest level significantly reduces the computational cost associated with generating training data and training the model. We present an MCMC algorithm to accelerate the coarsest level sampling using MLM and account for the approximation error introduced. We provide theoretical proofs of detailed balance and demonstrate that our multilevel approach constitutes a consistent MCMC algorithm. Additionally, we derive conditions on the accuracy of the machine learning model to facilitate more efficient hierarchical sampling. Our technique is demonstrated on a standard benchmark inference problem in groundwater flow, where we estimate the probability density of a quantity of interest using a four-level MCMC algorithm. Our proposed algorithm accelerates multilevel sampling by a factor of two while achieving similar accuracy compared to sampling using the standard multilevel algorithm. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# GestFormer:ダイナミックハンドジェスチャ認識のためのマルチスケールウェーブレットプール変圧器ネットワーク
GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture Recognition ( http://arxiv.org/abs/2405.11180v1 ) ライセンス: Link先を確認 | Mallika Garg, Debashis Ghosh, Pyari Mohan Pradhan, | (参考訳) トランスフォーマーモデルは、NLPや分類など、多くのアプリケーションで最先端の結果を得た。
しかし、ジェスチャー認識タスクの探索はまだ限られている。
そこで我々は,動的手動ジェスチャー認識のための新しいGestFormerアーキテクチャを提案する。
この設計の背後にある動機は、トランスは計算コストが高く、非常に複雑であるため、資源効率の良いトランスモデルを提案することである。
そこで我々は,プール型トークンミキサーであるPoolFormerを提案する。
提案モデルではウェーブレット変換の空間不変特性も活用し,マルチスケールプーリングを用いてマルチスケール特徴を選択する。
さらに、ゲート機構は、コンテキスト情報によるジェスチャーの詳細な詳細に集中するのに役立ちます。
これにより、ダイナミックハンドジェスチャーデータセット、NVidia Dynamic Hand Gesture、Brareoデータセットで評価した場合、パラメータが少ない従来のトランスフォーマーと比較して、提案モデルの性能が向上する。
提案モデルの有効性を証明するため,赤外,正常,深度,光学的流れ,カラー画像などのマルチモーダル入力について実験を行った。
また,提案するGestFormerを,資源効率と操作数の観点から比較した。
ソースコードはhttps://github.com/mallikagarg/GestFormer.comで入手できる。
Transformer model have achieved state-of-the-art results in many applications like NLP, classification, etc. But their exploration in gesture recognition task is still limited. So, we propose a novel GestFormer architecture for dynamic hand gesture recognition. The motivation behind this design is to propose a resource efficient transformer model, since transformers are computationally expensive and very complex. So, we propose to use a pooling based token mixer named PoolFormer, since it uses only pooling layer which is a non-parametric layer instead of quadratic attention. The proposed model also leverages the space-invariant features of the wavelet transform and also the multiscale features are selected using multi-scale pooling. Further, a gated mechanism helps to focus on fine details of the gesture with the contextual information. This enhances the performance of the proposed model compared to the traditional transformer with fewer parameters, when evaluated on dynamic hand gesture datasets, NVidia Dynamic Hand Gesture and Briareo datasets. To prove the efficacy of the proposed model, we have experimented on single as well multimodal inputs such as infrared, normals, depth, optical flow and color images. We have also compared the proposed GestFormer in terms of resource efficiency and number of operations. The source code is available at https://github.com/mallikagarg/GestFormer. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# 知識注入型自動疾患診断アシスタントを目指して
Towards Knowledge-Infused Automated Disease Diagnosis Assistant ( http://arxiv.org/abs/2405.11181v1 ) ライセンス: Link先を確認 | Mohit Tomar, Abhisek Tiwari, Sriparna Saha, | (参考訳) インターネット通信と遠隔医療の進歩により、人々は様々な医療活動のためにますますウェブに目を向けている。
病気や症状がどんどん増えていく中、患者の診断は困難になる。
本研究では,患者と医師の相互作用に基づいて疾患を識別する診断アシスタントを構築した。
診断中、医師は症状学の知識と診断経験の両方を利用して、疾患を正確かつ効率的に識別する。
そこで我々は, 医師と患者との相互作用を通じて, 疾患診断における医療知識の役割について検討した。
本稿では,第1のチャネルがトランスフォーマーベースのエンコーダを用いて患者と医師のコミュニケーションを符号化し,第2のチャネルがグラフアテンションネットワーク(GAT)を用いた症状の埋め込みを生成する2チャンネルの知識注入型談話認識疾患診断モデル(KI-DDI)を提案する。
次の段階では、会話と知識グラフの埋め込みが統合され、病気の識別のためにディープニューラルネットワークに供給される。
さらに,まず患者と医師の会話を含む共感的会話医療コーパスを開発し,その意図と症状に関する情報を付加した。
提案したモデルは、既存の最先端モデルよりも大幅に改善され、重要な役割を確立する。
(a)追加症状抽出のための医師の努力(患者自己申告に加えて)
b) 疾患を効果的に識別するために医療知識を注入すること。
多くの場合、患者は診断において重要な証拠となる医療状況も示している。
したがって、視覚感覚情報の統合は、診断アシスタントの能力を高めるための効果的な道のりである。
With the advancement of internet communication and telemedicine, people are increasingly turning to the web for various healthcare activities. With an ever-increasing number of diseases and symptoms, diagnosing patients becomes challenging. In this work, we build a diagnosis assistant to assist doctors, which identifies diseases based on patient-doctor interaction. During diagnosis, doctors utilize both symptomatology knowledge and diagnostic experience to identify diseases accurately and efficiently. Inspired by this, we investigate the role of medical knowledge in disease diagnosis through doctor-patient interaction. We propose a two-channel, knowledge-infused, discourse-aware disease diagnosis model (KI-DDI), where the first channel encodes patient-doctor communication using a transformer-based encoder, while the other creates an embedding of symptom-disease using a graph attention network (GAT). In the next stage, the conversation and knowledge graph embeddings are infused together and fed to a deep neural network for disease identification. Furthermore, we first develop an empathetic conversational medical corpus comprising conversations between patients and doctors, annotated with intent and symptoms information. The proposed model demonstrates a significant improvement over the existing state-of-the-art models, establishing the crucial roles of (a) a doctor's effort for additional symptom extraction (in addition to patient self-report) and (b) infusing medical knowledge in identifying diseases effectively. Many times, patients also show their medical conditions, which acts as crucial evidence in diagnosis. Therefore, integrating visual sensory information would represent an effective avenue for enhancing the capabilities of diagnostic assistants. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# 深部領域適応学習を用いた異なる位置における風力予測
Wind Power Prediction across Different Locations using Deep Domain Adaptive Learning ( http://arxiv.org/abs/2405.11188v1 ) ライセンス: Link先を確認 | Md Saiful Islam Sajol, Md Shazid Islam, A S M Jahid Hasan, Md Saydur Rahman, Jubair Yusuf, | (参考訳) この間欠的な再生可能エネルギーのグリッド統合と、利用可能な風力の予測におけるグリッドプランナーの支援には、風力の正確な予測が不可欠である。
空間的差異は、地理的に分散した2つの地域間の気候データ分布に相違が生じ、予測作業がより困難になる。
したがって、特定の気候領域のデータから学習する予測モデルは、ロバストさの低下に悩まされる可能性がある。
この欠点に対処するために、ディープニューラルネットワーク(DNN)に基づくドメイン適応アプローチを提案する。
気象パラメータの集合から有効な気象特徴をランダムな森林アプローチを用いて選択する。
ソースドメインからの事前学習モデルを用いて、ターゲットドメイン予測中にソースデータが利用できないと仮定して、予測タスクを実行する。
DNNモデルの最後の数レイヤのみの重みがタスク全体を通して更新され、残りのネットワークは変更されず、従来のアプローチに比べてモデルが高速になる。
提案手法は従来の非適応法と比較して6.14%から28.44%まで高い精度を示す。
Accurate prediction of wind power is essential for the grid integration of this intermittent renewable source and aiding grid planners in forecasting available wind capacity. Spatial differences lead to discrepancies in climatological data distributions between two geographically dispersed regions, consequently making the prediction task more difficult. Thus, a prediction model that learns from the data of a particular climatic region can suffer from being less robust. A deep neural network (DNN) based domain adaptive approach is proposed to counter this drawback. Effective weather features from a large set of weather parameters are selected using a random forest approach. A pre-trained model from the source domain is utilized to perform the prediction task, assuming no source data is available during target domain prediction. The weights of only the last few layers of the DNN model are updated throughout the task, keeping the rest of the network unchanged, making the model faster compared to the traditional approaches. The proposed approach demonstrates higher accuracy ranging from 6.14% to even 28.44% compared to the traditional non-adaptive method. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# ReasonPix2Pix: 高度な画像編集のためのインストラクション推論データセット
ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing ( http://arxiv.org/abs/2405.11190v1 ) ライセンス: Link先を確認 | Ying Jin, Pengyang Ling, Xiaoyi Dong, Pan Zhang, Jiaqi Wang, Dahua Lin, | (参考訳) インストラクションベースの画像編集は、画像編集のための人書き命令に従う能力を備えた生成モデルを装備することに焦点を当てる。
現在のアプローチは、通常、明示的で特定の指示を理解する。
しかし、暗黙的または不十分に定義された指示を理解するのに必要な能動的推論能力の実行に欠如することが多い。
能動的推論能力を向上し、編集モデルにインテリジェンスを付与するために、包括的な推論注意型命令編集データセットであるReasonPix2Pixを導入する。
データセットの特徴は
1)理性指導
2)細かなカテゴリのよりリアルなイメージ
3) 入力画像と編集画像のばらつきは増大した。
教師付き条件下でのデータセットの微調整では、タスクが推論を必要とするか否かに関わらず、命令編集タスクにおいて優れたパフォーマンスを示す。
コード、モデル、データセットが公開される。
Instruction-based image editing focuses on equipping a generative model with the capacity to adhere to human-written instructions for editing images. Current approaches typically comprehend explicit and specific instructions. However, they often exhibit a deficiency in executing active reasoning capacities required to comprehend instructions that are implicit or insufficiently defined. To enhance active reasoning capabilities and impart intelligence to the editing model, we introduce ReasonPix2Pix, a comprehensive reasoning-attentive instruction editing dataset. The dataset is characterized by 1) reasoning instruction, 2) more realistic images from fine-grained categories, and 3) increased variances between input and edited images. When fine-tuned with our dataset under supervised conditions, the model demonstrates superior performance in instructional editing tasks, independent of whether the tasks require reasoning or not. The code, model, and dataset will be publicly available. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# Biathlon:ML推論パイプラインを高速化するハーネスモデルレジリエンス
Biathlon: Harnessing Model Resilience for Accelerating ML Inference Pipelines ( http://arxiv.org/abs/2405.11191v1 ) ライセンス: Link先を確認 | Chaokun Chang, Eric Lo, Chunxiao Ye, | (参考訳) データサイエンスや産業でよく見られる機械学習推論パイプラインは、ユーザ向きの性質のため、リアルタイムの応答性を必要とすることが多い。
しかし、ある入力機能が大量のデータをオンラインに集約する必要がある場合、この要件を満たすことは特に困難になる。
解釈可能な機械学習に関する最近の文献によると、ほとんどの機械学習モデルは入力のバリエーションに対して顕著な回復力を示す。
このことは、機械学習モデルが精度に最小限の影響を与えることなく、近似的な入力特徴を効果的に適合させることができることを示唆している。
本稿では,モデル固有のレジリエンスを活用し,各アグリゲーション特徴に対する最適な近似度を決定する新しいMLサービスシステムであるBiathlonを紹介する。
このアプローチは、精度損失の保証されたバウンダリを確保しながら、最大スピードアップを可能にする。
我々は、業界アプリケーションとデータサイエンスコンペティションの両方の実際のパイプライン上で、Biathlonを評価し、5.3倍から16.6倍のスピードアップをほぼ精度の低下なく達成することで、リアルタイムのレイテンシ要求を満たす能力を実証した。
Machine learning inference pipelines commonly encountered in data science and industries often require real-time responsiveness due to their user-facing nature. However, meeting this requirement becomes particularly challenging when certain input features require aggregating a large volume of data online. Recent literature on interpretable machine learning reveals that most machine learning models exhibit a notable degree of resilience to variations in input. This suggests that machine learning models can effectively accommodate approximate input features with minimal discernible impact on accuracy. In this paper, we introduce Biathlon, a novel ML serving system that leverages the inherent resilience of models and determines the optimal degree of approximation for each aggregation feature. This approach enables maximum speedup while ensuring a guaranteed bound on accuracy loss. We evaluate Biathlon on real pipelines from both industry applications and data science competitions, demonstrating its ability to meet real-time latency requirements by achieving 5.3x to 16.6x speedup with almost no accuracy loss. | 翻訳日:2024-05-21 19:07:29 公開日:2024-05-18 |
# BrainStorm @ iREL - SMM4H 2024: ツイート中のアノテーション検出のための翻訳とトピック埋め込みを活用する
BrainStorm @ iREL at SMM4H 2024: Leveraging Translation and Topical Embeddings for Annotation Detection in Tweets ( http://arxiv.org/abs/2405.11192v1 ) ライセンス: Link先を確認 | Manav Chaudhary, Harshit Gupta, Vasudeva Varma, | (参考訳) 様々なNLPタスクにおけるLSMの増殖は、特にバイアスや幻覚が生じる可能性のあるアノテーションタスクにおいて、その信頼性に関する議論を引き起こしている。
この共有タスクでは、ラテンアメリカスペイン語のつぶやきからCOVID-19の症状を検出するという文脈において、LLMによるアノテーションと人間のドメインの専門家によるアノテーションを区別するという課題に対処する。
本稿では,SMM4H 2024共有タスクに対するBrainStorm @iRELのアプローチを提案する。
The proliferation of LLMs in various NLP tasks has sparked debates regarding their reliability, particularly in annotation tasks where biases and hallucinations may arise. In this shared task, we address the challenge of distinguishing annotations made by LLMs from those made by human domain experts in the context of COVID-19 symptom detection from tweets in Latin American Spanish. This paper presents BrainStorm @ iREL's approach to the SMM4H 2024 Shared Task, leveraging the inherent topical information in tweets, we propose a novel approach to identify and classify annotations, aiming to enhance the trustworthiness of annotated data. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# QuaLITi: 最上位性能の推論のための量子機械学習ハードウェア選択
QuaLITi: Quantum Machine Learning Hardware Selection for Inferencing with Top-Tier Performance ( http://arxiv.org/abs/2405.11194v1 ) ライセンス: Link先を確認 | Koustubh Phalak, Swaroop Ghosh, | (参考訳) 量子機械学習(Quantum Machine Learning, QML)は、量子コンピューティングの原理を活用して、機械学習方法論の強化と革新を行う研究分野である。
しかし、NISQ(Noisy Intermediate-Scale Quantum)コンピュータは、量子ビットの量子状態を劣化させ、トレーニングと推論の精度に影響を与えるノイズに悩まされている。
さらに、量子コンピュータには長いアクセスキューがある。
事前に定義された数のショットを持つ単一の実行は、待ち行列の上部に到達するのに数時間かかる可能性がある。
多くのベンダーは、様々な量子ビット技術、多くの量子ビット、結合アーキテクチャ、ノイズ特性を備えた量子ハードウェアのスイートへのアクセスを提供している。
しかし、現在のQMLアルゴリズムはトレーニング手順には使用せず、実際のハードウェア上でのコストとトレーニングタイミングのオーバーヘッドのため、しばしばローカルノイズレス/ノイズの多いシミュレータに依存している。
さらに、推論は一般的に、少ないデータポイントで減ったデータセットで実行される。
これらの制約を考慮すると、ハードウェア選択の選択に基づいて、QMLワークロードの推論性能を最大化する研究を行う。
具体的には、Iris上で量子分類器(ハードウェア待ち時間のレンズによるトレーニングと推論の両方)を詳細に分析し、ノイズ下でDigitsデータセットを削減し、異なるハードウェアや結合マップのような様々な条件下で解析する。
特に、待ち行列の長いジョブの待ち行列深度を持つ場合、トレーニング待ち時間を最大45倍まで削減しながら、パフォーマンスへの影響をわずか3~4%に抑えることができることを示す。
Quantum Machine Learning (QML) is an accelerating field of study that leverages the principles of quantum computing to enhance and innovate within machine learning methodologies. However, Noisy Intermediate-Scale Quantum (NISQ) computers suffer from noise that corrupts the quantum states of the qubits and affects the training and inferencing accuracy. Furthermore, quantum computers have long access queues. A single execution with a pre-defined number of shots can take hours just to reach the top of the wait queue, which is especially disadvantageous to Quantum Machine Learning (QML) algorithms that are iterative in nature. Many vendors provide access to a suite of quantum hardware with varied qubit technologies, number of qubits, coupling architectures, and noise characteristics. However, present QML algorithms do not use them for the training procedure and often rely on local noiseless/noisy simulators due to cost and training timing overhead on real hardware. Additionally, inferencing is generally performed on reduced datasets with fewer datapoints. Taking these constraints into account, we perform a study to maximize the inferencing performance of QML workloads based on the choice of hardware selection. Specifically, we perform a detailed analysis of quantum classifiers (both training and inference through the lens of hardware queue wait times) on Iris and reduced Digits datasets under noise and varied conditions such as different hardware and coupling maps. We show that using multiple readily available hardware for training rather than relying on a single hardware, especially if it has a long queue depth of pending jobs, can lead to a performance impact of only 3-4% while providing up to 45X reduction in training wait time. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# 信頼できる行動可能な摂動
Trustworthy Actionable Perturbations ( http://arxiv.org/abs/2405.11195v1 ) ライセンス: Link先を確認 | Jesse Friedbaum, Sudarshan Adiga, Ravi Tandon, | (参考訳) ファクトファクト(英: Counterfactuals)または、異なる結果をもたらす修正されたインプット(英: modified inputs)は、機械学習の分類器が使用するロジックを理解し、望ましくない分類を変更する方法を理解するための重要なツールである。
しかし、たとえ逆ファクトが分類器の決定を変更しても、それが真に根底にあるクラス確率に影響しないかもしれない。
提案手法は,TAP(Trustworthy Actionable Perturbations)と呼ばれる有用な方法で,真の基盤となる確率を変化させる,修正された入力を生成するための新しいフレームワークである。
これは、TAPが反対に振る舞うのではなく、真のクラス確率を変更することを保証する新しい検証手順を含む。
私たちのフレームワークには新たなコスト、報酬、目標定義が含まれています。
検証手順のPAC学習性について検討し,報奨評価法を理論的に分析した。
また,TAPの作成手法も開発し,その成果を従来の対策手法と比較する。
Counterfactuals, or modified inputs that lead to a different outcome, are an important tool for understanding the logic used by machine learning classifiers and how to change an undesirable classification. Even if a counterfactual changes a classifier's decision, however, it may not affect the true underlying class probabilities, i.e. the counterfactual may act like an adversarial attack and ``fool'' the classifier. We propose a new framework for creating modified inputs that change the true underlying probabilities in a beneficial way which we call Trustworthy Actionable Perturbations (TAP). This includes a novel verification procedure to ensure that TAP change the true class probabilities instead of acting adversarially. Our framework also includes new cost, reward, and goal definitions that are better suited to effectuating change in the real world. We present PAC-learnability results for our verification procedure and theoretically analyze our new method for measuring reward. We also develop a methodology for creating TAP and compare our results to those achieved by previous counterfactual methods. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# Natural is the Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models
Natural Is The Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models ( http://arxiv.org/abs/2405.11196v1 ) ライセンス: Link先を確認 | Yan Wang, Xiaoning Li, Tien Nguyen, Shaohua Wang, Chao Ni, Ling Ding, | (参考訳) 事前訓練されたLarge Language Models (LLM) はいくつかの領域で顕著な成功を収めている。
しかし、コード指向LLMは計算複雑性が重く、入力の長さは2乗である。
LLMの入力プログラムを単純化するために、最先端のアプローチでは、LLMのアテンションスコアに基づいて入力コードトークンをフィルタリングする戦略がある。
入力を単純化するという決定は、モデルアーキテクチャと事前学習データセットの両方に影響されるため、LCMの注意パターンに依存してはならない。
モデルとデータセットはソリューションドメインの一部であり、入力が属する問題領域ではないため、モデルが異なるデータセット上で事前トレーニングされた場合の結果が異なる可能性がある。
入力符号のトークンの性質に依存するLCMのモデルに依存しないコード単純化ソリューションであるSlimCodeを提案する。
CodeBERT, CodeT5, GPT-4の2つの主要なタスクに対するLLMに関する実証的研究として, コード検索と要約を行った。
1)コードの除去率は,トレーニング時間における保存率と線形的関係にある。
2) コードの単純化に対する分類トークンの影響は著しく異なる。
3) コードの単純化に対する分類トークンの影響はタスク固有だがモデル非依存である。
4) 上記の知見は, パラダイム・プロンプト・エンジニアリングと対話型インコンテキスト・ラーニングに有効である。
実験の結果、SlimCodeはコード検索と要約におけるMRRとBLEUのスコアの9.46%と5.15%の改善を達成できた。
さらに、SlimCodeは最先端のアプローチよりも133倍高速である。
さらに、SlimCodeはGPT-4の呼び出しコストをAPIクエリ毎に最大24%削減できる。
Pre-trained Large Language Models (LLM) have achieved remarkable successes in several domains. However, code-oriented LLMs are heavy in computational complexity, and quadratically with the length of the input. Toward simplifying the input program of an LLM, the state-of-the-art approach has the strategies to filter the input code tokens based on the attention scores given by the LLM. The decision to simplify the input should not rely on the attention patterns of an LLM, as these patterns are influenced by both the model architecture and the pre-training dataset. Since the model and dataset are part of the solution domain, not the problem domain where the input belongs, the outcome may differ when the model is pre-trained on a different dataset. We propose SlimCode, a model-agnostic code simplification solution for LLMs that depends on the nature of input code tokens. As an empirical study on the LLMs including CodeBERT, CodeT5, and GPT-4 for two main tasks: code search and summarization, we reported that 1) the removal ratio of code has a linear-like relation with the saving ratio on training time, 2) the impact of categorized tokens on code simplification can vary significantly, 3) the impact of categorized tokens on code simplification is task-specific but model-agnostic, and 4) the above findings hold for the paradigm-prompt engineering and interactive in-context learning. The empirical results showed that SlimCode can improve the state-of-the-art technique by 9.46% and 5.15% in terms of MRR and BLEU score on code search and summarization. Moreover, SlimCode is 133 times faster than the state-of-the-art approach. Additionally, SlimCode can reduce the cost of invoking GPT-4 by up to 24% per API query, while still producing comparable results to those with the original code. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# 異種世界観に適応したNLPシステムの設計
Designing NLP Systems That Adapt to Diverse Worldviews ( http://arxiv.org/abs/2405.11197v1 ) ライセンス: Link先を確認 | Claudiu Creanga, Liviu P. Dinu, | (参考訳) 自然言語推論(英: Natural Language Inference, NLI)は、AIにおける言語理解を評価する基盤である。
しかしながら、モデルがあいまいな例で失敗し、一般化が不十分なことから、進歩は停滞している。
これは、本質的に個人の「textit{weltanschauung"」(大まかに世界観に翻訳される)と結びついている意味の主観的性質を無視することに由来すると我々は主張する。
既存のNLPデータセットは、ラベルを集約したり、不一致をフィルタリングすることで、これを曖昧にすることが多い。
我々は、アノテータの人口統計、値、ラベルの正当化をキャプチャするデータセットを構築するという、パースペクティブなアプローチを提案する。
このようなデータセットは、多種多様な世界観を明示的にモデル化する。
SBICデータセットのサブセットを用いた最初の実験では、制限されたアノテータメタデータでさえモデル性能を向上させることができることを示した。
Natural Language Inference (NLI) is foundational for evaluating language understanding in AI. However, progress has plateaued, with models failing on ambiguous examples and exhibiting poor generalization. We argue that this stems from disregarding the subjective nature of meaning, which is intrinsically tied to an individual's \textit{weltanschauung} (which roughly translates to worldview). Existing NLP datasets often obscure this by aggregating labels or filtering out disagreement. We propose a perspectivist approach: building datasets that capture annotator demographics, values, and justifications for their labels. Such datasets would explicitly model diverse worldviews. Our initial experiments with a subset of the SBIC dataset demonstrate that even limited annotator metadata can improve model performance. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# カラム生成のための機械学習に基づく適応安定化
Adaptive Stabilization Based on Machine Learning for Column Generation ( http://arxiv.org/abs/2405.11198v1 ) ライセンス: Link先を確認 | Yunzhuang Shen, Yuan Sun, Xiaodong Li, Zhiguang Cao, Andrew Eberhard, Guangquan Zhang, | (参考訳) カラム生成(CG)は大規模線形プログラムの解法として確立された手法である。
カラムのサブセットを含むサブプロブレムを反復的に最適化し、その二重解を用いて負のコストで新しいカラムを生成する。
この過程は、双対値が元の問題に対する最適双対解に収束するまで続く。
CGの自然現象は、反復中の二重値の重振動であり、収束速度が著しく低下する可能性がある。
安定化技術は、現在のサブプロブレムの状態を超える情報を利用することで、二重値の収束を加速するために考案された。
しかし、初期の段階ではより正確な二重値を得るには大きなギャップが残っている。
このギャップをさらに狭めるために,本稿では,新しいアプローチを提案する。
1)最適双対解の正確な予測のための機械学習アプローチ
2)正確な予測を効果的に活用する適応安定化手法。
グラフカラー化問題では,従来の手法に比べてコンバージェンス率が大幅に向上していることが示されている。
Column generation (CG) is a well-established method for solving large-scale linear programs. It involves iteratively optimizing a subproblem containing a subset of columns and using its dual solution to generate new columns with negative reduced costs. This process continues until the dual values converge to the optimal dual solution to the original problem. A natural phenomenon in CG is the heavy oscillation of the dual values during iterations, which can lead to a substantial slowdown in the convergence rate. Stabilization techniques are devised to accelerate the convergence of dual values by using information beyond the state of the current subproblem. However, there remains a significant gap in obtaining more accurate dual values at an earlier stage. To further narrow this gap, this paper introduces a novel approach consisting of 1) a machine learning approach for accurate prediction of optimal dual solutions and 2) an adaptive stabilization technique that effectively capitalizes on accurate predictions. On the graph coloring problem, we show that our method achieves a significantly improved convergence rate compared to traditional methods. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# LexGen:ドメイン対応多言語辞書生成
LexGen: Domain-aware Multilingual Lexicon Generation ( http://arxiv.org/abs/2405.11200v1 ) ライセンス: Link先を確認 | Karthika NJ, Ayush Maheshwari, Atul Kumar Singh, Preethi Jyothi, Ganesh Ramakrishnan, Krishnakant Bhatt, | (参考訳) ドメイン間の辞書や辞書生成は、言語アイデンティティを保ちながら、多様なユーザベースの情報アクセシビリティを高める可能性があるため、社会的に重要な意味を持つ。
この分野における以前の研究は、主にバイリンガル語彙誘導(英語版)に焦点を当てており、これはマッピングベースのアプローチやコーパスベースのアプローチを用いて単語アライメントを扱う。
研究者によって始められたが、レキシコン生成に関する研究は限定的であり、さらにドメイン固有のレキシコンも同様である。
このタスクは、非典型的な医療、工学、その他の技術分野において特に重要となる。
辞書生成における研究のギャップ、特にドメイン特化領域に限定して、マルチドメイン設定において6つのインド語のための辞書語を生成する新しいモデルを提案する。
我々のモデルは、情報をエンコードするドメイン固有層とドメイン生成層から構成されており、これらの層は学習可能なルーティング技術を介して呼び出される。
さらに,これらの言語間の関連性をコヒーレントな翻訳に明示的に活用する手法を提案する。
また、ドメイン固有のレキシコン誘導のさらなる研究を促進することができる8つの異なるドメインにまたがる6つのインド言語にわたる新しいベンチマークデータセットもリリースしました。
提案手法の有効性を示すため,複数の領域にまたがるゼロショット実験と少数ショット実験を行ない,未知の領域や未知の言語に一般化する。
Lexicon or dictionary generation across domains is of significant societal importance, as it can potentially enhance information accessibility for a diverse user base while preserving language identity. Prior work in the field primarily focuses on bilingual lexical induction, which deals with word alignments using mapping-based or corpora-based approaches. Though initiated by researchers, the research associated with lexicon generation is limited, even more so with domain-specific lexicons. This task becomes particularly important in atypical medical, engineering, and other technical domains, owing to the highly infrequent usage of the terms and negligibly low data availability of technical terms in many low-resource languages. Owing to the research gap in lexicon generation, especially with a limited focus on the domain-specific area, we propose a new model to generate dictionary words for 6 Indian languages in the multi-domain setting. Our model consists of domain-specific and domain-generic layers that encode information, and these layers are invoked via a learnable routing technique. Further, we propose an approach to explicitly leverage the relatedness between these Indian languages toward coherent translation. We also release a new benchmark dataset across 6 Indian languages that span 8 diverse domains that can propel further research in domain-specific lexicon induction. We conduct both zero-shot and few-shot experiments across multiple domains to show the efficacy of our proposed model in generalizing to unseen domains and unseen languages. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# 不定因果順序構造によるフォン・ノイマン測定の保存と検索
Storage and retrieval of von Neumann measurements via indefinite causal order structures ( http://arxiv.org/abs/2405.11202v1 ) ライセンス: Link先を確認 | Paulina Lewandowska, Ryszard Kukulski, | (参考訳) この研究は、不定因果構造を用いて次元$d$の未知のフォン・ノイマン測度を学習する問題を示す。
考慮されたシナリオでは、測定値の$N$コピーにアクセスできます。
我々は、プロセス行列の定式化を用いて、与えられた測定に関する情報を格納し、後にその最良の近似を再現するために使用される。
我々のゴールは、平均忠実度関数の最大値をF_d(N)$で計算することである。
F_d(N) = 1 - \Theta \left( \frac{1}{N^2}\right)$ for arbitrary but fixed dimension $d$。
さらに,$F_d(N)$を計算するためのSDPプログラムを提案する。
この数値的な研究に基づいて、不定因果学習構造を用いた量子ビットフォン・ノイマン測度は、量子ネットワークよりもよく近似できることを示した。
This work presents the problem of learning an unknown von Neumann measurement of dimension $d$ using indefinite causal structures. In the considered scenario, we have access to $N$ copies of the measurement. We use formalism of process matrices to store information about the given measurement, that later will be used to reproduce its best possible approximation. Our goal is to compute the maximum value of the average fidelity function $F_d(N)$ of our procedure. We prove that $F_d(N) = 1 - \Theta \left( \frac{1}{N^2}\right)$ for arbitrary but fixed dimension $d$. Furthermore, we present the SDP program for computing $F_d(N)$. Basing on the numerical investigation, we show that for the qubit von Neumann measurements using indefinite causal learning structures provide better approximation than quantum networks, starting from $N \ge 3$. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# 不完全な人間のフィードバックから学ぶ:破壊・破壊デュエルの物語
Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling ( http://arxiv.org/abs/2405.11204v1 ) ライセンス: Link先を確認 | Yuwei Cheng, Fan Yao, Xuefeng Liu, Haifeng Xu, | (参考訳) 本稿では,人間の非合理性や真の嗜好に対する不完全知覚に動機づけられた,不完全フィードバックからの学習について考察する。
我々は,従来のデュエル・バンディット問題を,比較フィードバックから学習するモデルとして再考し,ユーザユーティリティに非依存的な汚職として,人間のフィードバックの不完全性をキャストすることによってそれを強化する。
まず、LIHFの基本的な限界を特定して、全汚職$C$が分かっていて、汚職が時間とともに適切に崩壊した場合(すなわち、ユーザのフィードバックがますます正確になる)に、後悔の少ない$\Omega(\max\{T^{1/2},C\})$を証明することから始める。
次に、任意の汚職と未知の$C$で現実世界のシナリオに適用可能なロバストなアルゴリズムを設計する。
私たちの重要な発見は、勾配に基づくアルゴリズムが、学習率を変化させることで、汚職下でのスムーズな効率と損益のトレードオフを享受していることです。
具体的には、一般的な凹凸ユーザユーティリティの下では、Yue と Joachims (2009) の Duling Bandit Gradient Descent (DBGD) は、任意のパラメータ $\alpha \in (0, \frac{1}{4}]$ に対して、後悔の$O(T^{1-\alpha} + T^{ \alpha} C)$ を達成するように調整することができる。
さらに、この結果により、標準DBGD ($\alpha=1/4$ case) の残念な下限を、初めて $\Omega(T^{3/4})$として、私たちの知識を最大限に活用することができる。
O(T^{\alpha} + T^{\frac{1}{2}(1-\alpha)}C)$を与えられた任意の$\alpha \in [\frac{1}{2},1)$に対して達成するアルゴリズムがある。
我々の理論的洞察は、実世界のレコメンデーションデータに関する広範な実験によって裏付けられている。
This paper studies Learning from Imperfect Human Feedback (LIHF), motivated by humans' potential irrationality or imperfect perception of true preference. We revisit the classic dueling bandit problem as a model of learning from comparative human feedback, and enrich it by casting the imperfection in human feedback as agnostic corruption to user utilities. We start by identifying the fundamental limits of LIHF and prove a regret lower bound of $\Omega(\max\{T^{1/2},C\})$, even when the total corruption $C$ is known and when the corruption decays gracefully over time (i.e., user feedback becomes increasingly more accurate). We then turn to design robust algorithms applicable in real-world scenarios with arbitrary corruption and unknown $C$. Our key finding is that gradient-based algorithms enjoy a smooth efficiency-robustness tradeoff under corruption by varying their learning rates. Specifically, under general concave user utility, Dueling Bandit Gradient Descent (DBGD) of Yue and Joachims (2009) can be tuned to achieve regret $O(T^{1-\alpha} + T^{ \alpha} C)$ for any given parameter $\alpha \in (0, \frac{1}{4}]$. Additionally, this result enables us to pin down the regret lower bound of the standard DBGD (the $\alpha=1/4$ case) as $\Omega(T^{3/4})$ for the first time, to the best of our knowledge. For strongly concave user utility we show a better tradeoff: there is an algorithm that achieves $O(T^{\alpha} + T^{\frac{1}{2}(1-\alpha)}C)$ for any given $\alpha \in [\frac{1}{2},1)$. Our theoretical insights are corroborated by extensive experiments on real-world recommendation data. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# Fuse & Calibrate:イメージセグメンテーションの参照のための双方向視覚言語ガイドフレームワーク
Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation ( http://arxiv.org/abs/2405.11205v1 ) ライセンス: Link先を確認 | Yichen Yan, Xingjian He, Sihan Chen, Shichen Lu, Jing Liu, | (参考訳) Referring Image Segmentation (RIS)は、自然言語で記述されたオブジェクトを画像からセグメント化することを目的としており、主な課題はテキストとピクセルの相関である。
従来の手法では、マルチモーダル融合プロセスを導くために、視覚や言語といった単一モーダルな特徴に依存していた。
しかし、この手法は視覚と言語間の相互作用を制限し、デコード処理中に言語記述とピクセルレベルの詳細との間の微妙な相関が欠如する。
本稿では,視覚と言語の両方が指導役を務める双方向誘導融合方式のフレームワークであるFCNetを紹介する。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
この双方向視覚言語誘導アプローチは、テキスト特徴から視覚特徴への微粒な意味情報の適応的伝播を容易にし、デコーダに送信される高品質なマルチモーダル特徴を生成する。
RefCOCO、RefCOCO+、G-Refデータセットに対する様々なバックボーンによる実験は、常に我々のアプローチが最先端の手法より優れていることを示している。
Referring Image Segmentation (RIS) aims to segment an object described in natural language from an image, with the main challenge being a text-to-pixel correlation. Previous methods typically rely on single-modality features, such as vision or language features, to guide the multi-modal fusion process. However, this approach limits the interaction between vision and language, leading to a lack of fine-grained correlation between the language description and pixel-level details during the decoding process. In this paper, we introduce FCNet, a framework that employs a bi-directional guided fusion approach where both vision and language play guiding roles. Specifically, we use a vision-guided approach to conduct initial multi-modal fusion, obtaining multi-modal features that focus on key vision information. We then propose a language-guided calibration module to further calibrate these multi-modal features, ensuring they understand the context of the input sentence. This bi-directional vision-language guided approach produces higher-quality multi-modal features sent to the decoder, facilitating adaptive propagation of fine-grained semantic information from textual features to visual features. Experiments on RefCOCO, RefCOCO+, and G-Ref datasets with various backbones consistently show our approach outperforming state-of-the-art methods. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# ロバスト政策に向けて:敵の攻撃と防衛によるオフライン強化学習の促進
Towards Robust Policy: Enhancing Offline Reinforcement Learning with Adversarial Attacks and Defenses ( http://arxiv.org/abs/2405.11206v1 ) ライセンス: Link先を確認 | Thanh Nguyen, Tung M. Luu, Tri Ton, Chang D. Yoo, | (参考訳) オフライン強化学習(RL)は、大量のオフラインデータに関するポリシーを事前訓練することで、RLに固有の高価でリスクの高いデータ探索の課題に対処する。
しかし、この訓練パラダイムは、政策の堅牢性を損なう可能性があるため、観測摂動や意図的な攻撃による現実的な状況における性能低下につながる。
敵の攻撃や防御はディープラーニングで広く研究されているが、オフラインRLでの応用は限られている。
本稿では,先進的な敵攻撃と防御を活用して,オフラインRLモデルのロバスト性を高める枠組みを提案する。
このフレームワークは、トレーニング中の観察を妨害し、敵防衛を正規化して学習方針を強化することによって、アクターと批評家のコンポーネントを攻撃する。
4つの攻撃と2つの防御がD4RLベンチマークで導入され評価される。
その結果,攻撃に対するアクターと批評家の両方の脆弱性と,政策の堅牢性向上における防衛の効果が示された。
このフレームワークは、実際のシナリオにおけるオフラインRLモデルの信頼性を高めることを約束している。
Offline reinforcement learning (RL) addresses the challenge of expensive and high-risk data exploration inherent in RL by pre-training policies on vast amounts of offline data, enabling direct deployment or fine-tuning in real-world environments. However, this training paradigm can compromise policy robustness, leading to degraded performance in practical conditions due to observation perturbations or intentional attacks. While adversarial attacks and defenses have been extensively studied in deep learning, their application in offline RL is limited. This paper proposes a framework to enhance the robustness of offline RL models by leveraging advanced adversarial attacks and defenses. The framework attacks the actor and critic components by perturbing observations during training and using adversarial defenses as regularization to enhance the learned policy. Four attacks and two defenses are introduced and evaluated on the D4RL benchmark. The results show the vulnerability of both the actor and critic to attacks and the effectiveness of the defenses in improving policy robustness. This framework holds promise for enhancing the reliability of offline RL models in practical scenarios. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# 進化計算による偏微分方程式の解法に関する物理情報ニューラルネットワークモデル
Discovering Physics-Informed Neural Networks Model for Solving Partial Differential Equations through Evolutionary Computation ( http://arxiv.org/abs/2405.11208v1 ) ライセンス: Link先を確認 | Bo Zhang, Chao Yang, | (参考訳) 近年,ニューラルネットワークに基づく偏微分方程式(PDE)の解法に関する研究が注目されている。
これらの研究では、ニューラルネットワークモデルは通常、人間の経験や試行錯誤に依存する。
いくつかのモデル探索手法の出現にもかかわらず、これらの手法は主に物理インフォームドニューラルネットワーク(PINN)の枠組みに基づく完全連結ニューラルネットワークモデルのハイパーパラメータの最適化に重点を置いており、対応する探索空間は比較的制限されており、優れたモデルの探索が制限される。
本稿では,より高い近似精度と高速収束率を持つPINNモデルの探索を目的とした進化的計算手法を提案する。
本手法は,隠蔽層当たりの層数とニューロン数を探索することに加えて,二分木で表される新しいパラメトリック活性化関数と,各層間の最適なショートカット接続を同時に探索する。
進化において、動的集団サイズと訓練エポック(DPSTE)に関する戦略が採用され、探索対象のモデル数が大幅に増加し、高速収束率のモデル発見が促進される。
実験では、ベイズ最適化、ランダム探索、進化を通じて探索される異なるモデルの性能を比較して、クライン・ゴルドン、バーガーズ、ランビー方程式を解く。
実験結果から,提案手法によって発見されたモデルは近似精度と収束率に優れており,これらのモデルはまた,元項,初期条件,境界条件,方程式係数,計算領域に関して可換な一般化性能を示した。
対応するコードはhttps://github.com/MathBon/Discover-PINNs-Modelで入手できる。
In recent years, the researches about solving partial differential equations (PDEs) based on artificial neural network have attracted considerable attention. In these researches, the neural network models are usually designed depend on human experience or trial and error. Despite the emergence of several model searching methods, these methods primarily concentrate on optimizing the hyperparameters of fully connected neural network model based on the framework of physics-informed neural networks (PINNs), and the corresponding search spaces are relatively restricted, thereby limiting the exploration of superior models. This article proposes an evolutionary computation method aimed at discovering the PINNs model with higher approximation accuracy and faster convergence rate. In addition to searching the numbers of layers and neurons per hidden layer, this method concurrently explores the optimal shortcut connections between the layers and the novel parametric activation functions expressed by the binary trees. In evolution, the strategy about dynamic population size and training epochs (DPSTE) is adopted, which significantly increases the number of models to be explored and facilitates the discovery of models with fast convergence rate. In experiments, the performance of different models that are searched through Bayesian optimization, random search and evolution is compared in solving Klein-Gordon, Burgers, and Lam\'e equations. The experimental results affirm that the models discovered by the proposed evolutionary computation method generally exhibit superior approximation accuracy and convergence rate, and these models also show commendable generalization performance with respect to the source term, initial and boundary conditions, equation coefficient and computational domain. The corresponding code is available at https://github.com/MathBon/Discover-PINNs-Model. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# GDPからの過剰遅延:測定と因果分析
Excess Delay from GDP: Measurement and Causal Analysis ( http://arxiv.org/abs/2405.11211v1 ) ライセンス: Link先を確認 | Ke Liu, Mark Hansen, | (参考訳) 地上遅延計画(GDP)は、空港の過度な需要・容量不均衡を解決するために、航空機の遅延を事前の地上遅延にシフトさせることで広く利用されている。
明確な安全性と効率性を提供する一方で、GDPは不完全な実行と到着空港の容量の予測の不確実性のために追加の遅延を引き起こす可能性がある。
本稿では,個別のGDPから生じる過剰遅延を測定する手法を提案し,正規化回帰モデルを用いて過剰遅延に影響を与える要因について検討する。
2019年には33の空港から1210のGDPの過剰な遅延を測定した。
制限飛行ベースでは、平均余剰遅延は35.4分で、ストッドは20.6分である。
過遅れの変動の回帰解析では,尾根回帰が最善であることがわかった。
過度の遅延に影響を及ぼす要因は、ゲートアウト中の時間変化や、GDPの対象となるフライトのタクシーアウト、プログラムのレート設定とリビジョン、GDPの時間の長さなどである。
Ground Delay Programs (GDPs) have been widely used to resolve excessive demand-capacity imbalances at arrival airports by shifting foreseen airborne delay to pre-departure ground delay. While offering clear safety and efficiency benefits, GDPs may also create additional delay because of imperfect execution and uncertainty in predicting arrival airport capacity. This paper presents a methodology for measuring excess delay resulting from individual GDPs and investigates factors that influence excess delay using regularized regression models. We measured excess delay for 1210 GDPs from 33 U.S. airports in 2019. On a per-restricted flight basis, the mean excess delay is 35.4 min with std of 20.6 min. In our regression analysis of the variation in excess delay, ridge regression is found to perform best. The factors affecting excess delay include time variations during gate out and taxi out for flights subject to the GDP, program rate setting and revisions, and GDP time duration. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# CNNを用いたテキストの自動識別とトレーニングダイナミクス
Automated Text Identification Using CNN and Training Dynamics ( http://arxiv.org/abs/2405.11212v1 ) ライセンス: Link先を確認 | Claudiu Creanga, Liviu Petrisor Dinu, | (参考訳) データマップを使ってAuTexTificationデータセットをモデル化し、特徴付けしました。
これは、エポック(トレーニングダイナミクス)にわたるトレーニング中の個々のサンプルの振る舞いに関する洞察を提供する。
信頼性,変動性,正当性という3つの次元にまたがるサンプルを特徴付ける。
これは3つの領域の存在を示している: 簡単に学習できる、曖昧で、学習しにくい例である。
従来のCNNアーキテクチャを用いて、曖昧な例のサブセットでのみモデルをトレーニングすることで、モデルのアウト・オブ・ディストリビューションの一般化が向上することを発見した。
We used Data Maps to model and characterize the AuTexTification dataset. This provides insights about the behaviour of individual samples during training across epochs (training dynamics). We characterized the samples across 3 dimensions: confidence, variability and correctness. This shows the presence of 3 regions: easy-to-learn, ambiguous and hard-to-learn examples. We used a classic CNN architecture and found out that training the model only on a subset of ambiguous examples improves the model's out-of-distribution generalization. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# ウェーブレット型ANNを組み込んだ調整ホルト型ハイブリッドモデルを用いた新型コロナウイルス19例のリアルタイムモニタリングと予測
Real Time Monitoring and Forecasting of COVID 19 Cases using an Adjusted Holt based Hybrid Model embedded with Wavelet based ANN ( http://arxiv.org/abs/2405.11213v1 ) ライセンス: Link先を確認 | Agniva Das, Kunnummal Muralidharan, | (参考訳) SARS-CoV-2(COVID-19)の開始以来、軌道を推定するために多くの時間と労力が割り当てられており、適切な精度、症例数、回復数、死亡数の予測がされている。
本稿で提案するモデルは,同じ方向へのマインドフルステップである。
問題となっている主要なモデルは、WaveletベースのANNに埋め込まれたHybrid Holt's Modelである。
予測能力をテストするために,まずは単純なARIMAモデル,次にウェーブレットをベースとしたARIMAモデル,そして第3は提案モデルを比較した。
また,このモデルの予測精度を,現在のバニラLSTMリカレントニューラルネットワークモデルと比較した。
提案手法は,全国および6つのホットスポット州で確認された症例数(日数)に基づいて検証した。
また,国全体の日毎および週毎の予測を満足させるためのハイブリッドモデルに加えて,サンプル外予測に基づく移動窓性能指標も提案した。
新型コロナウイルスの動態解析にもっと丸いアプローチをとるために、コンパートメンタル・疫学モデル(SIR)を用いてベーシック・再現数、$R_0$の推定にも焦点が当てられている。
最後に,提案モデルのシェルフ寿命の推定にも注意を払っている。
この点において、正確なモデルが医療資源のより良い配分を確実にし、政府が事前に必要な措置をとれるかは、明らかだが注目に値する。
Since the inception of the SARS - CoV - 2 (COVID - 19) novel coronavirus, a lot of time and effort is being allocated to estimate the trajectory and possibly, forecast with a reasonable degree of accuracy, the number of cases, recoveries, and deaths due to the same. The model proposed in this paper is a mindful step in the same direction. The primary model in question is a Hybrid Holt's Model embedded with a Wavelet-based ANN. To test its forecasting ability, we have compared three separate models, the first, being a simple ARIMA model, the second, also an ARIMA model with a wavelet-based function, and the third, being the proposed model. We have also compared the forecast accuracy of this model with that of a modern day Vanilla LSTM recurrent neural network model. We have tested the proposed model on the number of confirmed cases (daily) for the entire country as well as 6 hotspot states. We have also proposed a simple adjustment algorithm in addition to the hybrid model so that daily and/or weekly forecasts can be meted out, with respect to the entirety of the country, as well as a moving window performance metric based on out-of-sample forecasts. In order to have a more rounded approach to the analysis of COVID-19 dynamics, focus has also been given to the estimation of the Basic Reproduction Number, $R_0$ using a compartmental epidemiological model (SIR). Lastly, we have also given substantial attention to estimating the shelf-life of the proposed model. It is obvious yet noteworthy how an accurate model, in this regard, can ensure better allocation of healthcare resources, as well as, enable the government to take necessary measures ahead of time. | 翻訳日:2024-05-21 18:57:45 公開日:2024-05-18 |
# MemeMQA: Rationaleベースの推論によるミームに対するマルチモーダル質問回答
MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing ( http://arxiv.org/abs/2405.11215v1 ) ライセンス: Link先を確認 | Siddhant Agarwal, Shivam Sharma, Preslav Nakov, Tanmoy Chakraborty, | (参考訳) ミームはユーモアからプロパガンダまで多様なコミュニケーションのための主流の媒体として進化してきた。
画像中心のコンテンツの人気が高まる中、さまざまな側面から潜在的な害を探求する必要性が高まっている。
これまでの研究では、害を検出し、セマンティックラベルを適用し、自然言語の説明を提供するという、閉じた環境でミームを分析してきた。
この研究をさらに進めるために,構造化された質問に対する正確な応答を誘導し,一貫性のある説明を提供しながら,多モーダルな質問応答フレームワークであるMemeMQAを紹介した。
MemeMQACorpusは1,122のミームに関連する1,880の質問と対応する回答-説明ペアを含む新しいデータセットである。
さらに,LSMの推論能力を活用してMemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
我々は,競合するベースラインを用いてMemeMQAをベンチマークし,その優位性を実証した。
我々は,ARSENALのロバスト性について,質問セットの多様化,MemeMQAの一般化可能性に関する共同設立者による評価,モダリティ特異的評価を通じて分析し,マルチモーダルコミュニケーションの場におけるミーム解釈の理解を深める。
Memes have evolved as a prevalent medium for diverse communication, ranging from humour to propaganda. With the rising popularity of image-focused content, there is a growing need to explore its potential harm from different aspects. Previous studies have analyzed memes in closed settings - detecting harm, applying semantic labels, and offering natural language explanations. To extend this research, we introduce MemeMQA, a multimodal question-answering framework aiming to solicit accurate responses to structured questions while providing coherent explanations. We curate MemeMQACorpus, a new dataset featuring 1,880 questions related to 1,122 memes with corresponding answer-explanation pairs. We further propose ARSENAL, a novel two-stage multimodal framework that leverages the reasoning capabilities of LLMs to address MemeMQA. We benchmark MemeMQA using competitive baselines and demonstrate its superiority - ~18% enhanced answer prediction accuracy and distinct text generation lead across various metrics measuring lexical and semantic alignment over the best baseline. We analyze ARSENAL's robustness through diversification of question-set, confounder-based evaluation regarding MemeMQA's generalizability, and modality-specific assessment, enhancing our understanding of meme interpretation in the multimodal communication landscape. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# 雑音性Werner-Holevoチャネルの2パラメータファミリーの容量
Capacities of a two-parameter family of noisy Werner-Holevo channels ( http://arxiv.org/abs/2405.11216v1 ) ライセンス: Link先を確認 | Shayan Roofeh, Vahid Karimipour, | (参考訳) d=2j+1$次元において、ランダウ・サトラー量子チャネルは、$su(2)$代数のスピン$j$表現に基づいて定義される。
j=1$ に対してのみ、このチャネルはヴェルナー・ホレヴォチャネルと等価であり、群 $SU(3)$ に関して共分散性を楽しむ。
我々はこのチャネルのクラスを、リー代数 $so(d)$ と $su(d)$ に基づく方法で高次元に拡張する。
結果として、任意の次元のヴェルナー・ホレヴォチャネルと等価性を維持する。
結果として得られるチャネルは、ユニタリ群 $SU(d)$ に関して共変である。
次に、このチャンネルをquditsのノイズの多いチャネルとして機能するように修正します。
その結果、修正されたチャネルは恒等チャネルとヴェルナー・ホレヴォチャネルの間を補間し、その共分散は直交行列の部分群$SO(d)$に還元される。
次に、各チャネルのスペクトル、可分性の欠如、一ショットの古典的容量、絡み合い支援能力、補チャネルの閉じた形、量子容量の低い形など、結果として生じる2パラメータのチャネルのいくつかについて検討する。
In $d=2j+1$ dimensions, the Landau-Streater quantum channel is defined on the basis of spin $j$ representation of the $su(2)$ algebra. Only for $j=1$, this channel is equivalent to the Werner-Holevo channel and enjoys covariance properties with respect to the group $SU(3)$. We extend this class of channels to higher dimensions in a way which is based on the Lie algebra $so(d)$ and $su(d)$. As a result it retains its equivalence to the Werner-Holevo channel in arbitrary dimensions. The resulting channel is covariant with respect to the unitary group $SU(d)$. We then modify this channel in a way which can act as a noisy channel on qudits. The resulting modified channel now interpolates between the identity channel and the Werner-Holevo channel and its covariance is reduced to the subgroup of orthogonal matrices $SO(d)$. We then investigate some of the propeties of the resulting two-parameter family of channels, including their spectrum, their regions of lack of indivisibility, their one-shot classical capacity, entanglement-assisted capacity and the closed form of their complement channel and a possible lower bound for their quantum capacity. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# 医療エビデンスを用いたソーシャルメディア上での医療クレームの特定とアライメント
Identifying and Aligning Medical Claims Made on Social Media with Medical Evidence ( http://arxiv.org/abs/2405.11219v1 ) ライセンス: Link先を確認 | Anthony Hughes, Xingyi Song, | (参考訳) エビデンスベースの医療は、当時の最新の最もよく知られた証拠に準拠する医療決定を行う実践である。
現在、最も優れた証拠は、ランダム化制御試験、メタ分析、体系的なレビューなど、文書の形でしばしば見られる。
本研究は,ソーシャルメディアプラットフォーム上での医療的主張と,この医療的証拠との整合性に着目したものである。
これにより、医療の専門知識を持たない個人は、そのような医療的クレームの正確性をより効果的に評価することができる。
医療クレームの特定、これらのクレームからの医療語彙の抽出、特定された医療クレームに関連する証拠の検索という3つの中核課題について検討する。
本稿では,これらの中核的タスクをそれぞれ支援するために,合成医療クレームを生成できる新しいシステムを提案する。
さらに、これらのタスクに適用すると、より柔軟で包括的なアプローチだけでなく、同等のメトリクスの改善を示す新しいデータセットも導入します。
データセットであるEMCC(Expansive Medical Claim Corpus)をhttps://zenodo.org/records/8321460で公開しています。
Evidence-based medicine is the practice of making medical decisions that adhere to the latest, and best known evidence at that time. Currently, the best evidence is often found in the form of documents, such as randomized control trials, meta-analyses and systematic reviews. This research focuses on aligning medical claims made on social media platforms with this medical evidence. By doing so, individuals without medical expertise can more effectively assess the veracity of such medical claims. We study three core tasks: identifying medical claims, extracting medical vocabulary from these claims, and retrieving evidence relevant to those identified medical claims. We propose a novel system that can generate synthetic medical claims to aid each of these core tasks. We additionally introduce a novel dataset produced by our synthetic generator that, when applied to these tasks, demonstrates not only a more flexible and holistic approach, but also an improvement in all comparable metrics. We make our dataset, the Expansive Medical Claim Corpus (EMCC), available at https://zenodo.org/records/8321460 | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# 会話における感情認識のためのトランスフォーマーベースニューラルネットワーク
Transformer based neural networks for emotion recognition in conversations ( http://arxiv.org/abs/2405.11222v1 ) ライセンス: Link先を確認 | Claudiu Creanga, Liviu P. Dinu, | (参考訳) 本稿では,SemEval 2024 Task 10: Emotion Discovery and Reasoning its Flip in Conversation (EDiReF)におけるISDS-NLPチームのアプローチについて概説する。
Subtask 1では、重み付きF1スコア0.43を獲得し、12をリーダーボードに配置しました。
本稿では,MLM(Masked Language Modeling)とCLM(Causal Language Modeling)の2つの異なるアプローチについて検討する。
MLMでは、マルチ言語設定で事前学習したBERTのようなモデルを使用し、感情を予測するための分類器でそれらを微調整する。
様々な入力長、分類器アーキテクチャ、微調整戦略による実験は、このアプローチの有効性を示している。
さらに,最先端モデルであるMistral 7B Instruct V0.2を用い,ゼロショットと少数ショットプロンプト技術を適用した。
以上の結果から,Mistralは有望であるが,現在,MLMは文レベルの感情分類において優れています。
This paper outlines the approach of the ISDS-NLP team in the SemEval 2024 Task 10: Emotion Discovery and Reasoning its Flip in Conversation (EDiReF). For Subtask 1 we obtained a weighted F1 score of 0.43 and placed 12 in the leaderboard. We investigate two distinct approaches: Masked Language Modeling (MLM) and Causal Language Modeling (CLM). For MLM, we employ pre-trained BERT-like models in a multilingual setting, fine-tuning them with a classifier to predict emotions. Experiments with varying input lengths, classifier architectures, and fine-tuning strategies demonstrate the effectiveness of this approach. Additionally, we utilize Mistral 7B Instruct V0.2, a state-of-the-art model, applying zero-shot and few-shot prompting techniques. Our findings indicate that while Mistral shows promise, MLMs currently outperform them in sentence-level emotion classification. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# SeBot: ソーシャルボット検出のためのマルチビューコントラスト学習のための構造エントロピーガイド
SeBot: Structural Entropy Guided Multi-View Contrastive Learning for Social Bot Detection ( http://arxiv.org/abs/2405.11225v1 ) ライセンス: Link先を確認 | Yingguang Yang, Qi Wu, Buyun He, Hao Peng, Renyu Yang, Zhifeng Hao, Yong Liao, | (参考訳) ソーシャルボット検出の最近の進歩は、グラフニューラルネットワークの採用によって進められている。
ソーシャルグラフは、ソーシャルネットワークのインタラクションから構築され、お互いに影響を与える良心とボットアカウントを含んでいる。
しかし, 従来のグラフを用いた検出手法では, 隠れグラフ情報を十分に活用することはできず, 対向ボットの動作に弱い。
異なるカテゴリやコミュニティのノード間の無差別なメッセージパッシングは、過度に均質なノード表現をもたらし、最終的に社会的ボット検出器の有効性を低下させる。
本稿では,新しいマルチビューグラフを用いたコントラスト学習型ソーシャルボット検出器SEBotを提案する。
特に、構造エントロピーを不確実性指標として、グラフ全体の構造と部分グラフレベルの粒度を最適化し、暗黙的に存在する階層的なコミュニティ構造を明らかにする。
また,同相仮定を超えるメッセージパッシングを可能にするエンコーダを設計し,ソーシャルボットの対向行動に対する堅牢性を向上する。
最後に、異なるビュー間の相互情報を最大化し、マルチタスク学習による検出性能を向上させるために、マルチビューコントラスト学習を用いる。
実験により,本手法はSOTA法と比較して,社会的ボット検出の性能を著しく向上させることが示された。
Recent advancements in social bot detection have been driven by the adoption of Graph Neural Networks. The social graph, constructed from social network interactions, contains benign and bot accounts that influence each other. However, previous graph-based detection methods that follow the transductive message-passing paradigm may not fully utilize hidden graph information and are vulnerable to adversarial bot behavior. The indiscriminate message passing between nodes from different categories and communities results in excessively homogeneous node representations, ultimately reducing the effectiveness of social bot detectors. In this paper, we propose SEBot, a novel multi-view graph-based contrastive learning-enabled social bot detector. In particular, we use structural entropy as an uncertainty metric to optimize the entire graph's structure and subgraph-level granularity, revealing the implicitly existing hierarchical community structure. And we design an encoder to enable message passing beyond the homophily assumption, enhancing robustness to adversarial behaviors of social bots. Finally, we employ multi-view contrastive learning to maximize mutual information between different views and enhance the detection performance through multi-task learning. Experimental results demonstrate that our approach significantly improves the performance of social bot detection compared with SOTA methods. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# ヒューマンフィードバックによる強化学習におけるアクティブマルチタスク学習の力
The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2405.11226v1 ) ライセンス: Link先を確認 | Ruitao Chen, Liwei Wang, | (参考訳) 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルの性能向上に寄与している。
大量の人ラベルデータに依存するために、マルチタスク表現学習が成功し、様々なソースタスクから高品質で低次元の表現を学習する。
本稿では,RLHFをコンテキストデュエルバンディット問題として定式化し,共通線型表現を仮定する。
マルチタスクRLHFにおけるソースタスクのサンプル複雑性は、タスク関連性を考慮して、異なるサンプルサイズを様々なタスク関連性でソースタスクに割り当てることによって低減できることを示す。
さらに,少数の追加データを用いてタスク関連性を推定し,ポリシーを学習するアルゴリズムを提案する。
我々は,$\varepsilon-$optimalを達成するために,一様サンプリングと比較して,ソースタスクのサンプルの複雑さを著しく低減できることを示した。
さらに、目的のタスクのサンプルの複雑さは、表現学習のおかげで、潜在空間の次元においてのみ線形である。
Reinforcement learning from human feedback (RLHF) has contributed to performance improvements in large language models. To tackle its reliance on substantial amounts of human-labeled data, a successful approach is multi-task representation learning, which involves learning a high-quality, low-dimensional representation from a wide range of source tasks. In this paper, we formulate RLHF as the contextual dueling bandit problem and assume a common linear representation. We demonstrate that the sample complexity of source tasks in multi-task RLHF can be reduced by considering task relevance and allocating different sample sizes to source tasks with varying task relevance. We further propose an algorithm to estimate task relevance by a small number of additional data and then learn a policy. We prove that to achieve $\varepsilon-$optimal, the sample complexity of the source tasks can be significantly reduced compared to uniform sampling. Additionally, the sample complexity of the target task is only linear in the dimension of the latent space, thanks to representation learning. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# BadActs: アクティベーション・スペースにおけるユニバーサル・バックドア・ディフェンス
BadActs: A Universal Backdoor Defense in the Activation Space ( http://arxiv.org/abs/2405.11227v1 ) ライセンス: Link先を確認 | Biao Yi, Sishuo Chen, Yiming Li, Tong Li, Baolei Zhang, Zheli Liu, | (参考訳) バックドア攻撃は、開発段階でDeep Neural Networks(DNN)にますます深刻なセキュリティ脅威をもたらす。
これに対し, 試料中のクリーンな内容の完全性を維持しつつ, バックドアトリガーを除去することを目的とした, 防御機構として, バックドア試料の浄化が期待されている。
しかし、既存のアプローチは主に単語空間に焦点を合わせており、これは特徴空間のトリガーには効果がなく、クリーンなデータの性能を著しく損なう。
そこで本研究では,アクティベーション空間内のバックドアサンプルを,最小限のクリーンなアクティベーション分布間隔の最適化に向けて,異常なアクティベーションを引き出すことにより,普遍的なバックドアディフェンスを導入する。
本手法の利点は,(1) アクティベーション空間における操作により, 単語などの表層的な情報から, 構文などの高レベルなセマンティックな概念へ変換し, 多様なトリガに対処すること,(2) アクティベーション空間のきめ細かい連続的な性質により, トリガを除去しながら, クリーンなコンテンツのより正確な保存が可能となること, である。
さらに,異常なアクティベーションの統計情報に基づく検出モジュールを提案し,クリーンな精度と防御性能のトレードオフを改善する。
Backdoor attacks pose an increasingly severe security threat to Deep Neural Networks (DNNs) during their development stage. In response, backdoor sample purification has emerged as a promising defense mechanism, aiming to eliminate backdoor triggers while preserving the integrity of the clean content in the samples. However, existing approaches have been predominantly focused on the word space, which are ineffective against feature-space triggers and significantly impair performance on clean data. To address this, we introduce a universal backdoor defense that purifies backdoor samples in the activation space by drawing abnormal activations towards optimized minimum clean activation distribution intervals. The advantages of our approach are twofold: (1) By operating in the activation space, our method captures from surface-level information like words to higher-level semantic concepts such as syntax, thus counteracting diverse triggers; (2) the fine-grained continuous nature of the activation space allows for more precise preservation of clean content while removing triggers. Furthermore, we propose a detection module based on statistical information of abnormal activations, to achieve a better trade-off between clean accuracy and defending performance. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# OTLP:混合整数線形プログラミングによる出力閾値保持
OTLP: Output Thresholding Using Mixed Integer Linear Programming ( http://arxiv.org/abs/2405.11230v1 ) ライセンス: Link先を確認 | Baran Koseoglu, Luca Traverso, Mohammed Topiwalla, Egor Kraev, Zoltan Szopory, | (参考訳) アウトプットしきい値付け(output thresholding)は、トレーニングデータセットとテストデータセットの確率推定を生成可能な分類器の推論中に使用する最善のしきい値を探すテクニックである。
これは、デフォルトのしきい値がクラス分布の不均衡を参照できず、最高の性能を与えられないような高不均衡な分類問題において特に有用である。
本稿では,モデルに依存しない混合整数線形プログラミングを用いたしきい値化フレームワークOTLPを提案する。
理論的しきい値付け技術は、機械学習モデルを利用するアプリケーションの製品関連要件や複雑さに対処できない現実世界のアプリケーションでは特に有用である。
クレジットカード不正検出データセットを用いて,本フレームワークの有用性を評価する。
Output thresholding is the technique to search for the best threshold to be used during inference for any classifiers that can produce probability estimates on train and testing datasets. It is particularly useful in high imbalance classification problems where the default threshold is not able to refer to imbalance in class distributions and fail to give the best performance. This paper proposes OTLP, a thresholding framework using mixed integer linear programming which is model agnostic, can support different objective functions and different set of constraints for a diverse set of problems including both balanced and imbalanced classification problems. It is particularly useful in real world applications where the theoretical thresholding techniques are not able to address to product related requirements and complexity of the applications which utilize machine learning models. Through the use of Credit Card Fraud Detection Dataset, we evaluate the usefulness of the framework. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# Bridge and Hint: 長距離コードのためのトレーニング済み言語モデルの拡張
Bridge and Hint: Extending Pre-trained Language Models for Long-Range Code ( http://arxiv.org/abs/2405.11233v1 ) ライセンス: Link先を確認 | Yujia Chen, Cuiyun Gao, Zezhou Yang, Hongyu Zhang, Qing Liao, | (参考訳) コードインテリジェンス(code intelligence)の分野では、長距離コードの効果的モデリングが大きな課題となっている。
UniXcoderのような既存の訓練済み言語モデル(PLM)は目覚ましい成功を収めたが、長いコード入力の難しさに直面している。
これは主に、コンテキスト連続性を維持し、長距離コード上でキー情報を記憶する能力に制限があるためである。
この問題を緩和するために,lOng-range コードのための事前学習言語モデルを拡張するためのフレームワーク EXPO を提案する。
EXPO には,Bridge Memory と Hint Memory という2つの革新的なメモリ機構が組み込まれている。
Bridge Memoryは、タグ機構を使用して、異なる長距離コードのスニペットを接続し、モデルがコンテキストコヒーレンスを維持するのに役立つ。
Hint Memoryは、kNNアテンション層を統合して関連するコード要素を適応的に選択することで、パッケージインポートなど、グローバルなコンテキスト全体の重要なコード要素に焦点を当てている。
このデュアルメモリアプローチは、ローカルコードスニペットの理解とグローバルコードコヒーレンス維持のギャップを埋め、長いコードシーケンスのモデル全体の理解を深める。
我々は,UniXcoderなどの5つの言語モデルと,APIレコメンデーションや脆弱性検出を含む2つのコードインテリジェンスタスクにおいて,EXPOの有効性を検証する。
実験の結果,EXPOは事前学習言語モデルを大幅に改善することが示された。
In the field of code intelligence, effectively modeling long-range code poses a significant challenge. Existing pre-trained language models (PLMs) such as UniXcoder have achieved remarkable success, but they still face difficulties with long code inputs. This is mainly due to their limited capacity to maintain contextual continuity and memorize the key information over long-range code. To alleviate the difficulties, we propose EXPO, a framework for EXtending Pre-trained language models for lOng-range code. EXPO incorporates two innovative memory mechanisms we propose in this paper: Bridge Memory and Hint Memory. Bridge Memory uses a tagging mechanism to connect disparate snippets of long-range code, helping the model maintain contextual coherence. Hint Memory focuses on crucial code elements throughout the global context, such as package imports, by integrating a kNN attention layer to adaptively select the relevant code elements. This dual-memory approach bridges the gap between understanding local code snippets and maintaining global code coherence, thereby enhancing the model overall comprehension of long code sequences. We validate the effectiveness of EXPO on five popular pre-trained language models such as UniXcoder and two code intelligence tasks including API recommendation and vulnerability detection. Experimental results demonstrate that EXPO significantly improves the pre-training language models. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# TriLoRA:テキスト・画像生成における高度なスタイルのパーソナライズのためのSVDの統合
TriLoRA: Integrating SVD for Advanced Style Personalization in Text-to-Image Generation ( http://arxiv.org/abs/2405.11236v1 ) ライセンス: Link先を確認 | Chengcheng Feng, Mu He, Qiuyu Tian, Haojie Yin, Xiaofang Zhao, Hongwei Tang, Xingqiang Wei, | (参考訳) ディープラーニング技術が進歩を続けるにつれ、画像生成モデル、特にStable Diffusionのようなモデルは、視覚芸術の創造に広く応用されている。
しかしながら、これらのモデルは、オーバーフィット、生成された結果の安定性の欠如、微調整プロセス中にクリエーターが求める機能を正確に把握する困難といった課題に直面していることが多い。
これらの課題に対応するために、画像生成モデルの微調整効率と出力品質を向上させることを目的とした、Singular Value Decomposition(SVD)をLo-Rank Adaptation(LoRA)パラメータ更新戦略に統合する革新的な手法を提案する。
SVDをLoRAフレームワークに組み込むことで、オーバーフィッティングのリスクを効果的に低減するだけでなく、モデル出力の安定性を高め、微妙でクリエーターが望む特徴調整をより正確に捉えることができる。
提案手法を複数のデータセット上で評価した結果,従来の微調整手法と比較して,生成の質を維持しながらモデルの一般化能力と創造的柔軟性を著しく向上することが示された。
さらに,資源制約条件下でのLORAの優れた性能を維持し,元の効率性と資源の優位性を損なうことなく画像生成品質を大幅に向上させることができる。
As deep learning technology continues to advance, image generation models, especially models like Stable Diffusion, are finding increasingly widespread application in visual arts creation. However, these models often face challenges such as overfitting, lack of stability in generated results, and difficulties in accurately capturing the features desired by creators during the fine-tuning process. In response to these challenges, we propose an innovative method that integrates Singular Value Decomposition (SVD) into the Low-Rank Adaptation (LoRA) parameter update strategy, aimed at enhancing the fine-tuning efficiency and output quality of image generation models. By incorporating SVD within the LoRA framework, our method not only effectively reduces the risk of overfitting but also enhances the stability of model outputs, and captures subtle, creator-desired feature adjustments more accurately. We evaluated our method on multiple datasets, and the results show that, compared to traditional fine-tuning methods, our approach significantly improves the model's generalization ability and creative flexibility while maintaining the quality of generation. Moreover, this method maintains LoRA's excellent performance under resource-constrained conditions, allowing for significant improvements in image generation quality without sacrificing the original efficiency and resource advantages. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# 深層学習を用いた一変量時系列予測のためのラグ選択:実証的研究
Lag Selection for Univariate Time Series Forecasting using Deep Learning: An Empirical Study ( http://arxiv.org/abs/2405.11237v1 ) ライセンス: Link先を確認 | José Leites, Vitor Cerqueira, Carlos Soares, | (参考訳) ほとんどの予測手法は、過去の観測(ラグ)を使って、単変量時系列の将来の値をモデル化している。
正確な予測モデルのトレーニングには,十分な数のラグを選択することが重要である。
この課題を解決するためにいくつかのアプローチとヒューリスティックが考案された。
しかしながら、最もよいアプローチとは何かという意見は一致していない。
また,局所モデルやARIMAのような古典的予測手法に基づいて,ラグ選択法が開発されている。
異なるラグ選択方法の広範な実験分析を行うことにより,このギャップを文献に橋渡しする。
我々は、グローバルアプローチで訓練されたディープラーニング手法、すなわち、複数の単変量時系列からなるデータセットに焦点を当てる。
実験は、合計2411個の単変量時系列を含む3つのベンチマークデータベースを用いて実施された。
その結果,ラグサイズは正確な予測のパラメータであることがわかった。
特に、過度に小さくまたは過度に大きいラグサイズは、予測性能にかなりの悪影響を及ぼす。
クロスバリデーションアプローチはラグ選択に最適な性能を示すが、この性能は単純なヒューリスティックスに匹敵する。
Most forecasting methods use recent past observations (lags) to model the future values of univariate time series. Selecting an adequate number of lags is important for training accurate forecasting models. Several approaches and heuristics have been devised to solve this task. However, there is no consensus about what the best approach is. Besides, lag selection procedures have been developed based on local models and classical forecasting techniques such as ARIMA. We bridge this gap in the literature by carrying out an extensive empirical analysis of different lag selection methods. We focus on deep learning methods trained in a global approach, i.e., on datasets comprising multiple univariate time series. The experiments were carried out using three benchmark databases that contain a total of 2411 univariate time series. The results indicate that the lag size is a relevant parameter for accurate forecasts. In particular, excessively small or excessively large lag sizes have a considerable negative impact on forecasting performance. Cross-validation approaches show the best performance for lag selection, but this performance is comparable with simple heuristics. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# SimAD: 時系列異常検出のための簡易な異種性に基づくアプローチ
SimAD: A Simple Dissimilarity-based Approach for Time Series Anomaly Detection ( http://arxiv.org/abs/2405.11238v1 ) ライセンス: Link先を確認 | Zhijie Zhong, Zhiwen Yu, Xing Xi, Yue Xu, Jiahui Chen, Kaixiang Yang, | (参考訳) 再構成に基づくディープラーニング手法が普及しているにもかかわらず、時系列異常検出は依然として困難である。
既存のアプローチは、限られた時間的文脈、正常なパターンの不十分な表現、欠陥のある評価指標に苦しむことが多く、異常な振る舞いを特定する上での有効性を妨げている。
これらの問題に対処するために、$\textbf{{SimAD}}$, a $\textbf{{Sim}}$ple dissimilarity-based approach for time series $\textbf{{A}}$nomaly $\textbf{{D}}$etectionを紹介します。
SimADには、拡張時間窓の処理に適した高度な特徴抽出器が組み込まれており、EmbedPatchエンコーダを使用して、通常の行動パターンを包括的に統合し、正規データと異常データの分散分散をアクセントする革新的なContrastFusionモジュールを導入し、異常識別の堅牢性を高める。
さらに,UAff と NAff の2つの頑健な評価指標を提案し,既存の指標の限界に対処し,理論的および実験的分析を通じて信頼性を示す。
Aff-F1、$\textbf{4.44%}$ on Aff-F1、$\textbf{77.79%}$ on NAff-F1、$\textbf{9.69%}$ on AUC on six multivariate data。
コードと事前訓練されたモデルはhttps://github.com/EmorZz1G/SimAD.comで入手できる。
Despite the prevalence of reconstruction-based deep learning methods, time series anomaly detection remains challenging. Existing approaches often struggle with limited temporal contexts, inadequate representation of normal patterns, and flawed evaluation metrics, hindering their effectiveness in identifying aberrant behavior. To address these issues, we introduce $\textbf{{SimAD}}$, a $\textbf{{Sim}}$ple dissimilarity-based approach for time series $\textbf{{A}}$nomaly $\textbf{{D}}$etection. SimAD incorporates an advanced feature extractor adept at processing extended temporal windows, utilizes the EmbedPatch encoder to integrate normal behavioral patterns comprehensively, and introduces an innovative ContrastFusion module designed to accentuate distributional divergences between normal and abnormal data, thereby enhancing the robustness of anomaly discrimination. Additionally, we propose two robust evaluation metrics, UAff and NAff, addressing the limitations of existing metrics and demonstrating their reliability through theoretical and experimental analyses. Experiments across $\textbf{seven}$ diverse time series datasets demonstrate SimAD's superior performance compared to state-of-the-art methods, achieving relative improvements of $\textbf{19.85%}$ on F1, $\textbf{4.44%}$ on Aff-F1, $\textbf{77.79%}$ on NAff-F1, and $\textbf{9.69%}$ on AUC on six multivariate datasets. Code and pre-trained models are available at https://github.com/EmorZz1G/SimAD. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# ダウン症候群者の顔認識性能の検討
Testing the Performance of Face Recognition for People with Down Syndrome ( http://arxiv.org/abs/2405.11240v1 ) ライセンス: Link先を確認 | Christian Rathgeb, Mathias Ibsen, Denise Hartmann, Simon Hradetzky, Berglind Ólafsdóttir, | (参考訳) 生体認証システムの公正性、特に顔認識は、例えば、女性対男性対白人対白人のような大きな集団に対してしばしば分析される。
これとは対照的に、少数派は一般的に無視される。
そこで本研究では,ダウン症候群患者に対する顔認識アルゴリズムの性能について検討した。
そのために、ダウンシンドロームを持つ98人のデータベースは、それぞれ少なくとも5つの顔画像で表現され、YouTubeから半自動で収集される。
その後、新たに収集したデータベースおよび公開顔画像データベースCelebA,FRGCv2上で、2つの顔画像品質評価アルゴリズムと5つの認識アルゴリズムを評価する。
その結果,ダウン症候群患者に対する顔画像の品質スコアは,類似した条件下で撮影したダウン症候群患者に匹敵することがわかった。
さらに,ダウン症候群患者では顔認識性能が有意に低下することが観察された。
The fairness of biometric systems, in particular facial recognition, is often analysed for larger demographic groups, e.g. female vs. male or black vs. white. In contrast to this, minority groups are commonly ignored. This paper investigates the performance of facial recognition algorithms on individuals with Down syndrome, a common chromosomal abnormality that affects approximately one in 1,000 births per year. To do so, a database of 98 individuals with Down syndrome, each represented by at least five facial images, is semi-automatically collected from YouTube. Subsequently, two facial image quality assessment algorithms and five recognition algorithms are evaluated on the newly collected database and on the public facial image databases CelebA and FRGCv2. The results show that the quality scores of facial images for individuals with Down syndrome are comparable to those of individuals without Down syndrome captured under similar conditions. Furthermore, it is observed that face recognition performance decreases significantly for individuals with Down syndrome, which is largely attributed to the increased likelihood of false matches. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# 合成データ生成と機械学習によるfNIRSニューロイメージングの促進
Advancing fNIRS Neuroimaging through Synthetic Data Generation and Machine Learning Applications ( http://arxiv.org/abs/2405.11242v1 ) ライセンス: Link先を確認 | Eitan Waks, | (参考訳) 本研究では、データ合成と機械学習モデルの適用を通じて、機能的近赤外分光(fNIRS)ニューロイメージングを進めるための統合的アプローチを提案する。
高品質なニューロイメージングデータセットの不足に対処することにより、モンテカルロシミュレーションとパラメトリックヘッドモデルを利用して、幅広い条件を反映した総合的な合成データセットを生成する。
我々は、DockerとXarrayを使ったコンテナ化された環境を開発し、標準化された再現可能なデータ分析を行い、異なる信号処理モード間で有意義な比較を可能にした。
さらに、スケーラブルなデータ生成と処理のためにクラウドベースのインフラストラクチャが確立され、ニューロイメージングデータのアクセシビリティと品質が向上する。
合成データ生成と機械学習技術の組み合わせは、fNIRSトモグラフィーの精度、効率、適用性の向上を約束する。
ここで開発された方法論とインフラは、データシミュレーションと分析の新しい標準を定め、ニューロイメージングと幅広いバイオメディカルエンジニアリング分野における将来の研究の道を開いた。
This study presents an integrated approach for advancing functional Near-Infrared Spectroscopy (fNIRS) neuroimaging through the synthesis of data and application of machine learning models. By addressing the scarcity of high-quality neuroimaging datasets, this work harnesses Monte Carlo simulations and parametric head models to generate a comprehensive synthetic dataset, reflecting a wide spectrum of conditions. We developed a containerized environment employing Docker and Xarray for standardized and reproducible data analysis, facilitating meaningful comparisons across different signal processing modalities. Additionally, a cloud-based infrastructure is established for scalable data generation and processing, enhancing the accessibility and quality of neuroimaging data. The combination of synthetic data generation with machine learning techniques holds promise for improving the accuracy, efficiency, and applicability of fNIRS tomography, potentially revolutionizing diagnostics and treatment strategies for neurological conditions. The methodologies and infrastructure developed herein set new standards in data simulation and analysis, paving the way for future research in neuroimaging and the broader biomedical engineering field. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# 分散誤差補正によるマイクログリッドの動的量子鍵分布
Dynamic Quantum Key Distribution for Microgrids with Distributed Error Correction ( http://arxiv.org/abs/2405.11245v1 ) ライセンス: Link先を確認 | Suman Rath, Neel Kanth Kundu, Subham Sahoo, | (参考訳) 量子鍵分布(QKD)は、サイバー物理マイクログリッドにおけるセキュアな通信技術としてしばしば評価されている。
非許可鍵測定はQKDでは不可能であるが、それを読もうとすると、送信された値の突然変異につながる量子状態が乱される可能性がある。
さらに、不正確な量子キーは、誤復号化によってガベージ値が生成され、マイクログリッド操作が不安定になる可能性がある。
QKDはまた、通信層で暗号化される前に、攻撃値を計測に組み込むノードレベルの操作にも脆弱である。
これらの問題に対処するために,制御力学における違反を観測することによりキーおよび/または結節計測における誤りを識別できるセキュアQKDプロトコルを提案する。
さらに、このプロトコルは動的隣接行列ベースの定式化戦略を用いて、影響を受けるノードが信頼できる信号を再構築し、攻撃された信号をマルチホップで置き換えることを可能にする。
これにより、マイクログリッドは、量子ビットエラー率(QBER)の増加の原因となるシステムを盗み出そうとする敵の存在下で、名目上の操作を行うことができる。
本稿では,盗聴者やノード操作に対する提案手法の堅牢性を示すために,いくつかのケーススタディを提案する。
その結果、暗号化前に信号を操作する不要な観察と攻撃ベクトルに抵抗できることが示されている。
Quantum key distribution (QKD) has often been hailed as a reliable technology for secure communication in cyber-physical microgrids. Even though unauthorized key measurements are not possible in QKD, attempts to read them can disturb quantum states leading to mutations in the transmitted value. Further, inaccurate quantum keys can lead to erroneous decryption producing garbage values, destabilizing microgrid operation. QKD can also be vulnerable to node-level manipulations incorporating attack values into measurements before they are encrypted at the communication layer. To address these issues, this paper proposes a secure QKD protocol that can identify errors in keys and/or nodal measurements by observing violations in control dynamics. Additionally, the protocol uses a dynamic adjacency matrix-based formulation strategy enabling the affected nodes to reconstruct a trustworthy signal and replace it with the attacked signal in a multi-hop manner. This enables microgrids to perform nominal operations in the presence of adversaries who try to eavesdrop on the system causing an increase in the quantum bit error rate (QBER). We provide several case studies to showcase the robustness of the proposed strategy against eavesdroppers and node manipulations. The results demonstrate that it can resist unwanted observation and attack vectors that manipulate signals before encryption. | 翻訳日:2024-05-21 18:48:01 公開日:2024-05-18 |
# 検索型フレームワークにおけるFew-Shot API攻撃異常検出
Few-Shot API Attack Anomaly Detection in a Classification-by-Retrieval Framework ( http://arxiv.org/abs/2405.11247v1 ) ライセンス: Link先を確認 | Udi Aharon, Ran Dubin, Amit Dvir, Chen Hajaj, | (参考訳) アプリケーションプログラミングインタフェース(API)攻撃(英語: Application Programming Interface)とは、機密データへのアクセスや不正な目的でオンラインシステムを操作するためにしばしば利用される、不正または悪意のないAPIの使用を指す。
APIを騙して利用するアクターを識別することは、要求の多い問題を引き起こす。
APIセキュリティの分野では注目すべき進歩とコントリビューションがあったが、攻撃でよく見られるペイロードにマッチしない新しいアプローチを使用する攻撃者を扱う場合、依然として大きな課題が残っている。
また、攻撃者は意図しない方法で標準的な機能を利用でき、目的が意図した境界を超えることもある。
つまりAPIのセキュリティは、異常な振る舞いを素早く識別し、応答できる機械学習モデルのような高度な計算知能メソッドによって、これまで以上に洗練され、動的でなければならない。
これらの課題に対応するために,FT-ANN と呼ばれる新しい数発の異常検出フレームワークを提案する。
まず、FastTextの埋め込みに基づいたAPI専用の汎用言語モデルをトレーニングします。
次に,近似Nearest Neighborサーチを分類・検索手法として用いた。
私たちのフレームワークは、クラス毎に最小限の例でトレーニングできる軽量モデルや、複数のクラスを分類できるモデルの開発を可能にします。
その結果,本フレームワークは,各種ベースラインと比較して,API攻撃検出精度を効果的に向上することがわかった。
Application Programming Interface (API) attacks refer to the unauthorized or malicious use of APIs, which are often exploited to gain access to sensitive data or manipulate online systems for illicit purposes. Identifying actors that deceitfully utilize an API poses a demanding problem. Although there have been notable advancements and contributions in the field of API security, there still remains a significant challenge when dealing with attackers who use novel approaches that don't match the well-known payloads commonly seen in attacks. Also, attackers may exploit standard functionalities in unconventional manners and with objectives surpassing their intended boundaries. This means API security needs to be more sophisticated and dynamic than ever, with advanced computational intelligence methods, such as machine learning models that can quickly identify and respond to anomalous behavior. In response to these challenges, we propose a novel few-shot anomaly detection framework, named FT-ANN. This framework is composed of two parts: First, we train a dedicated generic language model for API based on FastText embedding. Next, we use Approximate Nearest Neighbor search in a classification-by-retrieval approach. Our framework enables the development of a lightweight model that can be trained with minimal examples per class or even a model capable of classifying multiple classes. The results show that our framework effectively improves API attack detection accuracy compared to various baselines. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# 疑似因果発見
Argumentative Causal Discovery ( http://arxiv.org/abs/2405.11250v1 ) ライセンス: Link先を確認 | Fabrizio Russo, Anna Rapberger, Francesca Toni, | (参考訳) 因果発見は、データの特徴間の因果関係を発掘することにつながる。
因果推論に欠かせないものであり、高価または不可能なランダム化制御試験に頼らずに科学的知識を構築するために必要なものである。
本稿では,記号表現を用いた推論が因果発見にどのように役立つかを検討する。
具体的には、因果関係を反映したグラフを学習するために、因果関係理論と組み合わせて、十分に確立された強力な知識表現形式である仮定に基づく議論(ABA)を展開する。
我々は,本手法が望ましい特性を示すことを証明し,特に自然条件下では,地底因果グラフを検索できることを示す。
また、因果探索における標準ベンチマークから得られた4つのデータセットに対して、応答セットプログラミング(ASP)による手法の実装実験を行い、本手法が確立された基準値と良好に比較したことを示す。
Causal discovery amounts to unearthing causal relationships amongst features in data. It is a crucial companion to causal inference, necessary to build scientific knowledge without resorting to expensive or impossible randomised control trials. In this paper, we explore how reasoning with symbolic representations can support causal discovery. Specifically, we deploy assumption-based argumentation (ABA), a well-established and powerful knowledge representation formalism, in combination with causality theories, to learn graphs which reflect causal dependencies in the data. We prove that our method exhibits desirable properties, notably that, under natural conditions, it can retrieve ground-truth causal graphs. We also conduct experiments with an implementation of our method in answer set programming (ASP) on four datasets from standard benchmarks in causal discovery, showing that our method compares well against established baselines. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# Dreamer XL: 軌道スコアマッチングによる高分解能テキスト・ツー・3D生成を目指して
Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching ( http://arxiv.org/abs/2405.11252v1 ) ライセンス: Link先を確認 | Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan, | (参考訳) そこで本研究では,DDIM(Denoising Diffusion Implicit Models)のインバージョンプロセスにおいて,ISM(Interval Score Matching)の累積誤差に起因する疑似基底真理不整合問題を解決することを目的とした,新しいトラジェクティブスコアマッチング法を提案する。
DDIMの逆過程を1つの経路で計算するISMとは異なり、我々のTSM法はDDIMの逆過程を利用して計算の出発点から2つの経路を生成する。
どちらの経路も同じ出発点から始まるため、TSMはISMと比較して累積誤差を低減できるため、疑似基底真理の不整合の問題を軽減することができる。
TSMは、蒸留プロセス中にモデルが生成した経路の安定性と一貫性を高める。
ISMはTSMの特殊な症例であることを示す。
さらに,高解像度テキストから3次元生成までの多段階最適化プロセスの最適化のために,安定拡散XLをガイダンスとして採用する。
安定拡散XLを用いた場合の3次元ガウス平滑化過程における異常な複製と不安定な勾配による分裂の問題に対して,ピクセル・バイ・ピクセル・グラデーション・クリッピング法を提案する。
広汎な実験により、我々のモデルは視覚的品質と性能の点で最先端のモデルを大幅に上回っていることが明らかとなった。
コード: \url{https://github.com/xingy038/Dreamer-XL}
In this work, we propose a novel Trajectory Score Matching (TSM) method that aims to solve the pseudo ground truth inconsistency problem caused by the accumulated error in Interval Score Matching (ISM) when using the Denoising Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the inversion process of DDIM to calculate on a single path, our TSM method leverages the inversion process of DDIM to generate two paths from the same starting point for calculation. Since both paths start from the same starting point, TSM can reduce the accumulated error compared to ISM, thus alleviating the problem of pseudo ground truth inconsistency. TSM enhances the stability and consistency of the model's generated paths during the distillation process. We demonstrate this experimentally and further show that ISM is a special case of TSM. Furthermore, to optimize the current multi-stage optimization process from high-resolution text to 3D generation, we adopt Stable Diffusion XL for guidance. In response to the issues of abnormal replication and splitting caused by unstable gradients during the 3D Gaussian splatting process when using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping method. Extensive experiments show that our model significantly surpasses the state-of-the-art models in terms of visual quality and performance. Code: \url{https://github.com/xingy038/Dreamer-XL}. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# 量子スピン鎖の拡散とスペクトル複雑性:積分性からカオスへ
Spread and Spectral Complexity in Quantum Spin Chains: from Integrability to Chaos ( http://arxiv.org/abs/2405.11254v1 ) ライセンス: Link先を確認 | Hugo A. Camargo, Kyoung-Bum Huh, Viktor Jahnke, Hyun-Sik Jeong, Keun-Young Kim, Mitsuhiro Nishida, | (参考訳) 積分可能性からカオスへの遷移を示す量子系における拡散とスペクトルの複雑さ、すなわちハイゼンベルクXXZスピン鎖の混合場イジングモデルと隣り合う次の変形について検討する。
飽和前における拡散複雑性のピークの存在はカオスシステムの特徴である,という観察を裏付ける。
一般に、拡散複雑性の飽和値は、ハミルトニアンのスペクトル統計だけでなく、特定の状態にも依存する。
しかし、ハミルトニアンの対称性と次元によって決定される最大普遍境界が存在し、無限の温度で熱場二重状態(TFD)によって実現される。
また、拡散複雑性とスペクトル形状因子が変化する時間スケールが互いに一致し、システムのカオス的性質とは無関係であることも見出した。
スペクトル複雑性の場合、カオス系における飽和値と時間スケールを決定する鍵因子は、理論のスペクトルにおける最小エネルギー差によって与えられる。
これは、カオスシステムにおける初期の飽和に関する文献で得られた観察を、可積分性と比較したものである。
我々は、量子多体系におけるカオスのシグネチャの探索に適したTFDの特性について論じる。
We explore spread and spectral complexity in quantum systems that exhibit a transition from integrability to chaos, namely the mixed-field Ising model and the next-to-nearest-neighbor deformation of the Heisenberg XXZ spin chain. We corroborate the observation that the presence of a peak in spread complexity before its saturation, is a characteristic feature in chaotic systems. We find that, in general, the saturation value of spread complexity post-peak depends not only on the spectral statistics of the Hamiltonian, but also on the specific state. However, there appears to be a maximal universal bound determined by the symmetries and dimension of the Hamiltonian, which is realized by the thermofield double state (TFD) at infinite temperature. We also find that the time scales at which the spread complexity and spectral form factor change their behaviour agree with each other and are independent of the chaotic properties of the systems. In the case of spectral complexity, we identify that the key factor determining its saturation value and timescale in chaotic systems is given by minimum energy difference in the theory's spectrum. This explains observations made in the literature regarding its earlier saturation in chaotic systems compared to their integrable counterparts. We conclude by discussing the properties of the TFD which, we conjecture, make it suitable for probing signatures of chaos in quantum many-body systems. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# WisPerMed at "Discharge Me!": 大規模言語モデルによる医療におけるテキスト生成の促進, 動的専門家選択, MIMIC-IVによるプライミング技術
WisPerMed at "Discharge Me!": Advancing Text Generation in Healthcare with Large Language Models, Dynamic Expert Selection, and Priming Techniques on MIMIC-IV ( http://arxiv.org/abs/2405.11255v1 ) ライセンス: Link先を確認 | Hendrik Damm, Tabea M. G. Pakull, Bahadır Eryılmaz, Helmut Becker, Ahmad Idrissi-Yaghir, Henning Schäfer, Sergej Schultenkämper, Christoph M. Friedrich, | (参考訳) 本研究の目的は,MIMIC-IVデータセットからの退院サマリーの「Brief Hospital Course」および「Discharge Instructions」セクションの自動生成に最先端の言語モデルを活用することであり,臨床医の業務負担を軽減することである。
医療施設において, 自動化がドキュメンテーションの精度を向上し, クリニックのバーンアウトを緩和し, 運用効率を向上させる方法について検討した。
The Shared Task Discharge Me! at BioNLP @ ACL 2024。
必要なテキストセクションを生成することができるモデルを開発するために、数発の学習、命令チューニング、動的エキスパート選択(DES)など、様々な戦略が採用された。
特に、追加の臨床領域固有のデータセットを利用することで、臨床言語処理を増強する有意義な可能性を証明した。
テキスト出力の選択を複数の予測から最適化するDES法は,特に有効であることが証明された。
総合スコアは0.332で、シングルモデルのアウトプットを上回った。
この発見は、DESと組み合わせた高度なディープラーニング手法が、電子健康記録文書の一部を効果的に自動化できることを示唆している。
これらの進歩は、患者の相互作用のためのクリニックタイムを解放することで、患者のケアを強化する可能性がある。
テキスト選択戦略の統合は、さらなる研究のための有望な道のりを表している。
This study aims to leverage state of the art language models to automate generating the "Brief Hospital Course" and "Discharge Instructions" sections of Discharge Summaries from the MIMIC-IV dataset, reducing clinicians' administrative workload. We investigate how automation can improve documentation accuracy, alleviate clinician burnout, and enhance operational efficacy in healthcare facilities. This research was conducted within our participation in the Shared Task Discharge Me! at BioNLP @ ACL 2024. Various strategies were employed, including few-shot learning, instruction tuning, and Dynamic Expert Selection (DES), to develop models capable of generating the required text sections. Notably, utilizing an additional clinical domain-specific dataset demonstrated substantial potential to enhance clinical language processing. The DES method, which optimizes the selection of text outputs from multiple predictions, proved to be especially effective. It achieved the highest overall score of 0.332 in the competition, surpassing single-model outputs. This finding suggests that advanced deep learning methods in combination with DES can effectively automate parts of electronic health record documentation. These advancements could enhance patient care by freeing clinician time for patient interactions. The integration of text selection strategies represents a promising avenue for further research. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# Few-Shot API攻撃検出: GANにインスパイアされた学習によるデータスカシティの克服
Few-Shot API Attack Detection: Overcoming Data Scarcity with GAN-Inspired Learning ( http://arxiv.org/abs/2405.11258v1 ) ライセンス: Link先を確認 | Udi Aharon, Revital Marbel, Ran Dubin, Amit Dvir, Chen Hajaj, | (参考訳) WebアプリケーションとAPIは、不正な利益のために脆弱性を悪用しようとする悪意のあるアクターから常に脅威に直面している。
これらの脅威は、限られた多様なデータセットにもかかわらず、悪意のあるAPIトラフィックを効率的に識別できる堅牢な異常検出システムを必要とする。
本稿では,NLP(Natural Language Processing)とGAN(Advanced Generative Adversarial Network)にインスパイアされた新手法を提案する。
最先端のTransformerアーキテクチャ,特にRoBERTaを活用することで,API要求のコンテキスト的理解が向上し,従来の手法と比較して異常検出が改善される。
CSIC 2010 と ATRDF 2023 の2つの異なるデータセット上で,OOD (Out-of-Distribution) と Transformer に基づくバイナリ分類手法の有効性を示す。
私たちの評価では、多くのベクタにおけるさまざまなメトリクスに対して、一貫して拡張された、あるいは、最悪の場合、等価な検出率を明らかにし、APIセキュリティを改善するためのアプローチの約束を強調しています。
Web applications and APIs face constant threats from malicious actors seeking to exploit vulnerabilities for illicit gains. These threats necessitate robust anomaly detection systems capable of identifying malicious API traffic efficiently despite limited and diverse datasets. This paper proposes a novel few-shot detection approach motivated by Natural Language Processing (NLP) and advanced Generative Adversarial Network (GAN)-inspired techniques. Leveraging state-of-the-art Transformer architectures, particularly RoBERTa, our method enhances the contextual understanding of API requests, leading to improved anomaly detection compared to traditional methods. We showcase the technique's versatility by demonstrating its effectiveness with both Out-of-Distribution (OOD) and Transformer-based binary classification methods on two distinct datasets: CSIC 2010 and ATRDF 2023. Our evaluations reveal consistently enhanced or, at worst, equivalent detection rates across various metrics in most vectors, highlighting the promise of our approach for improving API security. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# 次世代の衛星重力ミッションのための古典・量子加速度計の組み合わせ
Combined Classical and Quantum Accelerometers For the Next Generation of Satellite Gravity Missions ( http://arxiv.org/abs/2405.11259v1 ) ライセンス: Link先を確認 | Alireza HosseiniArani, Manuel Schilling, Benjamin Tennstedt, Alexey Kupriyanov, Quentin Beaufils, Annike Knabe, Arpetha C. Sreekantaiah, Franck Pereira dos Santos, Steffen Schön, Jürgen Müller, | (参考訳) コールド原子干渉計(CAI)ベースの量子加速度計は、非重力加速度の長期安定かつ精密な測定を行うための強度のおかげで、将来の衛星重力ミッションに非常に有望である。
しかし、低測定率と生センサ測定におけるあいまいさの存在による制限により、量子加速度計(Q-ACC)と高帯域幅の古典的な(例えば静電気)とのハイブリッド化が求められた。
これまで、Q-ACCの単純なノイズモデルを検討し、加速度計の位相シフトに対する衛星回転の影響を無視してきたが、ここでは、衛星ベースの量子加速度計の包括的ノイズモデルを実装し、回転、重力勾配、自己重力の完全な影響を考慮し、より高度なハイブリダイゼーションシミュレーションを行う。
量子および古典的なセンサと衛星ミッションに関する仮定が異なるシナリオのシミュレーション研究を行う。
古典的および量子加速度計の相乗性を考慮に入れたハイブリッドソリューションの性能上の利点を定量化する。
将来の重力ミッションでハイブリッド加速度計を実装することで,低次・高次で1~2桁の重力解が向上することが判明した。
特に, 生成した大域重力場図は, ハイブリッド加速度計による測定を導入し, ストリップ効果に対する機器的寄与を劇的に低減した。
Cold atom interferometry (CAI)-based quantum accelerometers are very promising for future satellite gravity missions thanks to their strength in providing long-term stable and precise measurements of non-gravitational accelerations. However, their limitations due to the low measurement rate and the existence of ambiguities in the raw sensor measurements call for hybridization of the quantum accelerometer (Q-ACC) with a classical one (e.g., electrostatic) with higher bandwidth. While previous hybridization studies have so far considered simple noise models for the Q-ACC and neglected the impact of satellite rotation on the phase shift of the accelerometer, we perform here a more advanced hybridization simulation by implementing a comprehensive noise model for the satellite-based quantum accelerometers and considering the full impact of rotation, gravity gradient, and self-gravity on the instrument. We perform simulation studies for scenarios with different assumptions about quantum and classical sensors and satellite missions. The performance benefits of the hybrid solutions, taking the synergy of both classical and quantum accelerometers into account, will be quantified. We found that implementing a hybrid accelerometer onboard a future gravity mission improves the gravity solution by one to two orders in lower and higher degrees. In particular, the produced global gravity field maps show a drastic reduction in the instrumental contribution to the striping effect after introducing measurements from the hybrid accelerometers. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# 分子の真空分極 II:高次補正
Vacuum polarization in molecules II: higher order corrections ( http://arxiv.org/abs/2405.11261v1 ) ライセンス: Link先を確認 | D. J. Flynn, I. P. Grant, H. M. Quiney, | (参考訳) 実効電場拡大における真空偏光現象に対する一般的な定式化について概説する。
静電ポテンシャル, 誘導電荷密度, 運動量空間における形状因子の観点から, 電荷と仮想場との結合について検討した。
真空偏極ポテンシャルの効率的な計算戦略を概説し, 分子電子構造計算に適した適合ポテンシャルの構築に適用した。
電子-陽電子場に対するガウス核電荷の効果は、E119F分子に対して、および仮想ミューオンおよび荷電ピオン場から生じる効果に対して、$\alpha(Z \alpha)$, $\alpha(Z \alpha)$, $\alpha(Z \alpha)^{3}$および$\alpha^{2}(Z\alpha)$効果が変動的に適用される。
We outline a general formalism for treating vacuum polarization phenomena within an effective field expansion. The coupling between source charges and virtual fields is examined from the perspectives of electrostatic potentials, induced charge densities and form factors in momentum space. A strategy for the efficient calculation of vacuum polarization potentials is outlined, implemented, and applied towards the construction of fitting potentials that are suitable for molecular electronic structure calculations, which enclose no overall charge by construction. The order $\alpha(Z \alpha)$, $\alpha (Z \alpha)^{3}$ and $\alpha^{2}(Z\alpha)$ effects of a Gaussian nuclear charge on the electron-positron field are applied variationally towards the E119F molecule, as well as the order $\alpha(Z \alpha)$ effects arising from the virtual muon and charged pion fields. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# 分子の真空分極 I:ユアリング相互作用
Vacuum polarization in molecules I: Uehling interaction ( http://arxiv.org/abs/2405.11262v1 ) ライセンス: Link先を確認 | D. J. Flynn, I. P. Grant, H. M. Quiney, | (参考訳) 電子構造に対するラジカル補正は、$\alpha$と$Z\alpha$の摂動膨張によって特徴づけられる。
分子の相対論的電子構造に関する計算研究において、再正規化真空分極に対する先行次$\alpha(Z\alpha)$ Uehlingの寄与の定式化が有用な形で報告される。
これらの手法に基づくベンチマーク計算では、E119$^+$イオンと閉殻二原子種E119Fの相対論的平均場法における優先真空偏極効果が報告されている。
Radiative corrections to electronic structure are characterized by perturbative expansions in $\alpha$ and $Z\alpha$, where $\alpha$ is the fine-structure constant and $Z$ is the nuclear charge. A formulation of the leading-order $\alpha(Z\alpha)$ Uehling contribution to the renormalized vacuum polarization is reported in a form that is convenient for implementation in computational studies of the relativistic electronic structures of molecules. Benchmark calculations based on these methods are reported that include the leading-order vacuum polarization effects within relativistic mean-field methods for the E119$^+$ ion and the closed-shell diatomic species E119F. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# ChatGPTの数学的機能に関するクロスランゲージ評価
Cross-Language Assessment of Mathematical Capability of ChatGPT ( http://arxiv.org/abs/2405.11264v1 ) ライセンス: Link先を確認 | Gargi Sathe, Aneesh Shamraj, Aditya Surve, Nahush Patil, Kumkum Saxena, | (参考訳) 本稿では,Hindi,Gujarati,Marathiなどの多言語にわたってChatGPTの数学的能力を評価する。
OpenAIによるGPT-3.5に基づくChatGPTは、自然言語の理解と生成能力に大きな注目を集めている。
しかし、複数の自然言語にまたがる数学的問題の解法におけるその性能は、特にインドの地域言語において、比較的未探索の領域である。
本稿では,これらの能力とチェーン・オブ・シントを用いて,英語と同じように応答の精度が向上するかどうかを判断し,現状の限界について考察する。
This paper presents an evaluation of the mathematical capability of ChatGPT across diverse languages like Hindi, Gujarati, and Marathi. ChatGPT, based on GPT-3.5 by OpenAI, has garnered significant attention for its natural language understanding and generation abilities. However, its performance in solving mathematical problems across multiple natural languages remains a comparatively unexplored area, especially in regional Indian languages. In this paper, we explore those capabilities as well as using chain-of-thought prompting to figure out if it increases the accuracy of responses as much as it does in the English language and provide insights into the current limitations. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# EnviroExam:大規模言語モデルの環境科学知識のベンチマーク
EnviroExam: Benchmarking Environmental Science Knowledge of Large Language Models ( http://arxiv.org/abs/2405.11265v1 ) ライセンス: Link先を確認 | Yu Huang, Liang Guo, Wanqian Guo, Zhe Tao, Yang Lv, Zhihao Sun, Dongfang Zhao, | (参考訳) 環境科学の分野では、その有効性と正確性を確保するために、大規模言語モデルに対する堅牢な評価指標を持つことが不可欠である。
本研究では,環境科学分野における大規模言語モデルの知識を評価するための総合評価手法であるEnviroExamを提案する。
EnviroExamは、トップクラスの国際大学のカリキュラムに基づいており、学部、修士課程、博士課程をカバーしており、42のコアコースに936の質問がある。
EnviroExamは、31のオープンソースの大規模言語モデルに対して0ショットと5ショットのテストをすることで、環境科学の分野におけるこれらのモデルのパフォーマンスの違いを明らかにし、詳細な評価基準を提供する。
その結果、61.3%のモデルが5ショットテストに合格し、48.39%が0ショットテストに合格した。
変動係数を指標として, 環境科学における主要なオープンソース大言語モデルの性能を多視点から評価し, この分野における言語モデルの選択と微調整に有効な基準を提供する。
今後の研究は、評価の精度と特異性をさらに高めるため、特殊な環境科学教科書を用いて、よりドメイン固有のテストセットを構築することを含む。
In the field of environmental science, it is crucial to have robust evaluation metrics for large language models to ensure their efficacy and accuracy. We propose EnviroExam, a comprehensive evaluation method designed to assess the knowledge of large language models in the field of environmental science. EnviroExam is based on the curricula of top international universities, covering undergraduate, master's, and doctoral courses, and includes 936 questions across 42 core courses. By conducting 0-shot and 5-shot tests on 31 open-source large language models, EnviroExam reveals the performance differences among these models in the domain of environmental science and provides detailed evaluation standards. The results show that 61.3% of the models passed the 5-shot tests, while 48.39% passed the 0-shot tests. By introducing the coefficient of variation as an indicator, we evaluate the performance of mainstream open-source large language models in environmental science from multiple perspectives, providing effective criteria for selecting and fine-tuning language models in this field. Future research will involve constructing more domain-specific test sets using specialized environmental science textbooks to further enhance the accuracy and specificity of the evaluation. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# HR人間:ビデオからの三角形メッシュと高分解能テクスチャを用いた人間のアバターモデリング
HR Human: Modeling Human Avatars with Triangular Mesh and High-Resolution Textures from Videos ( http://arxiv.org/abs/2405.11270v1 ) ライセンス: Link先を確認 | Qifeng Chen, Rengan Xie, Kai Huang, Qi Wang, Wenting Zheng, Rong Li, Yuchi Huo, | (参考訳) 近年、暗黙の神経表現は、アニマタブルなヒトアバターを生成するために広く用いられている。
しかし、これらの表現の材料と幾何学はニューラルネットワークに結合されており、編集が難しいため、従来のグラフィックスエンジンでの応用を妨げている。
本研究では,モノクロビデオから高分解能な物理材料テクスチャと三角形メッシュを付加したアバターの取得のための枠組みを提案する。
本手法では,モノクロ映像からの情報を合成し,仮想多視点画像を合成し,入力ビューの空間性に対処する新たな情報融合戦略を提案する。
我々は、変形可能なニューラルな暗黙の表面として人間を再構築し、次の段階の初期メッシュとして、よく知られたポーズで三角形のメッシュを抽出する。
さらに,粗いメッシュを抽出した境界と大きさのバイアスを補正する手法を提案する。
最後に, 分解したテクスチャを蒸留するために, 超高分解能での潜伏拡散モデルの事前知識を多視点で適用する。
実験の結果,提案手法は従来の表現よりも忠実度が高く,この明示的な結果が一般的なレンダラーへの展開をサポートすることがわかった。
Recently, implicit neural representation has been widely used to generate animatable human avatars. However, the materials and geometry of those representations are coupled in the neural network and hard to edit, which hinders their application in traditional graphics engines. We present a framework for acquiring human avatars that are attached with high-resolution physically-based material textures and triangular mesh from monocular video. Our method introduces a novel information fusion strategy to combine the information from the monocular video and synthesize virtual multi-view images to tackle the sparsity of the input view. We reconstruct humans as deformable neural implicit surfaces and extract triangle mesh in a well-behaved pose as the initial mesh of the next stage. In addition, we introduce an approach to correct the bias for the boundary and size of the coarse mesh extracted. Finally, we adapt prior knowledge of the latent diffusion model at super-resolution in multi-view to distill the decomposed texture. Experiments show that our approach outperforms previous representations in terms of high fidelity, and this explicit result supports deployment on common renderers. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# 勧告をデノベートするための二重補正フレームワーク
Double Correction Framework for Denoising Recommendation ( http://arxiv.org/abs/2405.11272v1 ) ライセンス: Link先を確認 | Zhuangzhuang He, Yifan Wang, Yonghui Yang, Peijie Sun, Le Wu, Haoyue Bai, Jinqi Gong, Richang Hong, Min Zhang, | (参考訳) オンラインサービスの可用性と汎用性のため、暗黙のフィードバックはより一般的にレコメンデーションシステムで使用される。
しかし、暗黙的なフィードバックは通常、現実の推奨シナリオ(クリックミスや非推奨行動など)でノイズの多いサンプルを提示する。
ノイズサンプル問題を克服するために、一般的な解法は、ノイズサンプルがクリーンサンプルよりも高いトレーニング損失を有するという観察の後、モデルトレーニングフェーズにノイズサンプルを落とすことに基づいている。
有効性にも拘わらず、我々はこの解決策には限界があると主張する。
1) 学習損失の増大は, モデル最適化の不安定性や硬度サンプルによるものであり, ノイズの多いサンプルだけではない。
2) ノイズの多いサンプルの完全なドロップは、完全なデータエクスプロイトが欠如しているデータスポーラリティを悪化させる。
上記の制限に対処するため、より正確なサンプルドロップのビューから2つの補正要素を含むDouble Correction Framework for Denoising Recommendation (DCF)を提案する。
試料落下補正成分では, 試料の損失値を用いてノイズの有無を判定し, 落下安定性を向上する。
直接平均化する代わりに、減衰関数を用いて、降圧器のバイアス効果を低減します。
さらに, 硬質試料が示す分散度が高いため, 濃度不等式による損失の低減を図り, 硬質試料を同定・再利用する。
逐次ラベル補正では,高決定性雑音サンプルを反復的に再ラベルし,さらに性能を向上させるために再トレーニングする。
最後に、3つのデータセットと4つのバックボーンに関する広範な実験結果から、提案フレームワークの有効性と一般化を実証した。
As its availability and generality in online services, implicit feedback is more commonly used in recommender systems. However, implicit feedback usually presents noisy samples in real-world recommendation scenarios (such as misclicks or non-preferential behaviors), which will affect precise user preference learning. To overcome the noisy samples problem, a popular solution is based on dropping noisy samples in the model training phase, which follows the observation that noisy samples have higher training losses than clean samples. Despite the effectiveness, we argue that this solution still has limits. (1) High training losses can result from model optimization instability or hard samples, not just noisy samples. (2) Completely dropping of noisy samples will aggravate the data sparsity, which lacks full data exploitation. To tackle the above limitations, we propose a Double Correction Framework for Denoising Recommendation (DCF), which contains two correction components from views of more precise sample dropping and avoiding more sparse data. In the sample dropping correction component, we use the loss value of the samples over time to determine whether it is noise or not, increasing dropping stability. Instead of averaging directly, we use the damping function to reduce the bias effect of outliers. Furthermore, due to the higher variance exhibited by hard samples, we derive a lower bound for the loss through concentration inequality to identify and reuse hard samples. In progressive label correction, we iteratively re-label highly deterministic noisy samples and retrain them to further improve performance. Finally, extensive experimental results on three datasets and four backbones demonstrate the effectiveness and generalization of our proposed framework. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# Uni-MoE: エキスパートの混在による統一マルチモーダルLLMのスケーリング
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts ( http://arxiv.org/abs/2405.11273v1 ) ライセンス: Link先を確認 | Yunxin Li, Shenyuan Jiang, Baotian Hu, Longyue Wang, Wanqi Zhong, Wenhan Luo, Lin Ma, Min Zhang, | (参考訳) MLLM(Multimodal Large Language Models)の最近の進歩は、パフォーマンスを高めるためにスケーラブルなモデルとデータの重要性を強調している。
大規模な言語と画像テキストモデルを効率的にスケールするために、Mixture of Experts (MoE) アーキテクチャが使用されているが、これらの取り組みは通常、専門家の数が少なく、モダリティも限られている。
そこで本研究では,多種多様なモダリティを扱えるMoEアーキテクチャのUni-MoEを用いたMLLMの先駆的開発について述べる。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
また,LLM内に疎MOEアーキテクチャを実装し,モダリティレベルのデータ並列処理とエキスパートレベルのモデル並列処理による効率的なトレーニングと推論を実現する。
マルチエキスパートのコラボレーションと一般化を強化するため、進歩的なトレーニング戦略を提示する。
1) 異種異種コネクタを用いたクロスモダリティアライメント
2【モダリティに特有な専門家を育成し、専門家の嗜好を活性化させる】
3) 混合マルチモーダル命令データに基づくローランド適応(LoRA)を利用したUni-MoEフレームワークのチューニング
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
複合マルチモーダルデータセットの処理において、Uni-MoEの主な利点は、マルチエキスパートコラボレーションと一般化の改善とともに、パフォーマンスバイアスを著しく低減することである。
そのコードはhttps://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMsで公開されている。
Recent advancements in Multimodal Large Language Models (MLLMs) underscore the significance of scalable models and data to boost performance, yet this often incurs substantial computational costs. Although the Mixture of Experts (MoE) architecture has been employed to efficiently scale large language and image-text models, these efforts typically involve fewer experts and limited modalities. To address this, our work presents the pioneering attempt to develop a unified MLLM with the MoE architecture, named Uni-MoE that can handle a wide array of modalities. Specifically, it features modality-specific encoders with connectors for a unified multimodal representation. We also implement a sparse MoE architecture within the LLMs to enable efficient training and inference through modality-level data parallelism and expert-level model parallelism. To enhance the multi-expert collaboration and generalization, we present a progressive training strategy: 1) Cross-modality alignment using various connectors with different cross-modality data, 2) Training modality-specific experts with cross-modality instruction data to activate experts' preferences, and 3) Tuning the Uni-MoE framework utilizing Low-Rank Adaptation (LoRA) on mixed multimodal instruction data. We evaluate the instruction-tuned Uni-MoE on a comprehensive set of multimodal datasets. The extensive experimental results demonstrate Uni-MoE's principal advantage of significantly reducing performance bias in handling mixed multimodal datasets, alongside improved multi-expert collaboration and generalization. Our findings highlight the substantial potential of MoE frameworks in advancing MLLMs and the code is available at https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# 注意機構を持つエンコーダデコーダとSHAPを用いた補聴器の使用予測と説明
Predicting and Explaining Hearing Aid Usage Using Encoder-Decoder with Attention Mechanism and SHAP ( http://arxiv.org/abs/2405.11275v1 ) ライセンス: Link先を確認 | Qiqi Su, Eleftheria Iliadou, | (参考訳) 聴覚障害患者の満足度や生活の質を向上させるとともに、社会的・財政的な負担を軽減するためには、最適な補聴器や補聴器の使用経験と相関する個人的、行動的、環境的、その他の要因を理解することが不可欠である。
本研究では,Encoder-decoderに注意機構(attn-ED)を付加した新しいフレームワークを提案する。
実験では、ttn-EDは将来の補聴器の使用を予測し、SHAPを用いて補聴器の使用に影響を与える様々な要因の寄与を計算できることが示されている。
このフレームワークは、XAIメソッドを使用することで、医療領域でAIモデルを利用することができるという自信を確立することを目的としている。
さらに, この枠組みは, 臨床医の介入の実態を判断する上でも有効である。
It is essential to understand the personal, behavioral, environmental, and other factors that correlate with optimal hearing aid fitting and hearing aid users' experiences in order to improve hearing loss patient satisfaction and quality of life, as well as reduce societal and financial burdens. This work proposes a novel framework that uses Encoder-decoder with attention mechanism (attn-ED) for predicting future hearing aid usage and SHAP to explain the factors contributing to this prediction. It has been demonstrated in experiments that attn-ED performs well at predicting future hearing aid usage, and that SHAP can be utilized to calculate the contribution of different factors affecting hearing aid usage. This framework aims to establish confidence that AI models can be utilized in the medical domain with the use of XAI methods. Moreover, the proposed framework can also assist clinicians in determining the nature of interventions. | 翻訳日:2024-05-21 18:38:17 公開日:2024-05-18 |
# Visible and Clear: 異なるマップで小さなオブジェクトを見つける
Visible and Clear: Finding Tiny Objects in Difference Map ( http://arxiv.org/abs/2405.11276v1 ) ライセンス: Link先を確認 | Bing Cao, Haiyu Yao, Pengfei Zhu, Qinghua Hu, | (参考訳) 細い物体検出は、物体検出の分野における重要な課題の1つである。
ほとんどのジェネリック検出器の性能は、小さな物体検出タスクで劇的に低下する。
主な課題は、小さな物体の効果的な特徴を抽出することである。
既存の手法は通常、ジェネレーションベースの機能拡張を実行するが、これはスプリケートなテクスチャやアーティファクトの影響を深刻に受けており、小さなオブジェクト固有の特徴を目に見えるようにし、検出するのが困難である。
そこで本研究では,自己再構成型小型物体検出(SR-TOD)フレームワークを提案する。
検出モデルに自己再構成機構を初めて導入し,それと微小物体との強い相関関係を明らかにする。
具体的には、再構成画像と入力の差分マップを構築して、検出器の首の内側に再構成ヘッドを配置し、小さな物体に対して高い感度を示す。
このことは、差分写像の誘導の下で小さな物体の弱い表現を強化するきっかけとなる。
これにより、検出器用の小さな物体の視認性を向上させることができる。
これに基づいて、我々は、小さな特徴表現をより明確にするための差分マップガイド機能拡張(DGFE)モジュールをさらに開発する。
さらに,DroneSwarmsデータセットと呼ばれる新しいマルチインスタンス対UAVデータセットを提案する。
DroneSwarmsデータセットや他のデータセットに関する大規模な実験は、提案手法の有効性を実証している。
コードとデータセットが公開される。
Tiny object detection is one of the key challenges in the field of object detection. The performance of most generic detectors dramatically decreases in tiny object detection tasks. The main challenge lies in extracting effective features of tiny objects. Existing methods usually perform generation-based feature enhancement, which is seriously affected by spurious textures and artifacts, making it difficult to make the tiny-object-specific features visible and clear for detection. To address this issue, we propose a self-reconstructed tiny object detection (SR-TOD) framework. We for the first time introduce a self-reconstruction mechanism in the detection model, and discover the strong correlation between it and the tiny objects. Specifically, we impose a reconstruction head in-between the neck of a detector, constructing a difference map of the reconstructed image and the input, which shows high sensitivity to tiny objects. This inspires us to enhance the weak representations of tiny objects under the guidance of the difference maps. Thus, improving the visibility of tiny objects for the detectors. Building on this, we further develop a Difference Map Guided Feature Enhancement (DGFE) module to make the tiny feature representation more clear. In addition, we further propose a new multi-instance anti-UAV dataset, which is called DroneSwarms dataset and contains a large number of tiny drones with the smallest average size to date. Extensive experiments on the DroneSwarms dataset and other datasets demonstrate the effectiveness of the proposed method. The code and dataset will be publicly available. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# パラフレージングによるアクション制御
Action Controlled Paraphrasing ( http://arxiv.org/abs/2405.11277v1 ) ライセンス: Link先を確認 | Ning Shi, Zijun Wu, Lili Mou, | (参考訳) 近年の研究では、様々な下流タスクに広く応用されている構文など、パラフレーズ生成を制御できることが実証されている。
しかし、これらの手法は、ユーザフレンドリーでない詳細なパースツリーや構文的例を必要とすることが多い。
さらに、制御仕様はトレーニング中にのみ利用可能だが推論はできないため、推論ギャップが存在する。
本研究では,制御されたパラフレージングのための新しいセットアップを提案する。
具体的には、ユーザ意図のアクションをアクショントークンとして表現し、それらを埋め込み、テキスト埋め込みで結合することで、表現融合のための自己注意エンコーダに一緒に流れ込む。
推論ギャップに対処するため、プレースホルダーとしてオプションアクショントークンを導入し、制御仕様がアクセスできない場合に適切なアクションを決定するようモデルに促す。
実験結果から,アクションが与えられていない場合と比較して,特定の動作制御パラフレージングが可能であり,同じあるいはそれ以上の性能を保っていることがわかった。
そこで本研究では,表現学習によるユーザ中心設計のためのオプションアクション制御の概念を推進した。
Recent studies have demonstrated the potential to control paraphrase generation, such as through syntax, which has broad applications in various downstream tasks. However, these methods often require detailed parse trees or syntactic exemplars, which are not user-friendly. Furthermore, an inference gap exists, as control specifications are only available during training but not inference. In this work, we propose a new setup for controlled paraphrasing. Specifically, we represent user-intended actions as action tokens, allowing embedding and concatenating them with text embeddings, thus flowing together to a self-attention encoder for representation fusion. To address the inference gap, we introduce an optional action token as a placeholder that encourages the model to determine the appropriate action when control specifications are inaccessible. Experimental results show that our method successfully enables specific action-controlled paraphrasing and preserves the same or even better performance compared to conventional uncontrolled methods when actions are not given. Our findings thus promote the concept of optional action control for a more user-centered design via representation learning. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# モダリティの欠如したコホートにおけるシングルセルデータの連成解析
Joint Analysis of Single-Cell Data across Cohorts with Missing Modalities ( http://arxiv.org/abs/2405.11280v1 ) ライセンス: Link先を確認 | Marianne Arriola, Weishen Pan, Manqi Zhou, Qiannan Zhang, Chang Su, Fei Wang, | (参考訳) コホートをまたいだマルチオミック単一細胞データの結合解析は、細胞プロセスの包括的解析を大幅に強化した。
しかし、この目的のために既存のアプローチのほとんどは、実世界の多くのシナリオでは実現不可能な、完全なモダリティの可用性を持つサンプルへのアクセスを必要とする。
本稿では,完全モダリティ参照サンプルを必要とせず,ドメインシフトの下で統一的なセル表現を学習する新しいフレームワークであるSingle-Cell Cross-Cohort Cross-Categoryを提案する。
我々の生成的アプローチは、これらの欠落したモダリティの計算を可能にする、リッチなクロスモーダルとクロスドメインの関係を学習する。
実世界のマルチオミックデータセットの実験を通じて,セル型クラスタリング,セル型分類,特徴計算などの単一セルタスクに対して,堅牢なソリューションが提供されることを示した。
Joint analysis of multi-omic single-cell data across cohorts has significantly enhanced the comprehensive analysis of cellular processes. However, most of the existing approaches for this purpose require access to samples with complete modality availability, which is impractical in many real-world scenarios. In this paper, we propose (Single-Cell Cross-Cohort Cross-Category) integration, a novel framework that learns unified cell representations under domain shift without requiring full-modality reference samples. Our generative approach learns rich cross-modal and cross-domain relationships that enable imputation of these missing modalities. Through experiments on real-world multi-omic datasets, we demonstrate that offers a robust solution to single-cell tasks such as cell type clustering, cell type classification, and feature imputation. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# UAVスワムにおける協調的認知力学系:再構成可能なメカニズムと枠組み
Cooperative Cognitive Dynamic System in UAV Swarms: Reconfigurable Mechanism and Framework ( http://arxiv.org/abs/2405.11281v1 ) ライセンス: Link先を確認 | Ziye Jia, Jiahao You, Chao Dong, Qihui Wu, Fuhui Zhou, Dusit Niyato, Zhu Han, | (参考訳) 民間と軍事の双方で即時かつ効果的な対応の要求が高まるにつれて、無人航空機(UAV)は効果的な解決策として現れ、複数の協力型UAVが協調して特定の目標を達成することができる。
しかし、リアルタイム適応性を確保するために複雑なシステムを管理するには十分な研究が欠如している。
そこで本稿では,UAVスワムの管理を最適化する協調認知力学システム(CCDS)を提案する。
CCDSは階層的かつ協調的な制御構造を利用し、リアルタイムのデータ処理と意思決定を可能にする。
したがって、CCDSは動的再構成性と適応的なインテリジェントな最適化によってUAVスワム管理を最適化する。
さらに、CCDSは、UAVスワムのタスクを効率的に割り当てるための生体模倣機構と統合することができる。
さらに、CCDSの分散調整は信頼性と弾力性を確保し、適応性と堅牢性を高める。
最後に、潜在的課題と今後の方向性を分析し、動的ヘテロジニアスネットワークにおけるUAVスワムの管理に関する洞察を提供する。
As the demands for immediate and effective responses increase in both civilian and military domains, the unmanned aerial vehicle (UAV) swarms emerge as effective solutions, in which multiple cooperative UAVs can work together to achieve specific goals. However, how to manage such complex systems to ensure real-time adaptability lack sufficient researches. Hence, in this paper, we propose the cooperative cognitive dynamic system (CCDS), to optimize the management for UAV swarms. CCDS leverages a hierarchical and cooperative control structure that enables real-time data processing and decision. Accordingly, CCDS optimizes the UAV swarm management via dynamic reconfigurability and adaptive intelligent optimization. In addition, CCDS can be integrated with the biomimetic mechanism to efficiently allocate tasks for UAV swarms. Further, the distributed coordination of CCDS ensures reliable and resilient control, thus enhancing the adaptability and robustness. Finally, the potential challenges and future directions are analyzed, to provide insights into managing UAV swarms in dynamic heterogeneous networking. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# 多言語アラビアデータセットにおける対話者間の合意を予測した方言のレベルの推定
Estimating the Level of Dialectness Predicts Interannotator Agreement in Multi-dialect Arabic Datasets ( http://arxiv.org/abs/2405.11282v1 ) ライセンス: Link先を確認 | Amr Keleg, Walid Magdy, Sharon Goldwater, | (参考訳) 多方言アラビア語データセットの注釈付けでは、アラビア語話者のプールにランダムにサンプルを割り当てることが一般的である。
最近の分析では、高品質なデータセットを構築するために、方言のサンプルをそれぞれの方言の母語話者にルーティングすることを推奨している。
しかし、サンプルの方言を自動的に識別するのは困難である。
さらに、特定のアラビア方言の母語話者であるアノテーターのプールは少ないかもしれない。
アラビア語のレベル・オブ・ダイアレク性(ALDi)は、文が標準アラビア語からどのように分岐するかを測定する定量的変数として最近導入された。
ランダムにアノテータにサンプルを割り当てる際、特にアノテータが話さない方言で書かれた場合、高いALDiスコアのサンプルはラベル付けが難しいと仮定する。
本研究では,ALDiスコアとアノテータの合意との関係を,各文分類タスクのサンプルアノテーションを生かした15の公開データセットで分析して検証する。
11の仮説を裏付ける強い証拠が見つかりました。
その結果,それぞれの方言の母語話者に対して高いALDiスコアのルーティングサンプルを優先順位付けすることを推奨した。
On annotating multi-dialect Arabic datasets, it is common to randomly assign the samples across a pool of native Arabic speakers. Recent analyses recommended routing dialectal samples to native speakers of their respective dialects to build higher-quality datasets. However, automatically identifying the dialect of samples is hard. Moreover, the pool of annotators who are native speakers of specific Arabic dialects might be scarce. Arabic Level of Dialectness (ALDi) was recently introduced as a quantitative variable that measures how sentences diverge from Standard Arabic. On randomly assigning samples to annotators, we hypothesize that samples of higher ALDi scores are harder to label especially if they are written in dialects that the annotators do not speak. We test this by analyzing the relation between ALDi scores and the annotators' agreement, on 15 public datasets having raw individual sample annotations for various sentence-classification tasks. We find strong evidence supporting our hypothesis for 11 of them. Consequently, we recommend prioritizing routing samples of high ALDi scores to native speakers of each sample's dialect, for which the dialect could be automatically identified at higher accuracies. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# 反事実の論理と因果推論の認識論
The Logic of Counterfactuals and the Epistemology of Causal Inference ( http://arxiv.org/abs/2405.11284v1 ) ライセンス: Link先を確認 | Hanti Lin, | (参考訳) 2021年のノーベル経済学賞は因果推論の理論を認め、哲学者たちから注目に値するものとなった。
その目的のために、私は、CEM(Conditional Excluded Middle)と呼ばれる論理原理に関するルイス=シュタルネーカー論争を拡張した弁証法を開発しました。
私はまずCEMのために良い警官を演じ、それに対して新しい議論をする: ノーベル賞受賞理論に基づくクワイン・パットナムの欠かせない議論。
しかし、私はその議論を元の理論の成功を保ちながらCEMを伴わない因果推論の新たな理論で台無しにする。
The 2021 Nobel Prize in Economics recognized a theory of causal inference, which deserves more attention from philosophers. To that end, I develop a dialectic that extends the Lewis-Stalnaker debate on a logical principle called Conditional Excluded Middle (CEM). I first play the good cop for CEM, and give a new argument for it: a Quine-Putnam indispensability argument based on the Nobel-Prize winning theory. But then I switch sides and play the bad cop: I undermine that argument with a new theory of causal inference that preserves the success of the original theory but dispenses with CEM. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# 運動アバター : 任意運動による人・動物アバターの生成
Motion Avatar: Generate Human and Animal Avatars with Arbitrary Motion ( http://arxiv.org/abs/2405.11286v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Yiran Wang, Biao Wu, Shuo Chen, Zhiyuan Zhang, Shiya Huang, Wenbo Zhang, Meng Fang, Ling Chen, Yang Zhao, | (参考訳) 近年、映画製作、ビデオゲーム、AR/VR、人間とロボットの相互作用といった分野における多種多様な応用により、3Dアバターやモーションを作ることに大きな関心が寄せられている。
しかし、現在の取り組みは主に3Dアバターメッシュのみを生成するか、モーションシーケンスを生成することに集中しており、これら2つの側面を統合することは永続的な課題であることが証明されている。
加えて、アバターとモーションジェネレーションは主に人間をターゲットにしているが、訓練データや方法が不十分なため、これらの技術を動物に拡張することは重要な課題である。
これらのギャップを埋めるために,本稿では3つの重要な貢献について述べる。
まず,テキストクエリによる動作を伴う高品質なカスタマイズ可能な人間と動物のアバターの自動生成を可能にする,Motion Avatarというエージェントベースの新しいアプローチを提案する。
この手法は動的3次元キャラクタ生成の進歩を著しく促進した。
第2に、動作とアバターの生成を協調するLLMプランナを導入し、識別計画をカスタマイズ可能なQ&A方式に変換する。
最後に,65の動物カテゴリーにまたがる約30万のテキストモーションペアと,その構築パイプラインであるZooGenからなる動物運動データセットZoo-300Kを紹介した。
プロジェクトサイト https://steve-zeyu-zhang.github.io/MotionAvatar/
In recent years, there has been significant interest in creating 3D avatars and motions, driven by their diverse applications in areas like film-making, video games, AR/VR, and human-robot interaction. However, current efforts primarily concentrate on either generating the 3D avatar mesh alone or producing motion sequences, with integrating these two aspects proving to be a persistent challenge. Additionally, while avatar and motion generation predominantly target humans, extending these techniques to animals remains a significant challenge due to inadequate training data and methods. To bridge these gaps, our paper presents three key contributions. Firstly, we proposed a novel agent-based approach named Motion Avatar, which allows for the automatic generation of high-quality customizable human and animal avatars with motions through text queries. The method significantly advanced the progress in dynamic 3D character generation. Secondly, we introduced a LLM planner that coordinates both motion and avatar generation, which transforms a discriminative planning into a customizable Q&A fashion. Lastly, we presented an animal motion dataset named Zoo-300K, comprising approximately 300,000 text-motion pairs across 65 animal categories and its building pipeline ZooGen, which serves as a valuable resource for the community. See project website https://steve-zeyu-zhang.github.io/MotionAvatar/ | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# ロバスト皮膚病変分類のための拡散モデル駆動テスト時間画像適応
Diffusion Model Driven Test-Time Image Adaptation for Robust Skin Lesion Classification ( http://arxiv.org/abs/2405.11289v1 ) ライセンス: Link先を確認 | Ming Hu, Siyuan Yan, Peng Xia, Feilong Tang, Wenxue Li, Peibo Duan, Lin Zhang, Zongyuan Ge, | (参考訳) 深層学習に基づく診断システムは皮膚疾患の診断に可能性を示している。
しかし, 撮像装置のバラツキ, 明るさ変化, 画像のぼやけなど, 入力レベルの劣化による分布変化により, テスト領域では容易に性能が低下する。
これにより、実際のシナリオにおけるモデルデプロイメントの信頼性が低下する。
既存のソリューションのほとんどは、異なるターゲットドメインで再トレーニングすることで、ソースモデルを適応することに集中しています。
有効ではあるが、この再トレーニングプロセスは、最適化のためのデータ量とハイパーパラメータ設定に敏感である。
本稿では,テスト画像の同時更新と予測により,テストデータ上でのモデルの精度を向上させるテスト時間画像適応手法を提案する。
拡散モデルを用いて、対象の試験画像をソース領域に投影して修正する。
具体的には,逆サンプリング時の低域フィルタによる微細化操作を付加する構造誘導モジュールを設計し,構造情報の保存のために拡散を規則化する。
さらに,適応入力と適応しない入力への依存を自動的に調整し,不適切な生成モデリング結果の拒絶による適応ロバスト性の向上を図る。
そこで本研究では,ISIC2019-CとDermnet-Cの耐食性評価ベンチマークを構築した。
提案手法は, 様々な汚職, アーキテクチャ, データ構造において, 分類器をより堅牢にすることを示す。
データセットとコードは、 \url{https://github.com/minghu0830/Skin-TTA_Diffusion}で公開されます。
Deep learning-based diagnostic systems have demonstrated potential in skin disease diagnosis. However, their performance can easily degrade on test domains due to distribution shifts caused by input-level corruptions, such as imaging equipment variability, brightness changes, and image blur. This will reduce the reliability of model deployment in real-world scenarios. Most existing solutions focus on adapting the source model through retraining on different target domains. Although effective, this retraining process is sensitive to the amount of data and the hyperparameter configuration for optimization. In this paper, we propose a test-time image adaptation method to enhance the accuracy of the model on test data by simultaneously updating and predicting test images. We modify the target test images by projecting them back to the source domain using a diffusion model. Specifically, we design a structure guidance module that adds refinement operations through low-pass filtering during reverse sampling, regularizing the diffusion to preserve structural information. Additionally, we introduce a self-ensembling scheme automatically adjusts the reliance on adapted and unadapted inputs, enhancing adaptation robustness by rejecting inappropriate generative modeling results. To facilitate this study, we constructed the ISIC2019-C and Dermnet-C corruption robustness evaluation benchmarks. Extensive experiments on the proposed benchmarks demonstrate that our method makes the classifier more robust across various corruptions, architectures, and data regimes. Our datasets and code will be available at \url{https://github.com/minghu0830/Skin-TTA_Diffusion}. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# MBIAS: コンテキストを維持しながら、大規模言語モデルにおけるバイアスの緩和
MBIAS: Mitigating Bias in Large Language Models While Retaining Context ( http://arxiv.org/abs/2405.11290v1 ) ライセンス: Link先を確認 | Shaina Raza, Ananya Raval, Veronica Chatrath, | (参考訳) LLM(Large Language Models)の安全性に対する重要なニーズに対処するためには、アウトプットが安全であるだけでなく、コンテキストの正確性も維持することが不可欠である。
既存のLLMの多くは、安全なデモで安全に調整されているか、敵の試験にのみ依存している。
安全なアウトプットを得られるが、バイアスや毒性を軽減できるため、文脈的な意味を失うリスクがしばしばある。
本報告では,安全対策に特化して設計されたカスタムデータセットを微調整した LLM フレームワーク MBIAS を提案する。
MBIASは、LLM世代において、不適切な言語的言及やソーシャルメディアの偏見のあるコンテンツを含む、様々な人口層で不適切な表現や否定的な表現として表される、バイアスと毒性の重大な問題に対処することを目的としている。
各種構成を用いて安全介入のためのMBIAS実験を行い,鍵情報の保持に成功しながら,全体の偏りと毒性を30倍以上低減することを示した。
さらに、アウト・オブ・ディストリビューション・テスト・セットにおける人口統計学的分析により、様々な人口統計学において偏見と毒性の低下が90%を超えるという、我々のアプローチの堅牢性が確認された。
データセットと微調整のMBIASは、https://huggingface.co/newsmediabias/MBIASで研究コミュニティに提供されている。
In addressing the critical need for safety in Large Language Models (LLMs), it is crucial to ensure that the outputs are not only safe but also retain their contextual accuracy. Many existing LLMs are safe fine-tuned either with safety demonstrations, or rely only on adversarial testing. While able to get safe outputs, they often risk losing contextual meaning as they mitigate bias and toxicity. In response, we present MBIAS, a LLM framework instruction fine-tuned on a custom dataset specifically designed for safety interventions. MBIAS aims to address the significant issues of bias and toxicity in LLMs generations that typically manifest as underrepresentation or negative portrayals across various demographics, including inappropriate linguistic mentions and biased content in social media. We experiment on MBIAS for safety interventions using various configurations, and demonstrate more than a 30\% reduction in overall bias and toxicity while successfully retaining key information. Additionally, a demographic analysis on an out-of-distribution test set confirms the robustness of our approach, with reductions in bias and toxicity exceeding 90\% across various demographics. The dataset and instruction fine-tuned MBIAS are made available to the research community at https://huggingface.co/newsmediabias/MBIAS. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# InfRS:リモートセンシング画像におけるインクリメンタルFew-Shotオブジェクト検出
InfRS: Incremental Few-Shot Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2405.11293v1 ) ライセンス: Link先を確認 | Wuzhou Li, Jiawei Zhou, Xiang Li, Yi Cao, Guang Jin, Xuemin Zhang, | (参考訳) 近年,リモートセンシング画像における数ショット検出の分野では,大きな進歩が見られた。
これらの進歩にもかかわらず、継続的概念学習の能力は、既存の方法論に依然として大きな課題をもたらしている。
本稿では,リモートセンシング画像におけるインクリメンタルな数ショット物体検出の複雑な課題について検討する。
InfRSと呼ばれる先駆的な微調整技術を導入し、制約されたサンプルセットを用いて新規クラスの漸進的な学習を容易にするとともに、既存のデータセットを再検討することなく、既存のベースクラスのパフォーマンスを同時に保存する。
具体的には、ベースクラスからの豊富なデータを用いてモデルを事前訓練し、そのデータ固有の特性を表す一連のクラスワイドプロトタイプを生成する。
漸進的な学習段階において、識別表現を学習するためのハイブリッドプロトタイプコントラスト(HPC)符号化モジュールを導入する。
さらに、ワッサーシュタイン距離に基づく原型校正戦略を開発し、破滅的な忘れ問題を緩和する。
NWPU VHR-10とDIORデータセットの総合的な評価は、我々のモデルがリモートセンシング画像のiFSOD問題を効果的に解決できることを示している。
コードはリリースされる。
Recently, the field of few-shot detection within remote sensing imagery has witnessed significant advancements. Despite these progresses, the capacity for continuous conceptual learning still poses a significant challenge to existing methodologies. In this paper, we explore the intricate task of incremental few-shot object detection in remote sensing images. We introduce a pioneering fine-tuningbased technique, termed InfRS, designed to facilitate the incremental learning of novel classes using a restricted set of examples, while concurrently preserving the performance on established base classes without the need to revisit previous datasets. Specifically, we pretrain the model using abundant data from base classes and then generate a set of class-wise prototypes that represent the intrinsic characteristics of the data. In the incremental learning stage, we introduce a Hybrid Prototypical Contrastive (HPC) encoding module for learning discriminative representations. Furthermore, we develop a prototypical calibration strategy based on the Wasserstein distance to mitigate the catastrophic forgetting problem. Comprehensive evaluations on the NWPU VHR-10 and DIOR datasets demonstrate that our model can effectively solve the iFSOD problem in remote sensing images. Code will be released. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# プレーンコードでJavaオブジェクトをシリアライズする
Serializing Java Objects in Plain Code ( http://arxiv.org/abs/2405.11294v1 ) ライセンス: Link先を確認 | Julian Wachter, Deepika Tiwari, Martin Monperrus, Benoit Baudry, | (参考訳) マネージド言語では、オブジェクトのシリアライズは通常、ProtobufのようなbespokeバイナリフォーマットやXMLやJSONのようなマークアップ言語で行われます。
これらのフォーマットの最大の制限は可読性である。
人間開発者はバイナリコードを読めず、ほとんどの場合、XMLやJSONの構文に悩まされる。
これは、オブジェクトがテストケースのようなソースコードに埋め込まれて読み込まれるように意図された場合の大きな問題である。
この問題に対処するため、我々はプレーンコードシリアライズを提案する。
私たちの中核的な考え方は、実行時に観察されたオブジェクトをプログラミング言語のネイティブ構文でシリアライズすることです。
このビジョンをJavaのコンテキストで実現し,JavaオブジェクトをJavaソースコードにシリアライズするプロトタイプを実演する。
その結果、ソースは実行時に見るオブジェクトを忠実に再構築する。
プロトタイプはProDJと呼ばれ、公開されています。
我々はProDJを用いて、4つのオープンソースJavaアプリケーション実行中に観測された174,699個のオブジェクトをプレーンコードでシリアライズする実験を行った。
性能測定の結果, 性能への影響は明らかでない。
In managed languages, serialization of objects is typically done in bespoke binary formats such as Protobuf, or markup languages such as XML or JSON. The major limitation of these formats is readability. Human developers cannot read binary code, and in most cases, suffer from the syntax of XML or JSON. This is a major issue when objects are meant to be embedded and read in source code, such as in test cases. To address this problem, we propose plain-code serialization. Our core idea is to serialize objects observed at runtime in the native syntax of a programming language. We realize this vision in the context of Java, and demonstrate a prototype which serializes Java objects to Java source code. The resulting source faithfully reconstructs the objects seen at runtime. Our prototype is called ProDJ and is publicly available. We experiment with ProDJ to successfully plain-code serialize 174,699 objects observed during the execution of 4 open-source Java applications. Our performance measurement shows that the performance impact is not noticeable. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# 人工知能を用いた疾患の検出・治療・計画のための医用画像解析
Medical Image Analysis for Detection, Treatment and Planning of Disease using Artificial Intelligence Approaches ( http://arxiv.org/abs/2405.11295v1 ) ライセンス: Link先を確認 | Nand Lal Yadav, Satyendra Singh, Rajesh Kumar, Sudhakar Singh, | (参考訳) X線(X-ray)は、人体の検出と診断のための画像モダリティの1つである。
X線は、疾患または疾患の欠如がある臓器の実際の解剖学的構造を提供する。
胸部X線像における疾患の分離は診断と治療に不可欠である。
本稿では,人工知能を用いたX線画像のセグメンテーションのためのフレームワークについて論じる。
ここでは、X線画像に対するSegNetとResidual Netアプローチを使用して、データを前処理し、クリーン化し、セグメンテーションする。
最後に、セグメンテーションはLoss、Dice Coefficient、Jaccard Coefficient、Precision、Recall、Binary Accuracy、Validation Accuracyといったよく知られたメトリクスを使って評価されている。
実験の結果,提案手法は16個のバッチサイズと50個のエポックを持つよく知られたパラメータに対して,より優れた性能を示すことがわかった。
SegNetとResidual Unetの検証精度、精度、リコールの値は、それぞれ0.9815、0.9699、0.9574、0.9901、0.9864、0.9750である。
X-ray is one of the prevalent image modalities for the detection and diagnosis of the human body. X-ray provides an actual anatomical structure of an organ present with disease or absence of disease. Segmentation of disease in chest X-ray images is essential for the diagnosis and treatment. In this paper, a framework for the segmentation of X-ray images using artificial intelligence techniques has been discussed. Here data has been pre-processed and cleaned followed by segmentation using SegNet and Residual Net approaches to X-ray images. Finally, segmentation has been evaluated using well known metrics like Loss, Dice Coefficient, Jaccard Coefficient, Precision, Recall, Binary Accuracy, and Validation Accuracy. The experimental results reveal that the proposed approach performs better in all respect of well-known parameters with 16 batch size and 50 epochs. The value of validation accuracy, precision, and recall of SegNet and Residual Unet models are 0.9815, 0.9699, 0.9574, and 0.9901, 0.9864, 0.9750 respectively. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# 宇宙バウンスによる絡み合い生成
Entanglement production through a cosmological bounce ( http://arxiv.org/abs/2405.11296v1 ) ライセンス: Link先を確認 | Viqar Husain, Irfan Javed, Sanjeev Seahra, Nomaan X, | (参考訳) 量子重力では、ビッグバン特異性が解決され、宇宙がバウンスすると予想される。
一般的な初期データの場合,物質重力エンタングルメントエントロピーはバウンス時に急速に上昇し,バウンス後に定常値に近づいた。
これらの観測から、物質重力の絡み合いはマクロ宇宙の特徴であり、第2の絡み合いのエントロピー法則は存在しないことが示唆された。
In quantum gravity, it is expected that the Big Bang singularity is resolved and the universe undergoes a bounce. We find that for generic initial data, matter-gravity entanglement entropy rises rapidly during the bounce, declines, and then approaches a steady-state value following the bounce. These observations suggest that matter-gravity entanglement is a feature of the macroscopic universe and that there is no Second Law of entanglement entropy. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# 文の埋め込みにおける微調整の鍵となる側面:表現ランク分析
Unveiling Key Aspects of Fine-Tuning in Sentence Embeddings: A Representation Rank Analysis ( http://arxiv.org/abs/2405.11297v1 ) ライセンス: Link先を確認 | Euna Jung, Jaeill Kim, Jungmin Ko, Jinwoo Park, Wonjong Rhee, | (参考訳) 文埋め込みの教師なし学習の最新の進歩は、主に、事前訓練された言語モデルよりも対照的な学習ベース(CLベース)の微調整を採用することである。
本研究では,表現ランクを分析ツールとして採用することにより,最新の文埋め込み手法を解析する。
まず、表現ランクがいつピークになるかに基づいて、ファインチューニングのフェーズ1とフェーズ2を定義する。
これらのフェーズを利用することで、アライメントと均一性、言語能力、パフォーマンスとランクの相関など、重要な側面を網羅した分析を行い、重要な知見を得る。
例えば、第1フェーズから第2フェーズへの微調整の移行によって、重要な側面のダイナミクスが大幅に変化することを発見した。
これらの知見に基づき,最新のCL法を迅速かつ安定した微調整を容易にするRR戦略を実験的に検討した。
経験的調査を通じて,5つの最先端文埋め込み手法の性能と安定性を向上させるRRの有効性を実証した。
The latest advancements in unsupervised learning of sentence embeddings predominantly involve employing contrastive learning-based (CL-based) fine-tuning over pre-trained language models. In this study, we analyze the latest sentence embedding methods by adopting representation rank as the primary tool of analysis. We first define Phase 1 and Phase 2 of fine-tuning based on when representation rank peaks. Utilizing these phases, we conduct a thorough analysis and obtain essential findings across key aspects, including alignment and uniformity, linguistic abilities, and correlation between performance and rank. For instance, we find that the dynamics of the key aspects can undergo significant changes as fine-tuning transitions from Phase 1 to Phase 2. Based on these findings, we experiment with a rank reduction (RR) strategy that facilitates rapid and stable fine-tuning of the latest CL-based methods. Through empirical investigations, we showcase the efficacy of RR in enhancing the performance and stability of five state-of-the-art sentence embedding methods. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# 視覚的エピソード記憶に基づく探索
Visual Episodic Memory-based Exploration ( http://arxiv.org/abs/2405.11298v1 ) ライセンス: Link先を確認 | Jack Vice, Natalie Ruiz-Sanchez, Pamela K. Douglas, Gita Sukthankar, | (参考訳) ヒトでは、本質的なモチベーションはオープンエンド認知発達の重要なメカニズムであり、ロボットでは探索に有用であることが示されている。
人間の認知発達の重要な側面は$\textit{episodic memory}$であり、過去からの出来事の再現と主観的未来予測の両方を可能にする。
本稿では,ロボット探索問題に対する本質的な動機付けの源泉として,視覚的エピソードメモリの利用について検討する。
畳み込みリカレントニューラルネットワークオートエンコーダを用いて、エージェントは、時空間的特徴が学習されたときにのみ正確なシーケンス予測を行うことができるような時空間的特徴の効率的な表現を学習する。
地中真実とオートエンコーダ生成画像の構造的類似性は、探索をガイドするための本質的なモチベーション信号として使用される。
提案したエピソード記憶モデルは、エージェントの行動も暗黙的に説明し、視覚的に異なる領域だけでなく、ロボットに新たなインタラクティブな体験を求める動機付けとなる。
ロボット探査の指導において,提案手法はキュリオシティ駆動型変分オートエンコーダ(CVAE)より動的異常の発見に優れる。
In humans, intrinsic motivation is an important mechanism for open-ended cognitive development; in robots, it has been shown to be valuable for exploration. An important aspect of human cognitive development is $\textit{episodic memory}$ which enables both the recollection of events from the past and the projection of subjective future. This paper explores the use of visual episodic memory as a source of intrinsic motivation for robotic exploration problems. Using a convolutional recurrent neural network autoencoder, the agent learns an efficient representation for spatiotemporal features such that accurate sequence prediction can only happen once spatiotemporal features have been learned. Structural similarity between ground truth and autoencoder generated images is used as an intrinsic motivation signal to guide exploration. Our proposed episodic memory model also implicitly accounts for the agent's actions, motivating the robot to seek new interactive experiences rather than just areas that are visually dissimilar. When guiding robotic exploration, our proposed method outperforms the Curiosity-driven Variational Autoencoder (CVAE) at finding dynamic anomalies. | 翻訳日:2024-05-21 18:28:33 公開日:2024-05-18 |
# LLMにおけるCAP原則
The CAP Principle for LLM Serving ( http://arxiv.org/abs/2405.11299v1 ) ライセンス: Link先を確認 | Pai Zeng, Zhenyu Ning, Jieru Zhao, Weihao Cui, Mengwei Xu, Liwei Guo, Xusheng Chen, Yizhou Shan, | (参考訳) 大規模にモデルを展開する際に,より長いコンテキスト理解の必要性が高まっているため,コスト効率と精度の複雑なダイナミクスを理解するために,大規模言語モデル(LLM)を探索する。
本研究により, コンテクスト長(C)の改善, コンテクスト精度(A)の向上, 性能改善(P)の3つの目標に沿って, この分野の作業が最適化されていることが明らかとなった。
データベースにおけるCAP定理からインスピレーションを得たLCMサービスのためのCAP原理を提案し,これら3つの目標のうち2つを同時に最適化できることを示唆した。
本フレームワークにおける既存作業の分類を行った。
ユーザ認識測定値の定義と継続性は,従来のCAPデータベースのように,目標が達成されたかどうかを決定する上で極めて重要である。
我々は, LLM の CAP 原理を公式な定理ではなく指導原理として, 設計者に対して, サービスモデルに固有の, 動的トレードオフを知らせるものであると認識している。
正確さと性能を幅広く研究してきたので,本調査はコンテクストの長さを延ばし,その結果の課題に対処する作業に焦点をあてる。
We survey the large language model (LLM) serving area to understand the intricate dynamics between cost-efficiency and accuracy, which is magnified by the growing need for longer contextual understanding when deploying models at a massive scale. Our findings reveal that works in this space optimize along three distinct but conflicting goals: improving serving context length (C), improving serving accuracy (A), and improving serving performance (P). Drawing inspiration from the CAP theorem in databases, we propose a CAP principle for LLM serving, which suggests that any optimization can improve at most two of these three goals simultaneously. Our survey categorizes existing works within this framework. We find the definition and continuity of user-perceived measurement metrics are crucial in determining whether a goal has been met, akin to prior CAP databases in the wild. We recognize the CAP principle for LLM serving as a guiding principle, rather than a formal theorem, to inform designers of the inherent and dynamic trade-offs in serving models. As serving accuracy and performance have been extensively studied, this survey focuses on works that extend serving context length and address the resulting challenges. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# カスケード視覚言語モデルによる細粒度画像分類の強化
Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models ( http://arxiv.org/abs/2405.11301v1 ) ライセンス: Link先を確認 | Canshi Wei, | (参考訳) きめ細かい画像分類、特に0/fwショットのシナリオでは、CLIPのようなビジョン言語モデル(VLM)には大きな課題がある。
これらのモデルは、厳密な分類のための監督信号が欠けている、事前訓練されたレシピの制限のため、意味的に類似したクラスを区別するニュアンス化されたタスクにしばしば苦労する。
本稿では,大規模視覚言語モデル(LVLM)にカプセル化された粒度の知識を効果的に活用することにより,従来のCLIPベースの手法の制約を克服する,革新的なフレームワークであるCascadeVLMを紹介する。
様々なきめ細かい画像データセットに対する実験により、カスケードVLMは既存のモデル、特にスタンフォード・カーズ・データセットを著しく上回り、85.6%のゼロショット精度を達成した。
性能ゲイン分析により、LVLMはCLIPが不確実な画像に対してより正確な予測を生成することが確認され、全体的な精度が向上する。
我々のフレームワークは、VLMとLVLMの総合的な統合に光を当て、画像分類を効果的かつ効率的に行う。
Fine-grained image classification, particularly in zero/few-shot scenarios, presents a significant challenge for vision-language models (VLMs), such as CLIP. These models often struggle with the nuanced task of distinguishing between semantically similar classes due to limitations in their pre-trained recipe, which lacks supervision signals for fine-grained categorization. This paper introduces CascadeVLM, an innovative framework that overcomes the constraints of previous CLIP-based methods by effectively leveraging the granular knowledge encapsulated within large vision-language models (LVLMs). Experiments across various fine-grained image datasets demonstrate that CascadeVLM significantly outperforms existing models, specifically on the Stanford Cars dataset, achieving an impressive 85.6% zero-shot accuracy. Performance gain analysis validates that LVLMs produce more accurate predictions for challenging images that CLIPs are uncertain about, bringing the overall accuracy boost. Our framework sheds light on a holistic integration of VLMs and LVLMs for effective and efficient fine-grained image classification. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# 量子トレイン:モデル圧縮の観点からのハイブリッド量子古典機械学習の再考
Quantum-Train: Rethinking Hybrid Quantum-Classical Machine Learning in the Model Compression Perspective ( http://arxiv.org/abs/2405.11304v1 ) ライセンス: Link先を確認 | Chen-Yu Liu, En-Jui Kuo, Chu-Hsuan Abraham Lin, Jason Gemsun Young, Yeong-Jar Chang, Min-Hsiu Hsieh, Hsi-Sheng Goan, | (参考訳) 我々は、量子コンピューティングと古典的な機械学習アルゴリズムを統合する新しいアプローチであるQuantum-Train(QT)フレームワークを導入し、データエンコーディング、モデル圧縮、推論ハードウェア要求における重要な課題に対処する。
精度がわずかに低下しても、QTは古典的なマッピングモデルとともに量子ニューラルネットワークを使用することで、トレーニング中にパラメータカウントを$M$から$O(\text{polylog} (M)$に大幅に削減することで、顕著な結果が得られる。
我々の実験は、分類タスクにおけるQTの有効性を実証し、量子計算の利点を活用して機械学習に革命をもたらす可能性についての洞察を提供する。
このアプローチはモデルの効率を向上するだけでなく、一般化エラーを低減し、さまざまな機械学習アプリケーションにまたがるQTの可能性を示す。
We introduces the Quantum-Train(QT) framework, a novel approach that integrates quantum computing with classical machine learning algorithms to address significant challenges in data encoding, model compression, and inference hardware requirements. Even with a slight decrease in accuracy, QT achieves remarkable results by employing a quantum neural network alongside a classical mapping model, which significantly reduces the parameter count from $M$ to $O(\text{polylog} (M))$ during training. Our experiments demonstrate QT's effectiveness in classification tasks, offering insights into its potential to revolutionize machine learning by leveraging quantum computational advantages. This approach not only improves model efficiency but also reduces generalization errors, showcasing QT's potential across various machine learning applications. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# 解集合プログラミングによる組合せ最適化のための大規模近傍優先探索
Large Neighborhood Prioritized Search for Combinatorial Optimization with Answer Set Programming ( http://arxiv.org/abs/2405.11305v1 ) ライセンス: Link先を確認 | Irumi Sugimori, Katsumi Inoue, Hidetomo Nabeshima, Torsten Schaub, Takehide Soh, Naoyuki Tamura, Mutsunori Banbara, | (参考訳) 本稿では,LNPS(Large Neighborhood Prioritized Search)を提案する。
LNPSはメタヒューリスティックであり、初期解から始まり、次に現在の解の探索を交互に破壊し優先順位付けすることでより良い解を見つけようとする。
近傍の変動のため、LNPSは破壊演算子に強く依存せず、柔軟な探索を可能にする。
ASP.NET に基づいた LNPS の実装を提案する。
その結果,LNPS は ASP の最適化性能を大幅に向上させることができることを示した。
さらに,LNPS手法の競争力を実証的に(適応的な)大近傍探索と対比することで確立する。
We propose Large Neighborhood Prioritized Search (LNPS) for solving combinatorial optimization problems in Answer Set Programming (ASP). LNPS is a metaheuristic that starts with an initial solution and then iteratively tries to find better solutions by alternately destroying and prioritized searching for a current solution. Due to the variability of neighborhoods, LNPS allows for flexible search without strongly depending on the destroy operators. We present an implementation of LNPS based on ASP. The resulting heulingo solver demonstrates that LNPS can significantly enhance the solving performance of ASP for optimization. Furthermore, we establish the competitiveness of our LNPS approach by empirically contrasting it to (adaptive) large neighborhood search. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# 脆弱性解析のためのデュアルグリッドカスケード故障モデル
A Dual Power Grid Cascading Failure Model for the Vulnerability Analysis ( http://arxiv.org/abs/2405.11311v1 ) ライセンス: Link先を確認 | Tianxin Zhou, Xiang Li, Haibing Lu, | (参考訳) 電力網に対する攻撃を考えると、最も効果的なアプローチの1つは、大きなカスケード障害を引き起こす送電線への攻撃である。
したがって、電力グリッドカスケード障害(PGCF)の最も重要または脆弱な伝送路を見つけるという問題は、研究会から多くの注目を集めている。
電力グリッドの脆弱性を分析することを目的とした多くの決定論的解と確率近似アルゴリズムが存在する。
しかし, 伝送線路間の相関関係を明らかにすることは困難であった。
本稿では,文中の単語の相関関係を学習するために最初に指定されたトランスフォーマーモデルにインスパイアされた注意機構を用いて,そのような相関関係を学習する手法を提案する。
情報相関行列であるアテンション行列を生成するアテンション機構を支援するために,複数の修正と調整が提案されている。
Attention Rankingアルゴリズムでは、最も重要な行を識別できる。
提案したDual PGCFモデルは、カスケード故障に対する電力グリッドのレジリエンスを改善するための、新しい効果的な解析を提供する。
Considering the attacks against the power grid, one of the most effective approaches could be the attack to the transmission lines that leads to large cascading failures. Hence, the problem of locating the most critical or vulnerable transmission lines for a Power Grid Cascading Failure (PGCF) has drawn much attention from the research society. There exists many deterministic solutions and stochastic approximation algorithms aiming to analyze the power grid vulnerability. However, it has been challenging to reveal the correlations between the transmission lines to identify the critical ones. In this paper, we propose a novel approach of learning such correlations via attention mechanism inspired by the Transformer based models that were initially designated to learn the correlation of words in sentences. Multiple modifications and adjustments are proposed to support the attention mechanism producing an informative correlation matrix, the Attention Matrix. With the Attention Ranking algorithm, we are able to identify the most critical lines. The proposed Dual PGCF model provide a novel and effective analysis to improve the power grid resilience against cascading failure, which is proved by extensive experiment results. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# MediCLIP:医療画像異常検出のためのCLIPの適応
MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection ( http://arxiv.org/abs/2405.11315v1 ) ライセンス: Link先を確認 | Ximiao Zhang, Min Xu, Dehui Qiu, Ruixin Yan, Ning Lang, Xiuzhuang Zhou, | (参考訳) 医学的意思決定の分野では、医用画像における正確な異常検出は、臨床医を支援する上で重要な役割を担っている。
しかし、従来の作業は、開発コストを増大させるような、異常検出モデルのトレーニングのための大規模なデータセットに依存していた。
本稿ではまず,データ収集とアノテーションが非常に高価である医療分野において重要な,数ショット設定における医用画像異常検出の課題に焦点をあてる。
そこで本研究では,CLIPモデルを用いた医用画像異常検出手法であるMediCLIPを提案する。
視覚言語モデルであるCLIPは、様々な下流タスクにおいて優れたゼロ/フェウショット性能を示すが、医療画像の異常検出では依然として不足している。
そこで我々は,CLIPの強力な一般化能力を医用画像異常検出タスクに移行し,医用画像の一般的な疾患パターンをシミュレートする一連の医用画像異常合成タスクを設計した。
数発の正常な医用画像が提供されただけで、他の方法と比較して異常検出や位置検出において最先端のパフォーマンスが達成される。
3つの異なる医学的異常検出タスクに関する大規模な実験は、我々のアプローチの優位性を実証した。
コードはhttps://github.com/cnulab/MediCLIPで入手できる。
In the field of medical decision-making, precise anomaly detection in medical imaging plays a pivotal role in aiding clinicians. However, previous work is reliant on large-scale datasets for training anomaly detection models, which increases the development cost. This paper first focuses on the task of medical image anomaly detection in the few-shot setting, which is critically significant for the medical field where data collection and annotation are both very expensive. We propose an innovative approach, MediCLIP, which adapts the CLIP model to few-shot medical image anomaly detection through self-supervised fine-tuning. Although CLIP, as a vision-language model, demonstrates outstanding zero-/fewshot performance on various downstream tasks, it still falls short in the anomaly detection of medical images. To address this, we design a series of medical image anomaly synthesis tasks to simulate common disease patterns in medical imaging, transferring the powerful generalization capabilities of CLIP to the task of medical image anomaly detection. When only few-shot normal medical images are provided, MediCLIP achieves state-of-the-art performance in anomaly detection and location compared to other methods. Extensive experiments on three distinct medical anomaly detection tasks have demonstrated the superiority of our approach. The code is available at https://github.com/cnulab/MediCLIP. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# Dockerベースのクラウドソフトウェアエコシステムにおけるサードパーティアプリ統合のセキュア化
Securing 3rd Party App Integration in Docker-based Cloud Software Ecosystems ( http://arxiv.org/abs/2405.11316v1 ) ライセンス: Link先を確認 | Christian Binkowski, Stefan Appel, Andreas Aßmuth, | (参考訳) オープンソフトウェアエコシステムは、サードパーティのサービスやアプリケーション、例えばアプリを使用したデータ分析、他企業やオープンソースコミュニティによる開発およびデプロイといったメリットがある。
このアプローチの大きな利点の1つは、他の顧客がこれらの新しく開発されたアプリケーションの恩恵を受ける可能性があることである。
特にコンテナ技術を利用したソフトウェアエコシステムは、ある種のリスクを伴います。
特にDockerは、ホストシステム上で直接動作するため、ハイパーバイザベースの仮想化よりも攻撃に対して脆弱である。
Dockerはコンテナ技術の代表として人気があり、このようなソフトウェアエコシステムのセットアップと作成を容易にするために軽量なアーキテクチャを提供している。
ポピュラーなインフラストラクチャ・アズ・ア・サービスプロバイダであるAmazon Web ServicesやMicrosoft Azureは、コンテナ化の帯域を拡大し、コンテナのプロビジョニングと管理のためのインターフェースを提供する。
企業はテクノロジーの変化から恩恵を受け、より効率的にソフトウェアエコシステムを構築することができる。
本稿では,サードパーティアプリ統合のためのDockerを用いたクラウドベースのソフトウェアエコシステムにおいて,セキュリティ改善のための新たな概念を提案する。
Dockerのセキュリティ機能に基づいて、クラウド環境におけるアプリケーションのセキュアな統合について説明します。
当社のアプローチでは,ソフトウェアライフサイクル全体を考慮し,ユーザに提供する前に,潜在的に危険なサードパーティアプリのサンドボックステストも実施しています。
Open software ecosystems are beneficial for customers; they benefit from 3rd party services and applications, e.g. analysis of data using apps, developed and deployed by other companies or open-source communities. One significant advantage of this approach is that other customers may benefit from these newly developed applications as well. Especially software ecosystems utilizing container technologies are prone to certain risks. Docker, in particular, is more vulnerable to attacks than hypervisor based virtualisation as it directly operates on the host system. Docker is a popular representative of containerisation technology which offers a lightweight architecture in order to facilitate the set-up and creation of such software ecosystems. Popular Infrastructure as a Service cloud service providers, like Amazon Web Services or Microsoft Azure, jump on the containerisation bandwagon and provide interfaces for provisioning and managing containers. Companies can benefit from that change of technology and create software ecosystems more efficiently. In this paper, we present a new concept for significant security improvements for cloud-based software ecosystems using Docker for 3rd party app integration. Based on the security features of Docker we describe a secure integration of applications in the cloud environment securely. Our approach considers the whole software lifecycle and includes sandbox testing of potentially dangerous 3rd party apps before these became available to the customers. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# 構造的知識表現を可能にするスムース・コルモゴロフ・アーノルドネットワーク
Smooth Kolmogorov Arnold networks enabling structural knowledge representation ( http://arxiv.org/abs/2405.11318v1 ) ライセンス: Link先を確認 | Moein E. Samadi, Younes Müller, Andreas Schuppert, | (参考訳) Kolmogorov-Arnold Networks (KANs) は、従来のマルチ層パーセプトロン(MLP)アーキテクチャに対して、ネットワークトポロジーが有限であることから、効率的かつ解釈可能な代替手段を提供する。
しかし、コルモゴロフとヴィトゥシキンの結果によれば、有限個のカットオフ点に制限された解析関数を用いたカン実装による一般的な滑らかな関数の表現は正確ではない。
したがって、訓練過程を通しての観の収束は制限される可能性がある。
本稿では, 官能の滑らかさの関連性について考察し, 官能のスムーズな構造的情報により, 特定の関数クラスにおける MLP と等価性が得られることを示唆する。
構造的知識を生かして、カンは学習に必要なデータを削減し、幻覚的予測を発生させるリスクを軽減し、計算生医学におけるモデルの信頼性と性能を向上させることができる。
Kolmogorov-Arnold Networks (KANs) offer an efficient and interpretable alternative to traditional multi-layer perceptron (MLP) architectures due to their finite network topology. However, according to the results of Kolmogorov and Vitushkin, the representation of generic smooth functions by KAN implementations using analytic functions constrained to a finite number of cutoff points cannot be exact. Hence, the convergence of KAN throughout the training process may be limited. This paper explores the relevance of smoothness in KANs, proposing that smooth, structurally informed KANs can achieve equivalence to MLPs in specific function classes. By leveraging inherent structural knowledge, KANs may reduce the data required for training and mitigate the risk of generating hallucinated predictions, thereby enhancing model reliability and performance in computational biomedicine. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# 顔合成法におけるバイアス緩和のためのサンプリング手法
Sampling Strategies for Mitigating Bias in Face Synthesis Methods ( http://arxiv.org/abs/2405.11320v1 ) ライセンス: Link先を確認 | Emmanouil Maragkoudakis, Symeon Papadopoulos, Iraklis Varlamis, Christos Diou, | (参考訳) 合成生成された画像は、メディアコンテンツの作成や、画像解析モデルをトレーニングするためのデータセットの補完に使用することができる。
近年,高忠実度顔画像の合成法がいくつか提案されているが,そのような手法がもたらす潜在的なバイアスは十分に対処されていない。
本稿では,Flickr Faces HQデータセット上で訓練されたStyleGAN2生成モデルがもたらすバイアスについて検討し,生成した顔画像の属性の表現のバランスをとるための2つのサンプリング手法を提案する。
我々は、性別と年齢という2つの保護された属性に注目し、ランダムにサンプリングされた画像が、非常に若く、非常に高齢なグループや、女性の顔に対して分布することを明らかにする。
これらのバイアスは、GIQAスコアに基づいて、画像品質の異なるレベルについても評価される。
バイアスを軽減するために,潜在空間の選択した線や球面をサンプリングする2つの方法を提案する。
実験結果から, 画像品質の異なるグループに対する偏見の低下と, 保護された特徴のより均一な分布が認められた。
Synthetically generated images can be used to create media content or to complement datasets for training image analysis models. Several methods have recently been proposed for the synthesis of high-fidelity face images; however, the potential biases introduced by such methods have not been sufficiently addressed. This paper examines the bias introduced by the widely popular StyleGAN2 generative model trained on the Flickr Faces HQ dataset and proposes two sampling strategies to balance the representation of selected attributes in the generated face images. We focus on two protected attributes, gender and age, and reveal that biases arise in the distribution of randomly sampled images against very young and very old age groups, as well as against female faces. These biases are also assessed for different image quality levels based on the GIQA score. To mitigate bias, we propose two alternative methods for sampling on selected lines or spheres of the latent space to increase the number of generated samples from the under-represented classes. The experimental results show a decrease in bias against underrepresented groups and a more uniform distribution of the protected features at different levels of image quality. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# トーラス結び目の粒子に対する新しい不確かさ原理
New Uncertainty Principle for a particle on a Torus Knot ( http://arxiv.org/abs/2405.11322v1 ) ライセンス: Link先を確認 | Madhushri Roy Chowdhury, Subir Ghosh, | (参考訳) 本研究は、トーラス結び目の移動に制約された粒子の関連する動的変数の標準偏差(SD)に従属する量子不確実性関係(UR)を扱う。
これらの変数は、トーラスに埋め込まれた結び目パスの2つの異なる周期性に従う必要があることに注意する必要がある。
一般化されたSDとその後のUR(Kennard-Robertson形式主義に従う)の形式を計算する。
これらの量には、トーラスパラメータと、後者の制約を考慮する必要がある結び目パラメータを明示的に含んでいる。
これらのことは、SDとURの計算に使用される波動関数の可能な形式の制約を誘導し、簡単な例では、2つの異なるSDとURが可能である。
一定の極限(トーラスの極限)では、我々の結果は円を移動する粒子の結果に還元される。
興味深い事実は、SDやURの場合、結び目の局所幾何学が、その位相的性質ではなく決定的な役割を果たすことである。
The present work deals with quantum Uncertainty Relations (UR) subjected to the Standard Deviations (SD) of the relevant dynamical variables for a particle constrained to move on a torus knot. It is important to note that these variables have to obey the two distinct periodicities of the knotted paths embedded on the torus. We compute generalized forms of the SDs and the subsequent URs (following the Kennard-Robertson formalism). These quantities explicitly involve the torus parameters and the knot parameters where restrictions on the latter have to be taken into account. These induce restrictions on the possible form of wave functions that are used to calculate the SDs and URs and in our simple example, two distinct SDs and URs are possible. In a certain limit (thin torus limit), our results will reduce to the results for a particle moving in a circle. An interesting fact emerges that in the case of the SDs and URs, the local geometry of the knots plays the decisive role and not their topological properties. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# ODEに基づく拡散サンプリングの軌道規則性について
On the Trajectory Regularity of ODE-based Diffusion Sampling ( http://arxiv.org/abs/2405.11326v1 ) ライセンス: Link先を確認 | Defang Chen, Zhenyu Zhou, Can Wang, Chunhua Shen, Siwei Lyu, | (参考訳) 拡散に基づく生成モデルは確率微分方程式(SDE)とその等価常微分方程式(ODE)を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
本稿では, 暗黙の擬似軌道を特徴付けるとともに, 生成内容に関係なく, 強い形状の正則性を持つサンプリング軌道を形成する上で, その重要な役割について論じる。
また、サンプリング時の時間スケジュールを基礎となる軌道構造に適合させる動的プログラミングベースのスキームについても述べる。
この単純な戦略では、任意のODEベースの数値解法に最小限の修正が必要であり、特に5\sim 10$関数評価において、画像生成において優れた性能を提供する一方で、無視可能な計算コストを発生させる。
Diffusion-based generative models use stochastic differential equations (SDEs) and their equivalent ordinary differential equations (ODEs) to establish a smooth connection between a complex data distribution and a tractable prior distribution. In this paper, we identify several intriguing trajectory properties in the ODE-based sampling process of diffusion models. We characterize an implicit denoising trajectory and discuss its vital role in forming the coupled sampling trajectory with a strong shape regularity, regardless of the generated content. We also describe a dynamic programming-based scheme to make the time schedule in sampling better fit the underlying trajectory structure. This simple strategy requires minimal modification to any given ODE-based numerical solvers and incurs negligible computational cost, while delivering superior performance in image generation, especially in $5\sim 10$ function evaluations. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# URLLC対応Vehicular Networkにおけるエンベロープ更新による汎用多目的強化学習
Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular Networks ( http://arxiv.org/abs/2405.11331v1 ) ライセンス: Link先を確認 | Zijiang Yan, Hina Tabassum, | (参考訳) 我々は,従来のサブ6GHz帯とテラヘルツ周波数で動作するマルチバンド車両ネットワークにおいて,無線ネットワーク選択と自律運転ポリシーを協調的に最適化する,新しい多目的強化学習(MORL)フレームワークを開発した。
提案するフレームワークは設計されている
一 交通の流れを最大化し
2. 車両の運動力学(速度と加速度)を制御し衝突を最小限に抑え, ハンドオフ(HO)を最小化しながら超信頼性の低遅延通信(URLLC)を強化する。
我々はこの問題を多目的マルコフ決定プロセス(MOMDP)として論じ、対立する目的の事前定義と未知の選好のソリューションを開発した。
具体的には、事前に定義された嗜好を用いて、輸送と通信の報酬をスキャラライズすることを検討するディープQ-ネットワークとダブルQ-ネットワークベースのソリューションを開発した。
次に、エージェントに未知の嗜好を持つ複数の目的に対処するポリシーを開発するための、新しいエンベロープMORLソリューションを開発する。
このアプローチはスカラー報酬への依存を減らすが、政策の有効性は好みによって異なる。
これを解決するために、ベルマン方程式の一般化版を適用し、多目的Q値の凸包絡を最適化し、あらゆる可能な選好構成に対して最適なポリシーを生成することができる統一パラメトリック表現を学習する。
最初の学習段階を経て,本エージェントは,最小限のデータサンプルから特定の選好や推論の選好の下で最適なポリシーを実行することができ,エンベロープベースのMORLソリューションの有効性を検証し,車両運動力学,HO,通信データ率の相互依存性に関する興味深い洞察を実証する。
提案されたポリシーにより、自動運転車は、接続性を改善した安全な運転行動を採用することができる。
We develop a novel multi-objective reinforcement learning (MORL) framework to jointly optimize wireless network selection and autonomous driving policies in a multi-band vehicular network operating on conventional sub-6GHz spectrum and Terahertz frequencies. The proposed framework is designed to 1. maximize the traffic flow and 2. minimize collisions by controlling the vehicle's motion dynamics (i.e., speed and acceleration), and enhance the ultra-reliable low-latency communication (URLLC) while minimizing handoffs (HOs). We cast this problem as a multi-objective Markov Decision Process (MOMDP) and develop solutions for both predefined and unknown preferences of the conflicting objectives. Specifically, deep-Q-network and double deep-Q-network-based solutions are developed first that consider scalarizing the transportation and telecommunication rewards using predefined preferences. We then develop a novel envelope MORL solution which develop policies that address multiple objectives with unknown preferences to the agent. While this approach reduces reliance on scalar rewards, policy effectiveness varying with different preferences is a challenge. To address this, we apply a generalized version of the Bellman equation and optimize the convex envelope of multi-objective Q values to learn a unified parametric representation capable of generating optimal policies across all possible preference configurations. Following an initial learning phase, our agent can execute optimal policies under any specified preference or infer preferences from minimal data samples.Numerical results validate the efficacy of the envelope-based MORL solution and demonstrate interesting insights related to the inter-dependency of vehicle motion dynamics, HOs, and the communication data rate. The proposed policies enable autonomous vehicles to adopt safe driving behaviors with improved connectivity. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# GinAR:多変量時系列予測モデル
GinAR: An End-To-End Multivariate Time Series Forecasting Model Suitable for Variable Missing ( http://arxiv.org/abs/2405.11333v1 ) ライセンス: Link先を確認 | Chengqing Yu, Fei Wang, Zezhi Shao, Tangwen Qian, Zhao Zhang, Wei Wei, Yongjun Xu, | (参考訳) 多変量時系列予測(MTSF)は、複数のシーケンスの歴史的観測から同定された複雑な関係に基づいて、将来的な値やトレントを正確に予測するために決定に不可欠である。
近年、時空間グラフニューラルネットワーク(STGNN)は、時間空間依存のマイニングにおける強力な能力としてMTSFモデルのテーマとなっているが、そのほとんどが歴史的データの完全性の仮定に大きく依存している。
実際、データコレクターの障害や時間を要する修復などの要因のため、変数を欠くことなく過去の観測全体を収集することは極めて困難である。
この場合、STGNNは正規変数のサブセットしか利用できず、不正確な時空間依存性モデリング問題に容易に悩まされ、予測性能が低下する。
この問題に対処するため,本稿では,限られた収集データに対する空間的依存を正確にモデル化するグラフ補間注意再帰ネットワーク(GinAR)を提案する。
GinARでは、補間注意と適応グラフの畳み込みという2つの重要な要素で構成されており、単純な再帰単位の完全連結層で起こる。
5つの実世界のデータセットで実施された大規模な実験は、GinARが11SOTAベースラインを上回り、90%の変数が欠けている場合でも、すべての変数の将来の値を正確に予測できることを示した。
Multivariate time series forecasting (MTSF) is crucial for decision-making to precisely forecast the future values/trends, based on the complex relationships identified from historical observations of multiple sequences. Recently, Spatial-Temporal Graph Neural Networks (STGNNs) have gradually become the theme of MTSF model as their powerful capability in mining spatial-temporal dependencies, but almost of them heavily rely on the assumption of historical data integrity. In reality, due to factors such as data collector failures and time-consuming repairment, it is extremely challenging to collect the whole historical observations without missing any variable. In this case, STGNNs can only utilize a subset of normal variables and easily suffer from the incorrect spatial-temporal dependency modeling issue, resulting in the degradation of their forecasting performance. To address the problem, in this paper, we propose a novel Graph Interpolation Attention Recursive Network (named GinAR) to precisely model the spatial-temporal dependencies over the limited collected data for forecasting. In GinAR, it consists of two key components, that is, interpolation attention and adaptive graph convolution to take place of the fully connected layer of simple recursive units, and thus are capable of recovering all missing variables and reconstructing the correct spatial-temporal dependencies for recursively modeling of multivariate time series data, respectively. Extensive experiments conducted on five real-world datasets demonstrate that GinAR outperforms 11 SOTA baselines, and even when 90% of variables are missing, it can still accurately predict the future values of all variables. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# 説明可能なグラフニューラルネットワークによる複雑多段階攻撃の検出
Detecting Complex Multi-step Attacks with Explainable Graph Neural Network ( http://arxiv.org/abs/2405.11335v1 ) ライセンス: Link先を確認 | Wei Liu, Peng Gao, Haotian Zhang, Ke Li, Weiyong Yang, Xingshen Wei, Shuji Wu, | (参考訳) 複雑な多段階攻撃は、多くの重要なインフラに大きな損傷を与えた。
このような攻撃を検出するために、グラフニューラルネットワークに基づく手法は、システムのイベントをグラフとしてモデル化することで、有望な結果を示している。
しかし、既存のメソッドは、実際にデプロイする際にも、いくつかの課題に直面している。
第一に、特に大量の通常のデータを考えると、十分な実際の攻撃データが不足している。
第二に、イベントグラフのモデリングは、その動的で不均一な性質のために困難である。
第三に、学習モデルにおける説明の欠如は、生産環境におけるそのような手法の信頼性を損なう。
そこで本稿では,攻撃検出手法であるTrace2Vecを提案する。
このアプローチはまず、希少な攻撃サンプルを増やすための浸食関数を設計し、イベントグラフに統合する。
次に、連続時間動的異種グラフニューラルネットワークを介してイベントグラフをモデル化する。
最後に、モンテカルロ木探索アルゴリズムを用いて、攻撃により大きな貢献をした事象を識別し、検出結果の説明可能性を高める。
我々はTrace2Vecのプロトタイプを実装し、実験により既存の手法と比較して優れた検出性能と説明性能を示した。
Complex multi-step attacks have caused significant damage to numerous critical infrastructures. To detect such attacks, graph neural network based methods have shown promising results by modeling the system's events as a graph. However, existing methods still face several challenges when deployed in practice. First, there is a lack of sufficient real attack data especially considering the large volume of normal data. Second, the modeling of event graphs is challenging due to their dynamic and heterogeneous nature. Third, the lack of explanation in learning models undermines the trustworthiness of such methods in production environments. To address the above challenges, in this paper, we propose an attack detection method, Trace2Vec. The approach first designs an erosion function to augment rare attack samples, and integrates them into the event graphs. Next, it models the event graphs via a continuous-time dynamic heterogeneous graph neural network. Finally, it employs the Monte Carlo tree search algorithm to identify events with greater contributions to the attack, thus enhancing the explainability of the detection result. We have implemented a prototype for Trace2Vec, and the experimental evaluations demonstrate its superior detection and explanation performance compared to existing methods. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# UPAM:テキスト・ツー・イメージ生成モデルにおけるテキスト・フィルタとビジュアル・チェッカーの両方に対する統一されたプロンプト・アタック
UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers ( http://arxiv.org/abs/2405.11336v1 ) ライセンス: Link先を確認 | Duo Peng, Qiuhong Ke, Jun Liu, | (参考訳) テキスト・ツー・イメージ(T2I)モデルでは、不適切な画像や有害な画像を生成する可能性があるため、セキュリティ上の懸念が高まっている。
本稿では,攻撃の観点からT2Iモデルのロバスト性を調べる新しいフレームワークであるUPAMを提案する。
既存の攻撃方法とは異なり、UPAMはT2Iモデルにおけるテキストと視覚の両方の防御を欺くことを目的としている。
UPAMは勾配に基づく最適化を可能にし、従来の方法よりも高い効率と効率を提供する。
T2Iモデルが防御機構によって結果を返すことができないことを考慮し、結果が返されない場合でも勾配最適化をサポートするSPL(Sphere-Probing Learning)方式を導入する。
さらに、セマンティック・エンハンシング・ラーニング(SEL)方式を考案し、UPAMを微調整し、目標に整列した画像を生成する。
私たちのフレームワークは、攻撃のステルス性も保証します。
大規模な実験はUPAMの有効性と効率を実証している。
Text-to-Image (T2I) models have raised security concerns due to their potential to generate inappropriate or harmful images. In this paper, we propose UPAM, a novel framework that investigates the robustness of T2I models from the attack perspective. Unlike most existing attack methods that focus on deceiving textual defenses, UPAM aims to deceive both textual and visual defenses in T2I models. UPAM enables gradient-based optimization, offering greater effectiveness and efficiency than previous methods. Given that T2I models might not return results due to defense mechanisms, we introduce a Sphere-Probing Learning (SPL) scheme to support gradient optimization even when no results are returned. Additionally, we devise a Semantic-Enhancing Learning (SEL) scheme to finetune UPAM for generating target-aligned images. Our framework also ensures attack stealthiness. Extensive experiments demonstrate UPAM's effectiveness and efficiency. | 翻訳日:2024-05-21 18:18:48 公開日:2024-05-18 |
# アクティブラーニングとアウト・オブ・ディストリビューション検出への統一的アプローチ
A Unified Approach Towards Active Learning and Out-of-Distribution Detection ( http://arxiv.org/abs/2405.11337v1 ) ライセンス: Link先を確認 | Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann, | (参考訳) オープンワールドシナリオにディープラーニングモデルを適用する場合、ラベル候補をほぼ無限のラベル付きデータから識別するためには、アクティブラーニング(AL)戦略が不可欠である。
この文脈では、アプリケーションのターゲット分布外のデータを扱うために、堅牢なアウト・オブ・ディストリビューション(OOD)検出メカニズムが不可欠である。
しかし、現在の研究は両方の問題を別々に調査している。
本研究では,AL検出とOOD検出の両方において,SISOMを最初の統合ソリューションとして紹介する。
特徴空間距離メトリクスを活用することで、SISOMは、現在独立したタスクの強みを組み合わせて、両方を効果的に解決する。
両タスク間の移動時に発生する問題を示す広範な実験を行う。
これらの評価において、SISOMは広く使われている2つのOpenOODベンチマークで1位、残る2つのベンチマークで2位を獲得し、その効果を下方修正した。
ALでは、SISOMは他より優れ、3つのベンチマークでトップ1のパフォーマンスを提供する
When applying deep learning models in open-world scenarios, active learning (AL) strategies are crucial for identifying label candidates from a nearly infinite amount of unlabeled data. In this context, robust out-of-distribution (OOD) detection mechanisms are essential for handling data outside the target distribution of the application. However, current works investigate both problems separately. In this work, we introduce SISOM as the first unified solution for both AL and OOD detection. By leveraging feature space distance metrics SISOM combines the strengths of the currently independent tasks to solve both effectively. We conduct extensive experiments showing the problems arising when migrating between both tasks. In these evaluations SISOM underlined its effectiveness by achieving first place in two of the widely used OpenOOD benchmarks and second place in the remaining one. In AL, SISOM outperforms others and delivers top-1 performance in three benchmarks | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# EyeFound:眼科画像のためのマルチモーダル・ジェネリスト・ファンデーションモデル
EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging ( http://arxiv.org/abs/2405.11338v1 ) ライセンス: Link先を確認 | Danli Shi, Weiyi Zhang, Xiaolan Chen, Yexin Liu, Jianchen Yang, Siyu Huang, Yih Chung Tham, Yingfeng Zheng, Mingguang He, | (参考訳) 人工知能(AI)は、眼科、診断、分類、視覚的質問応答(VQA)といったタスクに取り組む上で不可欠である。
しかし、この領域の既存のAIモデルは、広範囲のアノテーションを必要とし、その臨床的有用性を制限するタスク固有であることが多い。
近年、眼科の基礎モデルが開発されているが、画像のモダリティごとに異なる重みを訓練する必要があるため、マルチモーダルな特徴の包括的表現が妨げられている。
これは眼科における様々なタスクやモダリティを扱える汎用基盤モデルの必要性を強調している。
このギャップに対処するため,眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。
既存のモデルとは異なり、EyeFoundはラベルのないマルチモーダル網膜画像から一般化可能な表現を学び、複数のアプリケーションにまたがる効率的なモデル適応を可能にする。
EyeFoundは、11の眼科領域にまたがる227の病院の278万の画像に基づいて訓練されており、難治性の稀な疾患を検出することさえも、汎用的な表現と多様なマルチモーダルな下流のタスクを促進している。
眼疾患の診断、全身疾患の予知、ゼロショットマルチモーダルVQAにおいて、RETFoundよりも優れていた。
EyeFoundは、モデルパフォーマンスを改善し、専門家のアノテーション負担を軽減するための一般化可能なソリューションを提供する。
Artificial intelligence (AI) is vital in ophthalmology, tackling tasks like diagnosis, classification, and visual question answering (VQA). However, existing AI models in this domain often require extensive annotation and are task-specific, limiting their clinical utility. While recent developments have brought about foundation models for ophthalmology, they are limited by the need to train separate weights for each imaging modality, preventing a comprehensive representation of multi-modal features. This highlights the need for versatile foundation models capable of handling various tasks and modalities in ophthalmology. To address this gap, we present EyeFound, a multimodal foundation model for ophthalmic images. Unlike existing models, EyeFound learns generalizable representations from unlabeled multimodal retinal images, enabling efficient model adaptation across multiple applications. Trained on 2.78 million images from 227 hospitals across 11 ophthalmic modalities, EyeFound facilitates generalist representations and diverse multimodal downstream tasks, even for detecting challenging rare diseases. It outperforms previous work RETFound in diagnosing eye diseases, predicting systemic disease incidents, and zero-shot multimodal VQA. EyeFound provides a generalizable solution to improve model performance and lessen the annotation burden on experts, facilitating widespread clinical AI applications from retinal imaging. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# セキュアでプライバシフレンドリーなロギングスキーム
A Secure and Privacy-Friendly Logging Scheme ( http://arxiv.org/abs/2405.11341v1 ) ライセンス: Link先を確認 | Andreas Aßmuth, Robert Duncan, Simon Liebl, Matthias Söllner, | (参考訳) 監査トレースロギングのための堅牢なセキュリティメカニズムを見つけることは、長い間、不十分な目標でした。
これには多くの理由がある。
中でも最も重要なのは、監査パスが攻撃者が捕まらないようにするための、高度に追求されていることだ。
そのため彼らは、企業がこの価値ある目標を達成できないよう、信じられないほど強力なインセンティブを持っている。
欧州連合(EU)の一般データ保護規則(General Data Protection Regulation)のような規制は、攻撃者による侵入が成功した場合の罰金の処罰によって、企業がこの分野で成功するための強いインセンティブをもたらしている。
我々は、暗号化された記録を真の不変データベースに保存する暗号化された監査証跡プロセスを使用することで、監査証跡記録が永久に暗号化形式で保持されることを保証し、その記録が損なわれないようにすることで、この問題を解決しようとしている。
これにより、General Data Protection Regulationへの準拠が達成される。
Finding a robust security mechanism for audit trail logging has long been a poorly satisfied goal. There are many reasons for this. The most significant of these is that the audit trail is a highly sought after goal of attackers to ensure that they do not get caught. Thus they have an incredibly strong incentive to prevent companies from succeeding in this worthy aim. Regulation, such as the European Union General Data Protection Regulation, has brought a strong incentive for companies to achieve success in this area due to the punitive level of fines that can now be levied in the event of a successful breach by an attacker. We seek to resolve this issue through the use of an encrypted audit trail process that saves encrypted records to a true immutable database, which can ensure audit trail records are permanently retained in encrypted form, with no possibility of the records being compromised. This ensures compliance with the General Data Protection Regulation can be achieved. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# ランダム行列を1次元ハミルトニアンとする自由フェルミオンの絡み合いエントロピー
Entanglement Entropy of Free Fermions with a Random Matrix as a One-Body Hamiltonian ( http://arxiv.org/abs/2405.11342v1 ) ライセンス: Link先を確認 | L. Pastur, V. Slavin, | (参考訳) 我々は、$N$と$L$のサブシステムは、$N$が$L$よりもはるかに大きいと仮定して、$N$と$L$のサブシステムを考える。
このヒューリスティック不等式の広く受け入れられている数学的バージョンは、連続極限の漸近的体系である: まず、マクロ的極限$N \to \infty$、次に、エントロピーのエントロピーの漸近的解析は、$L \to \infty$である。
漸近的に比例する$L$と$N$、即ち同時極限$L \to \infty,\; N \to \infty, L/N \to \lambda >0$である。
具体的には、基底状態にある自由フェルミオンの系と、その一体ハミルトニアンが大きなランダム行列であることを考える。
ランダムマトリクス理論を用いて、この場合、絡み合いエントロピーは短距離ホッピングを持つ系で知られている体積法則に従うが、混合状態またはハミルトニアンの純粋に強い励起状態によって記述されることを示す。
また、幅広い種類の典型的な基底状態に対するブラックホール放射の絡み合いエントロピーに対するペイジの公式の合理化証明を行い、この公式の普遍性を証明した。
We consider a quantum system of large size $N$ and its subsystem of size $L$ assuming that $N$ is much larger than $L$, which can also be sufficiently large, i.e., $1 \ll L \lesssim N $. A widely accepted mathematical version of this heuristic inequality is the asymptotic regime of successive limits: first the macroscopic limit $N \to \infty$, then an asymptotic analysis of the entanglement entropy as $L \to \infty$. In this paper, we consider another version of the above heuristic inequality: the regime of asymptotically proportional $L$ and $N$, i.e., the simultaneous limits $L \to \infty,\; N \to \infty, L/N \to \lambda >0$. Specifically, we consider the system of free fermions which is in its ground state and such that its one-body Hamiltonian is a large random matrix, that is often used to model the long-range hopping. By using random matrix theory, we show that in this case, the entanglement entropy obeys the volume law known for systems with short-ranged hopping but described either by a mixed state or a pure strongly excited state of the Hamiltonian. We also give a streamlined proof of Page's formula for the entanglement entropy of the black hole radiation for a wide class of typical ground states, thereby proving the universality of the formula. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# マルチタスクコントラスト学習の有効利用によるコンテンツ理解の改善
Improved Content Understanding With Effective Use of Multi-task Contrastive Learning ( http://arxiv.org/abs/2405.11344v1 ) ライセンス: Link先を確認 | Akanksha Bindal, Sudarshan Ramanujam, Dave Golland, TJ Hazen, Tina Jiang, Fengyu Zhang, Peng Yan, | (参考訳) LinkedInのコアコンテンツレコメンデーションモデルを強化する上で、重要な課題はセマンティック理解機能の改善である。
本稿では,様々な領域において有望な手法であるマルチタスク学習を活用することで,この問題に対処する。
多様なセマンティックラベリングタスクから得られたデータとマルチタスクのコントラスト学習を用いて、事前学習されたトランスフォーマーベースのLLMを微調整する。
我々は前向きな移行を観察し、各タスクのトレーニングを独立して行う場合と比較して、すべてのタスクにおいて優れたパフォーマンスをもたらす。
我々のモデルはゼロショット学習のベースラインを上回り、多言語サポートの改善を提供し、より広範なアプリケーションの可能性を強調している。
当社のモデルが生成した特殊なコンテンツ埋め込みは,Linkedinデータセットとタスク上でOpenAIが提供する汎用的な埋め込みよりも優れています。
この作業は、LLMを特定のアプリケーションにカスタマイズし、微調整するLinkedInの垂直チームにとって、堅牢な基盤を提供する。
私たちの仕事は、現場を構築するための洞察とベストプラクティスを提供します。
In enhancing LinkedIn core content recommendation models, a significant challenge lies in improving their semantic understanding capabilities. This paper addresses the problem by leveraging multi-task learning, a method that has shown promise in various domains. We fine-tune a pre-trained, transformer-based LLM using multi-task contrastive learning with data from a diverse set of semantic labeling tasks. We observe positive transfer, leading to superior performance across all tasks when compared to training independently on each. Our model outperforms the baseline on zero shot learning and offers improved multilingual support, highlighting its potential for broader application. The specialized content embeddings produced by our model outperform generalized embeddings offered by OpenAI on Linkedin dataset and tasks. This work provides a robust foundation for vertical teams across LinkedIn to customize and fine-tune the LLM to their specific applications. Our work offers insights and best practices for the field to build on. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# 自己監督型カメラリンクモデルの改良による都市規模多カメラ車両追跡システム
City-Scale Multi-Camera Vehicle Tracking System with Improved Self-Supervised Camera Link Model ( http://arxiv.org/abs/2405.11345v1 ) ライセンス: Link先を確認 | Yuqiang Lin, Sam Lockyer, Adrian Evans, Markus Zarbock, Nic Zhang, | (参考訳) MTMCT(Multi-Target Multi-Camera Tracking)は幅広い用途を持ち、将来の都市全体(交通管理、事故検出など)の基盤となっている。
しかし、特徴抽出のみに基づく異なるカメラ間の車両軌道の整合性の課題は、重大な困難を招いている。
本稿では,自己監督型カメラリンクモデルを用いた,革新的なマルチカメラ車両追跡システムを提案する。
手動の時空間アノテーションに依存する関連する作業とは対照的に,本モデルは車両マッチングにおいて重要なマルチカメラ関係を自動的に抽出する。
カメラリンクは、高品質トラックの特徴的類似性、ペア数、時間差を評価する事前マッチングプロセスによって確立される。
このプロセスは、すべてのカメラの組み合わせにおける空間リンクの確率を計算し、最高スコアのペアを選択してカメラリンクを作成する。
我々のアプローチは、人間のアノテーションの必要性を排除し、実世界のアプリケーションにおける効率性とコスト効率を大幅に改善することで、デプロイメント時間を大幅に改善します。
このペアリングプロセスは、空間的時間的制約を設定することでクロスカメラマッチングをサポートし、潜在的な車両マッチングの検索スペースを削減する。
実験結果によると,提案手法は61.07%のIDF1スコアを有するCityFlow V2ベンチマークにおいて,自動カメラリンク方式の新たな最先端化を実現している。
Multi-Target Multi-Camera Tracking (MTMCT) has broad applications and forms the basis for numerous future city-wide systems (e.g. traffic management, crash detection, etc.). However, the challenge of matching vehicle trajectories across different cameras based solely on feature extraction poses significant difficulties. This article introduces an innovative multi-camera vehicle tracking system that utilizes a self-supervised camera link model. In contrast to related works that rely on manual spatial-temporal annotations, our model automatically extracts crucial multi-camera relationships for vehicle matching. The camera link is established through a pre-matching process that evaluates feature similarities, pair numbers, and time variance for high-quality tracks. This process calculates the probability of spatial linkage for all camera combinations, selecting the highest scoring pairs to create camera links. Our approach significantly improves deployment times by eliminating the need for human annotation, offering substantial improvements in efficiency and cost-effectiveness when it comes to real-world application. This pairing process supports cross camera matching by setting spatial-temporal constraints, reducing the searching space for potential vehicle matches. According to our experimental results, the proposed method achieves a new state-of-the-art among automatic camera-link based methods in CityFlow V2 benchmarks with 61.07% IDF1 Score. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# ビッグデータとLLMを用いた森林火災管理のための意思決定支援システム
Decision support system for Forest fire management using Ontology with Big Data and LLMs ( http://arxiv.org/abs/2405.11346v1 ) ライセンス: Link先を確認 | Ritesh Chandra, Shashi Shekhar Kumar, Rushil Patra, Sonali Agarwal, | (参考訳) 森林は生態系のバランスに不可欠であるが、森林破壊の大きな原因である山火事は重大なリスクをもたらす。
火災リスクを評価し、資源需要を予測する火災指標が不可欠である。
医療や環境モニタリングなどの分野におけるセンサネットワークの増加に伴い、風速、温度、湿度などの気候データ収集にセマンティックセンサーネットワークが利用されるようになった。
しかし、これらのデータストリームを処理して気象指標を決定することは、効果的な森林火災検知の重要性の高まりを浮き彫りにしている。
本稿では,Apache Sparkによる森林火災の早期検出,気象・地理データによる火災リスク予測の強化について論じる。
本研究では,モンスタール自然公園における森林火災管理のためのセマンティック・センサ・ネットワーク(SSN)オントロジーとセマンティック・ウェブ・ルール言語(SWRL)を開発し,大規模言語モデル(LLM)とスパーク・フレームワークを用いた意思決定支援システム(DSS)の改良に向けてSWRLを拡張した。
私たちはSparkストリーミングでリアルタイムアラートを実装し、さまざまなファイアシナリオに合わせて、オントロジーメトリクス、クエリベースの評価、LLMスコアの精度、F1スコア、リコール測定を使用して、アプローチを検証しました。
Forests are crucial for ecological balance, but wildfires, a major cause of forest loss, pose significant risks. Fire weather indices, which assess wildfire risk and predict resource demands, are vital. With the rise of sensor networks in fields like healthcare and environmental monitoring, semantic sensor networks are increasingly used to gather climatic data such as wind speed, temperature, and humidity. However, processing these data streams to determine fire weather indices presents challenges, underscoring the growing importance of effective forest fire detection. This paper discusses using Apache Spark for early forest fire detection, enhancing fire risk prediction with meteorological and geographical data. Building on our previous development of Semantic Sensor Network (SSN) ontologies and Semantic Web Rules Language (SWRL) for managing forest fires in Monesterial Natural Park, we expanded SWRL to improve a Decision Support System (DSS) using a Large Language Models (LLMs) and Spark framework. We implemented real-time alerts with Spark streaming, tailored to various fire scenarios, and validated our approach using ontology metrics, query-based evaluations, LLMs score precision, F1 score, and recall measures. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# 自動ゲームテストのための協調型マルチエージェントアプローチ
Cooperative Multi-agent Approach for Automated Computer Game Testing ( http://arxiv.org/abs/2405.11347v1 ) ライセンス: Link先を確認 | Samira Shirzadeh-hajimahmood, I. S. W. B. Prasteya, Mehdi Dastani, Frank Dignum, | (参考訳) コンピュータゲームの自動テストは、特に長期シナリオのテストが必要な場合、難しい問題である。
このようなシナリオの自動化は、シナリオの抽象的な記述から、相互作用の正しいシーケンスを見つけることに起因します。
最近の研究によると、エージェントベースのアプローチは、例えばエージェントの反応性のためにうまく機能し、テストエージェントはすぐにゲームイベントや状態の変化に反応できる。
現在、多くのゲームがマルチプレイヤーである。
これは、例えば複数のテストタスクの実行を高速化するために、そのようなゲームをテストするために複数の協調テストエージェントをデプロイする興味深い可能性を開く。
本稿では,ラボ・リクルート(Lab Recruits)と呼ばれる3Dゲームにおけるケーススタディに基づく,協調型マルチエージェント・テスト手法とその性能に関する研究について述べる。
Automated testing of computer games is a challenging problem, especially when lengthy scenarios have to be tested. Automating such a scenario boils down to finding the right sequence of interactions given an abstract description of the scenario. Recent works have shown that an agent-based approach works well for the purpose, e.g. due to agents' reactivity, hence enabling a test agent to immediately react to game events and changing state. Many games nowadays are multi-player. This opens up an interesting possibility to deploy multiple cooperative test agents to test such a game, for example to speed up the execution of multiple testing tasks. This paper offers a cooperative multi-agent testing approach and a study of its performance based on a case study on a 3D game called Lab Recruits. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# アルゴリズムの特徴を解き放つ:アルゴリズム選択のための一般化解析
Unlock the Power of Algorithm Features: A Generalization Analysis for Algorithm Selection ( http://arxiv.org/abs/2405.11349v1 ) ライセンス: Link先を確認 | Xingyu Wu, Yan Zhong, Jibin Wu, Yuxiao Huang, Shenghao Wu, Kay Chen Tan, | (参考訳) アルゴリズム選択研究の分野では、アルゴリズムの特徴を取り巻く議論は問題の特徴に重点を置いていることから、かなり影が隠れている。
アルゴリズム特徴の有効性に関する実証的研究はいくつかあるが、アルゴリズム選択モデルにアルゴリズム特徴を組み込むことの潜在的な利点は明らかでない。
経験的研究にのみ依存することは、性能変動のメカニズムを適切に解明できないことは明らかである。
本稿では,アルゴリズムの特徴に基づくアルゴリズム選択の証明可能な最初の保証を提案し,一般化の観点から,このギャップに対処する。
アルゴリズムの特徴にかかわる利点とコストを分析し、一般化誤差がいくつかの要因によってどのように影響を受けるかを検討する。
具体的には,帰納的学習パラダイムと帰納的学習パラダイムに基づく適応的および事前定義されたアルゴリズム機能について検討し,モデルのRadecher複雑性に基づく一般化誤差の上限を導出する。
理論的には, モデル複雑度, 問題事例数, 候補アルゴリズム数, モデルパラメータと特徴値, トレーニングセットとテストセット間の分布差など, 様々な要因の影響について分析的な知見を提供する。
特に,アルゴリズムの特徴に基づくモデルは,複雑なマルチアルゴリズムシナリオにおける問題特徴のみに依存する従来のモデルよりも優れており,特に分布シフトのシナリオにおいて,一般化誤差がトレーニングとテストセット間のチ二乗距離と正の相関を示すのに適していることを示す。
In the field of algorithm selection research, the discussion surrounding algorithm features has been significantly overshadowed by the emphasis on problem features. Although a few empirical studies have yielded evidence regarding the effectiveness of algorithm features, the potential benefits of incorporating algorithm features into algorithm selection models and their suitability for different scenarios remain unclear. It is evident that relying solely on empirical research cannot adequately elucidate the mechanisms underlying performance variations. In this paper, we address this gap by proposing the first provable guarantee for algorithm selection based on algorithm features, taking a generalization perspective. We analyze the benefits and costs associated with algorithm features and investigate how the generalization error is affected by several factors. Specifically, we examine adaptive and predefined algorithm features under transductive and inductive learning paradigms, respectively, and derive upper bounds for the generalization error based on their model's Rademacher complexity. Our theoretical findings not only provide tight upper bounds, but also offer analytical insights into the impact of various factors, including model complexity, the number of problem instances and candidate algorithms, model parameters and feature values, and distributional differences between the training and test sets. Notably, we demonstrate that algorithm feature-based models outperform traditional models relying solely on problem features in complex multi-algorithm scenarios in terms of generalization, and are particularly well-suited for deployment in scenarios under distribution shifts, where the generalization error exhibits a positive correlation with the chi-square distance between training and test sets. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# クラウドセキュリティとセキュリティの課題を再考
Cloud Security and Security Challenges Revisited ( http://arxiv.org/abs/2405.11350v1 ) ライセンス: Link先を確認 | Fabian Süß, Marco Freimuth, Andreas Aßmuth, George R. S. Weir, Bob Duncan, | (参考訳) 近年、クラウドコンピューティングはローカルビジネスを変革し、インターネット上で新しいビジネスモデルを生み出している。
しかし、初期の強調的な誇大広告の後、クラウドサービスに対するより現実的な認識が浮上した。
この理由の1つは、今日ではクラウドコンピューティングが確立され、受け入れられた技術であり、もはや技術的新奇さではないと考えていることである。
しかし、この評価の2番目の理由は、クラウドコンピューティング全般や特定のクラウドサービスがそれ以来経験してきた多くのセキュリティ問題である。
本稿では,近年公表されているクラウドサービスとクラウド関連攻撃ベクトルに対する攻撃について再検討する。
次に、これらの課題に対処するための成功または提案されたソリューションを検討します。
これらの結果に基づいて、セキュリティメトリクスを適用して、これらのクラウド関連のセキュリティ課題の深刻度をランク付けする。
これにより、セキュリティ専門家はこれらの問題に対処するための努力を優先順位付けできる。
In recent years, Cloud Computing has transformed local businesses and created new business models on the Internet- and Cloud services are still flourishing. But after the emphatic hype in the early years, a more realistic perception of Cloud services has emerged. One reason for this surely is that today, Cloud Computing is considered as an established and well-accepted technology and no longer as a technical novelty. But the second reason for this assessment might also be numerous security issues that Cloud Computing in general or specific Cloud services have experienced since then. In this paper, we revisit attacks on Cloud services and Cloud-related attack vectors that have been published in recent years. We then consider successful or proposed solutions to cope with these challenges. Based on these findings, we apply a security metric in order to rank all these Cloud-related security challenges concerning their severity. This should assist security professionals to prioritize their efforts toward addressing these issues. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# PlantTracing:CentralTrackでSirodopsis Thaliana Apexを追跡
PlantTracing: Tracing Arabidopsis Thaliana Apex with CenterTrack ( http://arxiv.org/abs/2405.11351v1 ) ライセンス: Link先を確認 | Yuanzhe Liu, Yixiang Mao, Yao Wang, | (参考訳) この研究は、エンコーダデコーダベースの機械学習ネットワークを使用して、シロイヌナズナの花茎頂点の運動と成長を検出し、追跡する。
機械学習のバックエンドネットワークであるCenterTrackに基づいて、10のタイムラプスラベル付きビデオに基づいてモデルをトレーニングし、3つのビデオに対してテストしました。
This work applies an encoder-decoder-based machine learning network to detect and track the motion and growth of the flowering stem apex of Arabidopsis Thaliana. Based on the CenterTrack, a machine learning back-end network, we trained a model based on ten time-lapsed labeled videos and tested against three videos. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# NTTSuite: 暗号化計算の高速化のための数値理論変換ベンチマーク
NTTSuite: Number Theoretic Transform Benchmarks for Accelerating Encrypted Computation ( http://arxiv.org/abs/2405.11353v1 ) ライセンス: Link先を確認 | Juran Ding, Yuanzhe Liu, Lingbin Sun, Brandon Reagen, | (参考訳) プライバシーに関する懸念がプライバシー保護の計算をスポットライトに押し付けている。
ホモモルフィック暗号化(HE)は、暗号化されたデータに直接計算を実行できる暗号化システムであり、今日享受しているのと同じサービスを使用しながら、強力なプライバシ(およびセキュリティ)保証を提供する。
HEは有望だが、非常に高い計算オーバーヘッドのためにほとんど採用されていない。
ホモモルフィック暗号(homomorphic encryption, HE)は、暗号化されたデータ上で直接計算を行うことができる暗号システムである。
本稿では, HEの減速源である数理論変換(NTT)を研究することによって, 研究者がこれらのオーバーヘッドによりうまく対処できるベンチマークスイートNTTSuiteを開発した。
NTTSuiteは、CPU(C++)、GPU(CUDA)、カスタムハードウェア(Catapult HLS)をサポートする7つの独自のNTTアルゴリズムを構成する。
さらに,FPGA上で動作するNTTの性能向上のための最適化を提案する。
我々の実装は最先端の技術を30%上回っている。
Privacy concerns have thrust privacy-preserving computation into the spotlight. Homomorphic encryption (HE) is a cryptographic system that enables computation to occur directly on encrypted data, providing users with strong privacy (and security) guarantees while using the same services they enjoy today unprotected. While promising, HE has seen little adoption due to extremely high computational overheads, rendering it impractical. Homomorphic encryption (HE) is a cryptographic system that enables computation to occur directly on encrypted data. In this paper we develop a benchmark suite, named NTTSuite, to enable researchers to better address these overheads by studying the primary source of HE's slowdown: the number theoretic transform (NTT). NTTSuite constitutes seven unique NTT algorithms with support for CPUs (C++), GPUs (CUDA), and custom hardware (Catapult HLS).In addition, we propose optimizations to improve the performance of NTT running on FPGAs. We find our implementation outperforms the state-of-the-art by 30%. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# パリティ変形場を媒介とする量子電池の充電
Charging a Quantum Battery Mediated by Parity-Deformed Fields ( http://arxiv.org/abs/2405.11356v1 ) ライセンス: Link先を確認 | Bashir Mojaveri, Rasoul Jafarzadeh Bahrbeig, Mohammad Ali Fasihi, | (参考訳) クビット電池とクビット充電器から構成されるクビットベースのオープン量子電池(QB)のワイヤレス充電性能に,環境モードのパリティ変形が与える影響について検討した。
パリティ変形は、場の非線形性や、クビット環境強度依存結合をもたらす。
我々は、弱い結合状態と強い結合状態の両方において、充電エネルギー、効率、エルゴトロピーなどの詳細な充電特性を分析し、充電性能を向上させる上で、メディエータ環境のメモリ効果が重要であることを示す。
強結合系では、環境場のパリティ変形がチャージャーバッテリ系の非マルコビアン量子メモリをさらに引き起こし、非マルコビアン性に基づくQB充電性能を向上させることができる。
驚いたことに、充電過程がパリティ変形のないマルコフ過程であれば、パリティ変形はチャージャー・バタリー力学におけるメモリ効果を誘導し、マルコフ過程を非マルコフ過程に変換することができる。
この研究は、環境との結合の適切なエンジニアリングは、環境を介する電池の充電に有利にするために、基礎となる充電プロセスに余分な量子メモリソースを導入することができることを強調している。
We study the effect of parity deformation of the environmental field modes on the wireless charging performance of a qubit-based open quantum battery (QB) consisting of a qubit-battery and a qubit-charger, where there is no direct interaction between the qubits and battery is charged by the mediation of the environment. The parity deformation introduces field nonlinearities as well as qubit-environment intensity-dependent couplings. We analyze in detail charging characteristics, including the charging energy, efficiency and ergotropy in both the weak and strong coupling regimes, and show that the memory effects of mediator environment are critical in enhancing the charging performance. In the strong coupling regime, parity deformation of the environment fields can further trigger non-Markovian quantum memory of the charger-battery system, thereby enhancing the QB charging performance based on the non-Markovianity. Surprisingly, if the charging process is Markovian in the absence of the parity deformation, parity deformation is able to induce memory effects in the charger-battery dynamics and transforms the Markovian process to the non-Markovian one. This work highlights that proper engineering of the coupling to an environment can introduce an extra quantum memory source to the underlying charging process in favor of environment-mediated charging of the battery. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# 大言語モデルによる単語の文字構成の理解の欠如
Large Language Models Lack Understanding of Character Composition of Words ( http://arxiv.org/abs/2405.11357v1 ) ライセンス: Link先を確認 | Andrew Shin, Kunitake Kaneko, | (参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。
しかし、LLMの成功は、言葉、文、文書に関するタスクに大きく制限されており、文字の最小単位、すなわち文字がどの程度理解されているかは疑問視されている。
本稿では,文章の文字構成を理解する能力について,現代LLMについて検討し,そのほとんどが完璧に人間が扱える簡単なタスクであっても確実に実行できないことを示す。
トークンレベルのパフォーマンスと比較して,それらの挙動を分析し,今後の研究の方向性について考察する。
Large language models (LLMs) have demonstrated remarkable performances on a wide range of natural language tasks. Yet, LLMs' successes have been largely restricted to tasks concerning words, sentences, or documents, and it remains questionable how much they understand the minimal units of text, namely characters. In this paper, we examine contemporary LLMs regarding their ability to understand character composition of words, and show that most of them fail to reliably carry out even the simple tasks that can be handled by humans with perfection. We analyze their behaviors with comparison to token level performances, and discuss the potential directions for future research. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# クリティカルインフラストラクチャにおける低パフォーマンスデバイスによるクラウドサービスのセキュリティ
Security of Cloud Services with Low-Performance Devices in Critical Infrastructures ( http://arxiv.org/abs/2405.11368v1 ) ライセンス: Link先を確認 | Michael Molle, Ulrich Raithel, Dirk Kraemer, Norbert Graß, Matthias Söllner, Andreas Aßmuth, | (参考訳) IoT(Internet of Things)とIndustrial 4.0の一部として、クラウドサービスは、自動化に使用される低パフォーマンスデバイスとのインタラクションが増えている。
これにより、この論文で提示されるセキュリティ上の問題が発生する。
特に重要なインフラに注意が払われる。
著者らは、電気アクチュエーターとバッテリーストレージを特定の用途として使用する、資金提供された研究プロジェクトの一環として、対処されたセキュリティ上の課題に取り組む予定だ。
この研究プロジェクトの中核となる考え方も本稿で紹介する。
As part of the Internet of Things (IoT) and Industry 4.0 Cloud services are increasingly interacting with low-performance devices that are used in automation. This results in security issues that will be presented in this paper. Particular attention is paid to so-called critical infrastructures. The authors intend to work on the addressed security challenges as part of a funded research project, using electrical actuators and battery storages as specific applications. The core ideas of this research project are also presented in this paper. | 翻訳日:2024-05-21 18:09:02 公開日:2024-05-18 |
# ReModels: 量子回帰平均モデル
ReModels: Quantile Regression Averaging models ( http://arxiv.org/abs/2405.11372v1 ) ライセンス: Link先を確認 | Grzegorz Zakrzewski, Kacper Skonieczka, Mikołaj Małkiński, Jacek Mańdziuk, | (参考訳) 電力価格の予測は、電力市場の中で重要なビジネス上の決定を下す上で重要な役割を果たす。
この領域の焦点は確率的予測であり、単純な点予測よりもより包括的な方法で将来の価格値を記述する。
エネルギー価格を予測するための確率論的アプローチにおける黄金の標準は、QRA(Quantile Regression Averaging)法である。
本稿では,QRAの実装を包含するPythonパッケージと,ここ数年にわたって文献に現れるこのアプローチの変更について述べる。
提案パッケージは、電力市場に関するデータの取得と準備、およびモデル予測の評価を容易にする。
Electricity price forecasts play a crucial role in making key business decisions within the electricity markets. A focal point in this domain are probabilistic predictions, which delineate future price values in a more comprehensive manner than simple point forecasts. The golden standard in probabilistic approaches to predict energy prices is the Quantile Regression Averaging (QRA) method. In this paper, we present a Python package that encompasses the implementation of QRA, along with modifications of this approach that have appeared in the literature over the past few years. The proposed package also facilitates the acquisition and preparation of data related to electricity markets, as well as the evaluation of model predictions. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# 量子エッジ検出
Quantum Edge Detection ( http://arxiv.org/abs/2405.11373v1 ) ライセンス: Link先を確認 | Santiago Llorens, Walther González, Gael Sentís, John Calsamiglia, Emili Bagan, Ramon Muñoz-Tapia, | (参考訳) 本稿では,全ての粒子が同じ純状態を持つ量子領域の境界を探索する量子エッジ検出法を提案する。
粒子列の1次元シナリオに着目し、量子エッジ検出のための最適なプロトコルを開発し、シュル=ワイル双対性および半定値プログラミング技術を用いて、その成功確率を効率的に計算する。
弦長と局所次元の関数としての成功確率の挙動を,長弦の極限に重きを置いて解析する。
漸近的に最適であることを証明した平方根の測定に基づくプロトコルを提案する。
さらに、粒子の状態が既知のものから未知のものへと遷移する混合量子変化点検出シナリオについて検討し、量子デバイスにおける故障検出の実践的応用を見出すことができる。
This paper introduces quantum edge detection, aimed at locating boundaries of quantum domains where all particles share the same pure state. Focusing on the 1D scenario of a string of particles, we develop an optimal protocol for quantum edge detection, efficiently computing its success probability through Schur-Weyl duality and semidefinite programming techniques. We analyze the behavior of the success probability as a function of the string length and local dimension, with emphasis in the limit of long strings. We present a protocol based on square root measurement, which proves asymptotically optimal. Additionally, we explore a mixed quantum change point detection scenario where the state of particles transitions from known to unknown, which may find practical applications in detecting malfunctions in quantum devices | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# シンメトリでスレッド化されたSQUIDを次世代のKerr-catビットとして使う
Symmetrically Threaded SQUIDs As Next Generation Kerr-cat Qubits ( http://arxiv.org/abs/2405.11375v1 ) ライセンス: Link先を確認 | Bibek Bhandari, Irwin Huang, Ahmed Hajr, Kagan Yanik, Bingcheng Qing, Ke Wang, David I Santiago, Justin Dressel, Irfan Siddiqi, Andrew N Jordan, | (参考訳) Kerr-cat量子ビットは、ビットフリップに対する自律的な保護を持つボソニック量子ビットである。
誘導型超伝導非線形非対称誘導型eLement (SNAIL) 発振器を用いて広く研究されている。
本稿では,Kerr-cat qubit,すなわちSymmetrically Threaded SQUIDs(STS)の代替回路について理論的に検討する。
熱環境に付随するKerr-cat量子ビットに対して,回路解析を行い,Gorini-Kossakowski-Sudarshan-Lindblad(GKLS)マスター方程式を導出する。
我々は、Kerr-cat量子ビットのコヒーレント状態(T_\alpha$)の寿命が、Kerr非線形性の弱いSTS回路とSNAIL回路の両方で同じであることを示した。
しかし、STS Kerr-cat キュービットは高次光子散逸効果に耐性を持つという付加的な利点があり、結果として10{~\rm MHz}$の順序でカーのより強い非線形性を持つにもかかわらず、はるかに長いT_\alpha$となる。
また、強いフラックス駆動と非対称ジョセフソン接合が$T_\alpha$に与える影響についても検討する。
SNAIL設計とは違って、STS Kerr-cat qubit の $T_\alpha$ は弱2光子駆動のための dip である。
しかし、ドライブ依存のデチューニングを適用することで、ディップを緩和できることを示す。
提案した設計と猫の10光子の大きさを考慮すると,多光子加熱および脱落効果が存在する場合でも,数十ミリ秒のオーダーのT_\alpha$を予測できる。
STS Kerr-cat量子ビットの堅牢性は、フォールトトレラント量子プロセッサにとって有望なコンポーネントである。
Kerr-cat qubits are bosonic qubits with autonomous protection against bit-flips. They have been studied widely using driven Superconducting Nonlinear Asymmetric Inductive eLement (SNAIL) oscillators. We theoretically investigate an alternate circuit for the Kerr-cat qubit, namely Symmetrically Threaded SQUIDs (STS). We perform the circuit analysis and derive the Gorini-Kossakowski-Sudarshan-Lindblad (GKLS) master equation for the Kerr-cat qubit attached to a thermal environment. We find that the lifetime time of the coherent states ($T_\alpha$) of the Kerr-cat qubit is the same in both the STS and SNAIL circuits for weak Kerr nonlinearity. However, the STS Kerr-cat qubits have the additional benefit of being resistant against higher order photon dissipation effects, resulting in significantly longer $T_\alpha$ even with stronger Kerr nonlinearity on the order of $10{~\rm MHz}$. We also examine the effects of strong flux driving and asymmetric Josephson junctions on $T_\alpha$. Unlike the SNAIL design, we find a dip in $T_\alpha$ of the STS Kerr-cat qubit for weak two-photon drive. However, we show that the dip can be mitigated by applying a suitable drive-dependent detuning. With the proposed design and considering a cat size of 10 photons, we predict $T_\alpha$ of the order of tens of milliseconds even in the presence of multi-photon heating and dephasing effects. The robustness of the STS Kerr-cat qubit makes it a promising component for fault-tolerant quantum processors. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# 低ランクテンソルブロックハザードモデルによる因果顧客チャーン解析
Causal Customer Churn Analysis with Low-rank Tensor Block Hazard Model ( http://arxiv.org/abs/2405.11377v1 ) ライセンス: Link先を確認 | Chenyin Gao, Zhiming Zhang, Shu Yang, | (参考訳) 本研究は, 顧客への様々な介入が顧客へ与える影響を, 潜在的な成果の枠組みを用いて分析する革新的な手法を提案する。
本稿では,顧客チャーンを因果解析するためのテンソル補完手法を取り入れた新しい因果モデルであるテンソル化潜在要因ブロックハザードモデルを提案する。
我々のアプローチの重要な要素はパラメータテンソルに対する1ビットテンソル完備化の定式化である。
これにより、チャーンレコードから隠された顧客特性と時間的要素をキャプチャし、チャーンデータのバイナリの性質とその時間的モノトニックな傾向に効果的に対処する。
当社のモデルは、顧客維持戦略の実施の精度と実践性を高めるとともに、同様の影響によって介入を独自に分類する。
計算効率向上のために,スペクトルクラスタリングを併用した投射勾配降下アルゴリズムを適用した。
我々は、その非漸近性を含むモデルの理論的な基礎を定めている。
本モデルの有効性と優位性は、シミュレーションと実世界の双方の応用に関する総合的な実験を通じてさらに検証される。
This study introduces an innovative method for analyzing the impact of various interventions on customer churn, using the potential outcomes framework. We present a new causal model, the tensorized latent factor block hazard model, which incorporates tensor completion methods for a principled causal analysis of customer churn. A crucial element of our approach is the formulation of a 1-bit tensor completion for the parameter tensor. This captures hidden customer characteristics and temporal elements from churn records, effectively addressing the binary nature of churn data and its time-monotonic trends. Our model also uniquely categorizes interventions by their similar impacts, enhancing the precision and practicality of implementing customer retention strategies. For computational efficiency, we apply a projected gradient descent algorithm combined with spectral clustering. We lay down the theoretical groundwork for our model, including its non-asymptotic properties. The efficacy and superiority of our model are further validated through comprehensive experiments on both simulated and real-world applications. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# メタ制御:異種ロボットスキルのためのモデルベース自動制御合成
Meta-Control: Automatic Model-based Control Synthesis for Heterogeneous Robot Skills ( http://arxiv.org/abs/2405.11380v1 ) ライセンス: Link先を確認 | Tianhao Wei, Liqian Ma, Rui Chen, Weiye Zhao, Changliu Liu, | (参考訳) 現実の操作タスクの要件は多様であり、しばしば矛盾する。いくつかのタスクは強制的な制約や衝突回避を必要とし、他のタスクは高周波フィードバックを要求する。
これらの要件を固定された状態行動表現と制御戦略で満足させることは、普遍的なロボット基盤モデルの開発を妨げる。
そこで本研究では,特定のタスクに合わせて,カスタマイズされた状態表現と制御戦略を作成する,最初のLCM対応自動制御合成手法であるMeta-Controlを提案する。
Meta-Controlは、多種多様なタスクに対処するために、汎用階層制御フレームワークを活用する。
我々の中心となる洞察は、状態空間を抽象的なタスク空間と具体的な追跡空間に分解することである。
LLMの広範にわたる常識と制御の知識を活用することで、LLMは事前に定義された抽象テンプレートを使用して、状態、動的モデル、コントローラを含むこれらの空間を設計できる。
Meta-Controlは、厳密な分析、効率的なパラメータチューニング、信頼性の高い実行を可能にする、完全なモデルベースの性質で際立っている。
LLM内にカプセル化された何十年もの制御専門知識を活用して異種制御を促進するだけでなく、安全性や安定性などの正式な保証も確保している。
本手法は, 衝突回避と収束, コンプライアンスと高精度の両面において, 様々な課題にまたがる実環境シナリオとシミュレーションの両方で検証される。
ビデオと追加結果は Meta-control-paper.github.io にある。
The requirements for real-world manipulation tasks are diverse and often conflicting; some tasks necessitate force constraints or collision avoidance, while others demand high-frequency feedback. Satisfying these varied requirements with a fixed state-action representation and control strategy is challenging, impeding the development of a universal robotic foundation model. In this work, we propose Meta-Control, the first LLM-enabled automatic control synthesis approach that creates customized state representations and control strategies tailored to specific tasks. Meta-Control leverages a generic hierarchical control framework to address a wide range of heterogeneous tasks. Our core insight is the decomposition of the state space into an abstract task space and a concrete tracking space. By harnessing LLM's extensive common sense and control knowledge, we enable the LLM to design these spaces, including states, dynamic models, and controllers, using pre-defined but abstract templates. Meta-Control stands out for its fully model-based nature, allowing for rigorous analysis, efficient parameter tuning, and reliable execution. It not only utilizes decades of control expertise encapsulated within LLMs to facilitate heterogeneous control but also ensures formal guarantees such as safety and stability. Our method is validated both in real-world scenarios and simulations across diverse tasks with conflicting requirements, such as collision avoidance versus convergence and compliance versus high precision. Videos and additional results are at meta-control-paper.github.io | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# EMI/EMCシミュレーションのためのkan-based Physics-informed Neural Networksの検討
Investigating KAN-Based Physics-Informed Neural Networks for EMI/EMC Simulations ( http://arxiv.org/abs/2405.11383v1 ) ライセンス: Link先を確認 | Kun Qian, Mohamed Kheir, | (参考訳) 本研究の目的は,特にKAN(KolmogorovArnold Networks)における物理インフォームドニューラルネットワーク(PINN)を用いた電磁干渉(EMI)シミュレーションの実現可能性を検討することである。
これは、一般的なEM問題の定式化と、それをAI駆動のソリューションで解く方法を導入し、長大で複雑なフルウェーブの数値シミュレーションに代えて導入する。
この研究は、エネルギー消費の少ないグリーンEMIシミュレーションワークフローのための新たな地平を開く可能性がある。
The main objective of this paper is to investigate the feasibility of employing Physics-Informed Neural Networks (PINNs) techniques, in particular KolmogorovArnold Networks (KANs), for facilitating Electromagnetic Interference (EMI) simulations. It introduces some common EM problem formulations and how they can be solved using AI-driven solutions instead of lengthy and complex full-wave numerical simulations. This research may open new horizons for green EMI simulation workflows with less energy consumption and feasible computational capacity. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# 体型肝脂肪定量ネットワーク
Liver Fat Quantification Network with Body Shape ( http://arxiv.org/abs/2405.11386v1 ) ライセンス: Link先を確認 | Qiyue Wang, Wu Xue, Xiaoke Zhang, Fang Jin, James Hahn, | (参考訳) 心臓合併症や心血管疾患の死亡と関連する肝脂肪量を検出することは臨床的に重要である。
しかし、既存の方法は、高コストおよび/または医療合併症(例えば、肝生検、医用画像技術)と関連付けられている。
本稿では,生体形状のみを用いて肝臓脂肪率を正確に推定するディープニューラルネットワークを提案する。
提案するフレームワークは,フレキシブルなベースライン回帰ネットワークと軽量アテンションモジュールで構成されている。
注目モジュールは差別的で多様な特徴を生成するように訓練され、性能が大幅に向上する。
提案手法を検証するため,医療データセットに対する広範囲な検査を行った。
本手法の有効性を検証し, 生体形状のみを用いて肝脂肪を予測するニューラルネットワークの設計の有効性を検証した。
安価で手軽に利用できる光学式スキャナーを用いて体型を取得できるため, 提案手法は肝脂肪症の正確な評価をより容易に行えるようにすることを約束する。
It is clinically important to detect liver fat content as it is related to cardiac complications and cardiovascular disease mortality. However, existing methods are associated with high cost and/or medical complications (e.g., liver biopsy, medical imaging technology) or only roughly estimate the grades of steatosis. In this paper, we propose a deep neural network to accurately estimate liver fat percentage using only body shapes. The proposed framework is composed of a flexible baseline regression network and a lightweight attention module. The attention module is trained to generate discriminative and diverse features, thus significantly improving performance. To validate our proposed method, we perform extensive tests on medical datasets. The experimental results validate our method and prove the efficacy of designing neural networks to predict liver fat using only body shape. Since body shapes can be acquired using inexpensive and readily available optical scanners, the proposed method promised to make accurate assessment of hepatic steatosis more accessible. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# 暗空洞内気相における化学反応の促進条件
Conditions for enhancement of chemical reactions in gas phase inside a dark cavity ( http://arxiv.org/abs/2405.11387v1 ) ライセンス: Link先を確認 | Nimrod Moiseyev, | (参考訳) A+B \to [\textit{activated complex}]^\# \to C+D$のような化学反応を、暗い空洞における量子電気力学(QED)モードとのカップリングを通じてガス相で促進する。
主な結果は、暗い空洞による反応速度の増大は非対称反応(反応物とは異なる生成物)のためである。
量子力学(NHQM)の非エルミート形式を利用した理論的導出は、ダークキャビティによって強化される適切なタイプの反応を選択するための条件とガイドラインを提供する。
それでも、そのような実験の時間依存シミュレーションは標準(エルミート)散乱理論を用いて行うことができる(ただし、NHQMによって導かれる条件を含む)。
この研究は、新しいタイプの研究の門を開き、この魅力的な比較的新しい研究分野における理論と実験の間のギャップを埋めるのに役立つと信じています。
例えば、$O+D_2\to [ODD]^{\#} \to OD+D$ および $H+ArCl \to [ArHCl]^{\#} \to H+Ar+Cl$ の非対称反応速度は、暗空空洞によって向上できることを示した。
対照的に、メタン中の水素交換の対称反応に対する暗い空洞効果は無視できない。
Enhancing chemical reactions, such as $A+B \to [\textit{activated complex}]^\# \to C+D$, in gas phase through its coupling to quantum-electrodynamics (QED) modes in a dark cavity is investigated. The main result is that the enhancement of the reaction rate by a dark cavity is for asymmetric reactions (products different from reactants.) Notice that in addition to the cavity been dark, the reactants are in their ground electronic and vibrational states, i.e., it is indeed dark. Theoretical derivation, utilizing the non-Hermitian formalism of quantum mechanics (NHQM), provides conditions and guidelines for selecting the proper type of reactions that can be enhanced by a dark cavity. Nevertheless, the time-dependent simulations of such experiments can be carried out using the standard (Hermitian) scattering theory (but including the conditions derived via NHQM). We believe that this work opens a gate to new types of studies and hopefully helps to close the gap between theory and experiments in this fascinating, relatively new field of research. As an example, we demonstrate that the asymmetric reaction rates of $O+D_2\to [ODD]^{\#} \to OD+D$ and $H+ArCl \to [ArHCl]^{\#} \to H+Ar+Cl$ can be enhanced by a dark cavity. Contrary, the dark cavity effect on the symmetric reaction of hydrogen exchange in methane will be negligible. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# 隣の指導者が分散した確率的グラディエントDescence
Adjacent Leader Decentralized Stochastic Gradient Descent ( http://arxiv.org/abs/2405.11389v1 ) ライセンス: Link先を確認 | Haoze He, Jing Wang, Anna Choromanska, | (参考訳) この研究は、分散ディープラーニング最適化フレームワークに焦点を当てている。
本稿では,最終モデルの性能向上,収束の促進,分散型ディープラーニングオプティマイザの通信オーバーヘッドの低減を図るために,Al-DSGD(Adjacent Leader Decentralized Gradient Descent)を提案する。
AL-DSGDは2つの主要なアイデアに依存している。
まず,学習システムにおける最強学習者の影響力を高めるために,各学習者の成績と平均化の度合いに応じて,各近隣労働者に重みを割り当て,現在最高の成績を収めている隣人と隣人の両方が最大化の度合いで定めている労働者に補正力を適用する。
第二に、低次ノードの収束速度の低下と性能の低下を緩和するため、AL-DSGDは動的通信グラフに依存しており、ノードの次数を低く保ちながら、効果的により多くのノードと通信することができる。
実験により、AL-DSGDは、分散化された最先端技術の収束を加速し、特に通信制約環境でのテスト性能を向上させることが示された。
また,提案手法の収束を理論的に証明する。
最後に、分散ディープラーニングアプローチ((a)同期、(de)分散化)の簡単な実装をサポートするディープラーニングモデルの分散トレーニングのための、非常に汎用的で簡潔なPyTorchベースのライブラリをコミュニティにリリースする。
This work focuses on the decentralized deep learning optimization framework. We propose Adjacent Leader Decentralized Gradient Descent (AL-DSGD), for improving final model performance, accelerating convergence, and reducing the communication overhead of decentralized deep learning optimizers. AL-DSGD relies on two main ideas. Firstly, to increase the influence of the strongest learners on the learning system it assigns weights to different neighbor workers according to both their performance and the degree when averaging among them, and it applies a corrective force on the workers dictated by both the currently best-performing neighbor and the neighbor with the maximal degree. Secondly, to alleviate the problem of the deterioration of the convergence speed and performance of the nodes with lower degrees, AL-DSGD relies on dynamic communication graphs, which effectively allows the workers to communicate with more nodes while keeping the degrees of the nodes low. Experiments demonstrate that AL-DSGD accelerates the convergence of the decentralized state-of-the-art techniques and improves their test performance especially in the communication constrained environments. We also theoretically prove the convergence of the proposed scheme. Finally, we release to the community a highly general and concise PyTorch-based library for distributed training of deep learning models that supports easy implementation of any distributed deep learning approach ((a)synchronous, (de)centralized). | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# 量子ネットワークトモグラフィ
Quantum Network Tomography ( http://arxiv.org/abs/2405.11396v1 ) ライセンス: Link先を確認 | Matheus Guedes de Andrade, Jake Navas, Saikat Guha, Inès Montaño, Michael Raymer, Brian Smith, Don Towsley, | (参考訳) エラーは量子系の発展の基本的な障壁である。
量子ネットワークは、複数のコンポーネントの相互接続によって形成される複雑なシステムであり、エラーの蓄積に悩まされている。
量子ネットワークコンポーネントによって導入されたエラーを特徴づけることは、量子通信におけるそれらの劣化効果を克服するための基本的なタスクとなる。
量子ネットワークトモグラフィ(Quantum Network Tomography, QNT)は、量子ネットワークにおけるリンクエラーのエンドツーエンド評価に対処する。
エラー対応アプリケーション、ネットワーク管理、システム検証を構築するためのツールである。
量子スターネットワークを特徴付けるためのQNTとその初期結果について概説する。
我々は、ビットフリップチャネルを推定するために予め定義されたQNTプロトコルを適用し、非分極チャネルを推定する。
有限標本状態におけるQuantum Cram\`er-Rao Bound (QCRB) とMean Square Error (MSE) の評価により, 推定器の性能を数値解析した。
最後に,QNT分野における現在の課題について考察し,今後の研究にエキサイティングな研究指針を提示する。
Errors are the fundamental barrier to the development of quantum systems. Quantum networks are complex systems formed by the interconnection of multiple components and suffer from error accumulation. Characterizing errors introduced by quantum network components becomes a fundamental task to overcome their depleting effects in quantum communication. Quantum Network Tomography (QNT) addresses end-to-end characterization of link errors in quantum networks. It is a tool for building error-aware applications, network management, and system validation. We provide an overview of QNT and its initial results for characterizing quantum star networks. We apply a previously defined QNT protocol for estimating bit-flip channels to estimate depolarizing channels. We analyze the performance of our estimators numerically by assessing the Quantum Cram\`er-Rao Bound (QCRB) and the Mean Square Error (MSE) in the finite sample regime. Finally, we provide a discussion on current challenges in the field of QNT and elicit exciting research directions for future investigation. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# ブラックスワンの準備 - 機械学習に不可欠な反脆弱性
Preparing for Black Swans: The Antifragility Imperative for Machine Learning ( http://arxiv.org/abs/2405.11397v1 ) ライセンス: Link先を確認 | Ming Jin, | (参考訳) 継続的な分散シフトにもかかわらず安全かつ確実に運用することは、高度な機械学習アプリケーションにとって不可欠である。
本稿は, (Taleb, 2014) が導入した 'antifragility' という変革的概念に基づいて, ボラティリティだけでなく, ボラティリティの恩恵を受けるための建設的設計パラダイムを構築した。
我々は、オンライン意思決定の文脈における反脆弱性を、環境変動に対する動的後悔の厳密な対応として定義し、非定常性から利益を得るのではなく、抵抗に焦点を絞った現在のアプローチの限界を明らかにした。
我々の貢献は、エンジニアリングの反脆弱性のための潜在的な計算経路を提案し、オンライン学習理論の概念を基礎にし、メタラーニング、安全な探索、継続的な学習、多目的/品質多様性最適化、基礎モデルといった分野における最近の進歩への接続を図っている。
将来的なメカニズムと今後の研究方向性を識別することにより、機械学習の厳密な理論的基盤に反脆弱性を持たせることを目指している。
さらに、責任あるアプリケーションを保証するために、明確なガイドライン、リスク評価フレームワーク、学際的なコラボレーションの必要性を強調します。
Operating safely and reliably despite continual distribution shifts is vital for high-stakes machine learning applications. This paper builds upon the transformative concept of ``antifragility'' introduced by (Taleb, 2014) as a constructive design paradigm to not just withstand but benefit from volatility. We formally define antifragility in the context of online decision making as dynamic regret's strictly concave response to environmental variability, revealing limitations of current approaches focused on resisting rather than benefiting from nonstationarity. Our contribution lies in proposing potential computational pathways for engineering antifragility, grounding the concept in online learning theory and drawing connections to recent advancements in areas such as meta-learning, safe exploration, continual learning, multi-objective/quality-diversity optimization, and foundation models. By identifying promising mechanisms and future research directions, we aim to put antifragility on a rigorous theoretical foundation in machine learning. We further emphasize the need for clear guidelines, risk assessment frameworks, and interdisciplinary collaboration to ensure responsible application. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# PDE Control Gym:部分微分方程式のデータ駆動境界制御ベンチマーク
PDE Control Gym: A Benchmark for Data-Driven Boundary Control of Partial Differential Equations ( http://arxiv.org/abs/2405.11401v1 ) ライセンス: Link先を確認 | Luke Bhan, Yuexin Bian, Miroslav Krstic, Yuanyuan Shi, | (参考訳) 過去10年間で、データ駆動の手法が人気を博し、制御理論の貴重なツールとして登場した。
このように、制御フィードバック法則、システムダイナミクス、さらにはリャプノフ関数のニューラルネットワーク近似が注目されている。
学習ベースのコントロールの増加に伴い、正確で高速で使いやすいベンチマークの必要性が高まっている。
本研究では,PDEの境界制御のための学習環境を初めて提示する。
本ベンチマークでは, 1DトランスポートPDE, 1Dリアクション拡散PDE, 2D Navier-StokesPDEの3つの基礎的PDE問題を紹介する。
このジムでは、モデルベースのPDEバックステッピングよりも高いコストで、この一連のベンチマーク問題を解決するための、モデルフリーで強化された学習アルゴリズムを提示する。
一連のベンチマーク環境と詳細な例によって、この研究は、学習ベースのPDEコントロールの参入障壁を著しく低下させます。
ベンチマーク全体はGithubで、詳細なドキュメントと、提示された強化学習モデルがオープンソースとして公開されている。
Over the last decade, data-driven methods have surged in popularity, emerging as valuable tools for control theory. As such, neural network approximations of control feedback laws, system dynamics, and even Lyapunov functions have attracted growing attention. With the ascent of learning based control, the need for accurate, fast, and easy-to-use benchmarks has increased. In this work, we present the first learning-based environment for boundary control of PDEs. In our benchmark, we introduce three foundational PDE problems - a 1D transport PDE, a 1D reaction-diffusion PDE, and a 2D Navier-Stokes PDE - whose solvers are bundled in an user-friendly reinforcement learning gym. With this gym, we then present the first set of model-free, reinforcement learning algorithms for solving this series of benchmark problems, achieving stability, although at a higher cost compared to model-based PDE backstepping. With the set of benchmark environments and detailed examples, this work significantly lowers the barrier to entry for learning-based PDE control - a topic largely unexplored by the data-driven control community. The entire benchmark is available on Github along with detailed documentation and the presented reinforcement learning models are open sourced. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# フォールブルアクチュエータの最適弾力性設計モデル
A Model for Optimal Resilient Planning Subject to Fallible Actuators ( http://arxiv.org/abs/2405.11402v1 ) ライセンス: Link先を確認 | Kyle Baldes, Diptanil Chaudhuri, Jason M. O'Kane, Dylan A. Shell, | (参考訳) コンポーネント障害を引き起こすロボットは、キャパシティの低下の下で、持続可能な目標を最大限に達成するために、行動に適応すべきである。
我々は、マルコフ決定プロセス(MDP)フレームワークで失敗するおそれのあるアクチュエーターを設計する際の問題を定式化する。
このモデルは、潜在的障害の推論と将来の制御不足の長期的影響を可能にするために、アクチベーター故障の有効利用駆動障害と状態依存確率をキャプチャする。
これは、失敗を無視する計画と定性的に異なる振る舞いをもたらす。
アクチュエータの故障として、組合せ的に多くの構成が生じる。
我々は、異なる構成が密接に関連する問題をもたらすという観察を生かして、再使用による計算を省く機会を見出した。
私たちの結果は、ロボットが障害が発生した時に応答できるように、戦略的ソリューションがどのように得られるかを示しています。
Robots incurring component failures ought to adapt their behavior to best realize still-attainable goals under reduced capacity. We formulate the problem of planning with actuators known a priori to be susceptible to failure within the Markov Decision Processes (MDP) framework. The model captures utilization-driven malfunction and state-action dependent likelihoods of actuator failure in order to enable reasoning about potential impairment and the long-term implications of impoverished future control. This leads to behavior differing qualitatively from plans which ignore failure. As actuators malfunction, there are combinatorially many configurations which can arise. We identify opportunities to save computation through re-use, exploiting the observation that differing configurations yield closely related problems. Our results show how strategic solutions are obtained so robots can respond when failures do occur -- for instance, in prudently scheduling utilization in order to keep critical actuators in reserve. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# MapCoder:競争力のある問題解決のためのマルチエージェントコード生成
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving ( http://arxiv.org/abs/2405.11403v1 ) ライセンス: Link先を確認 | Md. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez, | (参考訳) 複雑な自然言語問題の記述の深い理解、複雑なアルゴリズムとデータ構造のためのコード命令の生成、包括的な単体テストの実行の成功を必要とするコード合成は、重大な課題である。
大規模言語モデル(LLM)は自然言語処理に優れた習熟度を示すが、コード生成タスクのパフォーマンスは依然として限られている。
本稿では,マルチエージェントを活用したコード生成タスクへの新たなアプローチを提案する。
私たちのフレームワークであるMapCoderは、このサイクルのステージをエミュレートするために設計された4つのLLMエージェントで構成されています。
MapCoderは8つの競合する問題解決とプログラム合成のベンチマークで複数のLCMの短縮と分析を行い、HumanEval (93.9%)、MBPP (83.1%)、APPS (22.0%)、CodeContests (28.5%)、xCodeEval (45.3%)で新しい最先端の結果(pass@1)を達成した。
さらに,本手法は,様々な言語にまたがって優れた性能を実現し,課題も様々に解決する。
私たちはフレームワークをhttps://github.com/Md-Ashraful-Pramanik/MapCoder.comでオープンソース化しました。
Code synthesis, which requires a deep understanding of complex natural language problem descriptions, generation of code instructions for complex algorithms and data structures, and the successful execution of comprehensive unit tests, presents a significant challenge. While large language models (LLMs) demonstrate impressive proficiency in natural language processing, their performance in code generation tasks remains limited. In this paper, we introduce a new approach to code generation tasks leveraging multi-agent prompting that uniquely replicates the full cycle of program synthesis as observed in human developers. Our framework, MapCoder, consists of four LLM agents specifically designed to emulate the stages of this cycle: recalling relevant examples, planning, code generation, and debugging. After conducting thorough experiments, with multiple LLM ablations and analyses across eight challenging competitive problem-solving and program synthesis benchmarks, MapCoder showcases remarkable code generation capabilities, achieving new state-of-the-art results (pass@1) on HumanEval (93.9%), MBPP (83.1%), APPS (22.0%), CodeContests (28.5%), and xCodeEval (45.3%). Moreover, our method consistently delivers superior performance across various programming languages and varying problem difficulties. We open-source our framework at https://github.com/Md-Ashraful-Pramanik/MapCoder. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# ビッグデータはどのくらい大きいのか?
How big is Big Data? ( http://arxiv.org/abs/2405.11404v1 ) ライセンス: Link先を確認 | Daniel T. Speckhard, Tim Bechtel, Luca M. Ghiringhelli, Martin Kuban, Santiago Rigamonti, Claudia Draxl, | (参考訳) ビッグデータは、機械学習モデルを使用して予測能力の新たな波を導いてきた。
本研究では,教材科学における機械学習の典型的な問題における「ビッグ」の意味を評価する。
これは、データボリュームだけでなく、データ品質やインフラストラクチャの問題と同じくらいの正確性も懸念します。
選択した例で尋ねる
(i)モデルが類似したデータセットにどのように一般化するか。
(II)異種源から高品質なデータセットを収集する方法。
三 モデルの特徴セットと複雑さが表現性にどのように影響するか、
(iv) より大きなデータセットを作成し、その上にモデルをトレーニングするために必要なインフラストラクチャ要件。
まとめると、ビッグデータには、さらなる作業の動機となる、非常に異なる側面に固有の課題が存在することが分かります。
Big data has ushered in a new wave of predictive power using machine learning models. In this work, we assess what {\it big} means in the context of typical materials-science machine-learning problems. This concerns not only data volume, but also data quality and veracity as much as infrastructure issues. With selected examples, we ask (i) how models generalize to similar datasets, (ii) how high-quality datasets can be gathered from heterogenous sources, (iii) how the feature set and complexity of a model can affect expressivity, and (iv) what infrastructure requirements are needed to create larger datasets and train models on them. In sum, we find that big data present unique challenges along very different aspects that should serve to motivate further work. | 翻訳日:2024-05-21 17:59:18 公開日:2024-05-18 |
# LLMは医療現場の自己診断に利用できるか?
Can Public LLMs be used for Self-Diagnosis of Medical Conditions ? ( http://arxiv.org/abs/2405.11407v1 ) ライセンス: Link先を確認 | Nikil Sharan Prabahar Balasubramanian, Sagnik Dakshit, | (参考訳) 大規模言語モデルの開発の進展は、会話タスクにおける変革的パラダイムとして発展し、医療の重要領域にその統合をもたらした。
LLMが広く普及し、オープンソースモデルを通じてパブリックアクセスされるようになると、その可能性や限界を調査する必要がある。
LLMを適用するが、より深い理解を必要とする重要な課題は、公衆衛生に関心のある医療条件の自己診断である。
GeminiとGoogle検索の広範な統合、GPT-4.0とBing検索は、検索エンジンのLSMから自己診断の傾向に変化をもたらした。
本稿では,10000個のサンプルを迅速に構築したデータセットを作成し,自己診断の一般課題における性能試験を行う。
自己診断作業におけるGPT-4.0とGeminiモデルの性能を63.07%と6.01%で比較した。
また,ジェミニとGPT-4.0の課題,限界,可能性についても論じ,今後の研究の促進と一般知識の広範な影響に向けた自己診断の課題について論じる。
さらに,検索補助生成を用いた自己診断タスクの性能向上と可能性を示す。
The advancements in the development of Large Language Models have evolved as a transformative paradigm in conversational tasks which has led to its integration in the critical domain of healthcare. With LLMs becoming widely popular and their public access through open-source models, there is a need to investigate their potential and limitations. One such critical task where LLMs are applied but require a deeper understanding is that of self-diagnosis of medical conditions in the interest of public health. The widespread integration of Gemini with Google search, GPT-4.0 with Bing search, has led to shift in trend of self-diagnosis from search engine LLMs. In this paper, we prepare a prompt engineered dataset of 10000 samples and test the performance on the general task of self-diagnosis. We compare the performance of GPT-4.0 and Gemini model on the task of self-diagnosis and record accuracies of 63.07% and 6.01% respectively. We also discuss the challenges, limitations, and potential of both Gemini and GPT-4.0 for the task of self-diagnosis to facilitate future research and towards the broader impact of general public knowledge. Furthermore, we demonstrate the potential and improvement in performance for the task of self-diagnosis using Retrieval Augmented Generation. | 翻訳日:2024-05-21 17:49:33 公開日:2024-05-18 |
# ブール行列論理プログラミングによるペトリネットのシミュレーション
Simulating Petri nets with Boolean Matrix Logic Programming ( http://arxiv.org/abs/2405.11412v1 ) ライセンス: Link先を確認 | Lun Ai, Stephen H. Muggleton, Shi-Shun Liang, Geoff S. Baldwin, | (参考訳) 関係知識基盤への近年の注目は、エンティティ間の関係がどう変化するかを理解することへの需要を喚起した。
ペトリネットは知識構造を表現することができ、実体間の相互作用を動的にシミュレートする。
しかし、論理プログラムは高レベルのシンボル操作の制限のため、広範なペトリネットを扱うのに苦労する。
この課題に対処するため,我々はBoolean Matrix Logic Programming (BMLP)と呼ばれる新しい手法を導入し,論理プログラムを評価するためのPrologの代替計算機構としてブール行列を利用する。
本フレームワークでは,基本ネットとして知られるペトリネットのクラスをシミュレーションするための2つの新しいBMLPアルゴリズムを提案する。
これは基本ネットを論理的に等価なデータログプログラムに変換することで実現される。
BMLPアルゴリズムは,表付きB-Prolog,SWI-Prolog,XSB-Prolog,Clingoの40倍の速度でこれらのプログラムを評価できることを示す。
本研究により,Prolog を用いた基本ネットの効率的なシミュレーションが可能となり,論理プログラミング技術を用いた複雑なシステムの解析,学習,検証が可能となった。
Recent attention to relational knowledge bases has sparked a demand for understanding how relations change between entities. Petri nets can represent knowledge structure and dynamically simulate interactions between entities, and thus they are well suited for achieving this goal. However, logic programs struggle to deal with extensive Petri nets due to the limitations of high-level symbol manipulations. To address this challenge, we introduce a novel approach called Boolean Matrix Logic Programming (BMLP), utilising boolean matrices as an alternative computation mechanism for Prolog to evaluate logic programs. Within this framework, we propose two novel BMLP algorithms for simulating a class of Petri nets known as elementary nets. This is done by transforming elementary nets into logically equivalent datalog programs. We demonstrate empirically that BMLP algorithms can evaluate these programs 40 times faster than tabled B-Prolog, SWI-Prolog, XSB-Prolog and Clingo. Our work enables the efficient simulation of elementary nets using Prolog, expanding the scope of analysis, learning and verification of complex systems with logic programming techniques. | 翻訳日:2024-05-21 17:49:33 公開日:2024-05-18 |
# 言語モデルを用いた音声スタイル空間の探索:感情ラベルのない感情的TS
Exploring speech style spaces with language models: Emotional TTS without emotion labels ( http://arxiv.org/abs/2405.11413v1 ) ライセンス: Link先を確認 | Shreeram Suresh Chandra, Zongyang Du, Berrak Sisman, | (参考訳) 感情的テキスト合成(E-TTS)のための多くのフレームワークは、しばしば不正確で入手が難しい人間の注釈付き感情ラベルに依存している。
感情的韻律の学習は、感情の主観的な性質のために、暗黙的に難しい課題を提示する。
本研究では,感情ラベルやテキストプロンプトを必要とせず,テキスト認識を利用して感情的スタイルを習得する手法を提案する。
E-TTSの2段階フレームワークであるTEMOTTSについて述べる。
提案手法は,BERTが学習した言語空間とグローバルなスタイルトークンによって構築された感情的スタイル空間との間の知識伝達を行う。
提案手法の有効性を実証し,感情的正確性および自然性の改善を実証した。
これは、音声コンテンツと感情的TSに対する表現的配信の感情的相関を利用した最初の研究の1つである。
Many frameworks for emotional text-to-speech (E-TTS) rely on human-annotated emotion labels that are often inaccurate and difficult to obtain. Learning emotional prosody implicitly presents a tough challenge due to the subjective nature of emotions. In this study, we propose a novel approach that leverages text awareness to acquire emotional styles without the need for explicit emotion labels or text prompts. We present TEMOTTS, a two-stage framework for E-TTS that is trained without emotion labels and is capable of inference without auxiliary inputs. Our proposed method performs knowledge transfer between the linguistic space learned by BERT and the emotional style space constructed by global style tokens. Our experimental results demonstrate the effectiveness of our proposed framework, showcasing improvements in emotional accuracy and naturalness. This is one of the first studies to leverage the emotional correlation between spoken content and expressive delivery for emotional TTS. | 翻訳日:2024-05-21 17:49:33 公開日:2024-05-18 |
# 高分解能剤を用いたパンデミック対応計画のためのキャンパス集団行動のモデル化
High-Resolution Agent-Based Modeling of Campus Population Behaviors for Pandemic Response Planning ( http://arxiv.org/abs/2405.11414v1 ) ライセンス: Link先を確認 | Hiroki Sayama, Shun Cao, | (参考訳) 大学構内におけるパンデミック対策計画への高分解能エージェントベースモデリングとシミュレーションの適用事例を報告する。
2020年夏、私たちは、Binghamton Universityのキャンパス全体の詳細な行動シミュレーションモデルを作成するために、COVID-19パンデミック対応プロジェクトに従事しました。
我々は,各層が異なる輸送モードを示す多層輸送ネットワーク上でのエージェントマイグレーションプロセスとしてこの問題を概念化した。
キャンパス内での人々の行動に関する直接的なデータは得られなかったので、エージェントの行動ルールを伝えるために、できるだけ多くの間接的な情報を収集しました。
各エージェントは、各輸送層内の2つの場所間の最短経路に沿って移動し、駐車場やバス停の層を切り替え、他のいくつかの行動仮定とともに移動することが想定された。
このモデルを用いて,25,000以上のエージェントを含む平日におけるキャンパス全体の集団行動のシミュレーションを行った。
本研究では,各空間的位置における密接な接触頻度を計測し,かなりの行動介入を必要とするキャンパス内の多忙な場所や廊下を同定した。
さらに, 人口密度の異なるシステマティックシミュレーションにより, 人口密度の減少効果は非線形であり, 人口密度を40~45%に減らすことは, キャンパス内での病気の拡散を抑制するのに最適かつ十分であることを明らかにした。
これらの結果は大学に報告され、パンデミック対応計画に活用され、成果が得られた。
This paper reports a case study of an application of high-resolution agent-based modeling and simulation to pandemic response planning on a university campus. In the summer of 2020, we were tasked with a COVID-19 pandemic response project to create a detailed behavioral simulation model of the entire campus population at Binghamton University. We conceptualized this problem as an agent migration process on a multilayer transportation network, in which each layer represented a different transportation mode. As no direct data were available about people's behaviors on campus, we collected as much indirect information as possible to inform the agents' behavioral rules. Each agent was assumed to move along the shortest path between two locations within each transportation layer and switch layers at a parking lot or a bus stop, along with several other behavioral assumptions. Using this model, we conducted simulations of the whole campus population behaviors on a typical weekday, involving more than 25,000 agents. We measured the frequency of close social contacts at each spatial location and identified several busy locations and corridors on campus that needed substantial behavioral intervention. Moreover, systematic simulations with varying population density revealed that the effect of population density reduction was nonlinear, and that reducing the population density to 40-45% would be optimal and sufficient to suppress disease spreading on campus. These results were reported to the university administration and utilized in the pandemic response planning, which led to successful outcomes. | 翻訳日:2024-05-21 17:49:33 公開日:2024-05-18 |
# スピンおよび擬似スピン対称性を持つ曲線時空における改良ディラック振動子の代数的アプローチとコヒーレント状態
Algebraic Approach and Coherent States for the Modified Dirac Oscillator in Curved Spacetime with Spin and Pseudospin Symmetries ( http://arxiv.org/abs/2405.11415v1 ) ライセンス: Link先を確認 | M. Salazar-Ramírez, D. Ojeda-Guillén, J. A. Martínez-Nuño, R. I. Ramírez-Espinoza, | (参考訳) 本稿では、代数的アプローチによりスピンと擬スピン対称性を持つ曲線時空における修正ディラック発振器を正確に検討し、解く。
この問題の放射状部分に焦点を合わせることにより、この問題がSU(1; 1)対称性を持つことを示すために、Schr\"odinger factorization法を用いる。
この対称性により、波動関数とその対応するエネルギースペクトルを得ることができた。
これらの結果から、変形したディラック振動子の放射コヒーレント状態と、スピンと擬スピン極限における時間的進化をそれぞれ計算する。
In this article we investigate and solve exactly the modified Dirac oscillator in curved spacetime with spin and pseudospin symmetries through an algebraic approach. By focusing on the radial part of this problem, we use the Schr\"odinger factorization method to show that this problem possesses an SU(1; 1) symmetry. This symmetry allowed us to obtain the wave functions and their corresponding energy spectrum. From these results, we calculate the radial coherent states of the modified Dirac oscillator and their temporal evolution in the spin and pseudospin limits, respectively. | 翻訳日:2024-05-21 17:49:33 公開日:2024-05-18 |
# 因子実験における単軸効果の同定
Identification of Single-Treatment Effects in Factorial Experiments ( http://arxiv.org/abs/2405.09797v2 ) ライセンス: Link先を確認 | Guilherme Duarte, | (参考訳) その費用にもかかわらず、ランダム化比較試験(RCT)は、社会科学から医学まで幅広い分野において、ゴールドスタンダードの証拠として広く見なされている。
近年、多くの医薬品や製品の効果を同時に評価する実験など、複数の仮説を同時にテストする因子的設計による繰り返しRTTの資源負担を減らそうとする研究が増えている。
ここでは、実験において複数の介入がランダム化されている場合、実験環境外において単一の介入が与える効果は、たとえ完全に現実的な条件が達成されたとしても、非英雄的な仮定を特定できないことを示す。
これは、単一処理効果が単一の焦点介入を伴う反現実の世界を巻き込み、他の変数が自然の値を取ることを可能にするためである(これは焦点介入によって構築または修正されることもある)。
対照的に、観測的研究と因子的実験は、それぞれゼロと多重の介入を伴う潜在的なアウトカム分布に関する情報を提供する。
本稿では,これらの孤立量の同定に十分な条件を定式化する。
この種の設計を頼りにしている研究者は、関数形式の線型性、あるいは非パラメトリックな場合において、実際にどのように変数が関連しているかをDirected Acyclic Graphsで指定する必要があることを示します。
最後に、エフェクトサインに関する外挿が実験的に正当化されたときを示す非パラメトリックなシャープ境界、すなわち、制限されたRCTデータと一致する最大情報的ベスト/ウォーストケース推定を開発する。
これらの新しい結果はシミュレーションデータで示される。
Despite their cost, randomized controlled trials (RCTs) are widely regarded as gold-standard evidence in disciplines ranging from social science to medicine. In recent decades, researchers have increasingly sought to reduce the resource burden of repeated RCTs with factorial designs that simultaneously test multiple hypotheses, e.g. experiments that evaluate the effects of many medications or products simultaneously. Here I show that when multiple interventions are randomized in experiments, the effect any single intervention would have outside the experimental setting is not identified absent heroic assumptions, even if otherwise perfectly realistic conditions are achieved. This happens because single-treatment effects involve a counterfactual world with a single focal intervention, allowing other variables to take their natural values (which may be confounded or modified by the focal intervention). In contrast, observational studies and factorial experiments provide information about potential-outcome distributions with zero and multiple interventions, respectively. In this paper, I formalize sufficient conditions for the identifiability of those isolated quantities. I show that researchers who rely on this type of design have to justify either linearity of functional forms or -- in the nonparametric case -- specify with Directed Acyclic Graphs how variables are related in the real world. Finally, I develop nonparametric sharp bounds -- i.e., maximally informative best-/worst-case estimates consistent with limited RCT data -- that show when extrapolations about effect signs are empirically justified. These new results are illustrated with simulated data. | 翻訳日:2024-05-21 12:15:54 公開日:2024-05-18 |
# 安定LPV系に対する有限サンプル一般化
A finite-sample generalization bound for stable LPV systems ( http://arxiv.org/abs/2405.10054v2 ) ライセンス: Link先を確認 | Daniel Racz, Martin Gonzalez, Mihaly Petreczky, Andras Benczur, Balint Daroczy, | (参考訳) データから力学系を学習する際の主要な理論的課題の1つは、一般化誤差、すなわち、期待される予測誤差と、ある有限標本で測定された経験的予測誤差との差について上限を与えることである。
機械学習において、そのような境界の一般的なクラスは、いわゆる確率近似境界(英語版)(Probably Aough Correct、PAC)である。
本稿では,安定な連続時間線形パラメータ変動(LPV)システムに対するPACバウンダリを導出する。
我々の境界は、選択されたLPV系のH2ノルムに依存するが、信号が考慮される時間間隔に依存しない。
One of the main theoretical challenges in learning dynamical systems from data is providing upper bounds on the generalization error, that is, the difference between the expected prediction error and the empirical prediction error measured on some finite sample. In machine learning, a popular class of such bounds are the so-called Probably Approximately Correct (PAC) bounds. In this paper, we derive a PAC bound for stable continuous-time linear parameter-varying (LPV) systems. Our bound depends on the H2 norm of the chosen class of the LPV systems, but does not depend on the time interval for which the signals are considered. | 翻訳日:2024-05-21 12:15:54 公開日:2024-05-18 |
# CPsyExam: 中国の心理学評価ベンチマーク
CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations ( http://arxiv.org/abs/2405.10212v2 ) ライセンス: Link先を確認 | Jiahao Zhao, Jingwei Zhu, Minghuan Tan, Min Yang, Di Yang, Chenhao Zhang, Guancheng Ye, Chengming Li, Xiping Hu, | (参考訳) 本稿では,中国語の試験から得られた質問から構築した新しい心理学的ベンチマークCPsyExamを紹介する。
CPsyExamは、心理学的知識とケース分析を別々に優先順位付けし、現実世界のシナリオに心理学的知識を適用することの重要性を認識するように設計されている。
22kの質問のプールから4kを用いて、被験者のバランスの取れたカバレッジを提供し、さまざまなケース分析手法を取り入れたベンチマークを作成し、さらに、オープンソースからAPIベースのモデルまで、既存の大規模言語モデル~(LLM)の範囲を評価します。
実験と分析の結果,CPsyExam は LLM における心理学的理解を高めるための有効なベンチマークとして機能し,様々な粒度の LLM の比較を可能にした。
In this paper, we introduce a novel psychological benchmark, CPsyExam, constructed from questions sourced from Chinese language examinations. CPsyExam is designed to prioritize psychological knowledge and case analysis separately, recognizing the significance of applying psychological knowledge to real-world scenarios. From the pool of 22k questions, we utilize 4k to create the benchmark that offers balanced coverage of subjects and incorporates a diverse range of case analysis techniques.Furthermore, we evaluate a range of existing large language models~(LLMs), spanning from open-sourced to API-based models. Our experiments and analysis demonstrate that CPsyExam serves as an effective benchmark for enhancing the understanding of psychology within LLMs and enables the comparison of LLMs across various granularities. | 翻訳日:2024-05-21 12:15:54 公開日:2024-05-18 |