このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240123となっている論文です。

PDF登録状況(公開日: 20240123)

TitleAuthorsAbstract論文公表日・翻訳日
# RAW: 保証可能なAI生成画像のためのロバストでアジャイルなプラグイン・アンド・プレイ・ウォーターマークフレームワーク

RAW: A Robust and Agile Plug-and-Play Watermark Framework for AI-Generated Images with Provable Guarantees ( http://arxiv.org/abs/2403.18774v1 )

ライセンス: Link先を確認
Xun Xian, Ganghua Wang, Xuan Bi, Jayanth Srinivasa, Ashish Kundu, Mingyi Hong, Jie Ding, (参考訳) 知的財産権の保護とAI生成画像の潜在的な誤用防止が最重要事項である。 本稿ではRAWと呼ばれる堅牢でアジャイルなプラグアンドプレイ型透かし検出フレームワークを紹介する。 従来のエンコーダ・デコーダ法とは違い、固定バイナリコードを潜在表現の透かしとして組み込むため、本手法では学習可能な透かしを直接元の画像データに導入する。 次に、透かしの存在を検出するために、透かしと共同で訓練された分類器を用いる。 提案するフレームワークは、様々な生成アーキテクチャと互換性があり、トレーニング後のオンザフライウォーターマークインジェクションをサポートする。 本手法は,透かし除去を目的とした特定の敵攻撃が存在する場合でも,透かし画像の誤分類に対する偽陽性率に関する証明可能な保証を提供することを示す。 最先端拡散モデルにより生成された多様な画像に対する実験は、既存のアプローチと比較して大幅に性能が向上したことを示している。 例えば, 画像品質を維持しつつ, 対向攻撃下での透かし画像の検出における最先端のアプローチと比較して, AUROC は 0.48 から 0.82 に顕著な増加を示し, 密集した FID と CLIP スコアで示される。

Safeguarding intellectual property and preventing potential misuse of AI-generated images are of paramount importance. This paper introduces a robust and agile plug-and-play watermark detection framework, dubbed as RAW. As a departure from traditional encoder-decoder methods, which incorporate fixed binary codes as watermarks within latent representations, our approach introduces learnable watermarks directly into the original image data. Subsequently, we employ a classifier that is jointly trained with the watermark to detect the presence of the watermark. The proposed framework is compatible with various generative architectures and supports on-the-fly watermark injection after training. By incorporating state-of-the-art smoothing techniques, we show that the framework provides provable guarantees regarding the false positive rate for misclassifying a watermarked image, even in the presence of certain adversarial attacks targeting watermark removal. Experiments on a diverse range of images generated by state-of-the-art diffusion models reveal substantial performance enhancements compared to existing approaches. For instance, our method demonstrates a notable increase in AUROC, from 0.48 to 0.82, when compared to state-of-the-art approaches in detecting watermarked images under adversarial attacks, while maintaining image quality, as indicated by closely aligned FID and CLIP scores.
翻訳日:2024-04-01 02:34:48 公開日:2024-01-23
# スマートホームデバイスのインタラクションの監視:プロファイルベースのファイアウォールアプローチ

Supervising Smart Home Device Interactions: A Profile-Based Firewall Approach ( http://arxiv.org/abs/2310.03510v3 )

ライセンス: Link先を確認
François De Keersmaeker, Ramin Sadre, Cristel Pelsser, (参考訳) モノのインターネット(Internet of Things, IoT)デバイスは、スマートホームネットワークという形で、家庭でもどこでも見られるようになった。 彼らの普遍性にもかかわらず、最近の攻撃で示されたように、彼らのセキュリティは不満足である。 IETFのMUD標準は、エンドデバイスをネットワークに安全に配置し、自動化することを目的としている。 MUDファイルには、許可されたネットワークアクティビティ(例えば、IPポートやホストアドレス)のデバイス固有の記述が含まれており、ファイアウォールの設定に使用することができる。 MUDの大きな弱点は、現代のスマートホームプラットフォームでしばしば発生するデバイスインタラクションを表すトラフィックパターンを記述するのに十分な表現力がないことである。 本稿では,このような交通パターンを記述するための新しい言語を提案する。 この言語は、MUDファイルよりも表現力のあるデバイスプロファイルの記述を可能にし、トラフィック接続の相互依存性を考慮している。 NFTablesを利用して非コンフォーミングトラフィックをブロックする軽量ファイアウォールのために、これらのプロファイルを効率的なコードに変換する方法を示す。 各種スマートホームデバイスが生み出すトラフィックに対する当社のアプローチを評価し,不要なレイテンシを誘導しながら,不要なトラフィックを正確にブロックできることを示す。

Internet of Things devices can now be found everywhere, including in our households in the form of Smart Home networks. Despite their ubiquity, their security is unsatisfactory, as demonstrated by recent attacks. The IETF's MUD standard has as goal to simplify and automate the secure deployment of end devices in networks. A MUD file contains a device specific description of allowed network activities (e.g., allowed IP ports or host addresses) and can be used to configure for example a firewall. A major weakness of MUD is that it is not expressive enough to describe traffic patterns representing device interactions, which often occur in modern Smart Home platforms. In this article, we present a new language for describing such traffic patterns. The language allows writing device profiles that are more expressive than MUD files and take into account the interdependencies of traffic connections. We show how these profiles can be translated to efficient code for a lightweight firewall leveraging NFTables to block non-conforming traffic. We evaluate our approach on traffic generated by various Smart Home devices, and show that our system can accurately block unwanted traffic while inducing negligible latency.
翻訳日:2024-03-19 03:12:08 公開日:2024-01-23
# マルチパーティ・プライベート・セット・インターセクション:ネットワークトラフィックにおける安全かつ効率的な異常検出のためのジャカード類似回路ベースのプロトコル

Multi-Party Private Set Intersection: A Circuit-Based Protocol with Jaccard Similarity for Secure and Efficient Anomaly Detection in Network Traffic ( http://arxiv.org/abs/2401.12542v1 )

ライセンス: Link先を確認
Jiuheng Su, Zhili Chen, Xiaomin Yang, (参考訳) 我々は,複数パーティのプライベート・セット・交差点(PSI)のための新しい回路ベースのプロトコルを提案する。 SCS(Sort-Compare-Shuffle)プロトコルを基盤として,マルチパーティ設定にシームレスに拡張する。 実装による実用性を示すため,本プロトコルは許容性能を示す。 具体的には、7つのパーティがあり、それぞれが2^{12}のセットサイズを持つので、我々のプロトコルは19秒で完了します。 さらに、回路ベースのプロトコルは、より複雑な計算を行うためにカスタムプロトコルを使用するよりも有利である。 ネットワークトラフィック解析のアプリケーション領域で異常検出に使用できるプライベートセットのJaccard類似度メトリックを計算するためのモジュールを組み込むことで、この利点を裏付ける。 この拡張は,ネットワークフローの異常パターンを効率よく識別し,プライバシの保護に有効であることを示す。

We present a new circuit-based protocol for multi-party private set intersection (PSI) that allows m parties to compute the intersection of their datasets without revealing any additional information about the items outside the intersection. Building upon the two-party Sort-Compare-Shuffle (SCS) protocol, we seamlessly extend it to a multi-party setting. Demonstrating its practicality through implementation, our protocol exhibits acceptable performance. Specifically, with 7 parties, each possessing a set size of 2^{12}, our protocol completes in just 19 seconds. Moreover, circuit-based protocols like ours have an advantage over using custom protocols to perform more complex computation. We substantiate this advantage by incorporating a module for calculating the Jaccard similarity metric of the private sets which can be used in the application domain of network traffic analysis for anomaly detection. This extension showcases the versatility of our protocol beyond set intersection computations, demonstrating its efficacy in preserving privacy while efficiently identifying abnormal patterns in network flow.
翻訳日:2024-03-18 08:27:10 公開日:2024-01-23
# ToDA:リコメンデーションシステムに対するターゲット指向拡散攻撃装置

ToDA: Target-oriented Diffusion Attacker against Recommendation System ( http://arxiv.org/abs/2401.12578v1 )

ライセンス: Link先を確認
Xiaohao Liu, Zhulin Tao, Ting Jiang, He Chang, Yunshan Ma, Xianglin Huang, (参考訳) レコメンデーションシステム(RS)は、Webサービスが情報過負荷に対処するために必要なツールとなり、ユーザーエクスペリエンスを高め、プラットフォームの売上を伸ばす。 しかし、そのユビキタス化に伴い、セキュリティ上の懸念も浮かび上がっている。 RSのパブリックアクセシビリティとして、敵がユーザープロファイルを操作できる特定の悪意のある攻撃を受けやすいため、バイアスのあるレコメンデーションにつながる。 最近の研究は、しばしばジェネレーティブモデルを用いて、これらの偽りのユーザープロファイルを構築するために追加のモジュールを統合し、意図した害を発生させながら、それらが認識できないことを保証している。 その有効性にもかかわらず、これらのモデルは不安定な訓練と探索・探索ジレンマの難題に直面しており、これは準最適結果をもたらす可能性がある。 本稿では,拡散モデル (DM) によるシリング攻撃の可能性について検討する。 具体的には,ターゲット指向拡散攻撃モデル(ToDA)を提案する。 ユーザープロファイルを高次元空間に変換し、ToDAのコアコンポーネントであるLatent Diffusion Attacker (LDA)と組み合わせる、事前訓練されたオートエンコーダが組み込まれている。 LDAは、この潜伏空間内のプロファイルにノイズを導入し、クロスアテンション機構を通じてターゲットアイテムに対する近似を順応的に制御する。 2部グラフによって実装されたグローバルな水平線は、LDAに関与しており、符号化されたユーザプロファイル機能から導出されている。 これにより、LDAは、オンプロセッシングユーザ機能自体の外部へ生成を拡張し、拡散されたユーザ機能とターゲットアイテム機能の間のギャップを埋めることが可能になる。 いくつかのSOTAベースラインと比較して大規模な実験は、ToDAの有効性を示している。 特定の研究は、ToDAのエラボレーティブデザインを活用し、このような文脈における先進的な生成モデルの有効性を強調している。

Recommendation systems (RS) have become indispensable tools for web services to address information overload, thus enhancing user experiences and bolstering platforms' revenues. However, with their increasing ubiquity, security concerns have also emerged. As the public accessibility of RS, they are susceptible to specific malicious attacks where adversaries can manipulate user profiles, leading to biased recommendations. Recent research often integrates additional modules using generative models to craft these deceptive user profiles, ensuring them are imperceptible while causing the intended harm. Albeit their efficacy, these models face challenges of unstable training and the exploration-exploitation dilemma, which can lead to suboptimal results. In this paper, we pioneer to investigate the potential of diffusion models (DMs), for shilling attacks. Specifically, we propose a novel Target-oriented Diffusion Attack model (ToDA). It incorporates a pre-trained autoencoder that transforms user profiles into a high dimensional space, paired with a Latent Diffusion Attacker (LDA)-the core component of ToDA. LDA introduces noise into the profiles within this latent space, adeptly steering the approximation towards targeted items through cross-attention mechanisms. The global horizon, implemented by a bipartite graph, is involved in LDA and derived from the encoded user profile feature. This makes LDA possible to extend the generation outwards the on-processing user feature itself, and bridges the gap between diffused user features and target item features. Extensive experiments compared to several SOTA baselines demonstrate ToDA's effectiveness. Specific studies exploit the elaborative design of ToDA and underscore the potency of advanced generative models in such contexts.
翻訳日:2024-03-18 08:27:10 公開日:2024-01-23
# ユーザ駆動経路制御のためのFlexAlgoの検討

Investigation of FlexAlgo for User-driven Path Control ( http://arxiv.org/abs/2401.12582v1 )

ライセンス: Link先を確認
Julia Kułacz, Martyna Pawlus, Leonardo Boldrini, Paola Grosso, (参考訳) 本稿では,フレキシブルアルゴリズム(FlexAlgo)を用いて,ドメイン内セグメンテーションルーティング(SR)対応ネットワークにおけるユーザ駆動経路制御を実現する。 FlexAlgoはドメイン内ルーティングに対する比較的新しいアプローチであり、複数のカスタムアルゴリズムが単一のドメイン内で共存できるようにする。 この能力は、ユーザが自分のデータがネットワークを経由するパスをもっとコントロールできる可能性がある。 この調査には、FlexAlgoのアプローチの徹底的な調査、基礎となる技術の調査、およびFlexAlgoベースのソリューションの実践的な実装が含まれる。 実験ではFlexAlgoを3つの異なるシナリオで実装しました。 また、推奨メトリクスと制約を使ってトラフィックステアリングを制御する自動ツールについても紹介した。 本研究の結果は,ユーザ主導の経路制御を実現する手段としてFlexAlgoの能力を実証し,ネットワークに対するユーザのセキュリティと信頼を高めるものである。

This paper examines the Flexible Algorithm (FlexAlgo) for its potential to enable user-driven path control in intra-domain Segment Routing (SR) enabled networks. FlexAlgo is a relatively new approach to intra-domain routing that allows multiple custom algorithms to coexist within a single domain. This capability has the potential to provide users with greater control over the paths their data takes through a network. The research includes a thorough investigation of the FlexAlgo approach, including an examination of its underlying techniques, as well as a practical implementation of a FlexAlgo-based solution. We depict performed experiments where we implemented FlexAlgo in three different scenarios. We also present how we developed an automated tool for users to control traffic steering using preferred metrics and constraints. The results of this investigation demonstrate the capabilities of FlexAlgo as a means of enabling user-driven path control and therefore increase security and trust of users towards the network.
翻訳日:2024-03-18 08:27:10 公開日:2024-01-23
# P2Pネットワーク形成モデルの不均一性とホモフィリによる脆弱性:IOTAオートペリングプロトコル

Heterogeneity- and homophily-induced vulnerability of a P2P network formation model: the IOTA auto-peering protocol ( http://arxiv.org/abs/2401.12633v1 )

ライセンス: Link先を確認
Yu Gao, Carlo Campajola, Nicolo Vallarano, Andreia Sofia Teixeira, Claudio J. Tessone, (参考訳) IOTAは、ピアツーピア(P2P)ネットワークを利用した分散台帳技術である。 近年,IOTA 内部評価システムである "Mana" によって,IOTA ピア間の接続を構築するための自動ピアリングアルゴリズムが提案されている。 本研究の目的は,日食攻撃に対するIOTA自動ピアリングアルゴリズムを用いて,潜在的な脆弱性を検出し,P2Pネットワークのレジリエンスを評価することである。 そこで我々は,IOTAの自動ピアリングアルゴリズムをランダムネットワーク形成モデルとして解釈し,ネットワークのコスト効率の高い分割を特定するために,異なるネットワークメトリクスを用いる。 その結果、攻撃者がネットワークのかなりの部分を外し、攻撃によるコストと潜在的損害を見積もることができる可能性戦略が提示された。 一方、IOTAオートピアリングネットワークアンサンブルの特性を1次元格子と正規ポアソングラフの間のホモフィルランダムネットワークの興味深いクラスとして分析する。

IOTA is a distributed ledger technology that relies on a peer-to-peer (P2P) network for communications. Recently an auto-peering algorithm was proposed to build connections among IOTA peers according to their "Mana" endowment, which is an IOTA internal reputation system. This paper's goal is to detect potential vulnerabilities and evaluate the resilience of the P2P network generated using IOTA auto-peering algorithm against eclipse attacks. In order to do so, we interpret IOTA's auto-peering algorithm as a random network formation model and employ different network metrics to identify cost-efficient partitions of the network. As a result, we present a potential strategy that an attacker can use to eclipse a significant part of the network, providing estimates of costs and potential damage caused by the attack. On the side, we provide an analysis of the properties of IOTA auto-peering network ensemble, as an interesting class of homophile random networks in between 1D lattices and regular Poisson graphs.
翻訳日:2024-03-18 08:27:10 公開日:2024-01-23
# Web 3.0のための新しいブロックチェーンベースの情報管理フレームワーク

A Novel Blockchain Based Information Management Framework for Web 3.0 ( http://arxiv.org/abs/2401.14420v1 )

ライセンス: Link先を確認
Md Arif Hassan, Cong T. Nguyen, Chi-Hieu Nguyen, Dinh Thai Hoang, Diep N. Nguyen, Eryk Dutkiewicz, (参考訳) Web 3.0はWorld Wide Web(WWW)の第3世代であり、分散化、可用性、クライアントのユーザビリティ向上という重要な概念に集中している。 Web 3.0は未来のインターネットの重要なコンポーネントであることは間違いないが、現在、分散データ収集や管理など、重要な課題に直面している。 これらの課題を克服するため、ブロックチェーンはWeb 3.0の開発における中核技術のひとつとして登場した。 本稿では,新たなブロックチェーンベースの情報管理フレームワークであるSmart BlockchainベースのWebを提案し,Web 3.0の情報を効果的に管理し,ユーザデータのセキュリティとプライバシを高め,さらなる利益をもたらし,Webサイトへの情報提供にインセンティブを与える。 特にSBWは、ブロックチェーン技術とスマートコントラクトを使用して、Web 3.0の分散データ収集プロセスを効果的に管理している。 さらに,本フレームワークでは,ユーザの情報提供を報奨し,ゲーム理論解析を行い,ユーザの行動を分析するための効果的なコンセンサス機構を開発する。 さらに,SBWの性能評価と,情報提供に対する臨界パラメータの影響について検討する。 この結果から,提案するコンセンサス機構がノードやユーザをインセンティブにすることで,システムにより多くの情報を提供することが実証された。

Web 3.0 is the third generation of the World Wide Web (WWW), concentrating on the critical concepts of decentralization, availability, and increasing client usability. Although Web 3.0 is undoubtedly an essential component of the future Internet, it currently faces critical challenges, including decentralized data collection and management. To overcome these challenges, blockchain has emerged as one of the core technologies for the future development of Web 3.0. In this paper, we propose a novel blockchain-based information management framework, namely Smart Blockchain-based Web, to manage information in Web 3.0 effectively, enhance the security and privacy of users data, bring additional profits, and incentivize users to contribute information to the websites. Particularly, SBW utilizes blockchain technology and smart contracts to manage the decentralized data collection process for Web 3.0 effectively. Moreover, in this framework, we develop an effective consensus mechanism based on Proof-of-Stake to reward the user's information contribution and conduct game theoretical analysis to analyze the users behavior in the considered system. Additionally, we conduct simulations to assess the performance of SBW and investigate the impact of critical parameters on information contribution. The findings confirm our theoretical analysis and demonstrate that our proposed consensus mechanism can incentivize the nodes and users to contribute more information to our systems.
翻訳日:2024-03-18 08:17:26 公開日:2024-01-23
# 不安の生理的特徴の一般化可能性の検討

Investigating the Generalizability of Physiological Characteristics of Anxiety ( http://arxiv.org/abs/2402.15513v1 )

ライセンス: Link先を確認
Emily Zhou, Mohammad Soleymani, Maja J. Matarić, (参考訳) 近年の研究では、生理学的信号を用いて不安やストレスを検出する機械学習(ML)技術の有効性が示されているが、MLモデルがストレスに特有の生理的特徴を学習しているかどうかは不明である。 このあいまいさに対処するため,不安やストレスと高覚醒感情との関連が示された生理的特徴の一般化可能性について検討した。 具体的には、不安相データセット(APD)、ウェアラブルストレスと感情検出(WESAD)、継続的な感情の信号(CASE)の3つのデータセットから、心電図(ECG)および心電図(EDA)信号から抽出した特徴について検討する。 これらの特徴が不安に特有のものなのか、あるいは他の高覚醒感情に一般的なものなのかを統計的回帰分析により理解することを目的としており、また、ストレスや覚醒の事例にまたがるコーパス、クロスコーパス、アウト・ワン・コーパス・アウト・クロスバリデーションも検討している。 サポートベクターマシン、LightGBM、ランダムフォレスト、XGBoost、および上記のモデルのアンサンブルを使用していた。 覚醒データセットでトレーニングされたモデルは、以前は目に見えなかったストレスデータセットで比較的よく機能し、その逆も同様に機能することがわかった。 実験結果から,評価モデルがストレスではなく情緒的覚醒を識別している可能性が示唆された。 この研究は、心電図やEDA信号からストレスと覚醒を横断する最初のクロスコーパス評価であり、ストレス検出の一般化性に関する新たな発見に寄与した。

Recent works have demonstrated the effectiveness of machine learning (ML) techniques in detecting anxiety and stress using physiological signals, but it is unclear whether ML models are learning physiological features specific to stress. To address this ambiguity, we evaluated the generalizability of physiological features that have been shown to be correlated with anxiety and stress to high-arousal emotions. Specifically, we examine features extracted from electrocardiogram (ECG) and electrodermal (EDA) signals from the following three datasets: Anxiety Phases Dataset (APD), Wearable Stress and Affect Detection (WESAD), and the Continuously Annotated Signals of Emotion (CASE) dataset. We aim to understand whether these features are specific to anxiety or general to other high-arousal emotions through a statistical regression analysis, in addition to a within-corpus, cross-corpus, and leave-one-corpus-out cross-validation across instances of stress and arousal. We used the following classifiers: Support Vector Machines, LightGBM, Random Forest, XGBoost, and an ensemble of the aforementioned models. We found that models trained on an arousal dataset perform relatively well on a previously unseen stress dataset, and vice versa. Our experimental results suggest that the evaluated models may be identifying emotional arousal instead of stress. This work is the first cross-corpus evaluation across stress and arousal from ECG and EDA signals, contributing new findings about the generalizability of stress detection.
翻訳日:2024-03-18 07:18:44 公開日:2024-01-23
# 欧州連合の人工知能標準化における基本的権利を考える--「ナンセンス」か「戦略的同盟」か

Considering Fundamental Rights in the European Standardisation of Artificial Intelligence: Nonsense or Strategic Alliance? ( http://arxiv.org/abs/2402.16869v1 )

ライセンス: Link先を確認
Marion Ho-Dac, (参考訳) 欧州の文脈では、EU AI Actの提案と、安全で信頼できるAIに関する標準化要求の草案の両方が、標準化を基本的権利にリンクしている。 しかしながら、これらのテキストは、AI標準と基本的権利、その意味または含意との関係を規定し、詳細化するガイドラインを提供していない。 この章は、この重要な規制の盲点を明確にすることを目的としている。 取り組んだ主な問題は、将来のAI法に基づく調和された標準の採用が、基本的権利を考慮に入れるべきかどうかである。 私たちの見解では、応答はイエスです。 特定のAIシステムによって引き起こされる高いリスクは、特に基本的権利侵害に関連している。 したがって、そのようなリスクを軽減するには、基本的権利の考慮が必要であり、これが将来の調和された標準が反映すべきものである。 同時に、欧州の標準化プロセスに対する妥当な批判にも対処する必要がある。 最後に、現在進行中の欧州におけるAIシステムの標準化における基本的権利考慮の実践的組み入れについて論じる。

In the European context, both the EU AI Act proposal and the draft Standardisation Request on safe and trustworthy AI link standardisation to fundamental rights. However, these texts do not provide any guidelines that specify and detail the relationship between AI standards and fundamental rights, its meaning or implication. This chapter aims to clarify this critical regulatory blind spot. The main issue tackled is whether the adoption of AI harmonised standards, based on the future AI Act, should take into account fundamental rights. In our view, the response is yes. The high risks posed by certain AI systems relate in particular to infringements of fundamental rights. Therefore, mitigating such risks involves fundamental rights considerations and this is what future harmonised standards should reflect. At the same time, valid criticisms of the European standardisation process have to be addressed. Finally, the practical incorporation of fundamental rights considerations in the ongoing European standardisation of AI systems is discussed.
翻訳日:2024-03-18 07:09:00 公開日:2024-01-23
# より高速な投影型GAN:より高速なFew-Shot画像生成を目指して

Faster Projected GAN: Towards Faster Few-Shot Image Generation ( http://arxiv.org/abs/2403.08778v1 )

ライセンス: Link先を確認
Chuang Wang, Zhengping Li, Yuwen Hao, Lijun Wang, Xiaoxue Li, (参考訳) 本稿では,画像生成におけるGANネットワークの長期化,計算機リソースの大量消費,膨大なパラメータ量といった課題を解決するため,Projected GANをベースとしたGANネットワークモデルであるFaster Projected GANを提案する。 提案するネットワークは主に,Projected GANのジェネレータの改良に重点を置いている。 深度分離可能な畳み込み(DSC)を導入することにより、投影されたGANのパラメータの数を削減し、トレーニング速度を加速し、メモリを節約する。 実験結果から, ffhq-1k, art-painting, Landscapeなどの画像データセットでは, 20%の速度向上と15%のメモリ節約が達成された。 同時に、FID損失は、損失が少ないか、全くなく、モデルパラメータの量がより良く制御される。 同時に、公共データセットの少ない地震シーンのような特別なシーンの小さなサンプル画像生成タスクにおいて、トレーニング速度の大幅な改善が達成されている。

In order to solve the problems of long training time, large consumption of computing resources and huge parameter amount of GAN network in image generation, this paper proposes an improved GAN network model, which is named Faster Projected GAN, based on Projected GAN. The proposed network is mainly focuses on the improvement of generator of Projected GAN. By introducing depth separable convolution (DSC), the number of parameters of the Projected GAN is reduced, the training speed is accelerated, and memory is saved. Experimental results show that on ffhq-1k, art-painting, Landscape and other few-shot image datasets, a 20% speed increase and a 15% memory saving are achieved. At the same time, FID loss is less or no loss, and the amount of model parameters is better controlled. At the same time, significant training speed improvement has been achieved in the small sample image generation task of special scenes such as earthquake scenes with few public datasets.
翻訳日:2024-03-18 05:40:54 公開日:2024-01-23
# UAV監視に対する予測被覆通信のためのグラフクープマンオートエンコーダ

Graph Koopman Autoencoder for Predictive Covert Communication Against UAV Surveillance ( http://arxiv.org/abs/2402.09426v1 )

ライセンス: Link先を確認
Sivaram Krishnan, Jihong Park, Gregory Sherman, Benjamin Campbell, Jinho Choi(参考訳) 低確率検出(LPD)通信は、無線周波数(RF)信号の存在を隠蔽し、通信の内容を隠すことを目的としている。 しかしながら、無人航空機(UAV)の使用は、UAVが特定の関心領域をホバリングすることで地上からのRF信号を検出できるため、課題を提起する。 現代の監視におけるUAVの利用の増加に伴い、LDD通信を効果的に実装するためには、未知の非線形ダイナミックな軌道の理解が不可欠である。 残念ながら、この重要な情報は簡単には利用できないことが多く、PD通信において大きなハードルとなっている。 この問題に対処するため,複数のUAVの存在下で地上LPD通信を可能にするケーススタディを提案する。 グラフニューラルネットワーク(GNN)とクープマン理論を組み合わせた新しいフレームワークを導入し,複数の固定翼UAVの軌道を拡張予測地平線上で予測する。 予測されたuav位置を用いて、受信電力を最小化するためにノードの送信電力を制御することにより、地上アドホックネットワークにおけるlpd通信を可能にする。 複数のUAVの軌道を正確に予測する上で,提案手法の有効性を検証し,LPD通信を効果的に確立する。

Low Probability of Detection (LPD) communication aims to obscure the very presence of radio frequency (RF) signals, going beyond just hiding the content of the communication. However, the use of Unmanned Aerial Vehicles (UAVs) introduces a challenge, as UAVs can detect RF signals from the ground by hovering over specific areas of interest. With the growing utilization of UAVs in modern surveillance, there is a crucial need for a thorough understanding of their unknown nonlinear dynamic trajectories to effectively implement LPD communication. Unfortunately, this critical information is often not readily available, posing a significant hurdle in LPD communication. To address this issue, we consider a case-study for enabling terrestrial LPD communication in the presence of multiple UAVs that are engaged in surveillance. We introduce a novel framework that combines graph neural networks (GNN) with Koopman theory to predict the trajectories of multiple fixed-wing UAVs over an extended prediction horizon. Using the predicted UAV locations, we enable LPD communication in a terrestrial ad-hoc network by controlling nodes' transmit powers to keep the received power at UAVs' predicted locations minimized. Our extensive simulations validate the efficacy of the proposed framework in accurately predicting the trajectories of multiple UAVs, thereby effectively establishing LPD communication.
翻訳日:2024-02-18 13:17:25 公開日:2024-01-23
# ARGS: Reward-Guided Searchとしてのアライメント

ARGS: Alignment as Reward-Guided Search ( http://arxiv.org/abs/2402.01694v1 )

ライセンス: Link先を確認
Maxim Khanov, Jirayu Burapacheep, Yixuan Li(参考訳) 大規模な言語モデルを人間の目的に合わせることは最重要だが、rlhfを含む一般的なアプローチは不安定でリソース集約的なトレーニングに苦しむ。 この課題に対応するために、我々は、高価なRLトレーニングの必要性を排除し、アライメントをデコードプロセスに統合する新しいフレームワークであるARGS、Alignment as Reward-Guided Searchを紹介する。 報酬信号を用いてモデルの確率的予測を調整することで、ARGSは人間の好みに合うようにセマンティックな多様性を持つテキストを生成し、言語モデルを調整するための有望で柔軟なソリューションを提供する。 特に、ARGSは、様々なアライメントタスクやさまざまなモデル次元にわたるベースラインと比較して、平均報酬における一貫した拡張を示している。 例えば、同じグリーディベースのデコード戦略の下では、ベースラインに対して平均報酬を19.56%改善し、GPT-4評価において64.33%の選好スコアを確保できる。 私たちは、デコーディング時間アライメントを強調した私たちのフレームワークが、将来的にもっとレスポンシブな言語モデルへの道を開くと信じています。 コードは \url{https://github.com/deeplearning-wisc/args} で公開されている。

Aligning large language models with human objectives is paramount, yet common approaches including RLHF suffer from unstable and resource-intensive training. In response to this challenge, we introduce ARGS, Alignment as Reward-Guided Search, a novel framework that integrates alignment into the decoding process, eliminating the need for expensive RL training. By adjusting the model's probabilistic predictions using a reward signal, ARGS generates texts with semantic diversity while being aligned with human preferences, offering a promising and flexible solution for aligning language models. Notably, ARGS demonstrates consistent enhancements in average reward compared to baselines across diverse alignment tasks and various model dimensions. For example, under the same greedy-based decoding strategy, our method improves the average reward by 19.56% relative to the baseline and secures a preference or tie score of 64.33% in GPT-4 evaluation. We believe that our framework, emphasizing decoding-time alignment, paves the way for more responsive language models in the future. Code is publicly available at: \url{https://github.com/deeplearning-wisc/args}.
翻訳日:2024-02-11 16:38:36 公開日:2024-01-23
# 乳児における大規模言語モデル作成者に対する回答の質 : 実験結果の解釈のための評価研究

Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study ( http://arxiv.org/abs/2402.01693v1 )

ライセンス: Link先を確認
Zhe He, Balu Bhasuran, Qiao Jin, Shubo Tian, Karim Hanna, Cindy Shavor, Lisbeth Garcia Arguello, Patrick Murray, Zhiyong Lu(参考訳) 実験結果はしばしば混乱し、理解しにくい。 ChatGPTのような大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。 本研究の目的は, 患者が質問した検査関連質問に対して, 関連性, 正確性, 有用性, 不害性のある回答をLLMを用いて生成し, 拡張アプローチで軽減できる可能性を明らかにすることである。 最初に実験結果に関する質問と回答をYahoo!の回答から収集し,53組のQAペアを選択した。 LangChainフレームワークとChatGPT Webポータルを使用して、GPT-4、Meta LLaMA 2、MedAlpaca、ORCA_miniを含む4つのLCMから53の質問に応答した。 まず, ROUGE, BLEU, METEOR, BERTScoreなどの標準QA類似度評価指標を用いて, 回答の類似性を評価する。 また, LLMに基づく評価器を用いて, 対象モデルが基準モデルよりも妥当性, 正確性, 有用性, 安全性が高いかどうかを判定した。 最後に,同じ4つの側面から選択した7つの質問に対するすべての回答について,医療専門家と手動で評価を行った。 Win Rate と医療専門家による評価の結果, GPT-4 の反応は, 他の全ての LLM 反応とヒトの反応(関連性,正当性,有用性,安全性)よりも良好であった。 しかし、LSMの反応は時々、医学的文脈における解釈の欠如、誤った発言、参照の欠如に悩まされる。 他の3つのLCMとQ&Aウェブサイトの人間による回答と比較して、GPT-4の応答はより正確で、有用で、関連性があり、安全である。 しかし、GPT-4応答が不正確で個別化されていないケースもある。 LLM応答の質を改善するためのいくつかの方法を特定した。

Lab results are often confusing and hard to understand. Large language models (LLMs) such as ChatGPT have opened a promising avenue for patients to get their questions answered. We aim to assess the feasibility of using LLMs to generate relevant, accurate, helpful, and unharmful responses to lab test-related questions asked by patients and to identify potential issues that can be mitigated with augmentation approaches. We first collected lab test results related question and answer data from Yahoo! Answers and selected 53 QA pairs for this study. Using the LangChain framework and ChatGPT web portal, we generated responses to the 53 questions from four LLMs including GPT-4, Meta LLaMA 2, MedAlpaca, and ORCA_mini. We first assessed the similarity of their answers using standard QA similarity-based evaluation metrics including ROUGE, BLEU, METEOR, BERTScore. We also utilized an LLM-based evaluator to judge whether a target model has higher quality in terms of relevance, correctness, helpfulness, and safety than the baseline model. Finally, we performed a manual evaluation with medical experts for all the responses to seven selected questions on the same four aspects. The results of Win Rate and medical expert evaluation both showed that GPT-4's responses achieved better scores than all the other LLM responses and human responses on all four aspects (relevance, correctness, helpfulness, and safety). However, LLM responses occasionally also suffer from a lack of interpretation in one's medical context, incorrect statements, and lack of references. We find that compared to other three LLMs and human answer from the Q&A website, GPT-4's responses are more accurate, helpful, relevant, and safer. However, there are cases which GPT-4 responses are inaccurate and not individualized. We identified a number of ways to improve the quality of LLM responses.
翻訳日:2024-02-11 16:38:15 公開日:2024-01-23
# 自己教師付き表現混合と埋め込み初期化による言語間TTS適応のためのデータ効率の最大化

Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by Self-Supervised Representation Mixing and Embedding Initialization ( http://arxiv.org/abs/2402.01692v1 )

ライセンス: Link先を確認
Wei-Ping Huang, Sung-Feng Huang, Hung-yi Lee(参考訳) 本稿では,テキスト対音声システムにおける言語適応のための効果的なトランスファー学習フレームワークを提案し,最小ラベルデータとラベルなしデータを用いた言語適応の実現に焦点をあてる。 多くの研究はラベル付きデータの使用を減らすことに重点を置いているが、ラベルなしデータの使用を最小化することを考えるものはほとんどない。 事前学習段階における自己指導的特徴を活用し、微調整中に擬似ラベルのノイズ部分をこれらの特徴に置き換え、埋め込み初期化トリックを組み込むことにより、従来の手法と比較してラベルなしデータからのより多くの情報を活用する。 実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解可能な音声を合成できることがわかった。 当社の手法は,大量のデータにアクセス可能な場合でも,従来の手法を上回っています。 これらの結果は,データ効率のよい言語適応フレームワークの可能性を強調した。

This paper presents an effective transfer learning framework for language adaptation in text-to-speech systems, with a focus on achieving language adaptation using minimal labeled and unlabeled data. While many works focus on reducing the usage of labeled data, very few consider minimizing the usage of unlabeled data. By utilizing self-supervised features in the pretraining stage, replacing the noisy portion of pseudo labels with these features during fine-tuning, and incorporating an embedding initialization trick, our method leverages more information from unlabeled data compared to conventional approaches. Experimental results show that our framework is able to synthesize intelligible speech in unseen languages with only 4 utterances of labeled data and 15 minutes of unlabeled data. Our methodology continues to surpass conventional techniques, even when a greater volume of data is accessible. These findings highlight the potential of our data-efficient language adaptation framework.
翻訳日:2024-02-11 16:37:41 公開日:2024-01-23
# 組織的責任を持つ人工知能ガバナンスのためのアルゴリズムレビューボードの検討

Investigating Algorithm Review Boards for Organizational Responsible Artificial Intelligence Governance ( http://arxiv.org/abs/2402.01691v1 )

ライセンス: Link先を確認
Emily Hadley, Alan Blatecky, and Megan Comfort(参考訳) 企業、非営利団体、政府、学術機関を含む組織は、人工知能(AI)ツールの開発、デプロイ、活用をますます進めている。 組織における責任AI(RAI)ガバナンスアプローチは、潜在的なAIリスクと害に対処するための重要なメカニズムとして現れている。 本研究では,組織タイプ(学術,政府,産業,非営利)とセクター(金融,健康,技術など)にまたがる17人の技術貢献者に対して,内部raiガバナンスの経験についてインタビューを行った。 我々の発見は、RAIの様々な組織的定義と、それに伴う内部ガバナンスのアプローチに照らした。 我々は,アルゴリズムレビュー委員会(arbs)および同様のレビュー委員会において,そのメンバシップ,スコープ,成功の尺度を含む,最初の詳細な調査結果をまとめる。 我々は、金融セクターにおける堅牢なモデルガバナンスを確認し、健康セクターにおけるABBライクなレビューボードによる広範なアルゴリズムとAIガバナンスを明らかにした。 本研究は,システム評価委員会だけではアルゴリズムのガバナンスに十分であるという考えと矛盾し,arbsがより影響力のある内部raiガバナンスアプローチの1つであることを実証する。 以上の結果から,既存の内部規制アプローチとリーダーシップ購入の統合が成功の最も重要な要因であり,効果的な組織的RAIの最大の課題は財政的緊張にあることが示唆された。 私たちは、組織パートナーが自身の内部raiフレームワークを構築する際にこれらの発見からどのように学べるか、様々な提案をしています。 ARBおよび他の内部RAIガバナンスアプローチの開発および評価の今後の方向性について概説する。

Organizations including companies, nonprofits, governments, and academic institutions are increasingly developing, deploying, and utilizing artificial intelligence (AI) tools. Responsible AI (RAI) governance approaches at organizations have emerged as important mechanisms to address potential AI risks and harms. In this work, we interviewed 17 technical contributors across organization types (Academic, Government, Industry, Nonprofit) and sectors (Finance, Health, Tech, Other) about their experiences with internal RAI governance. Our findings illuminated the variety of organizational definitions of RAI and accompanying internal governance approaches. We summarized the first detailed findings on algorithm review boards (ARBs) and similar review committees in practice, including their membership, scope, and measures of success. We confirmed known robust model governance in finance sectors and revealed extensive algorithm and AI governance with ARB-like review boards in health sectors. Our findings contradict the idea that Institutional Review Boards alone are sufficient for algorithm governance and posit that ARBs are among the more impactful internal RAI governance approaches. Our results suggest that integration with existing internal regulatory approaches and leadership buy-in are among the most important attributes for success and that financial tensions are the greatest challenge to effective organizational RAI. We make a variety of suggestions for how organizational partners can learn from these findings when building their own internal RAI frameworks. We outline future directions for developing and measuring effectiveness of ARBs and other internal RAI governance approaches.
翻訳日:2024-02-11 16:37:24 公開日:2024-01-23
# Informative Lossを用いた言語ベース軽度認知障害検出

Linguistic-Based Mild Cognitive Impairment Detection Using Informative Loss ( http://arxiv.org/abs/2402.01690v1 )

ライセンス: Link先を確認
Ali Pourramezan Fard, Mohammad H. Mahoor, Muath Alsuhaibani and Hiroko H. Dodgec(参考訳) 本稿では,高齢者におけるMCI(Mild Cognitive Impairment)とNC(Normal Cognitive Impairment)を区別するために,自然言語処理(NLP)技術を用いたディープラーニング手法を提案する。 ビデオチャットによる認知機能向上を目的としたランダム化制御試験であるI-CONECT研究プロジェクトにおいて,ビデオインタビューから生成されたテキストを解析するフレームワークを提案する。 提案するNLPフレームワークは,Sentence Embedding(SE)とSentence Cross Attention(SCA)という,Transformerベースの2つのモジュールから構成される。 まず、seモジュールは各文内の単語間の文脈関係をキャプチャする。 その後、SCAモジュールは一連の文から時間的特徴を抽出する。 この機能はMCIまたはNCに分類するためにMLP(Multi-Layer Perceptron)によって使用される。 頑健なモデルを構築するために,各文列を観察することでエントロピーの低減を考慮し,最終的に分類精度を向上させる,infolossと呼ばれる新しい損失関数を提案する。 I-CONECTデータセットを用いた包括的モデル評価の結果,平均面積84.75%でMCIとNCを区別できることがわかった。

This paper presents a deep learning method using Natural Language Processing (NLP) techniques, to distinguish between Mild Cognitive Impairment (MCI) and Normal Cognitive (NC) conditions in older adults. We propose a framework that analyzes transcripts generated from video interviews collected within the I-CONECT study project, a randomized controlled trial aimed at improving cognitive functions through video chats. Our proposed NLP framework consists of two Transformer-based modules, namely Sentence Embedding (SE) and Sentence Cross Attention (SCA). First, the SE module captures contextual relationships between words within each sentence. Subsequently, the SCA module extracts temporal features from a sequence of sentences. This feature is then used by a Multi-Layer Perceptron (MLP) for the classification of subjects into MCI or NC. To build a robust model, we propose a novel loss function, called InfoLoss, that considers the reduction in entropy by observing each sequence of sentences to ultimately enhance the classification accuracy. The results of our comprehensive model evaluation using the I-CONECT dataset show that our framework can distinguish between MCI and NC with an average area under the curve of 84.75%.
翻訳日:2024-02-11 16:36:58 公開日:2024-01-23
# ベストから学ぶ: 無線通信のためのアクティブラーニング

Learning from the Best: Active Learning for Wireless Communications ( http://arxiv.org/abs/2402.04896v1 )

ライセンス: Link先を確認
Nasim Soltani, Jifan Zhang, Batool Salehi, Debashri Roy, Robert Nowak, Kaushik Chowdhury(参考訳) 深層学習に基づくコミュニケーションタスクのための無線通信訓練データセットの収集は比較的簡単である。 しかし、データセットのラベル付けには専門家の関与とドメイン知識が必要であり、プライベートな知的財産が関与する可能性がある。 アクティブ・ラーニング(Active Learning)は、精度を低下させることなくラベル付けオーバーヘッドを減らすことを目的とした機械学習の研究分野である。 アクティブラーニングアルゴリズムは、ラベルのないデータセットで最も重要で有益なサンプルを識別し、完全なセットではなく、それらのサンプルのみにラベル付けする。 本稿では,無線通信におけるディープラーニング応用のための能動的学習について紹介し,そのカテゴリについて述べる。 本稿では,計算集約型探索アルゴリズムを用いてラベリングを行う,深層学習に基づくmmwaveビーム選択のケーススタディを提案する。 本研究では,画像やlidarなどさまざまなモダリティを持つマルチモーダルデータセット上での,さまざまなアクティブラーニングアルゴリズムの性能評価を行う。 この結果から,クラス不均衡データセットに対する能動的学習アルゴリズムを用いることで,古典的トレーニングと同じ精度を維持しつつ,データセットのラベル付けオーバーヘッドを最大50%削減できることがわかった。

Collecting an over-the-air wireless communications training dataset for deep learning-based communication tasks is relatively simple. However, labeling the dataset requires expert involvement and domain knowledge, may involve private intellectual properties, and is often computationally and financially expensive. Active learning is an emerging area of research in machine learning that aims to reduce the labeling overhead without accuracy degradation. Active learning algorithms identify the most critical and informative samples in an unlabeled dataset and label only those samples, instead of the complete set. In this paper, we introduce active learning for deep learning applications in wireless communications, and present its different categories. We present a case study of deep learning-based mmWave beam selection, where labeling is performed by a compute-intensive algorithm based on exhaustive search. We evaluate the performance of different active learning algorithms on a publicly available multi-modal dataset with different modalities including image and LiDAR. Our results show that using an active learning algorithm for class-imbalanced datasets can reduce labeling overhead by up to 50% for this dataset while maintaining the same accuracy as classical training.
翻訳日:2024-02-11 15:14:08 公開日:2024-01-23
# 検証のための論理

A Logic for Veracity ( http://arxiv.org/abs/2302.06164v3 )

ライセンス: Link先を確認
Steve Reeves(参考訳) 本稿は,形式論理の第一原理から特徴づけに至るまでの開発の初期段階を,実証可能性,真理,信頼,真正性といった特性を含む,広く定義された正当性の概念で考察する。

This paper shows the initial stages of development, from first principles, of a formal logic to characterise and then explore issues in a broadly defined idea of Veracity, which includes properties of demonstrability, truth, trust and authenticity.
翻訳日:2024-02-04 05:40:57 公開日:2024-01-23
# データ駆動型航空交通アプリケーションのためのマルチエージェントベーストランスファー学習

Multi-Agent Based Transfer Learning for Data-Driven Air Traffic Applications ( http://arxiv.org/abs/2401.14421v1 )

ライセンス: Link先を確認
Chuhao Deng and Hong-Cheol Choi and Hyunsang Park and Inseok Hwang(参考訳) 航空交通管理(ATM)のデータ駆動モデルの開発に関する研究は近年大きな関心を集めている。 しかし、データ駆動モデルは長いトレーニング時間を持ち、優れたパフォーマンスを達成するために大きなデータセットを必要とすることが知られている。 本稿では,ATMシステムのマルチエージェント特性を完全に考慮し,航空交通管制官の判断を学習するマルチエージェント双方向エンコーダ表現(MA-BERT)モデルと,事前学習および微調整によるトランスファー学習フレームワークを提案する。 MA-BERTを主要空港からの大規模なデータセットで事前訓練し、それを他の空港や特定の航空交通用途に微調整することで、トレーニング時間を大幅に節約することができる。 また, 歴史的資料が得られない新方式や建設空港において, 事前学習したMA-BERTは, 少ないデータで定期的に更新することで高い性能が得られることを示す。 提案した転送学習フレームワークとMA-BERTは、2019年に韓国の3つの空港で記録された自動監視ブロードキャストデータを用いてテストされている。

Research in developing data-driven models for Air Traffic Management (ATM) has gained a tremendous interest in recent years. However, data-driven models are known to have long training time and require large datasets to achieve good performance. To address the two issues, this paper proposes a Multi-Agent Bidirectional Encoder Representations from Transformers (MA-BERT) model that fully considers the multi-agent characteristic of the ATM system and learns air traffic controllers' decisions, and a pre-training and fine-tuning transfer learning framework. By pre-training the MA-BERT on a large dataset from a major airport and then fine-tuning it to other airports and specific air traffic applications, a large amount of the total training time can be saved. In addition, for newly adopted procedures and constructed airports where no historical data is available, this paper shows that the pre-trained MA-BERT can achieve high performance by updating regularly with little data. The proposed transfer learning framework and MA-BERT are tested with the automatic dependent surveillance-broadcast data recorded in 3 airports in South Korea in 2019.
翻訳日:2024-02-04 05:33:15 公開日:2024-01-23
# PetriRL: イベントベース強化学習とペトリネットの統合によるJSSP解決のための革新的フレームワーク

Introducing PetriRL: An Innovative Framework for JSSP Resolution Integrating Petri nets and Event-based Reinforcement Learning ( http://arxiv.org/abs/2402.00046v1 )

ライセンス: Link先を確認
Sofiene Lassoued, Andreas Schwung(参考訳) 産業用ジョブショップにおける品質スケジューリングは不可欠である。 ニューラルネットワークはこれらの問題を解決するのに優れているが、その限定された説明性は、その産業的普及を妨げる。 本研究では,ジョブショップスケジューリング問題(JSSP)を解くための革新的なフレームワークを提案する。 提案手法では,ペトリネットを用いてジョブショップをモデル化し,説明性の向上だけでなく,JSSPインスタンスを解離グラフにプリプロセスすることなく,生データの直接的取り込みを可能にする。 petri netは、その制御能力と共に、プロセスの自動化コンポーネントを制御し、エージェントが重要な意思決定、特にリソース割り当てに集中できるようにします。 当社のアプローチにおけるイベントベースの制御とアクションマスキングの統合は、公開テストベンチマークにおける競合パフォーマンスをもたらす。 ヒューリスティックス、メタヒューリスティックス、学習に基づくアルゴリズムを含む、幅広い最適化ソリューションの比較分析は、大規模インスタンスにおける我々のアプローチの競争力と、中小規模シナリオにおける全ての競合に対する優位性を強調している。 最終的に、我々のアプローチは様々なインスタンスサイズにまたがる堅牢な一般化能力を示すだけでなく、ペトリネットのグラフ特性を活用し、エージェントの再トレーニングを必要とせずに推論フェーズ中に動的にジョブ操作を追加し、柔軟性を向上させる。

Quality scheduling in industrial job shops is crucial. Although neural networks excel in solving these problems, their limited explainability hinders their widespread industrial adoption. In this research, we introduce an innovative framework for solving job shop scheduling problems (JSSP). Our methodology leverages Petri nets to model the job shop, not only improving explainability but also enabling direct incorporation of raw data without the need to preprocess JSSP instances into disjunctive graphs. The Petri net, with its controlling capacities, also governs the automated components of the process, allowing the agent to focus on critical decision-making, particularly resource allocation. The integration of event-based control and action masking in our approach yields competitive performance on public test benchmarks. Comparative analyses across a wide spectrum of optimization solutions, including heuristics, metaheuristics, and learning-based algorithms, highlight the competitiveness of our approach in large instances and its superiority over all competitors in small to medium-sized scenarios. Ultimately, our approach not only demonstrates a robust ability to generalize across various instance sizes but also leverages the Petri net's graph nature to dynamically add job operations during the inference phase without the need for agent retraining, thereby enhancing flexibility.
翻訳日:2024-02-04 05:11:28 公開日:2024-01-23
# 量子力学における距離の測定

Measures of distance in quantum mechanics ( http://arxiv.org/abs/2401.13709v1 )

ライセンス: Link先を確認
P. Gusin, D. Burys, A. Radosz(参考訳) 重力と量子論の組み合わせはまだ進行中である。 一方、古典重力は物質のエネルギー運動量テンソルと結果として生じる非線形方程式によって決定される時空の幾何学であり、一方量子系の数学的記述は進化を記述する線型方程式を持つヒルベルト空間である。 本稿ではヒルベルト空間における様々な測度について述べる。 一般に、ヒルベルト空間における距離測度はエネルギーによって決定される測度とエントロピーによって決定される測度に分けられる。 エントロピー測度は距離を定義する公理をすべて満たさないので、準距離を決定する。 そのような測度を曖昧に決定するための一般的な規則を見つけることは、基本的なように思える。

Combining gravity with quantum theory is still work in progress. On the one hand, classical gravity, is the geometry of space-time determined by the energy-momentum tensor of matter and the resulting nonlinear equations; on the other hand, the mathematical description of a quantum system, is Hilbert space with linear equations describing evolution. In this paper, various measures in Hilbert space will be presented. In general, distance measures in Hilbert space can be divided into measures determined by energy and measures determined by entropy. Entropy measures determine quasi-distance because they do not satisfy all the axioms defining distance. Finding a general rule to determine such a measure unambiguously seems to be fundamental.
翻訳日:2024-01-26 16:46:18 公開日:2024-01-23
# ハイパーボリックt-SNEの加速

Accelerating hyperbolic t-SNE ( http://arxiv.org/abs/2401.13708v1 )

ライセンス: Link先を確認
Martin Skrodzki, Hunter van Geffen, Nicolas F. Chaves-de-Plaza, Thomas H\"ollt, Elmar Eisemann, Klaus Hildebrandt(参考訳) 階層的または高次元のデータの構造を理解する必要性は、様々な分野に存在する。 双曲空間は、その非線形性が木やグラフデータにとって有用であるため、計算や解析タスクを組み込む上で重要なツールであることが証明されている。 その後、それらは高次元データの可視化にも使われ、埋め込み性能が向上している。 しかし、双曲空間への埋め込みのための既存の次元的縮小法は、入力データのサイズとよく一致しない。 これは、埋め込みは反復最適化スキームによって計算され、各繰り返しの計算コストは入力の大きさの2乗であるからである。 さらに、双曲空間の非線形の性質のため、ユークリッド加速度構造は双曲的セッティングに直接変換することはできない。 本稿では,極性クアッドツリー上に構築された双曲埋め込みの最初の加速構造を紹介する。 既存の手法と比較し、同様の品質の埋め込みをはるかに少ない時間で計算できることを示します。 実験の実装とスクリプトはhttps://graphics.tudelft.nl/accelerating-hyperbolic-tsneで見ることができる。

The need to understand the structure of hierarchical or high-dimensional data is present in a variety of fields. Hyperbolic spaces have proven to be an important tool for embedding computations and analysis tasks as their non-linear nature lends itself well to tree or graph data. Subsequently, they have also been used in the visualization of high-dimensional data, where they exhibit increased embedding performance. However, none of the existing dimensionality reduction methods for embedding into hyperbolic spaces scale well with the size of the input data. That is because the embeddings are computed via iterative optimization schemes and the computation cost of every iteration is quadratic in the size of the input. Furthermore, due to the non-linear nature of hyperbolic spaces, Euclidean acceleration structures cannot directly be translated to the hyperbolic setting. This paper introduces the first acceleration structure for hyperbolic embeddings, building upon a polar quadtree. We compare our approach with existing methods and demonstrate that it computes embeddings of similar quality in significantly less time. Implementation and scripts for the experiments can be found at https://graphics.tudelft.nl/accelerating-hyperbolic-tsne.
翻訳日:2024-01-26 16:46:08 公開日:2024-01-23
# TE2Rules:ルールを使ってツリーアンサンブルを説明する

TE2Rules: Explaining Tree Ensembles using Rules ( http://arxiv.org/abs/2206.14359v5 )

ライセンス: Link先を確認
G Roshan Lal and Xiaotong Chen and Varun Mithal(参考訳) Gradient Boosted Trees(リンク)のようなTree Ensemble(TE)モデルは、表形式のデータセット上で最適なパフォーマンスを達成することが多いが、透明性の欠如は、決定ロジックを理解する上での課題となっている。 本稿では,二分分類木アンサンブルモデルを説明するための新しい手法であるte2rules(tree ensemble to rules)を紹介する。 多くの最先端の解説者は少数派による説明に苦慮し、TE2Rulesはそのような場合に価値がある。 TE2Rulesが生成したルールは、元のモデルを近似し、高い忠実性を確保し、意思決定を理解するための正確かつ解釈可能な手段を提供する。 実験の結果、te2rulesは数百本の木を持つツリーアンサンブルに効果的にスケールし、ベースラインに匹敵するランタイム内で高い忠実度を達成する。 TE2Rulesは実行時と忠実度の間のトレードオフを可能にし、実用性を高める。 実装は以下の通りである。 https://github.com/linkedin/TE2Rules。

Tree Ensemble (TE) models, such as Gradient Boosted Trees, often achieve optimal performance on tabular datasets, yet their lack of transparency poses challenges for comprehending their decision logic. This paper introduces TE2Rules (Tree Ensemble to Rules), a novel approach for explaining binary classification tree ensemble models through a list of rules, particularly focusing on explaining the minority class. Many state-of-the-art explainers struggle with minority class explanations, making TE2Rules valuable in such cases. The rules generated by TE2Rules closely approximate the original model, ensuring high fidelity, providing an accurate and interpretable means to understand decision-making. Experimental results demonstrate that TE2Rules scales effectively to tree ensembles with hundreds of trees, achieving higher fidelity within runtimes comparable to baselines. TE2Rules allows for a trade-off between runtime and fidelity, enhancing its practical applicability. The implementation is available here: https://github.com/linkedin/TE2Rules.
翻訳日:2024-01-25 18:32:33 公開日:2024-01-23
# oolong: 制御された研究でトランスファー学習が難しい理由を調査

Oolong: Investigating What Makes Transfer Learning Hard with Controlled Studies ( http://arxiv.org/abs/2202.12312v2 )

ライセンス: Link先を確認
Zhengxuan Wu and Alex Tamkin and Isabel Papadimitriou(参考訳) 事前訓練された言語モデルを新しい言語に転送すると、一度に変化する変化の軸がたくさんあります。 構文的類似性や語彙的類似性などの異なる要因の影響を解消するために, 系統的に結合ベンチマークの言語を変換し, 言語間差異の1軸を一度に変化させ, 学習モデルの下流性能の低下を計測する, 一連の制御伝達研究を提案する。 我々は,1500万個のトークンの事前学習を継続しながらも,語彙の誤りや組込み行列の再初期化からモデルを回復することは不可能である。 一方,非整合語彙を持つデータセットへの転送は,低データ体制下での回復が極めて困難である。 さらに、転写言語の良質なトークン化器は語彙のアライメントを容易にしない。 実験では,言語移行シナリオの設計に最も注力すべき言語間移動の要因について考察する。

When we transfer a pretrained language model to a new language, there are many axes of variation that change at once. To disentangle the impact of different factors like syntactic similarity and vocabulary similarity, we propose a set of controlled transfer studies: we systematically transform the language of the GLUE benchmark, altering one axis of crosslingual variation at a time, and then measure the resulting drops in a pretrained model's downstream performance. We find that models can largely recover from syntactic-style shifts, but cannot recover from vocabulary misalignment and embedding matrix re-initialization, even with continued pretraining on 15 million tokens. %On the other hand, transferring to a dataset with an unaligned vocabulary is extremely hard to recover from in the low-data regime. Moreover, good-quality tokenizers in the transfer language do not make vocabulary alignment easier. Our experiments provide insights into the factors of cross-lingual transfer that researchers should most focus on when designing language transfer scenarios.
翻訳日:2024-01-25 18:30:58 公開日:2024-01-23
# 条件付きランダムフィールドによるシーングラフ生成

Scene Graph Generation via Conditional Random Fields ( http://arxiv.org/abs/1811.08075v2 )

ライセンス: Link先を確認
Weilin Cong, William Wang, Wang-Chien Lee(参考訳) 画像中の個々の物体の認識にオブジェクト検出とセグメンテーションモデルが大きな成功を収めたにもかかわらず、画像キャプション、セマンティックイメージ検索、視覚的QAといった認知タスクのパフォーマンスは満足できない。 これらの認知タスクでより良いパフォーマンスを達成するには、個々のオブジェクトインスタンスを認識するだけでは不十分である。 その代わり、画像内の視覚的なシーンの推論と理解を容易にするために、オブジェクトインスタンス間のインタラクションをキャプチャする必要がある。 Scene graphは、オブジェクトインスタンスとその関係をキャプチャする画像のグラフ表現であり、画像の包括的な理解を提供する。 しかし、シーングラフ生成の既存の技術では、画像の視覚的なシーンにおける主題やオブジェクトの識別に失敗し、曖昧なオブジェクトインスタンスが存在する現実世界のデータセットではうまく動作しない。 本研究では,画像中のオブジェクトインスタンスとその関連関係を予測するための新しいシーングラフ生成モデルを提案する。 我々のモデルであるSG-CRFは、関係3重項における対象と対象の逐次順序と、シーングラフにおけるオブジェクトインスタンスノードと関係ノードのセマンティック互換性を効率よく学習する。 実験によれば、sg-crfは3つの異なるデータセット、すなわちclevr、vrd、visual genomeで最先端の手法よりも優れており、recall@100は24.99%から49.95%、41.92%から50.47%、54.69%から54.77%に上昇している。

Despite the great success object detection and segmentation models have achieved in recognizing individual objects in images, performance on cognitive tasks such as image caption, semantic image retrieval, and visual QA is far from satisfactory. To achieve better performance on these cognitive tasks, merely recognizing individual object instances is insufficient. Instead, the interactions between object instances need to be captured in order to facilitate reasoning and understanding of the visual scenes in an image. Scene graph, a graph representation of images that captures object instances and their relationships, offers a comprehensive understanding of an image. However, existing techniques on scene graph generation fail to distinguish subjects and objects in the visual scenes of images and thus do not perform well with real-world datasets where exist ambiguous object instances. In this work, we propose a novel scene graph generation model for predicting object instances and its corresponding relationships in an image. Our model, SG-CRF, learns the sequential order of subject and object in a relationship triplet, and the semantic compatibility of object instance nodes and relationship nodes in a scene graph efficiently. Experiments empirically show that SG-CRF outperforms the state-of-the-art methods, on three different datasets, i.e., CLEVR, VRD, and Visual Genome, raising the Recall@100 from 24.99% to 49.95%, from 41.92% to 50.47%, and from 54.69% to 54.77%, respectively.
翻訳日:2024-01-25 18:27:40 公開日:2024-01-23
# ガウス過程における混合カテゴリー相関核

A mixed-categorical correlation kernel for Gaussian process ( http://arxiv.org/abs/2211.08262v4 )

ライセンス: Link先を確認
P. Saves and Y. Diouane and N. Bartoli and T. Lefebvre and J. Morlier(参考訳) 近年,ガウス過程(gp)サロゲートに基づく混合分類メタモデルへの関心が高まっている。 この設定では、いくつかの既存のアプローチは、連続カーネル(例えば、連続緩和とガウワー距離に基づくGP)または相関行列の直接推定によって異なる戦略を使用する。 本稿では,連続指数型カーネルを拡張し,混合カテゴリ変数を扱うカーネルベースアプローチを提案する。 提案したカーネルは、連続緩和とゴーワー距離に基づくGPモデルの両方を一般化する新しいGPサロゲートを導く。 解析的および工学的問題の両方において、提案したGPモデルは、他のカーネルベースの最先端モデルよりも高い確率と残差誤差を与えることを示した。 本手法はオープンソースソフトウェアsmtで利用可能である。

Recently, there has been a growing interest for mixed-categorical meta-models based on Gaussian process (GP) surrogates. In this setting, several existing approaches use different strategies either by using continuous kernels (e.g., continuous relaxation and Gower distance based GP) or by using a direct estimation of the correlation matrix. In this paper, we present a kernel-based approach that extends continuous exponential kernels to handle mixed-categorical variables. The proposed kernel leads to a new GP surrogate that generalizes both the continuous relaxation and the Gower distance based GP models. We demonstrate, on both analytical and engineering problems, that our proposed GP model gives a higher likelihood and a smaller residual error than the other kernel-based state-of-the-art models. Our method is available in the open-source software SMT.
翻訳日:2024-01-25 18:17:02 公開日:2024-01-23
# 画像分類のためのソフト強化

Soft Augmentation for Image Classification ( http://arxiv.org/abs/2211.04625v2 )

ライセンス: Link先を確認
Yang Liu, Shen Yan, Laura Leal-Taix\'e, James Hays, Deva Ramanan(参考訳) 現代のニューラルネットワークは過パラメータであり、データの強化や重みの減衰といった強力な正規化に依存し、過剰フィッティングを減らし、一般化を改善する。 データ拡張の主流形態は不変変換を適用し、サンプルの学習対象はそのサンプルに適用された変換に不変である。 本研究では,人間の視覚分類研究から着想を得て,不変変換による増補をソフト増補へ一般化し,学習対象が標本に適用された変換の度合の関数として非線形に軟化する手法を提案する。 私たちは、ソフトターゲットがより積極的なデータ拡張を可能にし、より堅牢なパフォーマンス向上を提供し、他の拡張ポリシーと連携し、より優れたキャリブレーションモデルを生成することを実証しています。 既存の攻撃的増進戦略 ソフトターゲットと組み合わさって 1) cifar-10, cifar-100, imagenet-1k, imagenet-v2におけるtop-1の精度向上。 2)モデルのオクルージョン性能を最大$4\times$で改善し、 3) 期待校正誤差(ECE)を半減する。 最後に,ソフト拡張が自己教師付き分類タスクに一般化されることを示す。 https://github.com/youngleox/soft_augmentationで利用可能なコード

Modern neural networks are over-parameterized and thus rely on strong regularization such as data augmentation and weight decay to reduce overfitting and improve generalization. The dominant form of data augmentation applies invariant transforms, where the learning target of a sample is invariant to the transform applied to that sample. We draw inspiration from human visual classification studies and propose generalizing augmentation with invariant transforms to soft augmentation where the learning target softens non-linearly as a function of the degree of the transform applied to the sample: e.g., more aggressive image crop augmentations produce less confident learning targets. We demonstrate that soft targets allow for more aggressive data augmentation, offer more robust performance boosts, work with other augmentation policies, and interestingly, produce better calibrated models (since they are trained to be less confident on aggressively cropped/occluded examples). Combined with existing aggressive augmentation strategies, soft target 1) doubles the top-1 accuracy boost across Cifar-10, Cifar-100, ImageNet-1K, and ImageNet-V2, 2) improves model occlusion performance by up to $4\times$, and 3) halves the expected calibration error (ECE). Finally, we show that soft augmentation generalizes to self-supervised classification tasks. Code available at https://github.com/youngleox/soft_augmentation
翻訳日:2024-01-25 18:16:49 公開日:2024-01-23
# リスク対応線形帯域:スマートオーダールーティングの理論と応用

Risk-Aware Linear Bandits: Theory and Applications in Smart Order Routing ( http://arxiv.org/abs/2208.02389v2 )

ライセンス: Link先を確認
Jingwei Ji, Renyuan Xu, Ruihao Zhu(参考訳) リスク回避や大規模行動空間などの金融意思決定における機械学習の実践的考察により,スマートオーダールーティング(SOR)の応用によるリスク認識の帯域幅最適化を検討した。 具体的には、NASDAQ ITCHデータセットによる線形価格影響の予備観測に基づいて、リスク対応線形帯域の研究を開始する。 そこで本研究では,未知パラメータの線形関数を報酬とする行動群に対して平均分散メトリックを用いて,最適値と比較して性能の欠如を計測する「後悔」を最小化することを目的とした。 分散最小化グローバル最適化(G-Optimal)設計により、新しいインスタンス非依存型リスク意識探索-then-Commit(RISE)アルゴリズムとインスタンス依存型リスク意識継承排除(RISE++)アルゴリズムを提案する。 そして,この線形構造を利用することで,従来の手法と比較して,後悔を劇的に減らすことができることを示すため,最善の後悔の上限を厳格に解析した。 最後に,合成データセットとnasdaq itchデータセットの両方を用いて,sor設定で広範な数値実験を行い,アルゴリズムの性能を示す。 私たちの結果は 1) 線形構造仮定は、nasdaqデータセットによって、確実に十分に支持することができる。 2)RISEとRISE++はどちらも,特に複雑な意思決定シナリオにおいて,競合する手法よりも優れています。

Motivated by practical considerations in machine learning for financial decision-making, such as risk aversion and large action space, we consider risk-aware bandits optimization with applications in smart order routing (SOR). Specifically, based on preliminary observations of linear price impacts made from the NASDAQ ITCH dataset, we initiate the study of risk-aware linear bandits. In this setting, we aim at minimizing regret, which measures our performance deficit compared to the optimum's, under the mean-variance metric when facing a set of actions whose rewards are linear functions of (initially) unknown parameters. Driven by the variance-minimizing globally-optimal (G-optimal) design, we propose the novel instance-independent Risk-Aware Explore-then-Commit (RISE) algorithm and the instance-dependent Risk-Aware Successive Elimination (RISE++) algorithm. Then, we rigorously analyze their near-optimal regret upper bounds to show that, by leveraging the linear structure, our algorithms can dramatically reduce the regret when compared to existing methods. Finally, we demonstrate the performance of the algorithms by conducting extensive numerical experiments in the SOR setup using both synthetic datasets and the NASDAQ ITCH dataset. Our results reveal that 1) The linear structure assumption can indeed be well supported by the Nasdaq dataset; and more importantly 2) Both RISE and RISE++ can significantly outperform the competing methods, in terms of regret, especially in complex decision-making scenarios.
翻訳日:2024-01-25 18:15:03 公開日:2024-01-23
# ReCOGS:セマンティック解釈の評価における論理形式の詳細について

ReCOGS: How Incidental Details of a Logical Form Overshadow an Evaluation of Semantic Interpretation ( http://arxiv.org/abs/2303.13716v2 )

ライセンス: Link先を確認
Zhengxuan Wu, Christopher D. Manning, Christopher Potts(参考訳) 意味解析のための構成一般化ベンチマークは、モデルが新しい文の意味を正確に計算できるかどうかを評価するが、論理形式(LF)予測の観点からこれを運用する。 これにより、選択されたLFの意味的に無関係な詳細がモデルのパフォーマンスを形作るという懸念が持ち上がる。 我々はこの懸念がCOGSベンチマークで実現されていると論じる。 COGSは、現在のモデルでは不可能と思われる一般化分割を呈し、これらのモデルの起訴と見なすことができる。 しかし, COGS LFs の偶発的特徴に負の相関がみられた。 これらのLFを意味論的に等価なものに変換し、意味論的解釈とは無関係な能力を分解すると、ベースラインモデルでさえ牽引される。 近年の COGS LF の変数自由翻訳では同様の結論が示唆されているが,この形式は意味論的に等価ではなく,COGS の意味を正確に表現することはできない。 これらの結果から,COGSの改良版であるReCOGSの提案が示唆された。 全体として,構成一般化と注意深いベンチマークタスク設計の重要性を再確認した。

Compositional generalization benchmarks for semantic parsing seek to assess whether models can accurately compute meanings for novel sentences, but operationalize this in terms of logical form (LF) prediction. This raises the concern that semantically irrelevant details of the chosen LFs could shape model performance. We argue that this concern is realized for the COGS benchmark. COGS poses generalization splits that appear impossible for present-day models, which could be taken as an indictment of those models. However, we show that the negative results trace to incidental features of COGS LFs. Converting these LFs to semantically equivalent ones and factoring out capabilities unrelated to semantic interpretation, we find that even baseline models get traction. A recent variable-free translation of COGS LFs suggests similar conclusions, but we observe this format is not semantically equivalent; it is incapable of accurately representing some COGS meanings. These findings inform our proposal for ReCOGS, a modified version of COGS that comes closer to assessing the target semantic capabilities while remaining very challenging. Overall, our results reaffirm the importance of compositional generalization and careful benchmark task design.
翻訳日:2024-01-25 18:06:46 公開日:2024-01-23
# Sparse Ising Machinesを用いたDeep Boltzmann Networksのトレーニング

Training Deep Boltzmann Networks with Sparse Ising Machines ( http://arxiv.org/abs/2303.10728v2 )

ライセンス: Link先を確認
Shaila Niazi, Navid Anjum Aadit, Masoud Mohseni, Shuvro Chowdhury, Yao Qin, and Kerem Y. Camsari(参考訳) ムーアの法則の減速は、組合せ最適化問題を解くのに適した特別なIsingマシンのような非伝統的な計算パラダイムの開発を促した。 本稿では,確率ビット(pビット)ベースのIsingマシンに対して,深層生成AIモデルをトレーニングすることで,新しいアプリケーション領域を提案する。 スパース、非同期、および非常に並列なIsingマシンを使用して、ハイブリッド確率-古典計算設定でディープボルツマンネットワークを訓練する。 モデムサイズのフィールドプログラマブルゲートアレイ (fpga) で実装されたハードウェア対応ネットワークトポロジでは,完全なmnist と fashion mnist (fmnist) データセットをダウンサンプリングなしで使用し,cifar-10 データセットの縮小版を使用する。 MNISTでは4,264ノード(p-bits)と約30,000パラメータしか使用せず、最適化されたソフトウェアベース限定ボルツマンマシン(RBM)と同じ分類精度(90%)を達成する。 FMNISTとCIFAR-10も同様の結果である。 さらに、疎密なディープボルツマンネットワークは、新しい手書きのデジットやファッション製品を生成することができる。 私たちのハイブリッドコンピュータは、毎秒50億から64億の確率的フリップを計測します。これは、表面的に類似したグラフィックスおよびテンソル処理ユニット(gpu/tpu)ベースの実装よりも少なくとも1桁高速です。 大規模並列アーキテクチャは、既存のソフトウェア実装の能力を超えて、1回の更新で最大1000万スイープのコントラスト発散アルゴリズム(cd-n)を快適に実行できる。 これらの結果は、伝統的に訓練された深部生成ボルツマンネットワークにIsingマシンを使用することの可能性を示し、さらにナノデバイスベースの実現の可能性を示している。

The slowing down of Moore's law has driven the development of unconventional computing paradigms, such as specialized Ising machines tailored to solve combinatorial optimization problems. In this paper, we show a new application domain for probabilistic bit (p-bit) based Ising machines by training deep generative AI models with them. Using sparse, asynchronous, and massively parallel Ising machines we train deep Boltzmann networks in a hybrid probabilistic-classical computing setup. We use the full MNIST and Fashion MNIST (FMNIST) dataset without any downsampling and a reduced version of CIFAR-10 dataset in hardware-aware network topologies implemented in moderately sized Field Programmable Gate Arrays (FPGA). For MNIST, our machine using only 4,264 nodes (p-bits) and about 30,000 parameters achieves the same classification accuracy (90%) as an optimized software-based restricted Boltzmann Machine (RBM) with approximately 3.25 million parameters. Similar results follow for FMNIST and CIFAR-10. Additionally, the sparse deep Boltzmann network can generate new handwritten digits and fashion products, a task the 3.25 million parameter RBM fails at despite achieving the same accuracy. Our hybrid computer takes a measured 50 to 64 billion probabilistic flips per second, which is at least an order of magnitude faster than superficially similar Graphics and Tensor Processing Unit (GPU/TPU) based implementations. The massively parallel architecture can comfortably perform the contrastive divergence algorithm (CD-n) with up to n = 10 million sweeps per update, beyond the capabilities of existing software implementations. These results demonstrate the potential of using Ising machines for traditionally hard-to-train deep generative Boltzmann networks, with further possible improvement in nanodevice-based realizations.
翻訳日:2024-01-25 18:06:27 公開日:2024-01-23
# DeepGD:ディープニューラルネットワークのための多目的ブラックボックステスト選択アプローチ

DeepGD: A Multi-Objective Black-Box Test Selection Approach for Deep Neural Networks ( http://arxiv.org/abs/2303.04878v4 )

ライセンス: Link先を確認
Zohreh Aghababaeyan, Manel Abdellatif, Mahboubeh Dadkhah, Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、画像処理、音声認識、自然言語処理などの様々なアプリケーション領域で広く使われている。 しかし、DNNモデルのテストは、入力ドメインの複雑さとサイズのために難しいかもしれない。 特に、DNNモデルをテストするには、大きなラベルのないデータセットの生成や探索が必要となることが多い。 実際には、入力の正しい出力を識別するdnn test oracleは、テストデータのラベル付けに高価な手動作業を必要とすることが多い。 本稿では,DNNモデルに対するブラックボックス多目的テスト選択手法であるDeepGDを提案する。 大規模なラベル付けされていないデータセットから高い障害を露呈するパワーでテスト入力の選択を優先順位付けすることで、ラベル付けのコストを削減する。 DeepGDは、高い不確実性スコアを持つテスト入力を選択して、可能な限り多くの誤予測入力をトリガーするだけでなく、多様な誤予測入力を選択してDNNモデルに異なる障害を明らかにする確率を最大化する。 4つの広く使用されているデータセットと5つのDNNモデルで実施された実験結果から,(1)ホワイトボックス,カバレッジベースのアプローチは不十分,(2)DeepGDは既存のブラックボックステスト選択アプローチよりも優れた性能を示し,(3)DeepGDは,選択した入力を使用してトレーニングセットを増強する際のDNNモデルトレーニングのガイダンスも向上した。

Deep neural networks (DNNs) are widely used in various application domains such as image processing, speech recognition, and natural language processing. However, testing DNN models may be challenging due to the complexity and size of their input domain. Particularly, testing DNN models often requires generating or exploring large unlabeled datasets. In practice, DNN test oracles, which identify the correct outputs for inputs, often require expensive manual effort to label test data, possibly involving multiple experts to ensure labeling correctness. In this paper, we propose DeepGD, a black-box multi-objective test selection approach for DNN models. It reduces the cost of labeling by prioritizing the selection of test inputs with high fault revealing power from large unlabeled datasets. DeepGD not only selects test inputs with high uncertainty scores to trigger as many mispredicted inputs as possible but also maximizes the probability of revealing distinct faults in the DNN model by selecting diverse mispredicted inputs. The experimental results conducted on four widely used datasets and five DNN models show that in terms of fault-revealing ability: (1) White-box, coverage-based approaches fare poorly, (2) DeepGD outperforms existing black-box test selection approaches in terms of fault detection, and (3) DeepGD also leads to better guidance for DNN model retraining when using selected inputs to augment the training set.
翻訳日:2024-01-25 18:04:52 公開日:2024-01-23
# 拡散モデルにおける言語結合:注意マップアライメントによる属性対応の強化

Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment ( http://arxiv.org/abs/2306.08877v3 )

ライセンス: Link先を確認
Royi Rassin, Eran Hirsch, Daniel Glickman, Shauli Ravfogel, Yoav Goldberg, Gal Chechik(参考訳) テキスト条件付き画像生成モデルは、エンティティとその視覚的属性間の誤った関連をしばしば生成する。 これは、生成画像中の対応する要素のプロンプトおよび視覚的結合における、エンティティと修飾子の言語的結合の障害マッピングを反映する。 一例として、「ピンクのひまわりと黄色のフラミンゴ」のようなクエリは、誤って黄色いひまわりとピンクのフラミンゴの画像を生成する可能性がある。 この問題を解決するために、まずエンティティとその修飾子を識別するためのプロンプトを構文解析し、その後、構文に反映される言語結合にクロス・アテンション・マップを推奨する新しい損失関数であるsyngenを提案する。 具体的には、エンティティのアテンションマップとその修飾子間の大きなオーバーラップと、他のエンティティや修飾子ワードとの小さなオーバーラップを推奨する。 損失はモデルの再トレーニングや微調整なしに、推論中に最適化される。 新たな1つの挑戦的セットを含む3つのデータセットに対する人間による評価は、現在の技術手法と比較して、SynGenの大幅な改善を示している。 本研究は,推論中の文構造の利用が,テキスト対画像生成の忠実さを効果的かつ効果的に向上することを示す。

Text-conditioned image generation models often generate incorrect associations between entities and their visual attributes. This reflects an impaired mapping between linguistic binding of entities and modifiers in the prompt and visual binding of the corresponding elements in the generated image. As one notable example, a query like "a pink sunflower and a yellow flamingo" may incorrectly produce an image of a yellow sunflower and a pink flamingo. To remedy this issue, we propose SynGen, an approach which first syntactically analyses the prompt to identify entities and their modifiers, and then uses a novel loss function that encourages the cross-attention maps to agree with the linguistic binding reflected by the syntax. Specifically, we encourage large overlap between attention maps of entities and their modifiers, and small overlap with other entities and modifier words. The loss is optimized during inference, without retraining or fine-tuning the model. Human evaluation on three datasets, including one new and challenging set, demonstrate significant improvements of SynGen compared with current state of the art methods. This work highlights how making use of sentence structure during inference can efficiently and substantially improve the faithfulness of text-to-image generation.
翻訳日:2024-01-25 17:55:49 公開日:2024-01-23
# 根本原因の少ないデータからDAGを学習する

Learning DAGs from Data with Few Root Causes ( http://arxiv.org/abs/2305.15936v2 )

ライセンス: Link先を確認
Panagiotis Misiakos, Chris Wendler, Markus P\"uschel(参考訳) 線形構造方程式モデル(sem)によって生成されたデータから有向非巡回グラフ(dag)を学習するための新しい視点とアルゴリズムを提案する。 まず, 線形SEMを線形変換とみなすことができ, 先行研究では, ノードに関連付けられたランダム値の根起因(いわゆる)の高密度入力ベクトルからデータを計算する。 代わりに、(およそ)根本原因がほとんどない場合を考え、また、データの計測にノイズを導入する。 直感的には、DAGデータは、DAGを通して効果が浸透する少数のデータ生成イベントによって生成されることを意味する。 この新たな設定において同定可能性を証明するとともに、真のDAGが根因のベクトルの$L^0$-normの大域的最小化であることを示す。 根本原因の少ないデータに対して,ノイズの有無に関わらず,従来のdag学習法よりも優れた性能を示す。

We present a novel perspective and algorithm for learning directed acyclic graphs (DAGs) from data generated by a linear structural equation model (SEM). First, we show that a linear SEM can be viewed as a linear transform that, in prior work, computes the data from a dense input vector of random valued root causes (as we will call them) associated with the nodes. Instead, we consider the case of (approximately) few root causes and also introduce noise in the measurement of the data. Intuitively, this means that the DAG data is produced by few data-generating events whose effect percolates through the DAG. We prove identifiability in this new setting and show that the true DAG is the global minimizer of the $L^0$-norm of the vector of root causes. For data with few root causes, with and without noise, we show superior performance compared to prior DAG learning methods.
翻訳日:2024-01-25 17:54:13 公開日:2024-01-23
# SMT 2.0:階層および混合変数ガウスプロセスに焦点を当てた代理モデリングツールボックス

SMT 2.0: A Surrogate Modeling Toolbox with a focus on Hierarchical and Mixed Variables Gaussian Processes ( http://arxiv.org/abs/2305.13998v5 )

ライセンス: Link先を確認
Paul Saves and Remi Lafage and Nathalie Bartoli and Youssef Diouane and Jasper Bussemaker and Thierry Lefebvre and John T. Hwang and Joseph Morlier and Joaquim R. R. A. Martins(参考訳) Surrogate Modeling Toolbox (SMT)はオープンソースのPythonパッケージで、一連のサロゲートモデリングメソッド、サンプリング技術、サンプル問題の集合を提供する。 本稿では、ツールボックスに大幅なアップグレードと新機能を導入したSMT 2.0について述べる。 このリリースには、混合変数サロゲートモデルと階層変数を扱う機能が追加されている。 これらのタイプの変数は、いくつかの代理モデリングアプリケーションでますます重要になっている。 SMT 2.0はサンプリング方法を拡張し、新しいサロゲートモデルを追加し、分散計算とKrigingのカーネルデリバティブを演算することでSMTを改善した。 このリリースには、ノイズを処理し、マルチフィデリティデータを使用する新しい機能も含まれている。 我々の知る限り、SMT 2.0は階層的および混合的な入力に対するサロゲートモデルを提案する最初のオープンソースサロゲートライブラリである。 このオープンソースソフトウェアは、新しいbsdライセンスの下で配布される。

The Surrogate Modeling Toolbox (SMT) is an open-source Python package that offers a collection of surrogate modeling methods, sampling techniques, and a set of sample problems. This paper presents SMT 2.0, a major new release of SMT that introduces significant upgrades and new features to the toolbox. This release adds the capability to handle mixed-variable surrogate models and hierarchical variables. These types of variables are becoming increasingly important in several surrogate modeling applications. SMT 2.0 also improves SMT by extending sampling methods, adding new surrogate models, and computing variance and kernel derivatives for Kriging. This release also includes new functions to handle noisy and use multifidelity data. To the best of our knowledge, SMT 2.0 is the first open-source surrogate library to propose surrogate models for hierarchical and mixed inputs. This open-source software is distributed under the New BSD license.
翻訳日:2024-01-25 17:53:30 公開日:2024-01-23
# 共通拡散騒音スケジューリングとサンプルステップの欠陥

Common Diffusion Noise Schedules and Sample Steps are Flawed ( http://arxiv.org/abs/2305.08891v4 )

ライセンス: Link先を確認
Shanchuan Lin, Bingchen Liu, Jiashi Li, Xiao Yang(参考訳) 一般的な拡散雑音のスケジュールは、信号対雑音比(snr)をゼロにする最後の時間ステップを強制せず、拡散サンプラーの実装のいくつかは、最後の時間ステップから開始しない。 このような設計には欠陥があり、モデルが推論時に純粋なガウスノイズを与えられるという事実を反映せず、トレーニングと推論の間に相違が生じている。 既存の実装に欠陥のある設計が本当の問題を引き起こすことを示す。 安定拡散(Stable Diffusion)では、モデルが中輝度の画像のみを生成することを厳しく制限し、非常に明るく暗いサンプルを生成するのを防ぐ。 我々は,(1) ノイズスケジュールを再スケールして端末snrをゼロにする,(2) モデルをv予測でトレーニングする,(3) サンプリング器を最後の時間ステップから常に起動するように変更する,(4) 過度な露出を防止するための再スケール分類器フリーガイダンスを提案する。 これらの単純な変更により、トレーニングと推論の間に拡散プロセスが一致し、モデルは元のデータ分布に忠実なサンプルを生成することができる。

We discover that common diffusion noise schedules do not enforce the last timestep to have zero signal-to-noise ratio (SNR), and some implementations of diffusion samplers do not start from the last timestep. Such designs are flawed and do not reflect the fact that the model is given pure Gaussian noise at inference, creating a discrepancy between training and inference. We show that the flawed design causes real problems in existing implementations. In Stable Diffusion, it severely limits the model to only generate images with medium brightness and prevents it from generating very bright and dark samples. We propose a few simple fixes: (1) rescale the noise schedule to enforce zero terminal SNR; (2) train the model with v prediction; (3) change the sampler to always start from the last timestep; (4) rescale classifier-free guidance to prevent over-exposure. These simple changes ensure the diffusion process is congruent between training and inference and allow the model to generate samples more faithful to the original data distribution.
翻訳日:2024-01-25 17:53:12 公開日:2024-01-23
# スケールでの解釈可能性:アルパカにおける因果メカニズムの解明

Interpretability at Scale: Identifying Causal Mechanisms in Alpaca ( http://arxiv.org/abs/2305.08809v2 )

ライセンス: Link先を確認
Zhengxuan Wu, Atticus Geiger, Christopher Potts, Noah D. Goodman(参考訳) 大規模で汎用的な言語モデルの人間解釈可能な説明を得ることは、AI安全性の緊急の目標である。 しかし、我々の解釈可能性法は、モデル行動の根底にある因果ダイナミクスに忠実であり、不明瞭な入力に頑健に一般化できることと同じくらい重要である。 分散アライメント探索(DAS)は、因果抽象理論に基づく強力な勾配降下法であり、解釈可能なシンボルアルゴリズムと特定のタスクのために微調整された小さなディープラーニングモデルとの完全な整合性を発見した。 本稿では,残ったブルートフォースサーチステップを学習パラメーターに置き換え,境界なしdasと呼ぶアプローチにより,dasを格段にスケールする。 これにより、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索できる。 境界のないdasをalpacaモデル(7bパラメータ)に適用し、棚から外れて単純な数値推論問題を解く。 境界のないdasでは、2つの解釈可能なブール変数を持つ因果モデルを実装することでalpacaがこれを行うことが分かる。 さらに,これらの変数に対する神経表現のアライメントは,入力や命令の変化に対して頑健であることが判明した。 これらの発見は、我々の成長し、最も広く展開されている言語モデルの内部動作を忠実に理解するための第一歩である。 私たちのツールはより大きなLLMに拡張可能で、https://github.com/stanfordnlp/pyvene`で公開されています。

Obtaining human-interpretable explanations of large, general-purpose language models is an urgent goal for AI safety. However, it is just as important that our interpretability methods are faithful to the causal dynamics underlying model behavior and able to robustly generalize to unseen inputs. Distributed Alignment Search (DAS) is a powerful gradient descent method grounded in a theory of causal abstraction that has uncovered perfect alignments between interpretable symbolic algorithms and small deep learning models fine-tuned for specific tasks. In the present paper, we scale DAS significantly by replacing the remaining brute-force search steps with learned parameters -- an approach we call Boundless DAS. This enables us to efficiently search for interpretable causal structure in large language models while they follow instructions. We apply Boundless DAS to the Alpaca model (7B parameters), which, off the shelf, solves a simple numerical reasoning problem. With Boundless DAS, we discover that Alpaca does this by implementing a causal model with two interpretable boolean variables. Furthermore, we find that the alignment of neural representations with these variables is robust to changes in inputs and instructions. These findings mark a first step toward faithfully understanding the inner-workings of our ever-growing and most widely deployed language models. Our tool is extensible to larger LLMs and is released publicly at `https://github.com/stanfordnlp/pyvene`.
翻訳日:2024-01-25 17:52:29 公開日:2024-01-23
# 逆最適化における学習:インセンタコスト、拡張されたサブ最適化損失、アルゴリズム

Learning in Inverse Optimization: Incenter Cost, Augmented Suboptimality Loss, and Algorithms ( http://arxiv.org/abs/2305.07730v2 )

ライセンス: Link先を確認
Pedro Zattoni Scroccaro, Bilge Atasoy, Peyman Mohajerin Esfahani(参考訳) 逆最適化(IO)では、エキスパートエージェントが外因性信号でパラメトリックな最適化問題を解く。 学習の観点からは、信号のデータセットと対応する最適なアクションが与えられた専門家のコスト関数を学ぶことが目標である。 一貫性のあるコストベクトルのio集合の幾何学に動機づけられ、besbes et al. (2023) によって最近提案されたcircorcenterに似た「内心」概念を導入する。 中心コストベクトルの幾何的・ロバスト性解釈を議論し, 円周と対照的なトラクタブル凸修正法を開発し, トラクタブル最適化プログラムと等価であることを示した。 さらに,不整合データ問題に対する中心概念の緩和であるASL(Augmented Suboptimality Loss)という新たな損失関数を提案する。 ASL の構造を探索し,Stochastic Approximate Mirror Descent と呼ばれる新しい一階法を提案する。 このアルゴリズムは、確率的および近似的な劣次評価とミラー降下更新ステップを組み合わせることで、高濃度の離散可逆集合を持つio問題に対して有効である。 InvOptと呼ばれるPythonパッケージとして,本論文で開発されたIOアプローチを実装した。 我々の数値実験は再現可能であり、根底にあるソースコードはInvOptパッケージの例である。

In Inverse Optimization (IO), an expert agent solves an optimization problem parametric in an exogenous signal. From a learning perspective, the goal is to learn the expert's cost function given a dataset of signals and corresponding optimal actions. Motivated by the geometry of the IO set of consistent cost vectors, we introduce the "incenter" concept, a new notion akin to circumcenter recently proposed by Besbes et al. (2023). Discussing the geometric and robustness interpretation of the incenter cost vector, we develop corresponding tractable convex reformulations, which are in contrast with the circumcenter, which we show is equivalent to an intractable optimization program. We further propose a novel loss function called Augmented Suboptimality Loss (ASL), a relaxation of the incenter concept for problems with inconsistent data. Exploiting the structure of the ASL, we propose a novel first-order algorithm, which we name Stochastic Approximate Mirror Descent. This algorithm combines stochastic and approximate subgradient evaluations, together with mirror descent update steps, which is provably efficient for the IO problems with discrete feasible sets with high cardinality. We implement the IO approaches developed in this paper as a Python package called InvOpt. Our numerical experiments are reproducible, and the underlying source code is available as examples in the InvOpt package.
翻訳日:2024-01-25 17:51:39 公開日:2024-01-23
# 二原子分子を用いた量子機械式カルノライクエンジンの性能解析

The Performance Analysis of a Quantum-Mechanical Carnot-like Engine using Diatomic Molecules ( http://arxiv.org/abs/2305.03197v3 )

ライセンス: Link先を確認
E. O. Oladimeji, T. T. Ibrahim, A. N. Ikot, J.D. Koffa, V. T. Idundun, E. C. Umeh, J.O. Audu(参考訳) 本研究では,二原子分子,すなわちモース振動子を動作物質として用いたカルノ様サイクルの量子力学的定式化について解析する。 任意の1次元ポテンシャルを持つ一般化モデルを用いて、有限速で移動する幅Lを考慮し、効率、出力、エンジンの最適領域などの重要な性能パラメータを求める。 また, 作業物の最適効率, 最大出力, 無次元出力範囲についても検討した。 本研究で得られた結果は類似したエンジンで得られたものと一致したが, 異なる動作物質で一致した。

This study presents an analysis of a quantum mechanical formulation of the Carnot like cycle using diatomic molecules, i.e., the Morse oscillator, as the working substance. The generalized model with an arbitrary one dimensional potential is used to obtain the important performance parameters such as the efficiency, the power output, and the optimal region of the engine by considering well width L moving with a finite speed. The optimal efficiency, the maximum power output, and dimensionless power ranges of the working substance was also determined. The results obtained in this work are found to agree with those obtained for similar engine but with different working substance.
翻訳日:2024-01-25 17:51:12 公開日:2024-01-23
# 異種相互作用学習のための集合的関係推論

Collective Relational Inference for learning heterogeneous interactions ( http://arxiv.org/abs/2305.00557v3 )

ライセンス: Link先を確認
Zhichao Han, Olga Fink, David S. Kammer(参考訳) 相互作用系は、物理学の粒子力学から機能的に連結された脳領域まで、自然と工学においてユビキタスである。 これらの相互作用系は、エッジが対話的実体間の相互作用に対応するグラフによってモデル化することができる。 相互作用法則の探求は基本的な重要性であるが、基礎となる構成上の複雑さのために特に困難である。 関連する課題は、複数の相互作用タイプが同時に共存し、リレーショナル推論が必要な、現実に広く普及している異種システムに対してさらに悪化する。 本稿では,従来の手法と比較して2つの特徴を持つ関係推論の確率的手法を提案する。 第1に、結合分布と入ってくる相互作用間の相関を明示的に符号化することにより、異なるエッジの相互作用タイプをまとめて推論し、第2に、時間とともに変動位相構造を持つシステムを扱うことができる。 提案手法は,複数のベンチマークデータセットにまたがって評価され,既存の手法より優れていることを示す。 さらに、既知の制約と組み合わせることで、例えば、粒子系の物理学的一貫性のある相互作用則を発見できることを示した。 全体として、提案されたモデルはデータ効率が良く、より小さなシステムでトレーニングした場合、大規模システムに一般化できる。 開発した手法は相互作用するシステムを理解する上で重要な要素であり,グラフ構造学習への応用を見出すことができる。

Interacting systems are ubiquitous in nature and engineering, ranging from particle dynamics in physics to functionally connected brain regions. These interacting systems can be modeled by graphs where edges correspond to the interactions between interactive entities. Revealing interaction laws is of fundamental importance but also particularly challenging due to underlying configurational complexities. The associated challenges become exacerbated for heterogeneous systems that are prevalent in reality, where multiple interaction types coexist simultaneously and relational inference is required. Here, we propose a novel probabilistic method for relational inference, which possesses two distinctive characteristics compared to existing methods. First, it infers the interaction types of different edges collectively by explicitly encoding the correlation among incoming interactions with a joint distribution, and second, it allows handling systems with variable topological structure over time. We evaluate the proposed methodology across several benchmark datasets and demonstrate that it outperforms existing methods in accurately inferring interaction types. We further show that when combined with known constraints, it allows us, for example, to discover physics-consistent interaction laws of particle systems. Overall the proposed model is data-efficient and generalizable to large systems when trained on smaller ones. The developed methodology constitutes a key element for understanding interacting systems and may find application in graph structure learning.
翻訳日:2024-01-25 17:50:50 公開日:2024-01-23
# 一般化キャプションとデュアルフュージョン強化を伴う拡散モデルにおける緩和レプリケーションとコピー

Mitigate Replication and Copying in Diffusion Models with Generalized Caption and Dual Fusion Enhancement ( http://arxiv.org/abs/2309.07254v4 )

ライセンス: Link先を確認
Chenghao Li, Dake Chen, Yuke Zhang, Peter A. Beerel(参考訳) 拡散モデルは高品質な画像を生成する素晴らしい能力を示しているが、トレーニングデータを‘複製’する傾向はプライバシの懸念を生じさせる。 最近の研究では、この複製は訓練用データキャプションの一般化や訓練用画像の重複に起因する可能性があるが、効果的な緩和戦略はいまだに解明されていない。 このギャップに対処するため,本稿では,まずキャプションの一般性を測定し,大言語モデル(LLM)を用いてトレーニングキャプションの一般化を行う。 その後,一般化キャプションを活用し,拡散モデルの複製を緩和する新しい二重融合拡張手法を提案する。 実験により,提案手法は,世代間の多様性と品質を維持しつつ,元の拡散モデルと比較して43.5%の再現性を著しく低減できることを示した。 コードはhttps://github.com/HowardLi0816/dual-fusion-diffusionで入手できる。

While diffusion models demonstrate a remarkable capability for generating high-quality images, their tendency to `replicate' training data raises privacy concerns. Although recent research suggests that this replication may stem from the insufficient generalization of training data captions and duplication of training images, effective mitigation strategies remain elusive. To address this gap, our paper first introduces a generality score that measures the caption generality and employ large language model (LLM) to generalize training captions. Subsequently, we leverage generalized captions and propose a novel dual fusion enhancement approach to mitigate the replication of diffusion models. Our empirical results demonstrate that our proposed methods can significantly reduce replication by 43.5% compared to the original diffusion model while maintaining the diversity and quality of generations. Code is available at https://github.com/HowardLi0816/dual-fusion-diffusion.
翻訳日:2024-01-25 17:31:03 公開日:2024-01-23
# 統計的拒絶サンプリングは選好最適化を改善する

Statistical Rejection Sampling Improves Preference Optimization ( http://arxiv.org/abs/2309.06657v2 )

ライセンス: Link先を確認
Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J. Liu, Jialu Liu(参考訳) 言語モデルのアライメントと人間の好みの改善は、現在も活発な研究課題である。 従来のアプローチでは,PPO(Proximal Policy Optimization)などのオンラインRL手法を用いて,RLHF(Reinforcement Learning from Human Feedback)を主に利用していた。 近年、SLiC(Sequence Likelihood Calibration)やDPO(Direct Preference Optimization)といったオフライン手法が魅力的な代替手段として登場し、競争性能を維持しながら安定性とスケーラビリティを改善している。 SLiCは、教師付き微調整(SFT)ポリシーからサンプリングされたシーケンスペアを使用して損失関数を洗練し、DPOは好みデータに基づいて言語モデルを直接最適化し、別の報酬モデルの必要性を先導する。 しかし、目標最適ポリシーの最大確率推定器(mle)は、そのポリシーからサンプリングされたラベル付き選好ペアを必要とする。 DPOの報酬モデルがないことは、最適ポリシーから選好ペアをサンプリングする能力を制限し、SLiCはSFTポリシーからのみ選好ペアをサンプリングすることに制限される。 これらの制約に対処するため,我々は,目的とする最適政策から選好データを抽出し,より正確な最適政策推定を可能にする,統計リジェクションサンプリング最適化 (RSO) という新しい手法を導入する。 また,slic と dpo の両方で使用される損失関数を選好モデリングの観点から拡張する統一フレームワークを提案する。 3つの多種多様なタスクにわたる広範な実験を通して、RSOはLarge Language Model (LLM) と人間レーダの両方の評価において、SLiCとDPOの両方を一貫して上回っていることを示した。

Improving the alignment of language models with human preferences remains an active research challenge. Previous approaches have primarily utilized Reinforcement Learning from Human Feedback (RLHF) via online RL methods such as Proximal Policy Optimization (PPO). Recently, offline methods such as Sequence Likelihood Calibration (SLiC) and Direct Preference Optimization (DPO) have emerged as attractive alternatives, offering improvements in stability and scalability while maintaining competitive performance. SLiC refines its loss function using sequence pairs sampled from a supervised fine-tuned (SFT) policy, while DPO directly optimizes language models based on preference data, foregoing the need for a separate reward model. However, the maximum likelihood estimator (MLE) of the target optimal policy requires labeled preference pairs sampled from that policy. DPO's lack of a reward model constrains its ability to sample preference pairs from the optimal policy, and SLiC is restricted to sampling preference pairs only from the SFT policy. To address these limitations, we introduce a novel approach called Statistical Rejection Sampling Optimization (RSO) that aims to source preference data from the target optimal policy using rejection sampling, enabling a more accurate estimation of the optimal policy. We also propose a unified framework that enhances the loss functions used in both SLiC and DPO from a preference modeling standpoint. Through extensive experiments across three diverse tasks, we demonstrate that RSO consistently outperforms both SLiC and DPO on evaluations from both Large Language Model (LLM) and human raters.
翻訳日:2024-01-25 17:30:47 公開日:2024-01-23
# 1対1顔認証におけるぼやけと解像度が人口差に及ぼす影響

Impact of Blur and Resolution on Demographic Disparities in 1-to-Many Facial Identification ( http://arxiv.org/abs/2309.04447v3 )

ライセンス: Link先を確認
Aman Bhatta, Gabriella Pangelinan, Michael C. King, and Kevin W. Bowyer(参考訳) 顔の認識精度の変動を調査したほとんどの研究は、1対1のマッチング精度を分析し、「政府id品質」と表現できる画像を用いている。 本稿では,「監視カメラの品質」画像に現れる可能性のある1対1の顔認証の精度と,プローブ画像におけるぼやけや解像度低下の有無について分析した。 Cumulative match characteristic curves (CMC) are not appropriate for comparing propensity for rank-one recognition errors across demographics, and so we use three metrics for our analysis: (1) the well-known d' metric between mated and non-mated score distributions, and introduced in this work, (2) absolute score difference between thresholds in the high-similarity tail of the non-mated and the low-similarity tail of the mated distribution, and (3) distribution of (mated - non-mated rank-one scores) across the set of probe images. 1対多の精度における人口変動は、1対1のマッチング精度で観測された結果に完全に従わないことがわかった。 また、1対1の精度とは異なり、1対1の精度の人口統計学的比較は、人口統計学的に異なるアイデンティティとイメージの数に影響される可能性がある。 さらに,プローブ画像のぼやけの増大や,プローブ画像中の顔の解像度の低下は,偽陽性の識別率を著しく上昇させる可能性がある。 そして,この高ぼかし条件や低解像度条件の人口変動は,アフリカ系アメリカ人やコーカサス人よりも男性や女性の方がはるかに大きいことを示す。 1対多の精度が「監視カメラの品質」プローブ画像の「政府IDの品質」ギャラリーに対する処理の文脈で崩壊する可能性がある点が重要である。

Most studies to date that have examined demographic variations in face recognition accuracy have analyzed 1-to-1 matching accuracy, using images that could be described as "government ID quality". This paper analyzes the accuracy of 1-to-many facial identification across demographic groups, and in the presence of blur and reduced resolution in the probe image as might occur in "surveillance camera quality" images. Cumulative match characteristic curves (CMC) are not appropriate for comparing propensity for rank-one recognition errors across demographics, and so we use three metrics for our analysis: (1) the well-known d' metric between mated and non-mated score distributions, and introduced in this work, (2) absolute score difference between thresholds in the high-similarity tail of the non-mated and the low-similarity tail of the mated distribution, and (3) distribution of (mated - non-mated rank-one scores) across the set of probe images. We find that demographic variation in 1-to-many accuracy does not entirely follow what has been observed in 1-to-1 matching accuracy. Also, different from 1-to-1 accuracy, demographic comparison of 1-to-many accuracy can be affected by different numbers of identities and images across demographics. More importantly, we show that increased blur in the probe image, or reduced resolution of the face in the probe image, can significantly increase the false positive identification rate. And we show that the demographic variation in these high blur or low resolution conditions is much larger for male / female than for African-American / Caucasian. The point that 1-to-many accuracy can potentially collapse in the context of processing "surveillance camera quality" probe images against a "government ID quality" gallery is an important one.
翻訳日:2024-01-25 17:30:19 公開日:2024-01-23
# 選好によるピアリング: 大きな言語モデルを調整するためのフィードバック獲得

Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models ( http://arxiv.org/abs/2308.15812v2 )

ライセンス: Link先を確認
Hritik Bansal, John Dang, Aditya Grover(参考訳) 大きな言語モデル(LLM)と人間の価値と意図を批判的に調整するには、人間やAIのフィードバックを使用する必要がある。 密集したフィードバックアノテーションは取得と統合に費用がかかるが、スパースフィードバックは評価(例えば1-7のスコアスコアA)とランキング(例えばレスポンスAがレスポンスBより優れているか? 本研究では,この設計選択がllmのアライメントと評価に与える影響を分析した。 評価やランキングから推定される選好が、人間とAIのアノテータの60%と大きく異なるという矛盾した問題を明らかにする。 以上の結果から,この現象を説明する注釈者バイアスの様々な側面を同定し,例えば,人間の注釈者は対数判断において精度を優先しながら,より密な応答を高く評価した。 驚いたことに、フィードバックプロトコルの選択は、アライメントされたllmの評価にも大きな影響を与えることも観察しています。 特に,アライメントのためのランキングデータ(例えばモデルx)を利用するllmは,ランクベースの評価プロトコル(x/yの応答は基準応答より優れているか?)で評価データ(例えばモデルy)を利用するものよりも好ましいが,格付けベースの評価プロトコル(score rank x/yの応答は1~7のスケールで応答する)は好まれている。 以上の結果から,言語モデルの実用性評価手法における重要なギャップと,アライメントに使用するフィードバックプロトコルへの強い依存が浮き彫りになった。 私たちのコードとデータはhttps://github.com/hritikbansal/sparse_feedbackで入手できます。

Aligning large language models (LLMs) with human values and intents critically involves the use of human or AI feedback. While dense feedback annotations are expensive to acquire and integrate, sparse feedback presents a structural design choice between ratings (e.g., score Response A on a scale of 1-7) and rankings (e.g., is Response A better than Response B?). In this work, we analyze the effect of this design choice for the alignment and evaluation of LLMs. We uncover an inconsistency problem wherein the preferences inferred from ratings and rankings significantly disagree 60% for both human and AI annotators. Our subsequent analysis identifies various facets of annotator biases that explain this phenomena, such as human annotators would rate denser responses higher while preferring accuracy during pairwise judgments. To our surprise, we also observe that the choice of feedback protocol also has a significant effect on the evaluation of aligned LLMs. In particular, we find that LLMs that leverage rankings data for alignment (say model X) are preferred over those that leverage ratings data (say model Y), with a rank-based evaluation protocol (is X/Y's response better than reference response?) but not with a rating-based evaluation protocol (score Rank X/Y's response on a scale of 1-7). Our findings thus shed light on critical gaps in methods for evaluating the real-world utility of language models and their strong dependence on the feedback protocol used for alignment. Our code and data are available at https://github.com/Hritikbansal/sparse_feedback.
翻訳日:2024-01-25 17:28:28 公開日:2024-01-23
# 会話型健康エージェント:パーソナライズされたLLMエージェントフレームワーク

Conversational Health Agents: A Personalized LLM-Powered Agent Framework ( http://arxiv.org/abs/2310.02374v4 )

ライセンス: Link先を確認
Mahyar Abbasian, Iman Azimi, Amir M. Rahmani, Ramesh Jain(参考訳) 会話型医療エージェント(chas)は、援助や診断などの医療サービスを提供する対話型システムである。 現在のCHA、特にLLM(Large Language Models)を利用するものは、主に会話の側面に焦点を当てています。 しかし、それらは限定的なエージェント機能を提供し、特にマルチステップ問題解決、パーソナライズされた会話、マルチモーダルデータ分析を欠いている。 私たちの目標はこれらの制限を克服することです。 我々は,対話エージェントがユーザの医療クエリに対してパーソナライズされた応答を生成するための,オープンソースのLLMフレームワークであるopenCHAを提案する。 このフレームワークにより、開発者はデータソース、知識ベース、分析モデルを含む外部ソースをLLMベースのソリューションに統合できる。 openchaには、外部ソースから情報を収集するためのアクションを計画および実行するためのオーケストレータが含まれている。 知識獲得、問題解決機能、多言語およびマルチモーダル会話を促進し、さまざまなAIプラットフォームとのインタラクションを促進する。 3つのデモを通じて,複雑な医療タスクの処理におけるフレームワークの習熟度を示す。 さらに私たちは,openchaをオープンソースとしてgithub経由でコミュニティに公開しています。

Conversational Health Agents (CHAs) are interactive systems that provide healthcare services, such as assistance and diagnosis. Current CHAs, especially those utilizing Large Language Models (LLMs), primarily focus on conversation aspects. However, they offer limited agent capabilities, specifically lacking multi-step problem-solving, personalized conversations, and multimodal data analysis. Our aim is to overcome these limitations. We propose openCHA, an open-source LLM-powered framework, to empower conversational agents to generate a personalized response for users' healthcare queries. This framework enables developers to integrate external sources including data sources, knowledge bases, and analysis models, into their LLM-based solutions. openCHA includes an orchestrator to plan and execute actions for gathering information from external sources, essential for formulating responses to user inquiries. It facilitates knowledge acquisition, problem-solving capabilities, multilingual and multimodal conversations, and fosters interaction with various AI platforms. We illustrate the framework's proficiency in handling complex healthcare tasks via three demonstrations. Moreover, we release openCHA as open source available to the community via GitHub.
翻訳日:2024-01-25 17:18:28 公開日:2024-01-23
# 潜在情報を用いた視覚観察からの敵対的模倣学習

Adversarial Imitation Learning from Visual Observations using Latent Information ( http://arxiv.org/abs/2309.17371v2 )

ライセンス: Link先を確認
Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis(参考訳) 視覚的観察から模倣学習の課題に焦点をあて,学習エージェントが専門家の動画を唯一の学習源として利用できるようにする。 このフレームワークの課題は、エキスパートアクションの欠如と環境の部分的可観測性である。 この問題に取り組むため,我々はまず,部分的に観察可能な環境において模倣学習の理論解析を行う。 我々は、専門家とエージェントの潜伏状態遷移分布のばらつきに関して、学習エージェントの最適度に関する上限を確立する。 この分析に動機づけられたアルゴリズムは、観測のシーケンスからエージェントの状態の学習された潜在的表現と、オフ・ポリティカルな敵対的模倣技術を組み合わせたものである。 高次元連続ロボットタスクの実験では、我々のアルゴリズムは最先端の性能と一致し、計算上の優位性は大きい。 さらに,本手法を用いて,エキスパートビデオを活用することにより,画素からの強化学習の効率を向上させる方法を示す。 再現性を確保するため、コードへの無料アクセスを提供しています。

We focus on the problem of imitation learning from visual observations, where the learning agent has access to videos of experts as its sole learning source. The challenges of this framework include the absence of expert actions and the partial observability of the environment, as the ground-truth states can only be inferred from pixels. To tackle this problem, we first conduct a theoretical analysis of imitation learning in partially observable environments. We establish upper bounds on the suboptimality of the learning agent with respect to the divergence between the expert and the agent latent state-transition distributions. Motivated by this analysis, we introduce an algorithm called Latent Adversarial Imitation from Observations, which combines off-policy adversarial imitation techniques with a learned latent representation of the agent's state from sequences of observations. In experiments on high-dimensional continuous robotic tasks, we show that our algorithm matches state-of-the-art performance while providing significant computational advantages. Additionally, we show how our method can be used to improve the efficiency of reinforcement learning from pixels by leveraging expert videos. To ensure reproducibility, we provide free access to our code.
翻訳日:2024-01-25 17:17:22 公開日:2024-01-23
# 射影型絡み合ったペア状態による2次元の最小絡み合った典型的熱状態の効率的な表現

Efficient Representation of Minimally Entangled Typical Thermal States in two dimensions via Projected Entangled Pair States ( http://arxiv.org/abs/2310.08533v2 )

ライセンス: Link先を確認
Aritra Sinha, Marek M. Rams, and Jacek Dziarmaga(参考訳) 最小絡み合った典型的熱状態(METTS)は純粋な状態の集合であり、ギブスの熱状態と等価であり、テンソルネットワークによって効率的に表現できる。 本稿では,2次元(2次元)格子上でのMETTSを表すために,PEPSアンサッツを用いた。 マトリックス製品状態(MPS)は、格子サイズとともに指数関数的に増大する複雑さのため、2次元システムでは効率が良くないが、PEPSはよりトラクタブルなアプローチを提供する。 METTS (PEPS-METTS) のモデル化におけるPEPSの長所を実証するため, 臨界温度での2次元量子イジングモデルの浄化法と比較した。 本分析の結果,PEPS-METTSは結合寸法が著しく低い精度の長距離相関が得られることがわかった。 我々はこの発見を2d fermi hubbardモデルで半充填でさらに裏付ける。 技術的レベルでは、期待値を計算するのに必要なPEPS境界行列積状態を得るための効率的な \textit{zipper} 法を導入する。 想像上の時間発展は、近傍のテンソル更新によって行われる。

The Minimally Entangled Typical Thermal States (METTS) are an ensemble of pure states, equivalent to the Gibbs thermal state, that can be efficiently represented by tensor networks. In this article, we use the Projected Entangled Pair States (PEPS) ansatz as to represent METTS on a two-dimensional (2D) lattice. While Matrix Product States (MPS) are less efficient for 2D systems due to their complexity growing exponentially with the lattice size, PEPS provide a more tractable approach. To substantiate the prowess of PEPS in modeling METTS (dubbed as PEPS-METTS), we benchmark it against the purification method for the 2D quantum Ising model at its critical temperature. Our analysis reveals that PEPS-METTS achieves accurate long-range correlations with significantly lower bond dimensions. We further corroborate this finding in the 2D Fermi Hubbard model at half-filling. At a technical level, we introduce an efficient \textit{zipper} method to obtain PEPS boundary matrix product states needed to compute expectation values. The imaginary time evolution is performed with the neighbourhood tensor update.
翻訳日:2024-01-25 17:04:23 公開日:2024-01-23
# ランダム化コンパイルによる適応フィードバックに対する中間回路測定の準確率的読み出し補正

Quasi-Probabilistic Readout Correction of Mid-Circuit Measurements for Adaptive Feedback via Measurement Randomized Compiling ( http://arxiv.org/abs/2312.14139v2 )

ライセンス: Link先を確認
Akel Hashim, Arnaud Carignan-Dugas, Larry Chen, Christian Juenger, Neelay Fruitwala, Yilun Xu, Gang Huang, Joel J. Wallman, Irfan Siddiqi(参考訳) 量子計測は量子コンピューティングの基本的な構成要素である。 しかし、現代の量子コンピュータでは、測定は量子ゲートよりもエラーになりやすく、非単位誤差や測定クロストークによる非局所相関に影響を受けやすい。 読み出しエラーは後処理で軽減できるが、組合せ的に大きな可能な状態の数を特徴付ける必要があるため、キュービット数では非効率である。 本研究では, ランダム化コンパイルを用いた単純な確率的誤差モデルに補正し, 指数的に大きな混乱行列における単一準備状態の測定から再構成した準確率分布による読み出し誤差の効率的な緩和を可能にすることを示す。 8個の超伝導トランスモン量子ビットのレジスタに適用される多数の異なる準備状態の行列反転を必要とせず、読み出し誤差を補正することで、このアプローチのスケーラビリティとパワーを実証する。 さらに,この手法を準確率的誤りキャンセリングを用いて単発限界の測定に拡張できることを示すとともに,絡み合ったメモリキュービット上でビットフリップエラーを検出・修正するために使用されるアンシラキュービットの回路中測定誤差の補正を実証する。 提案手法は,多数の量子ビットで読み出し誤りを仮定不要に補正する方法を定め,非局所量子ビットで条件付き操作を行うために中回路計測結果を用いた適応回路における読み出しエラーをリアルタイムで補正する手法を提供する。

Quantum measurements are a fundamental component of quantum computing. However, on modern-day quantum computers, measurements can be more error prone than quantum gates, and are susceptible to non-unital errors as well as non-local correlations due to measurement crosstalk. While readout errors can be mitigated in post-processing, it is inefficient in the number of qubits due to a combinatorially-large number of possible states that need to be characterized. In this work, we show that measurement errors can be tailored into a simple stochastic error model using randomized compiling, enabling the efficient mitigation of readout errors via quasi-probability distributions reconstructed from the measurement of a single preparation state in an exponentially large confusion matrix. We demonstrate the scalability and power of this approach by correcting readout errors without the need for any matrix inversion on a large number of different preparation states applied to a register of a eight superconducting transmon qubits. Moreover, we show that this method can be extended to measurement in the single-shot limit using quasi-probabilistic error cancellation, and demonstrate the correction of mid-circuit measurement errors on an ancilla qubit used to detect and actively correct bit-flip errors on an entangled memory qubit. Our approach paves the way for performing an assumption-free correction of readout errors on large numbers of qubits, and offers a strategy for correcting readout errors in adaptive circuits in which the results of mid-circuit measurements are used to perform conditional operations on non-local qubits in real time.
翻訳日:2024-01-25 16:57:07 公開日:2024-01-23
# 母系医療におけるNLP : LLM時代の展望と指針

NLP for Maternal Healthcare: Perspectives and Guiding Principles in the Age of LLMs ( http://arxiv.org/abs/2312.11803v2 )

ライセンス: Link先を確認
Maria Antoniak, Aakanksha Naik, Carla S. Alvarado, Lucy Lu Wang, Irene Y. Chen(参考訳) 自然言語処理(NLP)を使用する倫理的フレームワークは、医療アプリケーションにどのように大きな言語モデル(LLM)や同様のツールが使われているかを形成するために、緊急に必要である。 医療は、臨床医と患者の関係における力のバランス、体系的な健康格差、歴史的不正、経済的制約など、既存の課題に直面している。 最も影響を受けた人々の声から直接抽出し、特定の医療現場のケーススタディに焦点をあてて、母性医療におけるnlpの使用に関する一連の指針を提案する。 参加者39名によるフルデイワークショップにおいて,LSMベースのチャットボットのデモンストレーションを中心とした対話的なセッションを主導し,母体保健におけるNLPツールの価値,ニーズ,認識について,30名の医療従事者と30名の出生者を対象に調査を行った。 調査結果の定量的,質的な分析と対話的議論を行い,その結果を一連の指針原理に集約した。 母性医療におけるnlpの倫理的利用に関する9つの原則を提案する。 一 文脈的意義を認識すること (ii)総合的な測定、及び (iii)誰/何に価値があるか。 それぞれの原則について、基礎となる根拠を説明し、実践的なアドバイスを提供する。 この一連の原則は、他の研究者に方法論的パターンを提供し、母性健康やその他の医療分野で働く実践者にとって、臨床用nlp技術の開発において技術的ニュアンス、歴史的文脈、包括的デザインの重要性を強調するためのリソースとして役立つ。

Ethical frameworks for the use of natural language processing (NLP) are urgently needed to shape how large language models (LLMs) and similar tools are used for healthcare applications. Healthcare faces existing challenges including the balance of power in clinician-patient relationships, systemic health disparities, historical injustices, and economic constraints. Drawing directly from the voices of those most affected, and focusing on a case study of a specific healthcare setting, we propose a set of guiding principles for the use of NLP in maternal healthcare. We led an interactive session centered on an LLM-based chatbot demonstration during a full-day workshop with 39 participants, and additionally surveyed 30 healthcare workers and 30 birthing people about their values, needs, and perceptions of NLP tools in the context of maternal health. We conducted quantitative and qualitative analyses of the survey results and interactive discussions to consolidate our findings into a set of guiding principles. We propose nine principles for ethical use of NLP for maternal healthcare, grouped into three themes: (i) recognizing contextual significance (ii) holistic measurements, and (iii) who/what is valued. For each principle, we describe its underlying rationale and provide practical advice. This set of principles can provide a methodological pattern for other researchers and serve as a resource to practitioners working on maternal health and other healthcare fields to emphasize the importance of technical nuance, historical context, and inclusive design when developing NLP technologies for clinical use.
翻訳日:2024-01-25 16:55:44 公開日:2024-01-23
# 長期心血管疾患検出のためのコンパクトlstm-svm融合モデル

A Compact LSTM-SVM Fusion Model for Long-Duration Cardiovascular Diseases Detection ( http://arxiv.org/abs/2312.09442v2 )

ライセンス: Link先を確認
Siyang Wu(参考訳) 世界的には、心臓血管疾患(CVD)が主な死因であり、毎年1790万人が死亡している。 重要な臨床目的の1つは、心電図(ECG)データを用いたCVDの早期検出である。 機械学習とディープラーニングに基づく最近の進歩は、この分野で大きな進歩を遂げている。 しかし、既存の手法には、不適切なモデル評価やデータ漏洩の事例など、固有の制限がある。 本研究では,ECG信号を10秒間連続的に前処理し,手動の特徴抽出・拍動検出の必要性をなくすためのワークフロー・パラダイムを提案する。 また,詐欺検出のためのSVMを用いたLong Short-Term Memory(LSTM)のハイブリッドモデルを提案する。 このアーキテクチャは2つのLSTM層とSVM分類器から構成されており、平均精度はMIT-BIH不整脈データセットで0.9402、MIT-BIH心房細動データセットで0.9563である。 その結果,本手法はcvdの早期検出と管理に有益であると考えられた。

Globally, cardiovascular diseases (CVDs) are the leading cause of mortality, accounting for an estimated 17.9 million deaths annually. One critical clinical objective is the early detection of CVDs using electrocardiogram (ECG) data, an area that has received significant attention from the research community. Recent advancements based on machine learning and deep learning have achieved great progress in this domain. However, existing methodologies exhibit inherent limitations, including inappropriate model evaluations and instances of data leakage. In this study, we present a streamlined workflow paradigm for preprocessing ECG signals into consistent 10-second durations, eliminating the need for manual feature extraction/beat detection. We also propose a hybrid model of Long Short-Term Memory (LSTM) with Support Vector Machine (SVM) for fraud detection. This architecture consists of two LSTM layers and an SVM classifier, which achieves a SOTA results with an Average precision score of 0.9402 on the MIT-BIH arrhythmia dataset and 0.9563 on the MIT-BIH atrial fibrillation dataset. Based on the results, we believe our method can significantly benefit the early detection and management of CVDs.
翻訳日:2024-01-25 16:54:37 公開日:2024-01-23
# 大規模言語モデルにおけるプライバシ問題:調査

Privacy Issues in Large Language Models: A Survey ( http://arxiv.org/abs/2312.06717v2 )

ライセンス: Link先を確認
Seth Neel and Peter Chang(参考訳) これは、大規模言語モデル(LLM)のプライバシー問題に焦点を当てたAI研究の活発な領域に関する最初の調査である。 具体的には、プライバシのリスクを強調し、トレーニングや推論プロセスにプライバシを構築し、トレーニングされたモデルから効率的なデータ削除を可能にし、既存のプライバシ規則に準拠する作業に重点を置いています。 我々の焦点は、アルゴリズムを開発し、定理を証明し、実証的な評価を行う技術研究の要約である。 これらの課題に異なる角度から対処する広範な法的・政策的な取り組みがあるが、これは我々の調査の焦点ではない。 しかしながら、これらの研究は、近年の法的発展とともに、これらの技術的問題がどのように形式化されているかを知らせるものである。 我々は、関連するすべての作業を含めるために最善を尽くしてきたが、この研究の急速な移動性のため、最近の研究を見逃しているかもしれない。 あなたの仕事の一部が見逃されている場合は、この調査を比較的最新に保ちたいので、ご連絡ください。 この調査で取り上げたドキュメントのリストと、https://github.com/safr-ml-lab/survey-llm.comで公開されていた関連コードとともに、リポジトリを維持しています。

This is the first survey of the active area of AI research that focuses on privacy issues in Large Language Models (LLMs). Specifically, we focus on work that red-teams models to highlight privacy risks, attempts to build privacy into the training or inference process, enables efficient data deletion from trained models to comply with existing privacy regulations, and tries to mitigate copyright issues. Our focus is on summarizing technical research that develops algorithms, proves theorems, and runs empirical evaluations. While there is an extensive body of legal and policy work addressing these challenges from a different angle, that is not the focus of our survey. Nevertheless, these works, along with recent legal developments do inform how these technical problems are formalized, and so we discuss them briefly in Section 1. While we have made our best effort to include all the relevant work, due to the fast moving nature of this research we may have missed some recent work. If we have missed some of your work please contact us, as we will attempt to keep this survey relatively up to date. We are maintaining a repository with the list of papers covered in this survey and any relevant code that was publicly available at https://github.com/safr-ml-lab/survey-llm.
翻訳日:2024-01-25 16:52:47 公開日:2024-01-23
# 光チャネル上のcovert量子通信

Covert Quantum Communication Over Optical Channels ( http://arxiv.org/abs/2401.06764v2 )

ライセンス: Link先を確認
Evan J.D. Anderson, Christopher K. Eyre, Isabel M. Dailey, and Boulat A. Bash(参考訳) 光を含む多くの実用チャネルの量子力学モデルである損失熱雑音ボソニックチャネル上の量子ビットを隠蔽的に通信する問題について検討する。 隠密通信は、敵がチャネルノイズに隠されている伝送の存在を検知できないことを保証する。 フォトニックデュアルレール量子ビットを用いた量子被覆通信における達成可能な下界について検討する。 この符号化は、光チャネル上での長距離リピータベースの量子通信のために提案されている。

We explore the problem of covertly communicating qubits over the lossy thermal-noise bosonic channel, which is a quantum-mechanical model of many practical channels, including optical. Covert communication ensures that an adversary is unable to detect the presence of transmissions, which are concealed in channel noise. We investigate an achievable lower bound on quantum covert communication using photonic dual-rail qubits. This encoding has practical significance, as it has been proposed for long-range repeater-based quantum communication over optical channels.
翻訳日:2024-01-25 16:41:58 公開日:2024-01-23
# ジェイルブレイクのテーマ:LLMを人間化することでAIの安全性に挑戦するための説得を再考する

How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs ( http://arxiv.org/abs/2401.06373v2 )

ライセンス: Link先を確認
Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi(参考訳) 従来のAI安全研究は、AIモデルを機械としてアプローチし、セキュリティ専門家によって開発されたアルゴリズムにフォーカスした攻撃に集中してきた。 大規模言語モデル(LLM)がますます一般的で有能になるにつれて、非専門家のユーザは日々の対話中にリスクを課すこともある。 本稿では, 日常的な言語相互作用とAIの安全性の相違点を探るため, ジェイルブレイク LLM を人間のようなコミュニケーション者として, 新たな視点で紹介する。 具体的には, LLM の脱獄を説得する方法について検討する。 まず,社会科学研究の数十年から派生した説得分類法を提案する。 次に,この分類法を適用し,解釈可能な説得的敵対的プロンプト(PAP)をjailbreak LLMに自動生成する。 PAPはLlama 2-7b Chat, GPT-3.5, GPT-4の攻撃成功率を10ドルで一貫して達成し, アルゴリズムに焦点をあてた最近の攻撃を上回っている。 防衛面では、PAPに対する様々なメカニズムを探求し、既存の防衛に重大なギャップを見出し、高度にインタラクティブなLLMのより基本的な緩和を提唱する。

Most traditional AI safety research has approached AI models as machines and centered on algorithm-focused attacks developed by security experts. As large language models (LLMs) become increasingly common and competent, non-expert users can also impose risks during daily interactions. This paper introduces a new perspective to jailbreak LLMs as human-like communicators, to explore this overlooked intersection between everyday language interaction and AI safety. Specifically, we study how to persuade LLMs to jailbreak them. First, we propose a persuasion taxonomy derived from decades of social science research. Then, we apply the taxonomy to automatically generate interpretable persuasive adversarial prompts (PAP) to jailbreak LLMs. Results show that persuasion significantly increases the jailbreak performance across all risk categories: PAP consistently achieves an attack success rate of over $92\%$ on Llama 2-7b Chat, GPT-3.5, and GPT-4 in $10$ trials, surpassing recent algorithm-focused attacks. On the defense side, we explore various mechanisms against PAP and, found a significant gap in existing defenses, and advocate for more fundamental mitigation for highly interactive LLMs
翻訳日:2024-01-25 16:41:28 公開日:2024-01-23
# SAR-RARP50: ロボットによる根治的前立腺切除術における手術器具の分離と行動認識

SAR-RARP50: Segmentation of surgical instrumentation and Action Recognition on Robot-Assisted Radical Prostatectomy Challenge ( http://arxiv.org/abs/2401.00496v2 )

ライセンス: Link先を確認
Dimitrios Psychogyios, Emanuele Colleoni, Beatrice Van Amsterdam, Chih-Yang Li, Shu-Yu Huang, Yuchong Li, Fucang Jia, Baosheng Zou, Guotai Wang, Yang Liu, Maxence Boels, Jiayu Huo, Rachel Sparks, Prokar Dasgupta, Alejandro Granados, Sebastien Ourselin, Mengya Xu, An Wang, Yanan Wu, Long Bai, Hongliang Ren, Atsushi Yamada, Yuriko Harai, Yuto Ishikawa, Kazuyuki Hayashi, Jente Simoens, Pieter DeBacker, Francesco Cisternino, Gabriele Furnari, Alex Mottrie, Federica Ferraguti, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Soohee Kim, Seung Hyun Lee, Kyu Eun Lee, Hyoun-Joong Kong, Kui Fu, Chao Li, Shan An, Stefanie Krell, Sebastian Bodenstedt, Nicolas Ayobi, Alejandra Perez, Santiago Rodriguez, Juanita Puentes, Pablo Arbelaez, Omid Mohareri, Danail Stoyanov(参考訳) 手術用ツールのセグメンテーションと行動認識は、外科的スキル評価から意思決定支援システムまで、多くのコンピュータ支援介入アプリケーションにおいて基本的な構成要素である。 今日では、学習に基づくアクション認識とセグメンテーションのアプローチは古典的な手法よりも優れています。 さらに、アクション認識とツールセグメンテーションアルゴリズムは、しばしば訓練され、潜在的なクロスタスク関係を活用せずに、相互に独立した予測を行う。 EndoVis 2022 SAR-RARP50 チャレンジでは,ロボット補助的根治的前立腺切除術 (RARP) の50個の縫合ビデオセグメントを含む,外科的行動認識と意味計測のための最初のマルチモーダル・インビヴィオデータセットを公表した。 挑戦の目的は2つある。 まず、提供されたデータセットのスケールを利用して、手術領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発する。 第二に、マルチタスクベースの学習アプローチの可能性をさらに探求し、それらのシングルタスクに対する比較優位性を決定する。 合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器セグメンテーション手法、そしてアクション認識と計器セグメンテーションを統合した4つのマルチタスクアプローチを貢献した。 https://rdr.ucl.ac.uk/projects/SARRARP50_Segmentation_of_surgical_instrumentation_and_Action_Recogni tion_on_Robot-Assisted_Radical_Prostatectomy_Challenge/191091

Surgical tool segmentation and action recognition are fundamental building blocks in many computer-assisted intervention applications, ranging from surgical skills assessment to decision support systems. Nowadays, learning-based action recognition and segmentation approaches outperform classical methods, relying, however, on large, annotated datasets. Furthermore, action recognition and tool segmentation algorithms are often trained and make predictions in isolation from each other, without exploiting potential cross-task relationships. With the EndoVis 2022 SAR-RARP50 challenge, we release the first multimodal, publicly available, in-vivo, dataset for surgical action recognition and semantic instrumentation segmentation, containing 50 suturing video segments of Robotic Assisted Radical Prostatectomy (RARP). The aim of the challenge is twofold. First, to enable researchers to leverage the scale of the provided dataset and develop robust and highly accurate single-task action recognition and tool segmentation approaches in the surgical domain. Second, to further explore the potential of multitask-based learning approaches and determine their comparative advantage against their single-task counterparts. A total of 12 teams participated in the challenge, contributing 7 action recognition methods, 9 instrument segmentation techniques, and 4 multitask approaches that integrated both action recognition and instrument segmentation. The complete SAR-RARP50 dataset is available at: https://rdr.ucl.ac.uk/projects/SARRARP50_Segmentation_of_surgical_instrumentation_and_Action_Recogni tion_on_Robot-Assisted_Radical_Prostatectomy_Challenge/191091
翻訳日:2024-01-25 16:39:27 公開日:2024-01-23
# CCA:画像編集のための協調競合エージェント

CCA: Collaborative Competitive Agents for Image Editing ( http://arxiv.org/abs/2401.13011v1 )

ライセンス: Link先を確認
Tiankai Hang and Shuyang Gu and Dong Chen and Xin Geng and Baining Guo(参考訳) 本稿では,多言語モデル(LLM)に基づくエージェントの複雑なタスク実行能力を活用した,新しい生成モデルである協調競合エージェント(CCA)を提案する。 GAN(Generative Adversarial Networks)からインスピレーションを得たCAAシステムは、2つの等しい状態のジェネレータと識別エージェントを使用している。 ジェネレータは、ユーザ命令を独立して処理して結果を生成し、識別器は出力を評価し、生成エージェントが生成結果をさらに反映して改善するためのフィードバックを提供する。 従来の生成モデルとは異なり、システムは生成の中間段階を得ることができる。 これにより、各ジェネレータエージェントは、透過性のため、他の成功した実行から学ぶことができ、システム結果の品質と堅牢性を高める協調競争が可能になる。 この研究の主な焦点は画像編集であり、CCAが複雑な指示をしっかり処理できることを実証している。 本論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入、エージェント関係の詳細な検証、画像編集に関する包括的な実験である。 コードは \href{https://github.com/tiankaihang/cca}{https://github.com/tiankaihang/cca}で入手できる。

This paper presents a novel generative model, Collaborative Competitive Agents (CCA), which leverages the capabilities of multiple Large Language Models (LLMs) based agents to execute complex tasks. Drawing inspiration from Generative Adversarial Networks (GANs), the CCA system employs two equal-status generator agents and a discriminator agent. The generators independently process user instructions and generate results, while the discriminator evaluates the outputs, and provides feedback for the generator agents to further reflect and improve the generation results. Unlike the previous generative model, our system can obtain the intermediate steps of generation. This allows each generator agent to learn from other successful executions due to its transparency, enabling a collaborative competition that enhances the quality and robustness of the system's results. The primary focus of this study is image editing, demonstrating the CCA's ability to handle intricate instructions robustly. The paper's main contributions include the introduction of a multi-agent-based generative model with controllable intermediate steps and iterative optimization, a detailed examination of agent relationships, and comprehensive experiments on image editing. Code is available at \href{https://github.com/TiankaiHang/CCA}{https://github.com/TiankaiHang/CCA}.
翻訳日:2024-01-25 16:32:27 公開日:2024-01-23
# 隠れ共同創設者による循環モデルにおける因果発見法の比較研究

Comparative Study of Causal Discovery Methods for Cyclic Models with Hidden Confounders ( http://arxiv.org/abs/2401.13009v1 )

ライセンス: Link先を確認
Boris Lorbeer, Mustafa Mohsen(参考訳) 現在、因果発見の必要性は至るところにある。 システムの部分間の確率的依存関係だけでなく、実際の因果関係をよりよく理解することは、科学のすべての部分にとって不可欠である。 したがって、因果方向を検出するための信頼性の高い方法の必要性は常に増大している。 過去50年間で、多くの因果発見アルゴリズムが登場したが、そのほとんどはフィードバックループがなく、それらは因果的に十分である、すなわち、複数の測定された変数に影響を及ぼす未測定のサブシステムは存在しないという仮定の下でのみ適用できる。 これらの制限は実際には想定できないことが多いため、これは不運である。 フィードバックは多くのプロセスにおいて不可欠な機能であり、現実世界のシステムは完全に分離され、完全に測定されることはめったにない。 幸いなことに、近年は循環的かつ因果的に不十分なシステムに対処できるいくつかの技術が開発されている。 そして、複数の方法が利用可能になると、これらのアルゴリズムの実用的応用には、それぞれの強みと弱みの知識が必要になる。 ここでは,サイクルと隠れた共同設立者を持つことができる疎線形モデルの因果的発見の問題に焦点をあてる。 我々は,CLL法[10]の2つのバージョンとASPベースのアルゴリズム[11]の2つの変種という,4つの因果発見手法の包括的かつ徹底的な比較研究を準備した。 評価は、複数の介入設定とデータセットサイズが異なる様々な実験において、これらの手法の性能について検討する。

Nowadays, the need for causal discovery is ubiquitous. A better understanding of not just the stochastic dependencies between parts of a system, but also the actual cause-effect relations, is essential for all parts of science. Thus, the need for reliable methods to detect causal directions is growing constantly. In the last 50 years, many causal discovery algorithms have emerged, but most of them are applicable only under the assumption that the systems have no feedback loops and that they are causally sufficient, i.e. that there are no unmeasured subsystems that can affect multiple measured variables. This is unfortunate since those restrictions can often not be presumed in practice. Feedback is an integral feature of many processes, and real-world systems are rarely completely isolated and fully measured. Fortunately, in recent years, several techniques, that can cope with cyclic, causally insufficient systems, have been developed. And with multiple methods available, a practical application of those algorithms now requires knowledge of the respective strengths and weaknesses. Here, we focus on the problem of causal discovery for sparse linear models which are allowed to have cycles and hidden confounders. We have prepared a comprehensive and thorough comparative study of four causal discovery techniques: two versions of the LLC method [10] and two variants of the ASP-based algorithm [11]. The evaluation investigates the performance of those techniques for various experiments with multiple interventional setups and different dataset sizes.
翻訳日:2024-01-25 16:31:54 公開日:2024-01-23
# CIMGEN:限定データに基づく事前学習生成モデルによる画像操作制御

CIMGEN: Controlled Image Manipulation by Finetuning Pretrained Generative Models on Limited Data ( http://arxiv.org/abs/2401.13006v1 )

ライセンス: Link先を確認
Chandrakanth Gudavalli, Erik Rosten, Lakshmanan Nataraj, Shivkumar Chandrasekaran, B. S. Manjunath(参考訳) コンテンツの作成と画像編集は柔軟なユーザーコントロールの恩恵を受ける。 条件付き画像生成のための共通の中間表現は、画像に存在するオブジェクトの情報を持つセマンティックマップである。 生のrgbピクセルと比較すると、セマンティックマップの修正はずっと簡単である。 セマンティックマップを選択して、マップのオブジェクトを選択的に挿入、削除、置換するように簡単に変更することができる。 本論文で提案する手法は,修正意味マップを取り入れ,修正地図に従って原画像を変更するものである。 この手法は、セマンティックマップに関連付けられた参照画像の限られたデータセットに基づいて微調整されたCycleGANやPix2Pix GANのような、従来のトレーニング済みの画像変換GANを利用する。 本手法の質的、定量的な性能について検討し、画像偽造や画像編集の分野での応用可能性について述べる。 また,多数の深層学習に基づく画像鑑定手法を阻止する上で,提案手法の有効性を実証し,偽メディアの普及との戦いにおいて,頑健で一般化可能な画像鑑定ツールを開発することの必要性を強調した。

Content creation and image editing can benefit from flexible user controls. A common intermediate representation for conditional image generation is a semantic map, that has information of objects present in the image. When compared to raw RGB pixels, the modification of semantic map is much easier. One can take a semantic map and easily modify the map to selectively insert, remove, or replace objects in the map. The method proposed in this paper takes in the modified semantic map and alter the original image in accordance to the modified map. The method leverages traditional pre-trained image-to-image translation GANs, such as CycleGAN or Pix2Pix GAN, that are fine-tuned on a limited dataset of reference images associated with the semantic maps. We discuss the qualitative and quantitative performance of our technique to illustrate its capacity and possible applications in the fields of image forgery and image editing. We also demonstrate the effectiveness of the proposed image forgery technique in thwarting the numerous deep learning-based image forensic techniques, highlighting the urgent need to develop robust and generalizable image forensic tools in the fight against the spread of fake media.
翻訳日:2024-01-25 16:31:16 公開日:2024-01-23
# maxcut quboソルバにおけるグラフスパーシフィケーションを用いた前処理

Utilizing Graph Sparsification for Pre-processing in Maxcut QUBO Solver ( http://arxiv.org/abs/2401.13004v1 )

ライセンス: Link先を確認
Vorapong Suppakitpaisarn and Jin-Kao Hao(参考訳) quboソルバを用いたmaxcutプログラムの前処理ステップとしてグラフスパーシフィケーションを用いることを提案する。 quantum(-inspired)アルゴリズムは、二次非拘束バイナリ最適化(qubo)を扱う際の潜在的効率として認識される。 マキシカットがNPハード問題であり、QUBOを用いて容易に表現できることを考えると、量子(インスパイアされた)QUBOアプローチの有効性を示す模範的なケースとして際立っている。 ここで、QUBO行列のゼロでないカウントはグラフのエッジカウントに対応する。 多くの量子(インスパイアされた)ソルバがクラウドサービスを介して動作するので、密度の高いグラフのためにデータを送信することはコストがかかる。 グラフスパーシフィケーション手法を導入することで,これらの通信コストの低減を図る。 古典的、量子に着想を得た量子解法の実験結果は、このアプローチが通信オーバーヘッドを大幅に減らし、最適解に近い客観的値が得られることを示している。

We suggest employing graph sparsification as a pre-processing step for maxcut programs using the QUBO solver. Quantum(-inspired) algorithms are recognized for their potential efficiency in handling quadratic unconstrained binary optimization (QUBO). Given that maxcut is an NP-hard problem and can be readily expressed using QUBO, it stands out as an exemplary case to demonstrate the effectiveness of quantum(-inspired) QUBO approaches. Here, the non-zero count in the QUBO matrix corresponds to the graph's edge count. Given that many quantum(-inspired) solvers operate through cloud services, transmitting data for dense graphs can be costly. By introducing the graph sparsification method, we aim to mitigate these communication costs. Experimental results on classical, quantum-inspired, and quantum solvers indicate that this approach substantially reduces communication overheads and yields an objective value close to the optimal solution.
翻訳日:2024-01-25 16:30:04 公開日:2024-01-23
# LLMを用いた過激派ソーシャルメディアにおける反ユダヤ的ヘイトスピーチの発見

Using LLMs to discover emerging coded antisemitic hate-speech in extremist social media ( http://arxiv.org/abs/2401.10841v2 )

ライセンス: Link先を確認
Dhanush Kikkisetti, Raza Ul Mustafa, Wendy Melillo, Roberto Corizzo, Zois Boukouvalas, Jeff Gill and Nathalie Japkowicz(参考訳) オンラインヘイトスピーチの拡散は、ソーシャルメディアプラットフォームにとって難しい問題を生み出した。 特定の課題は、ユーザに対する所有意識の創造と検出の回避の両方に関心を持つグループによる符号化言語の使用に関連している。 コード言語は急速に進化し、その用途は時間とともに変化する。 本稿では,ヘイトレーデン用語の出現を検知する手法を提案する。 この方法論は、オンラインの反ユダヤ的談話の文脈でテストされる。 このアプローチでは、ソーシャルメディアプラットフォームから削除された投稿を考慮し、過激派ユーザーがしばしば使用する。 ポストは、以前知られていたユダヤ人に対する憎しみの談話に関連する種表現を使ってスクラップされる。 この方法は、各ポストの最も代表的な表現を識別し、コーパス全体の頻度を計算することから始まる。 文法的に一貫性のない表現や、以前に遭遇した表現をフィルターして、創発的なよく形づくられた用語に焦点を合わせる。 続いて、微調整された大言語モデルを用いて、既知の反ユダヤ的用語と意味的類似性を評価し、その後、既知の憎しみの表現から遠すぎる表現をフィルタリングする。 ユダヤ人の話題に関する明確な用語を含む創発的な反ユダヤ表現は、憎悪のコーディングされた表現のみを返すために削除される。

Online hate speech proliferation has created a difficult problem for social media platforms. A particular challenge relates to the use of coded language by groups interested in both creating a sense of belonging for its users and evading detection. Coded language evolves quickly and its use varies over time. This paper proposes a methodology for detecting emerging coded hate-laden terminology. The methodology is tested in the context of online antisemitic discourse. The approach considers posts scraped from social media platforms, often used by extremist users. The posts are scraped using seed expressions related to previously known discourse of hatred towards Jews. The method begins by identifying the expressions most representative of each post and calculating their frequency in the whole corpus. It filters out grammatically incoherent expressions as well as previously encountered ones so as to focus on emergent well-formed terminology. This is followed by an assessment of semantic similarity to known antisemitic terminology using a fine-tuned large language model, and subsequent filtering out of the expressions that are too distant from known expressions of hatred. Emergent antisemitic expressions containing terms clearly relating to Jewish topics are then removed to return only coded expressions of hatred.
翻訳日:2024-01-25 16:28:21 公開日:2024-01-23
# 生成AIとその教育的意味

Generative AI and Its Educational Implications ( http://arxiv.org/abs/2401.08659v2 )

ライセンス: Link先を確認
Kacper {\L}odzikowski (Adam Mickiewicz University, Pozna\'n, Poland), Peter W. Foltz (University of Colorado), John T. Behrens (University of Notre Dame)(参考訳) 本稿では, 教育におけるAIの歴史的発展, 学習における現代的応用, 社会的反感, 研究者への戦略的推薦の4つの重要な部分において, 生成AIが教育に与える影響について論じる。 生成型AIは、複雑な認知能力の評価を行い、パーソナライズされたコンテンツを作成する能力を通じて、教育現場を変革できる方法を提案する。 また,効果的な教育ツールの展開,データバイアス,設計の透明性,正確なアウトプット検証といった課題にも対処した。 我々は社会的な影響を認め、カリキュラムの更新、コミュニケーションの信頼の再定義、社会規範の転換への調整の必要性を強調している。 最後に、教育利害関係者が創造的aiに積極的に関与し、その能力と制限によってフルーエンシーを開発する方法を概説し、これらの洞察を急速に進歩するデジタルランドスケープにおける教育実践に応用する。

We discuss the implications of generative AI on education across four critical sections: the historical development of AI in education, its contemporary applications in learning, societal repercussions, and strategic recommendations for researchers. We propose ways in which generative AI can transform the educational landscape, primarily via its ability to conduct assessment of complex cognitive performances and create personalized content. We also address the challenges of effective educational tool deployment, data bias, design transparency, and accurate output verification. Acknowledging the societal impact, we emphasize the need for updating curricula, redefining communicative trust, and adjusting to transformed social norms. We end by outlining the ways in which educational stakeholders can actively engage with generative AI, develop fluency with its capacities and limitations, and apply these insights to steer educational practices in a rapidly advancing digital landscape.
翻訳日:2024-01-25 16:26:29 公開日:2024-01-23
# シーン認識におけるデジタル分割:深層学習システムにおける社会経済バイアスを明らかにする

Digital Divides in Scene Recognition: Uncovering Socioeconomic Biases in Deep Learning Systems ( http://arxiv.org/abs/2401.13097v1 )

ライセンス: Link先を確認
Michelle R. Greene, Mariam Josyula, Wentao Si and Jennifer A. Hart(参考訳) コンピュータによるシーン理解は、都市計画から自動運転車のパフォーマンスに至るまで、様々な分野に影響を与えてきたが、これらの技術が社会的な違いを越えてどのように機能するかは、ほとんど分かっていない。 我々は,世界および米国の情報ソースから得られた100万近い画像を用いて,シーン分類における深層畳み込みニューラルネットワーク(dcnn)のバイアスを調査した。 我々は,社会経済指標(家族所得,人間開発指数(hdi),公的データ源(cia,米国国勢調査)の人口統計学的要因がdcnnに与える影響を定量化するために,統計モデルを適用した。 分析の結果,事前学習したdCNNでは分類精度が低下し,分類信頼度が低下し,特に社会経済的地位の低い家庭(SES)のイメージにおいて,家庭に適用した場合に攻撃的となるラベルを割り当てる傾向が見られた。 この傾向は、国際画像の2つのデータセットと、アメリカ合衆国の様々な経済的、人種的景観の中で一致している。 この研究はコンピュータビジョンにおけるバイアスの理解に寄与し、より包括的で代表的なトレーニングデータセットの必要性を強調している。 コンピュータビジョンパイプラインのバイアスを軽減することで、ホームバリュエーションやスマートホームセキュリティシステムなど、応用されたコンピュータビジョンの公正で公平な結果を保証することができます。 これらのバイアスに対処するには緊急性があり、都市開発と資源配分の重要な決定に大きな影響を与える可能性がある。 我々の発見はまた、多様なコミュニティをよりよく理解し、役立てるAIシステムの開発を動機付け、社会のあらゆる分野に等しく利益をもたらす技術へと向かわせる。

Computer-based scene understanding has influenced fields ranging from urban planning to autonomous vehicle performance, yet little is known about how well these technologies work across social differences. We investigate the biases of deep convolutional neural networks (dCNNs) in scene classification, using nearly one million images from global and US sources, including user-submitted home photographs and Airbnb listings. We applied statistical models to quantify the impact of socioeconomic indicators such as family income, Human Development Index (HDI), and demographic factors from public data sources (CIA and US Census) on dCNN performance. Our analyses revealed significant socioeconomic bias, where pretrained dCNNs demonstrated lower classification accuracy, lower classification confidence, and a higher tendency to assign labels that could be offensive when applied to homes (e.g., "ruin", "slum"), especially in images from homes with lower socioeconomic status (SES). This trend is consistent across two datasets of international images and within the diverse economic and racial landscapes of the United States. This research contributes to understanding biases in computer vision, emphasizing the need for more inclusive and representative training datasets. By mitigating the bias in the computer vision pipelines, we can ensure fairer and more equitable outcomes for applied computer vision, including home valuation and smart home security systems. There is urgency in addressing these biases, which can significantly impact critical decisions in urban development and resource allocation. Our findings also motivate the development of AI systems that better understand and serve diverse communities, moving towards technology that equitably benefits all sectors of society.
翻訳日:2024-01-25 16:20:02 公開日:2024-01-23
# アウシュヴィッツの後AIは? ジェノサイド関連情報の検索におけるaiと記憶倫理の橋渡し

No AI After Auschwitz? Bridging AI and Memory Ethics in the Context of Information Retrieval of Genocide-Related Information ( http://arxiv.org/abs/2401.13079v1 )

ライセンス: Link先を確認
Mykola Makhortykh(参考訳) 情報検索(IR)分野における人工知能(AI)の応用は、文化遺産を含むさまざまな領域に影響を及ぼす。 組織と大量の遺産関連コンテンツの検索を促進することで、AI駆動のIRシステムは、ジェノサイド(ホロコーストなど)を含む幅広い歴史的現象をユーザーに知らせる。 しかし、現在、IRシステムがジェノサイド関連情報のキュレーションに関連する複数の倫理的課題にどの程度対処できるかは不明である。 この問題に対処するため、本章は、ベルモント基準に触発された3部構成の枠組み(すなわち、個人、慈善、正義/フェアネスに関するキュレーション課題)を用いて、ジェノサイド関連情報の人間のキュレーションに関連する倫理的課題の概要を提供する。 そして、この章では、上記の課題が、AI駆動IRシステムがジェノサイド関連情報を扱う方法や、この文脈でAIと記憶倫理をブリッジする潜在的方法にどの程度適用できるかを論じている。

The growing application of artificial intelligence (AI) in the field of information retrieval (IR) affects different domains, including cultural heritage. By facilitating organisation and retrieval of large volumes of heritage-related content, AI-driven IR systems inform users about a broad range of historical phenomena, including genocides (e.g. the Holocaust). However, it is currently unclear to what degree IR systems are capable of dealing with multiple ethical challenges associated with the curation of genocide-related information. To address this question, this chapter provides an overview of ethical challenges associated with the human curation of genocide-related information using a three-part framework inspired by Belmont criteria (i.e. curation challenges associated with respect for individuals, beneficence and justice/fairness). Then, the chapter discusses to what degree the above-mentioned challenges are applicable to the ways in which AI-driven IR systems deal with genocide-related information and what can be the potential ways of bridging AI and memory ethics in this context.
翻訳日:2024-01-25 16:19:33 公開日:2024-01-23
# semanticslam: 学習に基づくセマンティックマップの構築とロバストなカメラ定位

SemanticSLAM: Learning based Semantic Map Construction and Robust Camera Localization ( http://arxiv.org/abs/2401.13076v1 )

ライセンス: Link先を確認
Mingyang Li, Yue Ma, and Qinru Qiu(参考訳) VSLAM(Visual Simultaneous Localization and Mapping)の最近の技術は、連続したシーンの画像特徴を比較することによって、カメラの変位を推定する。 これらのアルゴリズムはシーンの連続性に依存するため、頻繁なカメラ入力を必要とする。 しかし、画像の処理が頻繁に行われると、メモリ使用量や計算オーバーヘッドが大きくなります。 本研究では,rgb-dセンサから抽出した意味的特徴を利用したエンドツーエンドの視覚慣性オドメトリシステムであるsemanticslamを提案する。 このアプローチは、環境のセマンティックマップの作成を可能にし、信頼性の高いカメラのローカライゼーションを保証する。 SemanticSLAMはシーンに依存しないため、異なる環境に対する再トレーニングを必要としない。 室内環境では、事前の知識がなくても、カメラ入力が少ない場合でも効果的に動作する。 SemanticSLAMの強みは、セマンティックマップを徐々に洗練し、ポーズ推定を改善する能力にある。 これは、地図構築中にエラーを修正するために訓練された畳み込み長短メモリネットワーク(ConvLSTM)によって実現される。 既存のVSLAMアルゴリズムと比較して、SemanticSLAMはポーズ推定を17%改善する。 得られたセマンティックマップは環境に関する解釈可能な情報を提供し、経路計画、障害物回避、ロボットナビゲーションといった様々な下流タスクに容易に適用できる。 コードはhttps://github.com/Leomingyangli/SemanticSLAMで公開される。

Current techniques in Visual Simultaneous Localization and Mapping (VSLAM) estimate camera displacement by comparing image features of consecutive scenes. These algorithms depend on scene continuity, hence requires frequent camera inputs. However, processing images frequently can lead to significant memory usage and computation overhead. In this study, we introduce SemanticSLAM, an end-to-end visual-inertial odometry system that utilizes semantic features extracted from an RGB-D sensor. This approach enables the creation of a semantic map of the environment and ensures reliable camera localization. SemanticSLAM is scene-agnostic, which means it doesn't require retraining for different environments. It operates effectively in indoor settings, even with infrequent camera input, without prior knowledge. The strength of SemanticSLAM lies in its ability to gradually refine the semantic map and improve pose estimation. This is achieved by a convolutional long-short-term-memory (ConvLSTM) network, trained to correct errors during map construction. Compared to existing VSLAM algorithms, SemanticSLAM improves pose estimation by 17%. The resulting semantic map provides interpretable information about the environment and can be easily applied to various downstream tasks, such as path planning, obstacle avoidance, and robot navigation. The code will be publicly available at https://github.com/Leomingyangli/SemanticSLAM
翻訳日:2024-01-25 16:19:14 公開日:2024-01-23
# 3粒子一般フェルミ・パスタ・ウラム・チンゴ模型のカオスと量子化ii:量子固有状態の現象論

Chaos and quantization of the three-particle generic Fermi-Pasta-Ulam-Tsingou model II: phenomenology of quantum eigenstates ( http://arxiv.org/abs/2401.13070v1 )

ライセンス: Link先を確認
Hua Yan and Marko Robnik(参考訳) 我々は3粒子FPUTモデルを用いて量子固有状態の現象論を徹底的に研究する。 異なるフシミ関数を用いて、この研究は、有名なH\'enon-Heiles Hamiltonian(英語版)と同値である$\alpha$-typeと、システムが完全にカオスであるサドルエネルギーにおける一般的なケースの両方に焦点を当てる。 切断のフシミ量子曲面(qsos)に基づいて、混合型系において、エネルギーシェルの混合固有状態の分数 [e-\delta e/2, e+\delta e/2]$ with $\delta e\ll e$ は減少するプランク定数 $\hbar$ に対して、パワーロー減衰を示す。 r\'enyi-wehrlエントロピーの観点で、混合型と完全カオス系の両方において、カオス固有状態の局在化測度の分布におけるベータ分布とローカライゼーションの程度は、ハイゼンベルク時間 $t_h$ と古典輸送時間 $t_t$ の間の制御比 $\alpha_\mathcal{l} = t_h/t_t$ である。 この $\alpha_\mathcal{L}$ への遷移と混合状態のパワー-ロー崩壊は、半古典的極限における一様半古典的凝縮(PUSC)の原理を裏付ける証拠となる。 さらに, 完全カオス状態である一般の場合において, 極大局所化状態はサドル(双曲的不動点)の安定かつ不安定な多様体に影響され, 極大拡張状態はこれらの点を特に回避し, 余空間をまたいで相互補完する。

We undertake a thorough investigation into the phenomenology of quantum eigenstates, in the three-particle FPUT model. Employing different Husimi functions, our study focuses on both the $\alpha$-type, which is canonically equivalent to the celebrated H\'enon-Heiles Hamiltonian, a nonintegrable and mixed-type system, and the general case at the saddle energy where the system is fully chaotic. Based on Husimi quantum surface of sections (QSOS), we find that in the mixed-type system, the fraction of mixed eigenstates in an energy shell $[E-\delta E/2, E+\delta E/2]$ with $\delta E\ll E$ shows a power-law decay with respect to the decreasing Planck constant $\hbar$. Defining the localization measures in terms of the R\'enyi-Wehrl entropy, in both the mixed-type and fully chaotic systems, we find a better fit with the beta distribution and a lesser degree of localization, in the distribution of localization measures of chaotic eigenstates, as the controlling ratio $\alpha_\mathcal{L} = t_H /t_T$ between the Heisenberg time $t_H$ and the classical transport time $t_T$ increases. This transition with respect to $\alpha_\mathcal{L}$ and the power-law decay of the mixed states, together provide supporting evidence for the principle of uniform semiclassical condensation (PUSC) in the semiclassical limit. Moreover, we find that in the general case which is fully chaotic, the maximally localized state, is influenced by the stable and unstable manifold of the saddles (hyperbolic fixed points), while the maximally extended state notably avoids these points, extending across the remaining space, complementing each other.
翻訳日:2024-01-25 16:18:53 公開日:2024-01-23
# ハイパースペクトル画像におけるガスプルーム同定の局所的背景推定

Local Background Estimation for Improved Gas Plume Identification in Hyperspectral Images ( http://arxiv.org/abs/2401.13068v1 )

ライセンス: Link先を確認
Scout Jarman, Zigfried Hampel-Arias, Adra Carr, Kevin R. Moon(参考訳) 深層学習識別モデルは、特に大規模なガスライブラリーが検討されている都市景観のLongwave IRハイパースペクトル画像において、ガスプラムを特定することを約束している。 多くの気体は同様のスペクトルシグネチャを持つため、検出されたプルームからの信号を適切に推定することが重要である。 通常、シーンのグローバル平均スペクトルと共分散行列は、背景のサインをガスシグネチャから除去するプルームの信号を白くするために推定される。 しかし、都市の風景は、空間的にもスペクトル的にも多様である多くの異なる背景材料を持つことができる。 これにより、グローバル背景推定が所定のローカル背景資料を代表しない場合、識別性能が低下する可能性がある。 画像分割と反復的背景推定アルゴリズムを用いて,ガスプルーム下に存在する各種背景材料の局所的な推定を行う。 本手法は,シミュレーションおよび実ガス配管の集合における世界背景推定より優れる。 本手法は,多種多様なプラムを考慮した場合,シンプルで容易にチューニングできる一方で,ディープラーニングの識別信頼度向上に有望性を示す。

Deep learning identification models have shown promise for identifying gas plumes in Longwave IR hyperspectral images of urban scenes, particularly when a large library of gases are being considered. Because many gases have similar spectral signatures, it is important to properly estimate the signal from a detected plume. Typically, a scene's global mean spectrum and covariance matrix are estimated to whiten the plume's signal, which removes the background's signature from the gas signature. However, urban scenes can have many different background materials that are spatially and spectrally heterogeneous. This can lead to poor identification performance when the global background estimate is not representative of a given local background material. We use image segmentation, along with an iterative background estimation algorithm, to create local estimates for the various background materials that reside underneath a gas plume. Our method outperforms global background estimation on a set of simulated and real gas plumes. This method shows promise in increasing deep learning identification confidence, while being simple and easy to tune when considering diverse plumes.
翻訳日:2024-01-25 16:18:10 公開日:2024-01-23
# TCE at Qur'an QA 2023 Shared Task: Low Resource Enhanced Transformer-based Ensemble Approach for Qur'anic QA

TCE at Qur'an QA 2023 Shared Task: Low Resource Enhanced Transformer-based Ensemble Approach for Qur'anic QA ( http://arxiv.org/abs/2401.13060v1 )

ライセンス: Link先を確認
Mohammed Alaa Elkomy, Amany Sarhan(参考訳) 本稿では,Qur'an QA 2023の共有タスクAとBに取り組み,低リソースのトレーニングデータの課題に対処するため,複数のランで予測安定性を向上させるために,投票アンサンブルとともにトランスファーラーニングに頼っている。 さらに、さまざまなアーキテクチャと学習メカニズムをアラビア語で事前訓練されたトランスフォーマーベースモデルに採用しています。 不可解な質問を特定するために,しきい値化機構を用いることを提案する。 我々のトップパフォーマンスシステムは隠れた分割のベースライン性能を大きく上回り、タスクaでは25.05%、タスクbでは部分平均精度(pap)57.11%に達した。

In this paper, we present our approach to tackle Qur'an QA 2023 shared tasks A and B. To address the challenge of low-resourced training data, we rely on transfer learning together with a voting ensemble to improve prediction stability across multiple runs. Additionally, we employ different architectures and learning mechanisms for a range of Arabic pre-trained transformer-based models for both tasks. To identify unanswerable questions, we propose using a thresholding mechanism. Our top-performing systems greatly surpass the baseline performance on the hidden split, achieving a MAP score of 25.05% for task A and a partial Average Precision (pAP) of 57.11% for task B.
翻訳日:2024-01-25 16:17:53 公開日:2024-01-23
# フラストレーションランダムウォーク:ハイパーグラフ上のノード距離を計算する高速手法

Frustrated Random Walks: A Fast Method to Compute Node Distances on Hypergraphs ( http://arxiv.org/abs/2401.13054v1 )

ライセンス: Link先を確認
Enzhi Li, Bilal Fadlallah(参考訳) ハイパーグラフ(英: hypergraph)は、実体間の属性共有を考えると自然に現れるグラフの一般化である。 ハイパーグラフは、ハイパーエッジを完全な連結部分グラフに拡張することでグラフに変換することができるが、逆方向は計算的に複雑でNP完全である。 したがって、ハイパーグラフはグラフよりも多くの情報を含んでいると仮定する。 さらに、グラフに拡張するのではなく、ハイパーグラフを直接操作するのがより便利である。 ハイパーグラフのオープン問題は、ノード間の距離を正確かつ効率的に計算する方法である。 K-nearest neighbors (KNN) アプローチを用いて,ノード近傍のノードを推定し,ハイパーグラフ上でラベル伝搬を行う。 本稿では,ハイパーグラフ上のラベル伝搬を実現するためのランダムウォークに基づく新しい手法を提案する。 ランダムウォークの待ち時間としてノード距離を推定する。 単純ランダムウォーク(srw)は高度に複雑な実世界のハイパーグラフを正確に記述できないことに注意し,フラストレーションのあるランダムウォーク(frw)を導入する動機付けとなる。 さらに、DeepWalkに対して我々の手法をベンチマークし、後者が同等の結果が得られる一方で、FRWはターゲット数がかなり小さい場合において、計算上の優位性があることを示す。 このような場合、FRWはDeepWalkよりもはるかに短い時間で実行されることを示す。 最後に,本手法の時間的複雑さを解析し,大小のハイパーグラフの場合,その複雑さは概ね線形であり,DeepWalk法よりも優れていることを示す。

A hypergraph is a generalization of a graph that arises naturally when attribute-sharing among entities is considered. Although a hypergraph can be converted into a graph by expanding its hyperedges into fully connected subgraphs, going the reverse way is computationally complex and NP-complete. We therefore hypothesize that a hypergraph contains more information than a graph. In addition, it is more convenient to manipulate a hypergraph directly, rather than expand it into a graph. An open problem in hypergraphs is how to accurately and efficiently calculate their node distances. Estimating node distances enables us to find a node's nearest neighbors, and perform label propagation on hypergraphs using a K-nearest neighbors (KNN) approach. In this paper, we propose a novel approach based on random walks to achieve label propagation on hypergraphs. We estimate node distances as the expected hitting times of random walks. We note that simple random walks (SRW) cannot accurately describe highly complex real-world hypergraphs, which motivates us to introduce frustrated random walks (FRW) to better describe them. We further benchmark our method against DeepWalk, and show that while the latter can achieve comparable results, FRW has a distinct computational advantage in cases where the number of targets is fairly small. For such cases, we show that FRW runs in significantly shorter time than DeepWalk. Finally, we analyze the time complexity of our method, and show that for large and sparse hypergraphs, the complexity is approximately linear, rendering it superior to the DeepWalk alternative.
翻訳日:2024-01-25 16:17:37 公開日:2024-01-23
# PA-SAM:高画質画像セグメンテーションのためのプロンプトアダプタSAM

PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation ( http://arxiv.org/abs/2401.13051v1 )

ライセンス: Link先を確認
Zhaozhi Xie, Bochen Guan, Weihao Jiang, Muyang Yi, Yue Ding, Hongtao Lu, Lei Zhang(参考訳) Segment Anything Model (SAM) は様々な画像分割タスクにおいて優れた性能を示した。 10億以上のマスクでトレーニングされているにも関わらず、SAMは多くのシナリオ、特に現実世界のコンテキストにおいてマスク予測品質の課題に直面している。 本稿では,Pmpt Adapter Segment Anything Model (PA-SAM) をSAMに導入し,元のSAMのセグメンテーションマスクの品質を高めることを目的とした。 PA-SAMは、プロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化し、SAMのセグメンテーション性能を改善して高品質なマスクを生成する。 実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。 ソースコードとモデルをhttps://github.com/xzz2/pa-samで公開しています。

The Segment Anything Model (SAM) has exhibited outstanding performance in various image segmentation tasks. Despite being trained with over a billion masks, SAM faces challenges in mask prediction quality in numerous scenarios, especially in real-world contexts. In this paper, we introduce a novel prompt-driven adapter into SAM, namely Prompt Adapter Segment Anything Model (PA-SAM), aiming to enhance the segmentation mask quality of the original SAM. By exclusively training the prompt adapter, PA-SAM extracts detailed information from images and optimizes the mask decoder feature at both sparse and dense prompt levels, improving the segmentation performance of SAM to produce high-quality masks. Experimental results demonstrate that our PA-SAM outperforms other SAM-based methods in high-quality, zero-shot, and open-set segmentation. We're making the source code and models available at https://github.com/xzz2/pa-sam.
翻訳日:2024-01-25 16:17:11 公開日:2024-01-23
# CIS-UNet:コンテクスト・アウェア・シフトウインドウ・セルフアテンションによるCTにおける大動脈のマルチクラス分割

CIS-UNet: Multi-Class Segmentation of the Aorta in Computed Tomography Angiography via Context-Aware Shifted Window Self-Attention ( http://arxiv.org/abs/2401.13049v1 )

ライセンス: Link先を確認
Muhammad Imran, Jonathan R Krebs, Veera Rajasekhar Reddy Gopu, Brian Fazzone, Vishal Balaji Sivaraman, Amarjeet Kumar, Chelsea Viscardi, Robert Evans Heithaus, Benjamin Shickel, Yuyin Zhou, Michol A Cooper, Wei Shao(参考訳) 医療画像および血管内移植の進歩は、大動脈疾患に対する最小侵襲治療を促進する。 大動脈とその枝の正確な3dセグメンテーションは介入に不可欠であり、不正確なセグメンテーションは誤った外科的計画と内皮移植に繋がる可能性がある。 従来の方法では, 大動脈分割を2値画像分割問題として単純化し, 個々の大動脈枝を区別する必要性を見越した。 本稿では,大動脈と大動脈枝の多クラス分割を目的としたディープラーニングモデルであるContext Infused Swin-UNet(CIS-UNet)を紹介する。 畳み込みニューラルネットワーク(CNN)とスウィントランスフォーマーの強みを組み合わせることで、CIS-UNetはCNNエンコーダ、対称デコーダ、スキップ接続、新しいコンテキスト対応シフトウィンドウ自己認識(CSW-SA)からなる階層的なエンコーダ・デコーダ構造をボトルネックブロックとして採用している。 特に、CSW-SAは従来のSwin変換器とは異なるパッチマージ層のユニークな利用法を導入している。 効率良く特徴マップを凝縮し、大域的な空間的コンテキストを提供し、ボトルネック層に適用すると性能を高め、スウィントランスよりも優れた計算効率とセグメンテーション精度を提供する。 44例のCT(Computed tomography)スキャンをトレーニングし,15例で検討した。 CIS-UNetは、Swinトランスフォーマーのみに基づく最先端のSwinUNetRセグメンテーションモデルよりも優れた平均Dice係数が0.697より0.713、平均表面距離が3.39mmより2.78mm向上した。 cis-unetの優れた3次元大動脈分画は血管内治療計画の精度と最適化を改善した。 データセットとコードは公開されます。

Advancements in medical imaging and endovascular grafting have facilitated minimally invasive treatments for aortic diseases. Accurate 3D segmentation of the aorta and its branches is crucial for interventions, as inaccurate segmentation can lead to erroneous surgical planning and endograft construction. Previous methods simplified aortic segmentation as a binary image segmentation problem, overlooking the necessity of distinguishing between individual aortic branches. In this paper, we introduce Context Infused Swin-UNet (CIS-UNet), a deep learning model designed for multi-class segmentation of the aorta and thirteen aortic branches. Combining the strengths of Convolutional Neural Networks (CNNs) and Swin transformers, CIS-UNet adopts a hierarchical encoder-decoder structure comprising a CNN encoder, symmetric decoder, skip connections, and a novel Context-aware Shifted Window Self-Attention (CSW-SA) as the bottleneck block. Notably, CSW-SA introduces a unique utilization of the patch merging layer, distinct from conventional Swin transformers. It efficiently condenses the feature map, providing a global spatial context and enhancing performance when applied at the bottleneck layer, offering superior computational efficiency and segmentation accuracy compared to the Swin transformers. We trained our model on computed tomography (CT) scans from 44 patients and tested it on 15 patients. CIS-UNet outperformed the state-of-the-art SwinUNetR segmentation model, which is solely based on Swin transformers, by achieving a superior mean Dice coefficient of 0.713 compared to 0.697, and a mean surface distance of 2.78 mm compared to 3.39 mm. CIS-UNet's superior 3D aortic segmentation offers improved precision and optimization for planning endovascular treatments. Our dataset and code will be publicly available.
翻訳日:2024-01-25 16:16:53 公開日:2024-01-23
# フーリエモーメント計算のための量子誤差緩和

Quantum error mitigation for Fourier moment computation ( http://arxiv.org/abs/2401.13048v1 )

ライセンス: Link先を確認
Oriel Kiss, Michele Grossi and Alessandro Roggero(参考訳) フーリエ空間におけるハミルトニアンモーメント(異なる時間におけるハミルトニアンの下でのユニタリ進化作用素の期待値)は、量子系を理解するための便利な枠組みを提供する。 それらはエネルギー分布、高次ダイナミクス、応答関数、相関情報、物理的性質に関する洞察を提供する。 本稿では、超伝導量子ハードウェアにおける核効果場理論の文脈におけるフーリエモーメントの計算に焦点を当てる。 本研究は、制御反転ゲートを用いたエコーの検証とノイズの正規化をハダマールテストに統合する。 これらの手法と浄化法と誤り抑制法を組み合わせることで、量子ハードウェアのデコヒーレンスを効果的に解決する。 騒音モデルを用いて解析した結果, 騒音強度が2桁減少することが明らかとなった。 さらに、最大266クノットゲートを含む量子回路は、ibmの超伝導量子デバイス上で動作した場合、これらの手法の下で高い精度を示す。

Hamiltonian moments in Fourier space - expectation values of the unitary evolution operator under a Hamiltonian at different times - provide a convenient framework to understand quantum systems. They offer insights into the energy distribution, higher-order dynamics, response functions, correlation information and physical properties. This paper focuses on the computation of Fourier moments within the context of a nuclear effective field theory on superconducting quantum hardware. The study integrates echo verification and noise renormalization into Hadamard tests using control reversal gates. These techniques, combined with purification and error suppression methods, effectively address quantum hardware decoherence. The analysis, conducted using noise models, reveals a significant reduction in noise strength by two orders of magnitude. Moreover, quantum circuits involving up to 266 CNOT gates over five qubits demonstrate high accuracy under these methodologies when run on IBM superconducting quantum devices.
翻訳日:2024-01-25 16:16:14 公開日:2024-01-23
# 女子スポーツ選手におけるスポーツ障害の評価 : 神経情報学の役割?

Assessment of Sports Concussion in Female Athletes: A Role for Neuroinformatics? ( http://arxiv.org/abs/2401.13045v1 )

ライセンス: Link先を確認
Rachel Edelstein, Sterling Gutterman, Benjamin Newman, John Darrell Van Horn(参考訳) 過去10年間で、女性アスリートのスポーツ関連の脳震えの複雑さはすぐに明らかになっている。 伝統的な脳震縮の診断方法は、女性アスリートに適用すると限界があり、しばしば脳の構造や機能の微妙な変化を捉えることができない。 高度なニューロインフォマティクス技術と機械学習モデルは、この取り組みにおいて貴重な資産となっている。 これらの技術は、男性アスリートの脳梗塞の理解に広く用いられているが、女性アスリートに対するその効果についての理解には大きなギャップがある。 注目すべきデータ分析能力によって、機械学習はこの赤字を埋める有望な道筋を提供する。 機械学習の力を利用して、観察された表現型ニューロイメージングデータを性固有の生物学的メカニズムに結びつけることで、女性アスリートの脳梗塞の謎を解き放つことができる。 さらに、機械学習に埋め込まれた手法により、従来の解剖学的基準枠を超える脳構造とその変化を調べることができる。 結果として、研究者は脳震動、治療反応、回復過程のダイナミクスについて深い洞察を得ることができる。 女性アスリートが適切なケアを受けるためには、高度な神経画像技術と高度な機械学習モデルを採用する必要がある。 これらのツールは、女性アスリートの神経機能不全に起因する脳震縮症状の原因となるメカニズムを深く調査することができる。 本稿では,女性アスリート集団における多様神経画像実験デザインと機械学習アプローチにおける性差の重大な問題に対処し,最終的には脳震縮の課題に直面する際に必要なケアを受けることを保証する。

Over the past decade, the intricacies of sports-related concussions among female athletes have become readily apparent. Traditional clinical methods for diagnosing concussions suffer limitations when applied to female athletes, often failing to capture subtle changes in brain structure and function. Advanced neuroinformatics techniques and machine learning models have become invaluable assets in this endeavor. While these technologies have been extensively employed in understanding concussion in male athletes, there remains a significant gap in our comprehension of their effectiveness for female athletes. With its remarkable data analysis capacity, machine learning offers a promising avenue to bridge this deficit. By harnessing the power of machine learning, researchers can link observed phenotypic neuroimaging data to sex-specific biological mechanisms, unraveling the mysteries of concussions in female athletes. Furthermore, embedding methods within machine learning enable examining brain architecture and its alterations beyond the conventional anatomical reference frame. In turn, allows researchers to gain deeper insights into the dynamics of concussions, treatment responses, and recovery processes. To guarantee that female athletes receive the optimal care they deserve, researchers must employ advanced neuroimaging techniques and sophisticated machine-learning models. These tools enable an in-depth investigation of the underlying mechanisms responsible for concussion symptoms stemming from neuronal dysfunction in female athletes. This paper endeavors to address the crucial issue of sex differences in multimodal neuroimaging experimental design and machine learning approaches within female athlete populations, ultimately ensuring that they receive the tailored care they require when facing the challenges of concussions.
翻訳日:2024-01-25 16:16:01 公開日:2024-01-23
# オンライン世界モデル学習のための局所感性スパース符号化

Locality Sensitive Sparse Encoding for Learning World Models Online ( http://arxiv.org/abs/2401.13034v1 )

ライセンス: Link先を確認
Zichen Liu, Chao Du, Wee Sun Lee, Min Lin(参考訳) モデルベース強化学習(MBRL)のためにオンラインで正確な世界モデルを取得することは、データ非定常性のため困難である。 オンライン学習の観点からは、各ラウンドにおける過去のすべてのエクスペリエンスに最適なフォロー・ザ・リーダー(ftl)ワールドモデルが望ましい。 残念ながらnnベースのモデルは、ftlを達成するためにすべてのインタラクションステップで蓄積されたデータを再トレーニングする必要がある。 本稿では,FTLをインクリメンタルアップデートで実現可能なモデルを再検討する。 特に、我々の世界モデルは非線形ランダム特徴によって支持される線形回帰モデルである。 線形部分は効率的なFTL更新を保証し、非線形ランダム特徴は複雑な環境の整合性を高める。 モデルキャパシティと計算効率を最大限に両立させるため,高次元非線形特性をもちながら効率的なスパース更新を可能にする局所性感度スパース符号化を導入する。 符号化の表現力を検証し、データ共変量シフトの下で効率的なオンライン学習を可能にすることを検証する。 また、Dyna MBRL設定では、我々の世界モデルは、リプレイやその他の連続学習手法で訓練された深層世界のモデルの性能に匹敵するか、一致した1パスの軌跡データを用いてオンラインで学習した。

Acquiring an accurate world model online for model-based reinforcement learning (MBRL) is challenging due to data nonstationarity, which typically causes catastrophic forgetting for neural networks (NNs). From the online learning perspective, a Follow-The-Leader (FTL) world model is desirable, which optimally fits all previous experiences at each round. Unfortunately, NN-based models need re-training on all accumulated data at every interaction step to achieve FTL, which is computationally expensive for lifelong agents. In this paper, we revisit models that can achieve FTL with incremental updates. Specifically, our world model is a linear regression model supported by nonlinear random features. The linear part ensures efficient FTL update while the nonlinear random feature empowers the fitting of complex environments. To best trade off model capacity and computation efficiency, we introduce a locality sensitive sparse encoding, which allows us to conduct efficient sparse updates even with very high dimensional nonlinear features. We validate the representation power of our encoding and verify that it allows efficient online learning under data covariate shift. We also show, in the Dyna MBRL setting, that our world models learned online using a single pass of trajectory data either surpass or match the performance of deep world models trained with replay and other continual learning methods.
翻訳日:2024-01-25 16:15:36 公開日:2024-01-23
# ホログラフィックエントロピー円錐のファセットの2つの無限族

Two infinite families of facets of the holographic entropy cone ( http://arxiv.org/abs/2401.13029v1 )

ライセンス: Link先を確認
Bartlomiej Czech, Yu Liu, Bo Yu(参考訳) 最近証明されたホログラフィックエントロピー不等式無限族は極端に密接であること、すなわちホログラフィックエントロピー円錐の面であることを確認する。 証明は技術的だが、ヒューリスティックな洞察を与える。 星グラフ上では、両方の不等式族は、サブシステムに作用する二面対称性に関して、情報の集中/拡散の程度を定量化する。 さらに、K-基底に見られるトーリック不等式は、四者と六者完全テンソルの間の興味深い相互作用を示す。

We verify that the recently proven infinite families of holographic entropy inequalities are maximally tight, i.e. they are facets of the holographic entropy cone. The proof is technical but it offers some heuristic insight. On star graphs, both families of inequalities quantify how concentrated / spread information is with respect to a dihedral symmetry acting on subsystems. In addition, toric inequalities viewed in the K-basis show an interesting interplay between four-party and six-party perfect tensors.
翻訳日:2024-01-25 16:15:13 公開日:2024-01-23
# 発電所の監督制御のための安全強化学習アルゴリズム

A Safe Reinforcement Learning Algorithm for Supervisory Control of Power Plants ( http://arxiv.org/abs/2401.13020v1 )

ライセンス: Link先を確認
Yixuan Sun, Sami Khairy, Richard B. Vilim, Rui Hu, Akshay J. Dave(参考訳) 従来の制御理論に基づく手法では、各システムに適したエンジニアリングと一定の微調整が必要である。 プラント制御では、システムダイナミクスの正確な表現を取得し、それに従って制御スキームを慎重に設計する必要があることが多い。 モデルフリー強化学習(RL)は、環境との試行錯誤の相互作用から学習できることから、制御タスクのための有望なソリューションとして登場した。 これにより、環境のダイナミクスを明示的にモデル化する必要がなくなる。 しかし、プラント制御における状態制約の直接適用は、標準RL法の課題を提起する。 そこで本研究では,監督制御のためのポリシ最適化に基づく確率制約付きRLアルゴリズムを提案する。 本手法では,制約付き最適化問題を非拘束目的に変換するためにラグランジュ緩和を用い,学習可能なラグランジュ乗算器が状態制約を強制する。 本手法は, 原子力プラント設計における負荷追従操作において, 違反距離と違反率の最小化を実現する。

Traditional control theory-based methods require tailored engineering for each system and constant fine-tuning. In power plant control, one often needs to obtain a precise representation of the system dynamics and carefully design the control scheme accordingly. Model-free Reinforcement learning (RL) has emerged as a promising solution for control tasks due to its ability to learn from trial-and-error interactions with the environment. It eliminates the need for explicitly modeling the environment's dynamics, which is potentially inaccurate. However, the direct imposition of state constraints in power plant control raises challenges for standard RL methods. To address this, we propose a chance-constrained RL algorithm based on Proximal Policy Optimization for supervisory control. Our method employs Lagrangian relaxation to convert the constrained optimization problem into an unconstrained objective, where trainable Lagrange multipliers enforce the state constraints. Our approach achieves the smallest distance of violation and violation rate in a load-follow maneuver for an advanced Nuclear Power Plant design.
翻訳日:2024-01-25 16:15:04 公開日:2024-01-23
# 統計的モデルチェックとプロセスマイニングによる量的製品ラインのホワイトボックス検証

White-box validation of quantitative product lines by statistical model checking and process mining ( http://arxiv.org/abs/2401.13019v1 )

ライセンス: Link先を確認
Roberto Casaluce, Andrea Burattin, Francesca Chiaromonte, Alberto Lluch Lafuente, Andrea Vandin(参考訳) 本稿では,統計モデル検査(smc)とプロセスマイニング(pm)を統合し,ソフトウェア製品ライン(pl)モデルの検証手法を提案する。 我々のアプローチは、PLエンジニアリング領域における機能指向言語QFLanに焦点をあて、豊富なクロスツリーと量的制約を持つPLのモデリングと、ステージ構成のような動的PLの側面を可能にする。 この豊かさは無限の状態空間を持つモデルにつながり、SMCのようなシミュレーションベースの分析技術を必要とする。 例えば、無限の状態空間を含む実行中の例を示す。 SMCは、事象確率や期待値などの特性を推定するシステムダイナミクスのサンプルを生成する。 一方PMは、実行ログにデータ駆動技術を使用して、基盤となる実行プロセスを特定し、推論する。 本稿では, PM法をSMCシミュレーションの副産物に適用し, SMC解析の有用性を高めることを提案する。 通常、SMCの結果が予期しない場合、モデラーは実際のシステム特性に由来するか、ブラックボックス方式でモデルバグに由来するかを決定する必要がある。 我々はPMを用いて観測システムダイナミクスのホワイトボックス視点を提供することにより、この問題を改善する。 SMCのサンプルはPMツールに入力され、観察されたダイナミックスのコンパクトなグラフィカル表現を生成する。 マイニングされたPMモデルはQFLanモデルに変換され、PLエンジニアが利用できる。 2つのよく知られたplモデルを用いて,問題点を指摘し,修正を提案する手法の有効性と拡張性を示す。 さらに,セキュリティドメインに適用することにより,その汎用性を示す。

We propose a novel methodology for validating software product line (PL) models by integrating Statistical Model Checking (SMC) with Process Mining (PM). Our approach focuses on the feature-oriented language QFLan in the PL engineering domain, allowing modeling of PLs with rich cross-tree and quantitative constraints, as well as aspects of dynamic PLs like staged configurations. This richness leads to models with infinite state-space, requiring simulation-based analysis techniques like SMC. For instance, we illustrate with a running example involving infinite state space. SMC involves generating samples of system dynamics to estimate properties such as event probabilities or expected values. On the other hand, PM uses data-driven techniques on execution logs to identify and reason about the underlying execution process. In this paper, we propose, for the first time, applying PM techniques to SMC simulations' byproducts to enhance the utility of SMC analyses. Typically, when SMC results are unexpected, modelers must determine whether they stem from actual system characteristics or model bugs in a black-box manner. We improve on this by using PM to provide a white-box perspective on the observed system dynamics. Samples from SMC are fed into PM tools, producing a compact graphical representation of observed dynamics. The mined PM model is then transformed into a QFLan model, accessible to PL engineers. Using two well-known PL models, we demonstrate the effectiveness and scalability of our methodology in pinpointing issues and suggesting fixes. Additionally, we show its generality by applying it to the security domain.
翻訳日:2024-01-25 16:14:48 公開日:2024-01-23
# ナイジェリアのサイバースペースにおける新型コロナウイルスワクチン接種感の分析:手書きの注釈付きTwitterデータセットから

Analyzing COVID-19 Vaccination Sentiments in Nigerian Cyberspace: Insights from a Manually Annotated Twitter Dataset ( http://arxiv.org/abs/2401.13133v1 )

ライセンス: Link先を確認
Ibrahim Said Ahmad, Lukman Jibril Aliyu, Abubakar Auwal Khalid, Saminu Muhammad Aliyu, Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Bala Mairiga Abduljalil, Bello Shehu Bello, Amina Imam Abubakar(参考訳) 新型コロナウイルス(covid-19)のパンデミック対策には、ロックダウンやソーシャルディスタンシング、フェイスマスクの使用など、さまざまな予防措置が使用された。 最近では、新型コロナウイルス感染の重症度を予防または軽減するために様々なワクチンが開発されている。 予防措置とワクチンの有効性にもかかわらず、Twitterのようなソーシャルメディアプラットフォームで大々的に共有される議論はいくつかある。 本稿では,ナイジェリアにおけるワクチンの受け入れについて,最先端のトランスフォーマーベース言語モデルを用いて検討する。 関連するハッシュタグとキーワードを用いて多言語ツイートをクロールする新しいデータセットを開発した。 分析と可視化の結果、ほとんどのツイートが新型コロナウイルスワクチンに関する中立的な感情を示しており、一部の個人は肯定的な見解を示しており、特定のワクチンタイプを強く好むことはなかった。 また,事前学習したLLMを適切なデータセットで微調整することで,LLMが当初そのデータセットの特定の言語で事前学習されていなくても,競争結果が得られることがわかった。

Numerous successes have been achieved in combating the COVID-19 pandemic, initially using various precautionary measures like lockdowns, social distancing, and the use of face masks. More recently, various vaccinations have been developed to aid in the prevention or reduction of the severity of the COVID-19 infection. Despite the effectiveness of the precautionary measures and the vaccines, there are several controversies that are massively shared on social media platforms like Twitter. In this paper, we explore the use of state-of-the-art transformer-based language models to study people's acceptance of vaccines in Nigeria. We developed a novel dataset by crawling multi-lingual tweets using relevant hashtags and keywords. Our analysis and visualizations revealed that most tweets expressed neutral sentiments about COVID-19 vaccines, with some individuals expressing positive views, and there was no strong preference for specific vaccine types, although Moderna received slightly more positive sentiment. We also found out that fine-tuning a pre-trained LLM with an appropriate dataset can yield competitive results, even if the LLM was not initially pre-trained on the specific language of that dataset.
翻訳日:2024-01-25 16:08:53 公開日:2024-01-23
# 科学・工学領域における種誘導型細粒体タイピング

Seed-Guided Fine-Grained Entity Typing in Science and Engineering Domains ( http://arxiv.org/abs/2401.13129v1 )

ライセンス: Link先を確認
Yu Zhang, Yunyi Zhang, Yanzhen Shen, Yu Deng, Lucian Popa, Larisa Shwartz, ChengXiang Zhai, Jiawei Han(参考訳) テキストセグメントからの正確な型付けエンティティは、様々な自然言語処理アプリケーションにとって基本的なタスクである。 以前の多くのアプローチでは、エンティティ型付けを行うために大量の人間注釈データに依存している。 それでも、高度に専門化された科学と工学の領域(例えば、ソフトウェア工学とセキュリティ)でそのようなデータを収集することは、モデルが機密データセットに適用する必要がある場合、トレーニングデータと推論データの間のドメインギャップを言及することなく、時間とコストがかかる。 本稿では,各エンティティタイプの名称と数種を唯一の監督として,新たなエンティティ参照を目に見える型と見えない型(すなわちシードエンティティのない型)に分類することを目的とした,科学・工学領域における種誘導型(seed-guided fine-grained)の課題について検討する。 そこで本研究では,まず,事前学習した言語モデルの文脈化表現を用いて,ラベルのないコーパスから各タイプのエンティティを抽出し,弱い監視力を高めるSETypeを提案する。 そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。 4つのドメインをカバーする2つのデータセットに関する広範な実験は、様々なベースラインと比較してsetypeの有効性を示している。

Accurately typing entity mentions from text segments is a fundamental task for various natural language processing applications. Many previous approaches rely on massive human-annotated data to perform entity typing. Nevertheless, collecting such data in highly specialized science and engineering domains (e.g., software engineering and security) can be time-consuming and costly, without mentioning the domain gaps between training and inference data if the model needs to be applied to confidential datasets. In this paper, we study the task of seed-guided fine-grained entity typing in science and engineering domains, which takes the name and a few seed entities for each entity type as the only supervision and aims to classify new entity mentions into both seen and unseen types (i.e., those without seed entities). To solve this problem, we propose SEType which first enriches the weak supervision by finding more entities for each seen type from an unlabeled corpus using the contextualized representations of pre-trained language models. It then matches the enriched entities to unlabeled text to get pseudo-labeled samples and trains a textual entailment model that can make inferences for both seen and unseen types. Extensive experiments on two datasets covering four domains demonstrate the effectiveness of SEType in comparison with various baselines.
翻訳日:2024-01-25 16:08:31 公開日:2024-01-23
# 多軸測定の簡単な理論

Brief Theory of Multiqubit Measurement ( http://arxiv.org/abs/2401.13122v1 )

ライセンス: Link先を確認
Constantin Usenko(参考訳) マルチキュービット測度の特異性は、主に有限次元ヒルベルト空間を持つ量子オブジェクトのクーディット測度の特異性に類似している。 測定概念の3つの異なる解釈が分析される。 それらのうちの1つは純粋に量子的であり、測定対象の所定の状態について収集されており、非互換な観測可能な測定結果は状態の再構築に十分な量となる。 他の2つは、測定に関与する物理物体の密度行列と密度行列との差を明らかにしている。 フォン・ノイマン・プロジェクターは、可能な純粋状態上のプロジェクターに対する数学的な期待の集合として、キューディット状態の位相像のアイデアを生成する。 位相像は、クディット可観測代数の同一性のすべての分解に対する確率分布を含む。 キューディット対からなる複合系の位相像は、粒子の局所的および条件的位相像を生成する。 エンタングルメントは、条件相像の形状が、他の粒子の測定に使用される可観測物の特性に依存することにより表される。 マルチクビット量子ビットの条件相ポートレートの特性の解析は、マルチクビット分解法に課される実質的な制限がある場合のみ、絡み合いの欠如が可能であることを示している。

Peculiarities of multiqubit measurement are for the most part similar to peculiarities of measurement for qudit -- quantum object with finite-dimensional Hilbert space. Three different interpretations of measurement concept are analysed. One of those is purely quantum and is in collection, for a given state of the object to be measured, of incompatible observable measurement results in amount enough for reconstruction of the state. Two others make evident the difference between the reduced density matrix and the density matrices of physical objects involved in the measurement. It is shown that the von Neumann projectors produce an idea of a phase portrait of qudit state as a set of mathematical expectations for projectors on the possible pure states. The phase portrait includes probability distributions for all the resolutions of identity of the qudit observable algebra. The phase portrait of a composite system comprised by a qudit pair generates local and conditional phase portraits of particles. The entanglement is represented by the dependence of the shape of conditional phase portrait on the properties of the observable used in the measurement for the other particle. Analysis of the properties of a conditional phase portrait of a multiqubit qubits shows that absence of the entanglement is possible only in the case of substantial restrictions imposed on the method of multiqubit decomposition into qubits.
翻訳日:2024-01-25 16:08:06 公開日:2024-01-23
# 収縮拡散確率モデル

Contractive Diffusion Probabilistic Models ( http://arxiv.org/abs/2401.13115v1 )

ライセンス: Link先を確認
Wenpin Tang and Hanyang Zhao(参考訳) 拡散確率モデル(DPM)は生成モデルにおいて有望な技術である。 dpmの成功は、マルコフ拡散過程の時間反転とスコアマッチングの2つの要素に依存している。 ほとんどの既存の研究は、スコアマッチングが完璧に近いと暗黙的に仮定するが、この仮定は疑わしい。 そこで本研究では, dpmの設計における後方サンプリングの縮小という, 新たな基準を提案する。 これは、契約的オルンシュタイン・ウレンベック過程(OU)や契約的部分分散保存(sub-VP)確率微分方程式(SDE)を含む、新しい契約的DPM(CDPM)のクラスにつながる。 重要な洞察は、後方プロセスの収縮が一致した誤差と離散化エラーを狭めることである。 したがって、提案したCDPMは両方のエラー源に対して堅牢である。 提案は理論的な結果によって支持され,実験によって裏付けられている。 特に、契約サブVPは、CIFAR-10データセット上のすべての既知のSDEベースのDPMの中で最高のパフォーマンスを示している。

Diffusion probabilistic models (DPMs) have emerged as a promising technology in generative modeling. The success of DPMs relies on two ingredients: time reversal of Markov diffusion processes and score matching. Most existing work implicitly assumes that score matching is close to perfect, while this assumption is questionable. In view of possibly unguaranteed score matching, we propose a new criterion -- the contraction of backward sampling in the design of DPMs. This leads to a novel class of contractive DPMs (CDPMs), including contractive Ornstein-Uhlenbeck (OU) processes and contractive sub-variance preserving (sub-VP) stochastic differential equations (SDEs). The key insight is that the contraction in the backward process narrows score matching errors, as well as discretization error. Thus, the proposed CDPMs are robust to both sources of error. Our proposal is supported by theoretical results, and is corroborated by experiments. Notably, contractive sub-VP shows the best performance among all known SDE-based DPMs on the CIFAR-10 dataset.
翻訳日:2024-01-25 16:07:42 公開日:2024-01-23
# DisCOUNT: 最適輸送による分散対実的説明

DISCOUNT: Distributional Counterfactual Explanation With Optimal Transport ( http://arxiv.org/abs/2401.13112v1 )

ライセンス: Link先を確認
Lei You, Lele Cao, Mattias Nilsson(参考訳) Counterfactual Explanations (CE) は、異なる結果をもたらす代替入力インスタンスを特定することによって、ブラックボックス決定モデルにおける洞察と解釈可能性を提供するデファクト手法である。 本稿では、CEの概念を分散コンテキストに拡張し、個々のデータポイントから、DCE(Distributedal Counterfactal Explanation)と呼ばれる、入力および出力分布全体へのスコープを広げる。 DCEでは、実例と反事実の分布特性の分析に焦点が移り、個々の事例と結果の決定を古典的なアプローチで評価するのと類似している。 我々は、確率制約付き最適化問題に最適輸送(OT)を活用し、統計的信頼度に基づく実例と密に一致した反事実分布を導出することを目的としている。 提案手法であるdisCOUNTは,この信頼性を入力分布と出力分布の両方で戦略的にバランスさせる。 このアルゴリズムには収束率の解析が伴う。 提案手法の有効性は, 一連の事例研究を通じて実証され, 意思決定モデルに深い洞察を与える可能性を強調した。

Counterfactual Explanations (CE) is the de facto method for providing insight and interpretability in black-box decision-making models by identifying alternative input instances that lead to different outcomes. This paper extends the concept of CEs to a distributional context, broadening the scope from individual data points to entire input and output distributions, named Distributional Counterfactual Explanation (DCE). In DCE, our focus shifts to analyzing the distributional properties of the factual and counterfactual, drawing parallels to the classical approach of assessing individual instances and their resulting decisions. We leverage Optimal Transport (OT) to frame a chance-constrained optimization problem, aiming to derive a counterfactual distribution that closely aligns with its factual counterpart, substantiated by statistical confidence. Our proposed optimization method, DISCOUNT, strategically balances this confidence across both input and output distributions. This algorithm is accompanied by an analysis of its convergence rate. The efficacy of our proposed method is substantiated through a series of illustrative case studies, highlighting its potential in providing deep insights into decision-making models.
翻訳日:2024-01-25 16:07:24 公開日:2024-01-23
# XAI for All: 大規模言語モデルは説明可能なAIをシンプルにできるか?

XAI for All: Can Large Language Models Simplify Explainable AI? ( http://arxiv.org/abs/2401.13110v1 )

ライセンス: Link先を確認
Philip Mavrepis, Georgios Makridis, Georgios Fatouros, Vasileios Koukos, Maria Margarita Separdani, Dimosthenis Kyriazis(参考訳) 説明可能な人工知能(XAI)の分野は、しばしば強力な技術的背景を持つユーザーに焦点を当てており、非専門家がXAIの手法を理解することは困難である。 本稿では、ChatGPT Builderを用いて開発されたLLM(Large Language Model)により、XAIをより広く利用できるようにする新しいアプローチである「x-[plAIn]」を提案する。 私たちの目標は、ビジネス専門家や学者など、さまざまなオーディエンスに適した、さまざまなXAIメソッドの明確で簡潔な要約を生成するモデルを設計することでした。 モデルの主な特徴は、各オーディエンスグループの知識レベルと関心に合うように説明を適応できることである。 このアプローチは依然としてタイムリーな洞察を提供し、エンドユーザによる意思決定プロセスを促進します。 本研究は,XAI手法によらず,理解し易い,観衆特有の説明を提供することが有効であることを示す。 この適応性により、XAIのアクセシビリティが向上し、複雑なAI技術と実践的な応用とのギャップを埋める。 この結果から,高度なAI概念を多様なユーザに対してよりアクセスしやすくする上で,LLMにとって有望な方向性が示唆された。

The field of Explainable Artificial Intelligence (XAI) often focuses on users with a strong technical background, making it challenging for non-experts to understand XAI methods. This paper presents "x-[plAIn]", a new approach to make XAI more accessible to a wider audience through a custom Large Language Model (LLM), developed using ChatGPT Builder. Our goal was to design a model that can generate clear, concise summaries of various XAI methods, tailored for different audiences, including business professionals and academics. The key feature of our model is its ability to adapt explanations to match each audience group's knowledge level and interests. Our approach still offers timely insights, facilitating the decision-making process by the end users. Results from our use-case studies show that our model is effective in providing easy-to-understand, audience-specific explanations, regardless of the XAI method used. This adaptability improves the accessibility of XAI, bridging the gap between complex AI technologies and their practical applications. Our findings indicate a promising direction for LLMs in making advanced AI concepts more accessible to a diverse range of users.
翻訳日:2024-01-25 16:07:05 公開日:2024-01-23
# 図書館の存在下での非線形力学のスパース同定とシステムの不確かさ

Sparse identification of nonlinear dynamics in the presence of library and system uncertainty ( http://arxiv.org/abs/2401.13099v1 )

ライセンス: Link先を確認
Andrew O'Brien(参考訳) SINDyアルゴリズムは時系列データから力学系の制御方程式の同定に成功している。 しかし、SINDyはユーザがシステム内の変数やシステムの基盤として機能する関数ライブラリについて事前の知識を持っていると仮定する。 本稿では,システム変数の不確実性の存在下で,Augmented SINDyアルゴリズムがSINDyより優れていることを示す。 次に、両方の不確実性が存在する場合、SINDyをさらに強化して、堅牢に動作させることができることを示す。

The SINDy algorithm has been successfully used to identify the governing equations of dynamical systems from time series data. However, SINDy assumes the user has prior knowledge of the variables in the system and of a function library that can act as a basis for the system. In this paper, we demonstrate on real world data how the Augmented SINDy algorithm outperforms SINDy in the presence of system variable uncertainty. We then show SINDy can be further augmented to perform robustly when both kinds of uncertainty are present.
翻訳日:2024-01-25 16:06:43 公開日:2024-01-23
# 船舶交通流予測のための重力インフォームド深層学習フレームワークとバラスト水放電による非生物種侵入リスク

Gravity-Informed Deep Learning Framework for Predicting Ship Traffic Flow and Invasion Risk of Non-Indigenous Species via Ballast Water Discharge ( http://arxiv.org/abs/2401.13098v1 )

ライセンス: Link先を確認
Ruixin Song, Gabriel Spadon, Sarah Bailey, Ronald Pelot, Stan Matwin, Amilcar Soares(参考訳) 水域の侵入種は、世界中の環境と生物多様性に大きな脅威をもたらす。 輸送と貿易の増加により、非ネイティブ種は新しい環境に導入され、生態系に損傷を与え、農業、林業、漁業に経済的損失をもたらした。 そのため、これらの侵略の影響を軽減するため、リスクアセスメントとマネジメントのテクニックが急務である。 本研究の目的は, 海上交通予測モデルの構築であり, グローバル交通網を通した外来種のリスク評価を行うことである。 国際貿易の重力モデルに着想を得た本モデルは,輸送ハブの輸送フラックス密度,港間距離,貿易フロー,集中性指標など,船舶活動の可能性と影響に影響を与える様々な要因を考察する。 また,侵入種のリスクネットワークを解析することにより,原産地と目的地が一対ある場合の侵入脅威レベルを評価するための包括的枠組みを提供する。 そこで本稿では,リスク分析を可能にする短期的・長期的依存関係を再構築するために,重力モデルへのトランスフォーマーを導入する。 そこで本研究では,既存および非既存軌道のセグメンテーション精度89%,キーポート間を流れる船舶数84.8%の精度を実現し,従来の深層重力モデルよりも10%以上向上した物理モデルを提案する。 これらの線に沿って、本研究は外来種のリスク評価の理解を深める。 政策立案者、保護主義者、利害関係者はリスクの高い侵入経路を特定することで管理行動を優先することができる。 さらに,本モデルは多種多様であり,新たなデータソースを含むことが可能であり,地球環境の変化にともなう種侵入リスクの評価に適している。

Invasive species in water bodies pose a major threat to the environment and biodiversity globally. Due to increased transportation and trade, non-native species have been introduced to new environments, causing damage to ecosystems and leading to economic losses in agriculture, forestry, and fisheries. Therefore, there is a pressing need for risk assessment and management techniques to mitigate the impact of these invasions. This study aims to develop a new physics-inspired model to forecast maritime shipping traffic and thus inform risk assessment of invasive species spread through global transportation networks. Inspired by the gravity model for international trades, our model considers various factors that influence the likelihood and impact of vessel activities, such as shipping flux density, distance between ports, trade flow, and centrality measures of transportation hubs. Additionally, by analyzing the risk network of invasive species, we provide a comprehensive framework for assessing the invasion threat level given a pair of origin and destination. Accordingly, this paper introduces transformers to gravity models to rebuild the short- and long-term dependencies that make the risk analysis feasible. Thus, we introduce a physics-inspired framework that achieves an 89% segmentation accuracy for existing and non-existing trajectories and an 84.8% accuracy for the number of vessels flowing between key port areas, representing more than 10% improvement over the traditional deep-gravity model. Along these lines, this research contributes to a better understanding of invasive species risk assessment. It allows policymakers, conservationists, and stakeholders to prioritize management actions by identifying high-risk invasion pathways. Besides, our model is versatile and can include new data sources, making it suitable for assessing species invasion risks in a changing global landscape.
翻訳日:2024-01-25 16:06:33 公開日:2024-01-23
# グラフニューラルネットワークによる確率的需要予測

Probabilistic Demand Forecasting with Graph Neural Networks ( http://arxiv.org/abs/2401.13096v1 )

ライセンス: Link先を確認
Nikita Kozodoi, Elizaveta Zinovyeva, Simon Valentin, Jo\~ao Pereira, Rodrigo Agundez(参考訳) 需要予測は、小売業者が在庫計画、ロジスティクス、コアビジネス決定を最適化できる、著名なビジネスユースケースである。 需要予測における重要な課題の1つは、記事間の関係と相互作用を説明することである。 現代の予測手法のほとんどは、関連記事の影響を考慮しない独立した記事レベルの予測を提供する。 最近の研究では、グラフニューラルネットワーク(GNN)を用いてこの問題に対処し、有望な結果を示している。 本稿は、GNNに関する以前の研究に基づいて、2つのコントリビューションを行う。 まず、GNNエンコーダを最先端のDeepARモデルに統合する。 統合モデルは、不確実性の下で意思決定に不可欠な確率的予測を生成する。 第2に,あらかじめ定義されたグラフ構造に依存しない記事属性類似性を用いてグラフを構築することを提案する。 3つの実世界のデータセットの実験により、提案手法はグラフ以外のベンチマークを一貫して上回ることを示した。 また,本手法は記事の類似性と需要動態をエンコードした記事埋め込みを生成し,予測以上の下流ビジネスタスクに有用であることを示す。

Demand forecasting is a prominent business use case that allows retailers to optimize inventory planning, logistics, and core business decisions. One of the key challenges in demand forecasting is accounting for relationships and interactions between articles. Most modern forecasting approaches provide independent article-level predictions that do not consider the impact of related articles. Recent research has attempted addressing this challenge using Graph Neural Networks (GNNs) and showed promising results. This paper builds on previous research on GNNs and makes two contributions. First, we integrate a GNN encoder into a state-of-the-art DeepAR model. The combined model produces probabilistic forecasts, which are crucial for decision-making under uncertainty. Second, we propose to build graphs using article attribute similarity, which avoids reliance on a pre-defined graph structure. Experiments on three real-world datasets show that the proposed approach consistently outperforms non-graph benchmarks. We also show that our approach produces article embeddings that encode article similarity and demand dynamics and are useful for other downstream business tasks beyond forecasting.
翻訳日:2024-01-25 16:06:02 公開日:2024-01-23
# ストリートビュー画像のためのオープンソースデータパイプライン--COVID-19パンデミック時のコミュニティモビリティを事例として

Open-source data pipeline for street-view images: a case study on community mobility during COVID-19 pandemic ( http://arxiv.org/abs/2401.13087v1 )

ライセンス: Link先を確認
Matthew Martell, Nick Terry, Ribhu Sengupta, Chris Salazar, Nicole A. Errett, Scott B. Miles, Joseph Wartman, Youngjun Choe(参考訳) ストリートビュー画像(SVI)は研究者にとって貴重なデータ源である。 研究者はSVIデータを使って歩行者の量を推定し、人口調査を行い、都市景観の建築と自然環境をよりよく理解した。 しかし、一般に公開されているSVIデータの最も一般的なソースはGoogleストリートビューである。 Googleストリートビューの画像は頻繁に収集され、特に人口密度の低い地域では時間的分析が難しい。 私たちの主な貢献は、車載カメラから記録された360度ビデオを処理するためのオープンソースのデータパイプラインの開発です。 ビデオデータはSVIを生成するために使用され、時間解析の入力として使用できる。 新型コロナウイルス(COVID-19)パンデミック期間中に米国シアトルの38ヶ月にわたる縦断調査でSVIデータセットを収集し,パイプラインの利用を実証した。 パイプラインの出力は,画像中の歩行者トラフィックの統計的解析によって検証される。 文献の既知結果を確認し,屋外歩行者の交通パターンに関する新たな知見を提供する。 本研究では,現在利用可能なSVIデータを超える研究目的のために,SVIの収集と利用の実現可能性と価値を示す。 データパイプラインの限界と今後の改善やケーススタディについても論じる。

Street View Images (SVI) are a common source of valuable data for researchers. Researchers have used SVI data for estimating pedestrian volumes, demographic surveillance, and to better understand built and natural environments in cityscapes. However, the most common source of publicly available SVI data is Google Street View. Google Street View images are collected infrequently, making temporal analysis challenging, especially in low population density areas. Our main contribution is the development of an open-source data pipeline for processing 360-degree video recorded from a car-mounted camera. The video data is used to generate SVIs, which then can be used as an input for temporal analysis. We demonstrate the use of the pipeline by collecting a SVI dataset over a 38-month longitudinal survey of Seattle, WA, USA during the COVID-19 pandemic. The output of our pipeline is validated through statistical analyses of pedestrian traffic in the images. We confirm known results in the literature and provide new insights into outdoor pedestrian traffic patterns. This study demonstrates the feasibility and value of collecting and using SVI for research purposes beyond what is possible with currently available SVI data. Limitations and future improvements on the data pipeline and case study are also discussed.
翻訳日:2024-01-25 16:05:37 公開日:2024-01-23
# 信頼できる言語モデルに向けて:大規模言語モデルの情報品質を探る

Towards Trustable Language Models: Investigating Information Quality of Large Language Models ( http://arxiv.org/abs/2401.13086v1 )

ライセンス: Link先を確認
Rick Rejeleene, Xiaowei Xu, John Talburt(参考訳) 大規模言語モデル(LLM)は、ユーザがますます信頼し、信頼する必要のある情報を急速に生成している。 LLMの顕著な進歩にもかかわらず、LLMが生成した情報は、情報品質の課題のため、完全に信頼できるものではない。 具体的には、LCMの事前トレーニング中に信頼性の低い、バイアスのあるトークン化によって、情報品質の整合性が低下する。 さらに, 情報品質の問題が減り, 幻覚化, 偽情報化が進んでいる。 信頼できない情報は、ビジネスの欠陥のある決定につながる可能性がある。 本研究では,LLMの数学的品質評価を新たに導入し,さらに情報品質の課題を解析・強調し,言語モデルを体系的に拡張するための法則をスケーリングする。

Large language models (LLM) are generating information at a rapid pace, requiring users to increasingly rely and trust the data. Despite remarkable advances of LLM, Information generated by LLM is not completely trustworthy, due to challenges in information quality. Specifically, integrity of Information quality decreases due to unreliable, biased, tokenization during pre-training of LLM. Moreover, due to decreased information quality issues, has led towards hallucination, fabricated information. Unreliable information can lead towards flawed decisions in businesses, which impacts economic activity. In this work, we introduce novel mathematical information quality evaluation of LLM, we furthermore analyze and highlight information quality challenges, scaling laws to systematically scale language models.
翻訳日:2024-01-25 16:05:01 公開日:2024-01-23
# IndiText Boost: 低リソースインド言語のためのテキスト拡張

IndiText Boost: Text Augmentation for Low Resource India Languages ( http://arxiv.org/abs/2401.13085v1 )

ライセンス: Link先を確認
Onkar Litake, Niraj Yagnik and Shreyas Labhsetwar(参考訳) テキスト拡張は低リソース言語にとって重要なタスクである。 データ不足の問題に対処するのに役立ちます。 データ不足の問題に対処するために、データ拡張戦略が使用される。 長年にわたり、英語のデータ拡張に関する多くの研究がなされてきた。 対照的に、インドの言語に関する研究はほとんど行われていない。 これは、データの不足に対処するためにデータ拡張が使用されるという事実とは逆である。 本研究では,データ拡張の容易化,逆翻訳,パラフラージング,llmを用いたテキスト生成,異なる言語でのテキスト分類のためのllmsを用いたテキスト拡張といった手法の実装に焦点を当てた。 インドの言語は、シンディー語、マラティー語、ヒンディー語、グジャラーティ語、テルグ語、サンスクリット語である。 私たちの知識によれば、インドの言語に関するテキスト増補のための研究は存在しない。 結果がより同等になるように、バイナリとマルチクラステキストの分類を実行します。 基本データ拡張技術がLLMを超えると驚くべき結果が得られます。

Text Augmentation is an important task for low-resource languages. It helps deal with the problem of data scarcity. A data augmentation strategy is used to deal with the problem of data scarcity. Through the years, much work has been done on data augmentation for the English language. In contrast, very less work has been done on Indian languages. This is contrary to the fact that data augmentation is used to deal with data scarcity. In this work, we focus on implementing techniques like Easy Data Augmentation, Back Translation, Paraphrasing, Text Generation using LLMs, and Text Expansion using LLMs for text classification on different languages. We focus on 6 Indian languages namely: Sindhi, Marathi, Hindi, Gujarati, Telugu, and Sanskrit. According to our knowledge, no such work exists for text augmentation on Indian languages. We carry out binary as well as multi-class text classification to make our results more comparable. We get surprising results as basic data augmentation techniques surpass LLMs.
翻訳日:2024-01-25 16:04:42 公開日:2024-01-23
# PlaceFormer:マルチスケールパッチ選択と融合によるトランスフォーマーに基づく視覚的位置認識

PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion ( http://arxiv.org/abs/2401.13082v1 )

ライセンス: Link先を確認
Shyam Sundar Kannan and Byung-Cheol Min(参考訳) 視覚的な場所認識は、コンピュータビジョンや自律ロボットと車両の分野で難しい課題であり、視覚的な入力から場所や場所を特定することを目的としている。 視覚位置認識における現代の手法は畳み込みニューラルネットワークを用いており、画像内の全ての領域を位置認識タスクに利用する。 しかし、画像中の動的および散逸する要素の存在は、位置認識プロセスの有効性に影響を及ぼす可能性がある。 したがって、画像のタスク関連領域に着目して認識を改善することが重要である。 本稿では,視覚的位置認識のための新しいトランスフォーマーを用いたPlaceFormerを提案する。 PlaceFormerはトランスフォーマーからのパッチトークンを使用してグローバルなイメージ記述子を生成し、画像検索に使用する。 取得したイメージを再ランクするために、PlaceFormerは、変換器からパッチトークンをマージして、マルチスケールのパッチを形成する。 トランスの自己照準機構を利用して、画像中のタスク関連領域に対応するパッチを選択する。 選択されたパッチは幾何学的検証を受け、異なるパッチサイズで類似度スコアを生成する。 その後、各パッチサイズからの空間スコアを融合して最終類似度スコアを生成する。 このスコアは、グローバルなイメージディスクリプタを使用して最初に取得されたイメージの再ランクに使用される。 ベンチマークデータセットに関する広範囲な実験により、placeformerは、精度と計算効率の点で最先端の手法よりも優れており、時間とメモリの削減が期待できる。

Visual place recognition is a challenging task in the field of computer vision, and autonomous robotics and vehicles, which aims to identify a location or a place from visual inputs. Contemporary methods in visual place recognition employ convolutional neural networks and utilize every region within the image for the place recognition task. However, the presence of dynamic and distracting elements in the image may impact the effectiveness of the place recognition process. Therefore, it is meaningful to focus on task-relevant regions of the image for improved recognition. In this paper, we present PlaceFormer, a novel transformer-based approach for visual place recognition. PlaceFormer employs patch tokens from the transformer to create global image descriptors, which are then used for image retrieval. To re-rank the retrieved images, PlaceFormer merges the patch tokens from the transformer to form multi-scale patches. Utilizing the transformer's self-attention mechanism, it selects patches that correspond to task-relevant areas in an image. These selected patches undergo geometric verification, generating similarity scores across different patch sizes. Subsequently, spatial scores from each patch size are fused to produce a final similarity score. This score is then used to re-rank the images initially retrieved using global image descriptors. Extensive experiments on benchmark datasets demonstrate that PlaceFormer outperforms several state-of-the-art methods in terms of accuracy and computational efficiency, requiring less time and memory.
翻訳日:2024-01-25 16:04:23 公開日:2024-01-23
# 放射線医学におけるフリーフォームビジュアル質問応答

Free Form Medical Visual Question Answering in Radiology ( http://arxiv.org/abs/2401.13081v1 )

ライセンス: Link先を確認
Abhishek Narayanan, Rushabh Musthyala, Rahul Sankar, Anirudh Prasad Nistala, Pranav Singh and Jacopo Cirrone(参考訳) 医学領域における視覚的質問回答(VQA)は、コンピュータビジョン、自然言語処理、知識表現といった分野を組み合わせた、独特で学際的な課題を示す。 その重要性にもかかわらず、医療用VQAの研究はスキャンされ、2018年以降、勢いが増している。 このギャップに対処し,放射線画像の効果的な表現とマルチモーダル表現の合同学習に着目し,既存の手法を上回った。 SLAKEデータセットを革新的に拡張し、放射線学や病理画像の即時的内容に限らず、より多様な質問に対応できるようにしました。 我々のモデルは、より複雑なアーキテクチャで79.55\%のtop-1精度を達成し、現在の最先端モデルに匹敵する性能を示している。 本研究は, 医療用VQAの進歩だけでなく, 臨床応用への道を開いた。

Visual Question Answering (VQA) in the medical domain presents a unique, interdisciplinary challenge, combining fields such as Computer Vision, Natural Language Processing, and Knowledge Representation. Despite its importance, research in medical VQA has been scant, only gaining momentum since 2018. Addressing this gap, our research delves into the effective representation of radiology images and the joint learning of multimodal representations, surpassing existing methods. We innovatively augment the SLAKE dataset, enabling our model to respond to a more diverse array of questions, not limited to the immediate content of radiology or pathology images. Our model achieves a top-1 accuracy of 79.55\% with a less complex architecture, demonstrating comparable performance to current state-of-the-art models. This research not only advances medical VQA but also opens avenues for practical applications in diagnostic settings.
翻訳日:2024-01-25 16:03:00 公開日:2024-01-23
# NLBAC: 安定かつ安全な強化学習のためのニューラル正規微分方程式に基づくフレームワーク

NLBAC: A Neural Ordinary Differential Equations-based Framework for Stable and Safe Reinforcement Learning ( http://arxiv.org/abs/2401.13148v1 )

ライセンス: Link先を確認
Liqun Zhao, Keyan Miao, Konstantinos Gatsis, Antonis Papachristodoulou(参考訳) 強化学習(rl)はビデオゲームやロボティクスのようなアプリケーションで優れているが、サンプル効率の低下に苦しむモデルフリーアルゴリズムを使用する現実のシステムを制御するためにrlを使用する場合、安全性と安定性の確保は依然として困難である。 本稿では、まず、RLシステムの安全性と安定性を定義し、次に、ニューラル正規微分方程式(NODE)を利用してシステムダイナミクスを近似し、制御バリア関数(CBF)と制御リアプノフ関数(CLF)をアクタークリティカルな手法と組み合わせ、システムの安全性と安定性の維持を支援するニューラル常微分方程式に基づくリアプノフ・バリエ・アクティクス(NLBAC)フレームワークを導入する。 このフレームワークでは、拡張ラグランジアン法を用いて、RLベースのコントローラパラメータを更新する。 さらに、安全のためのCBF制約と安定性のためのCLF制約を同時に満たさない状況において、予備のバックアップコントローラを導入する。 シミュレーションの結果,提案手法は他の手法と比較して安全性制約の違反が少なく,サンプル効率も良好であることが判明した。

Reinforcement learning (RL) excels in applications such as video games and robotics, but ensuring safety and stability remains challenging when using RL to control real-world systems where using model-free algorithms suffering from low sample efficiency might be prohibitive. This paper first provides safety and stability definitions for the RL system, and then introduces a Neural ordinary differential equations-based Lyapunov-Barrier Actor-Critic (NLBAC) framework that leverages Neural Ordinary Differential Equations (NODEs) to approximate system dynamics and integrates the Control Barrier Function (CBF) and Control Lyapunov Function (CLF) frameworks with the actor-critic method to assist in maintaining the safety and stability for the system. Within this framework, we employ the augmented Lagrangian method to update the RL-based controller parameters. Additionally, we introduce an extra backup controller in situations where CBF constraints for safety and the CLF constraint for stability cannot be satisfied simultaneously. Simulation results demonstrate that the framework leads the system to approach the desired state and allows fewer violations of safety constraints with better sample efficiency compared to other methods.
翻訳日:2024-01-25 15:53:20 公開日:2024-01-23
# 3次元畳み込みオートエンコーダを用いた経胸部心エコー画像の深部時空間クラッタフィルタリング

Deep Spatiotemporal Clutter Filtering of Transthoracic Echocardiographic Images Using a 3D Convolutional Auto-Encoder ( http://arxiv.org/abs/2401.13147v1 )

ライセンス: Link先を確認
Mahdi Tabassian, Somayeh Akbari. S, Sandro Queir\'os, Jan D'hooge(参考訳) 本研究では,経胸壁心エコー図(TTE)画像列から残響アーティファクトをフィルタリングするディープ畳み込み自動エンコーダネットワークを提案する。 これらのアーティファクトの時空間特性から, 濾過網は3次元畳み込み層を用いて構築され, 心循環の粗いパターンを抑えることができた。 ネットワークは次のように設計されている。 一 主に乱雑な領域に焦点をあてる注意機構 二 画像フレームの微細な構造を維持するための残留学習 深層ネットワークをトレーニングするために, 多様な人工物パターンをシミュレートし, シミュレーションパターンを6ベンダーの人工物のない超現実的合成TTE配列に重ね合わせ, フィルタリングネットワークの入力を生成する。 アーティファクトフリーのシーケンスは基盤として機能した。 フィルタネットワークの性能評価には, 未知の合成法とin-vivoアーチファクトシーケンスを用いた。 後者のデータセットを用いて得られた満足な結果から,合成シーケンスとシミュレーションアーチファクトパターンを用いて学習した提案ネットワークの良好な一般化性能が確認された。 さらに, 分節ひずみ曲線の計算により, クラッタフィルタ列のさらなる処理への適合性を評価した。 その結果, 粗い部分から計算したひずみ分布とそれに対応する部分との差は, 提案したネットワークを用いて配列をフィルタリングした後, 著しく減少した。 訓練されたディープネットワークは、人工的なTTEシーケンスを1秒で処理し、リアルタイムなクラッタフィルタリングに使用することができる。 さらに、TTE配列から計算される臨床指標の精度を向上させることができる。 提案するメソッドのソースコードは、https://github.com/mahditabassian/deep-clutter-filtering/tree/mainで入手できる。

This study presents a deep convolutional auto-encoder network for filtering reverberation artifacts, from transthoracic echocardiographic (TTE) image sequences. Given the spatiotemporal nature of these artifacts, the filtering network was built using 3D convolutional layers to suppress the clutter patterns throughout the cardiac cycle. The network was designed by taking advantage of: i) an attention mechanism to focus primarily on cluttered regions and ii) residual learning to preserve fine structures of the image frames. To train the deep network, a diverse set of artifact patterns was simulated and the simulated patterns were superimposed onto artifact-free ultra-realistic synthetic TTE sequences of six ultrasound vendors to generate input of the filtering network. The artifact-free sequences served as ground-truth. Performance of the filtering network was evaluated using unseen synthetic as well as in-vivo artifactual sequences. Satisfactory results obtained using the latter dataset confirmed the good generalization performance of the proposed network which was trained using the synthetic sequences and simulated artifact patterns. Suitability of the clutter-filtered sequences for further processing was assessed by computing segmental strain curves from them. The results showed that the large discrepancy between the strain profiles computed from the cluttered segments and their corresponding segments in the clutter-free images was significantly reduced after filtering the sequences using the proposed network. The trained deep network could process an artifactual TTE sequence in a fraction of a second and can be used for real-time clutter filtering. Moreover, it can improve the precision of the clinical indexes that are computed from the TTE sequences. The source code of the proposed method is available at: https://github.com/MahdiTabassian/Deep-Clutter-Filtering/tree/main.
翻訳日:2024-01-25 15:52:53 公開日:2024-01-23
# コンテキストASRにおける局所性強化動的バイアスとサンプリング戦略

Locality enhanced dynamic biasing and sampling strategies for contextual ASR ( http://arxiv.org/abs/2401.13146v1 )

ライセンス: Link先を確認
Md Asif Jalal, Pablo Peso Parada, George Pavlidis, Vasileios Moschopoulos, Karthikeyan Saravanan, Chrysovalantis-Giorgos Kontoulis, Jisi Zhang, Anastasios Drosou, Gil Ho Lee, Jungin Lee, Seokyeong Jung(参考訳) ASR(Automatic Speech Recognition)は、時変レアフレーズを認識する際にも課題に直面している。 文脈バイアス(CB)モジュールは、そのような文脈関連句に対してASRモデルをバイアスする。 トレーニング中、サンプリング戦略に従って、大きなフレーズプールからバイアス句のリストが選択される。 本研究ではまず,様々な学習段階におけるバイアス埋め込みの相関プロットを用いて,ASRにおけるCBのトレーニングに関する知見を提供するために,異なるサンプリング戦略を解析する。 次に、近辺のフレームに自己注意(SA)を局所化し、CB出力をさらに改善する近傍注意(NA)を導入する。 その結果,提案手法は,平均25.84%の相対的なWER改善と,ベースラインと比較したレアワード評価を提供することがわかった。

Automatic Speech Recognition (ASR) still face challenges when recognizing time-variant rare-phrases. Contextual biasing (CB) modules bias ASR model towards such contextually-relevant phrases. During training, a list of biasing phrases are selected from a large pool of phrases following a sampling strategy. In this work we firstly analyse different sampling strategies to provide insights into the training of CB for ASR with correlation plots between the bias embeddings among various training stages. Secondly, we introduce a neighbourhood attention (NA) that localizes self attention (SA) to the nearest neighbouring frames to further refine the CB output. The results show that this proposed approach provides on average a 25.84% relative WER improvement on LibriSpeech sets and rare-word evaluation compared to the baseline.
翻訳日:2024-01-25 15:52:23 公開日:2024-01-23
# 非社会的知性:AGI談話の多元的・民主的・参加的調査

Unsocial Intelligence: a Pluralistic, Democratic, and Participatory Investigation of AGI Discourse ( http://arxiv.org/abs/2401.13142v1 )

ライセンス: Link先を確認
Borhane Blili-Hamelin, Leif Hancox-Li, Andrew Smart(参考訳) 人間の知性と競合する機械の夢は、その誕生以来AIの分野を形成してきた。 しかし、人間レベルのAIや人工知能(AGI)の意味については、まだ合意されていない。 我々は、AGIと人間レベルのAIの影響力のある概念によってなされた、社会的、政治的、倫理的な前提について検討する。 次に、フェミニスト、sts、社会科学の奨学金として、人間と機械の両方における知能の政治的および社会的特性について論じ、多元的で民主的で参加的な概念を擁護する。 AGIや人間レベルのAIを技術的あるいは価値中立のトピックとして扱うことは、政治的、倫理的、疫学的な害をもたらすと我々は主張する。 agiは、エンコードする価値、彼らが含むか排除するか、認識論的正義に対する見解に明示的な注意を払わずに開発すべきではない。

Dreams of machines that rival human intelligence have shaped the field of AI since its inception. Yet there remains no agreed-upon conception of what human-level AI or artificial general intelligence (AGI) means. We investigate key social, political, and ethical assumptions made by influential conceptions of AGI and human-level AI. We then draw on feminist, STS, and social science scholarship on the political and social character of intelligence in both humans and machines to defend a pluralistic, democratic, and participatory conception of the topic. We argue that framing AGI or human-level AI as a technical or value-neutral topic leads to political, ethical, and epistemic harm. AGI should not be developed without explicit attention to the values they encode, the people they include or exclude, and a view toward epistemic justice.
翻訳日:2024-01-25 15:52:11 公開日:2024-01-23
# 同期デノジング・リミテッドビュー再構成・心電図の減衰補正のためのデュアルドメイン粗-有限進行予測ネットワーク

Dual-Domain Coarse-to-Fine Progressive Estimation Network for Simultaneous Denoising, Limited-View Reconstruction, and Attenuation Correction of Cardiac SPECT ( http://arxiv.org/abs/2401.13140v1 )

ライセンス: Link先を確認
Xiongchao Chen, Bo Zhou, Xueqi Guo, Huidong Xie, Qiong Liu, James S. Duncan, Albert J.Sinusas, Chi Liu(参考訳) SPECT(Single-Photon Emission Computed Tomography)は冠動脈疾患の診断に広く応用されている。 低線量(LD)SPECTは放射線照射を最小限にすることを目的としているが、画像ノイズの増加につながる。 最新のGEmyoSPECT ESシステムのようなリミテッドビュー(LV)SPECTは、ハードウェアコストの削減と高速化を可能にするが、再構成精度は低下する。 さらにCT(Computerd Tomography)は、心筋SPECTの減衰補正(AC)のための減衰マップ(\mu$-maps)の導出に一般的に用いられているが、追加の照射露光とSPECT-CT誤診を導入する。 spect における ld ノイズ化,lv 再構成,ct-free ac のみに焦点をあてる様々な手法が開発されているが,これらの課題に同時に対処するためのソリューションは未検討のままである。 さらに、これらの相互関連タスク間でクロスドメインおよびクロスモダリティ情報を融合し、各タスクの精度をさらに向上させる可能性を検討することが重要である。 そこで我々はDuDoCFNet(Dual-Domain Coarse-to-Fine Progressive Network, DuDoCFNet)を提案する。 dudocfnetのデュアルドメインネットワークは、クロスドメインとクロスモダリティ機能融合のための多層融合機構を用いてカスケードされる。 2段階のプログレッシブラーニング戦略を投影領域と画像領域の両方に適用し、SPECTプロジェクションとCT由来の$\mu$-mapsの粗大な推定を行う。 本実験は,DuDoCFNetの予測精度が,既存の単タスクやマルチタスクの学習手法と比較して,様々なイテレーションやLDレベルにおいて,$\mu$-maps,AC再構成を生成することを示す。 この作業のソースコードはhttps://github.com/XiongchaoChen/DuDoCFNet-MultiTaskで公開されている。

Single-Photon Emission Computed Tomography (SPECT) is widely applied for the diagnosis of coronary artery diseases. Low-dose (LD) SPECT aims to minimize radiation exposure but leads to increased image noise. Limited-view (LV) SPECT, such as the latest GE MyoSPECT ES system, enables accelerated scanning and reduces hardware expenses but degrades reconstruction accuracy. Additionally, Computed Tomography (CT) is commonly used to derive attenuation maps ($\mu$-maps) for attenuation correction (AC) of cardiac SPECT, but it will introduce additional radiation exposure and SPECT-CT misalignments. Although various methods have been developed to solely focus on LD denoising, LV reconstruction, or CT-free AC in SPECT, the solution for simultaneously addressing these tasks remains challenging and under-explored. Furthermore, it is essential to explore the potential of fusing cross-domain and cross-modality information across these interrelated tasks to further enhance the accuracy of each task. Thus, we propose a Dual-Domain Coarse-to-Fine Progressive Network (DuDoCFNet), a multi-task learning method for simultaneous LD denoising, LV reconstruction, and CT-free $\mu$-map generation of cardiac SPECT. Paired dual-domain networks in DuDoCFNet are cascaded using a multi-layer fusion mechanism for cross-domain and cross-modality feature fusion. Two-stage progressive learning strategies are applied in both projection and image domains to achieve coarse-to-fine estimations of SPECT projections and CT-derived $\mu$-maps. Our experiments demonstrate DuDoCFNet's superior accuracy in estimating projections, generating $\mu$-maps, and AC reconstructions compared to existing single- or multi-task learning methods, under various iterations and LD levels. The source code of this work is available at https://github.com/XiongchaoChen/DuDoCFNet-MultiTask.
翻訳日:2024-01-25 15:51:55 公開日:2024-01-23
# AIエージェントへの可視性

Visibility into AI Agents ( http://arxiv.org/abs/2401.13138v1 )

ライセンス: Link先を確認
Alan Chan, Carson Ezell, Max Kaufmann, Kevin Wei, Lewis Hammond, Herbie Bradley, Emma Bluemke, Nitarshan Rajkumar, David Krueger, Noam Kolt, Lennart Heim, Markus Anderljung(参考訳) aiエージェントへの商業的、科学的、政府的、個人的活動の派遣が増加すると、既存の社会的なリスクを悪化させ、新たなリスクをもたらす可能性がある。 これらのリスクの理解と緩和には、既存のガバナンス構造を批判的に評価し、必要に応じてこれらの構造を改訂し、適応させ、主要なステークホルダーの説明責任を確保することが含まれる。 我々が \textbf{visibility}と呼ぶ特定のaiエージェントを使用する場所、理由、方法、および方法に関する情報は、これらの目的にとって重要である。 本稿では,aiエージェントの可視性を高めるための3つの指標, \textbf{agent identifiers}, \textbf{real-time monitoring}, \textbf{activity logging}について評価する。 それぞれ、侵入性と情報性に異なる潜在的な実装について概説する。 ハードウェアやソフトウェアサービスプロバイダを含むサプライチェーンのさまざまなアクターを考慮し、分散デプロイメントのコンテキストを通じて、この措置をどのように適用するかを分析する。 最後に,当社のプライバシー対策と電力集中の意義について論じる。 措置の理解と負の影響軽減に関するさらなる取り組みは、AIエージェントのガバナンスのための基盤を構築するのに役立つ。

Increased delegation of commercial, scientific, governmental, and personal activities to AI agents -- systems capable of pursuing complex goals with limited supervision -- may exacerbate existing societal risks and introduce new risks. Understanding and mitigating these risks involves critically evaluating existing governance structures, revising and adapting these structures where needed, and ensuring accountability of key stakeholders. Information about where, why, how, and by whom certain AI agents are used, which we refer to as \textbf{visibility}, is critical to these objectives. In this paper, we assess three categories of measures to increase visibility into AI agents: \textbf{agent identifiers}, \textbf{real-time monitoring}, and \textbf{activity logging}. For each, we outline potential implementations that vary in intrusiveness and informativeness. We analyze how the measures apply across a spectrum of centralized through decentralized deployment contexts, accounting for various actors in the supply chain including hardware and software service providers. Finally, we discuss the implications of our measures for privacy and concentration of power. Further work into understanding the measures and mitigating their negative impacts can help to build a foundation for the governance of AI agents.
翻訳日:2024-01-25 15:51:08 公開日:2024-01-23
# 言語障壁:多言語文脈におけるllmの安全性の課題

The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts ( http://arxiv.org/abs/2401.13136v1 )

ライセンス: Link先を確認
Lingfeng Shen, Weiting Tan, Sihao Chen, Yunmo Chen, Jingyu Zhang, Haoran Xu, Boyuan Zheng, Philipp Koehn, Daniel Khashabi(参考訳) 大規模言語モデル(LLM)の影響が世界規模で広がるにつれ、多言語環境における安全性の課題はアライメント研究において最重要となる。 本稿では,異なる言語間でllmが直面する安全課題の多様性について検討し,これらの懸念を緩和するためのアプローチについて考察する。 1) llmは低リソース言語で書かれた悪質なプロンプトに対して、より安全でないプロンプトを生成する傾向にあり、(2) llmは低リソース言語で悪質なプロンプトに対して、より無関係なレスポンスを生成する傾向がある。 そこで本研究では,人間からのフィードバック(RLHF)や教師付き微調整(SFT)による指導指導がHH-RLHFデータセットに与える影響について検討した。 驚いたことに、高リソース言語のトレーニングはモデルのアライメントを改善する一方で、低リソース言語のトレーニングは最小限の改善をもたらす。 これは、言語間アライメントのボトルネックが事前学習段階に根ざしていることを示唆している。 本研究は,言語間LLM安全性の課題を浮き彫りにしたものであり,今後の研究を期待する。

As the influence of large language models (LLMs) spans across global communities, their safety challenges in multilingual settings become paramount for alignment research. This paper examines the variations in safety challenges faced by LLMs across different languages and discusses approaches to alleviating such concerns. By comparing how state-of-the-art LLMs respond to the same set of malicious prompts written in higher- vs. lower-resource languages, we observe that (1) LLMs tend to generate unsafe responses much more often when a malicious prompt is written in a lower-resource language, and (2) LLMs tend to generate more irrelevant responses to malicious prompts in lower-resource languages. To understand where the discrepancy can be attributed, we study the effect of instruction tuning with reinforcement learning from human feedback (RLHF) or supervised finetuning (SFT) on the HH-RLHF dataset. Surprisingly, while training with high-resource languages improves model alignment, training in lower-resource languages yields minimal improvement. This suggests that the bottleneck of cross-lingual alignment is rooted in the pretraining stage. Our findings highlight the challenges in cross-lingual LLM safety, and we hope they inform future research in this direction.
翻訳日:2024-01-25 15:50:48 公開日:2024-01-23
# パラメトリックマトリックスモデル

Parametric Matrix Models ( http://arxiv.org/abs/2401.11694v2 )

ライセンス: Link先を確認
Patrick Cook, Danny Jammooa, Morten Hjorth-Jensen, Daniel D. Lee, Dean Lee(参考訳) パラメトリック行列モデルと呼ばれる機械学習アルゴリズムの一般クラスを示す。 パラメトリック行列モデルは行列方程式に基づいており、この設計はパラメトリック方程式の近似解に対する還元基底法の効率によって動機付けられている。 従属変数は暗黙的あるいは明示的に定義することができ、方程式は代数的、微分的、あるいは積分的関係を用いることができる。 パラメトリック行列モデルは経験的データのみでトレーニングすることができ、高忠実度モデルの計算は必要ない。 もともとは科学計算用に設計されたが、パラメトリック行列モデルは一般的な機械学習問題に適用可能な普遍関数近似器である。 基礎となる理論を導入した後、パラメトリック行列モデルを幅広い問題に対してそれらの性能を示す一連の異なる課題に適用する。 ここで検証された全ての課題に対して、パラメトリック行列モデルは、パラメータの外挿と解釈可能性を可能にする計算フレームワーク内で正確な結果を生成する。

We present a general class of machine learning algorithms called parametric matrix models. Parametric matrix models are based on matrix equations, and the design is motivated by the efficiency of reduced basis methods for approximating solutions of parametric equations. The dependent variables can be defined implicitly or explicitly, and the equations may use algebraic, differential, or integral relations. Parametric matrix models can be trained with empirical data only, and no high-fidelity model calculations are needed. While originally designed for scientific computing, parametric matrix models are universal function approximators that can be applied to general machine learning problems. After introducing the underlying theory, we apply parametric matrix models to a series of different challenges that show their performance for a wide range of problems. For all the challenges tested here, parametric matrix models produce accurate results within a computational framework that allows for parameter extrapolation and interpretability.
翻訳日:2024-01-25 11:53:11 公開日:2024-01-23
# 臨床実習ガイドラインを取り入れた大規模言語モデルによる臨床意思決定支援

Enhancing Large Language Models for Clinical Decision Support by Incorporating Clinical Practice Guidelines ( http://arxiv.org/abs/2401.11120v2 )

ライセンス: Link先を確認
David Oniani, Xizhi Wu, Shyam Visweswaran, Sumit Kapoor, Shravan Kooragayalu, Katelyn Polanska, Yanshan Wang(参考訳) 臨床実習ガイドライン(CPG)により強化された背景言語モデル(LLM)は、臨床意思決定支援(CDS)を大幅に改善することができる。 しかし、LCGをLSMに組み込む方法は十分に研究されていない。 方法 CPG を LLM に組み込む方法として,バイナリ決定木(BDT),プログラム支援グラフ構築(PAGC),チェーン・オブ・スロー・ショット・プロンプト(CoT-FSP)の3種類を開発した。 提案手法の有効性を評価するために,合成患者記述のセットを作成し,gpt-4,gpt-3.5ターボ,llama,palm 2の4つのllmで生成された応答を自動的および人為的に評価する。 Zero-Shot Prompting (ZSP) はベースライン方式として用いられた。 ケーススタディとして,covid-19外来治療のためのcdに焦点を当てている。 結果: 4つのLCMは, ベースラインZSPと比較して, CPGの強化により性能が向上した。 BDTは自動評価においてCoT-FSPとPAGCの両方に優れていた。 提案手法はすべて人体評価において高い性能を示した。 結論 cpgs で強化された llm は,zsp による平易な llm と比較して,covid-19 外来治療の正確な推奨を提供する点で優れた性能を示している。

Background Large Language Models (LLMs), enhanced with Clinical Practice Guidelines (CPGs), can significantly improve Clinical Decision Support (CDS). However, methods for incorporating CPGs into LLMs are not well studied. Methods We develop three distinct methods for incorporating CPGs into LLMs: Binary Decision Tree (BDT), Program-Aided Graph Construction (PAGC), and Chain-of-Thought-Few-Shot Prompting (CoT-FSP). To evaluate the effectiveness of the proposed methods, we create a set of synthetic patient descriptions and conduct both automatic and human evaluation of the responses generated by four LLMs: GPT-4, GPT-3.5 Turbo, LLaMA, and PaLM 2. Zero-Shot Prompting (ZSP) was used as the baseline method. We focus on CDS for COVID-19 outpatient treatment as the case study. Results All four LLMs exhibit improved performance when enhanced with CPGs compared to the baseline ZSP. BDT outperformed both CoT-FSP and PAGC in automatic evaluation. All of the proposed methods demonstrated high performance in human evaluation. Conclusion LLMs enhanced with CPGs demonstrate superior performance, as compared to plain LLMs with ZSP, in providing accurate recommendations for COVID-19 outpatient treatment, which also highlights the potential for broader applications beyond the case study.
翻訳日:2024-01-25 11:52:42 公開日:2024-01-23
# 交通予測のための時空間グラフ畳み込みネットワークの知識蒸留

Knowledge Distillation on Spatial-Temporal Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2401.11798v2 )

ライセンス: Link先を確認
Mohammad Izadi, Mehran Safayani, Abdolreza Mirzaei(参考訳) 交通時間の短縮には効率的なリアルタイム交通予測が不可欠である。 交通状況を予測するために、リアルタイムトラフィックデータを時間グラフとしてモデル化するために、時空間グラフニューラルネットワーク(ST-GNN)を用いる。 その能力にもかかわらず、現実世界のトラフィックデータに対して効率的なリアルタイム予測を提供する上で、しばしば課題に直面する。 リアルタイムデータの動的性質による時間的予測の重要性を認識し,ST-GNNの実行時間を向上させるソリューションとして知識蒸留(KD)を用いる。 本稿では,教師に近い精度を維持しつつ,複雑なネットワーク(教師)からの蒸留データを用いて,より少ないパラメータ(生徒)でネットワークを訓練するコスト関数を提案する。 我々は,教師ネットワークから空間時間相関を取り入れた知識蒸留を用いて,教師が知覚する複雑なパターンを学習できるようにする。 しかし、不注意に考えるのではなく、学生ネットワークアーキテクチャを決定することに課題が生じる。 この課題に対処するために、コスト関数を用いて、プルーニングスコアを計算し、小さなネットワークアーキテクチャ探索問題に対処し、KDを用いて各プルーニングステージから得られるネットワークを協調的に微調整するアルゴリズムを提案する。 最終的に、提案したアイデアを2つの現実世界データセット、PeMSD7とPeMSD8で評価した。 その結果,ネットワークパラメータがわずか3.5%であった場合でも,本手法は教師の精度に近い精度を維持することができることがわかった。

Efficient real-time traffic prediction is crucial for reducing transportation time. To predict traffic conditions, we employ a spatio-temporal graph neural network (ST-GNN) to model our real-time traffic data as temporal graphs. Despite its capabilities, it often encounters challenges in delivering efficient real-time predictions for real-world traffic data. Recognizing the significance of timely prediction due to the dynamic nature of real-time data, we employ knowledge distillation (KD) as a solution to enhance the execution time of ST-GNNs for traffic prediction. In this paper, We introduce a cost function designed to train a network with fewer parameters (the student) using distilled data from a complex network (the teacher) while maintaining its accuracy close to that of the teacher. We use knowledge distillation, incorporating spatial-temporal correlations from the teacher network to enable the student to learn the complex patterns perceived by the teacher. However, a challenge arises in determining the student network architecture rather than considering it inadvertently. To address this challenge, we propose an algorithm that utilizes the cost function to calculate pruning scores, addressing small network architecture search issues, and jointly fine-tunes the network resulting from each pruning stage using KD. Ultimately, we evaluate our proposed ideas on two real-world datasets, PeMSD7 and PeMSD8. The results indicate that our method can maintain the student's accuracy close to that of the teacher, even with the retention of only $3\%$ of network parameters.
翻訳日:2024-01-25 11:35:22 公開日:2024-01-23
# マルチモーダルな誤情報検出:アプローチ,課題,機会

Multi-modal Misinformation Detection: Approaches, Challenges and Opportunities ( http://arxiv.org/abs/2203.13883v4 )

ライセンス: Link先を確認
Sara Abdali(参考訳) ソーシャルメディアプラットフォームがテキストベースのフォーラムからマルチモーダル環境へと進化するにつれ、ソーシャルメディアにおける誤情報の性質も変化している。 画像やビデオなどの視覚的モダリティがユーザにとってより好適で魅力的であり、テキストの内容が不注意にスキミングされることがあるという事実を生かして、誤情報のスプレッダーは、最近、テキストや画像などのモダリティ間のコンテキスト的接続を標的にしてきた。 したがって、多くの研究者がウェブベースのコンテンツのクロスモーダルな不一致を検出する自動技術を開発した。 我々は,マルチモーダル誤情報検出の分野における新たな研究機会を明らかにするため,課題や欠点に加えて,既存のアプローチを分析し,分類し,識別する。

As social media platforms are evolving from text-based forums into multi-modal environments, the nature of misinformation in social media is also transforming accordingly. Taking advantage of the fact that visual modalities such as images and videos are more favorable and attractive to the users and textual contents are sometimes skimmed carelessly, misinformation spreaders have recently targeted contextual connections between the modalities e.g., text and image. Hence many researchers have developed automatic techniques for detecting possible cross-modal discordance in web-based content. We analyze, categorize and identify existing approaches in addition to challenges and shortcomings they face in order to unearth new research opportunities in the field of multi-modal misinformation detection.
翻訳日:2024-01-24 20:32:44 公開日:2024-01-23
# 不定因果構造をもつ非シグナリング制約量子計算

No-signalling constrains quantum computation with indefinite causal structure ( http://arxiv.org/abs/2202.10214v2 )

ライセンス: Link先を確認
Luca Apadula, Alessandro Bisio, and Paolo Perinotti(参考訳) 不定因果構造を持つ量子プロセスは、ある特定の因果次数ではないと仮定された局所系の集合の量子論によって許容される最も一般的な進化であると考えると現れる。 これらの過程は、量子変換から量子変換への写像を考えることから、より高次の量子写像の階層を再帰的に構築する高階量子理論の枠組みの中で記述することができる。 本研究では,不定因果構造を持つ量子計算のための形式論,すなわち高次量子写像の計算構造を特徴付ける。 公理的アプローチをとると、この計算の規則は、量子論の数学的構造と適合する高階写像の最も一般的な合成として識別される。 任意の高次量子写像に対する許容構成の数学的特徴付けを提供する。 計算および情報理論的な性質を持つこれらの規則は、高次量子写像の量子系間のシグナル関係のより物理的な概念によって決定される。

Quantum processes with indefinite causal structure emerge when we wonder which are the most general evolutions, allowed by quantum theory, of a set of local systems which are not assumed to be in any particular causal order. These processes can be described within the framework of higher-order quantum theory which, starting from considering maps from quantum transformations to quantum transformations, recursively constructs a hierarchy of quantum maps of increasingly higher order. In this work, we develop a formalism for quantum computation with indefinite causal structures; namely, we characterize the computational structure of higher order quantum maps. Taking an axiomatic approach, the rules of this computation are identified as the most general compositions of higher order maps which are compatible with the mathematical structure of quantum theory. We provide a mathematical characterization of the admissible composition for arbitrary higher order quantum maps. We prove that these rules, which have a computational and information-theoretic nature, are determined by the more physical notion of the signalling relations between the quantum systems of the higher order quantum maps.
翻訳日:2024-01-24 20:32:11 公開日:2024-01-23
# 絡み合った原子光学素子を用いた光パルス原子干渉法

Light-pulse atom interferometry with entangled atom-optical elements ( http://arxiv.org/abs/2202.05763v2 )

ライセンス: Link先を確認
Tobias Asano, Fabio Di Pumpo, Enno Giese(参考訳) 光パルス原子干渉計における光学素子のアナログは、物質波と光場との相互作用から生成される。 したがって、これらの場は量子特性を持ち、基本的に観測された干渉の可視性が低下する。 この損失は、原子の経路に関するエンコードされた情報の結果である。 しかしながら、原子光学素子の量子的性質は、そのような効果を減少させる追加の自由度を与える: すべての光場間の絡み合いは、原子の経路に関する情報を消し、それによって視界を部分的に回復させることができることを実証する。 そこで本研究では,原子干渉実験における相補性の役割を強調する。

The analogs of optical elements in light-pulse atom interferometers are generated from the interaction of matter waves with light fields. As such, these fields possess quantum properties, which fundamentally lead to a reduced visibility in the observed interference. This loss is a consequence of the encoded information about the atom's path. However, the quantum nature of the atom-optical elements also gives an additional degree of freedom to reduce such effects: We demonstrate that entanglement between all light fields can be used to erase information about the atom's path and by that to partially recover the visibility. Thus, our work highlights the role of complementarity on atom-interferometric experiments.
翻訳日:2024-01-24 20:31:54 公開日:2024-01-23
# 衣服変化を伴う非監督的長期人物再同定

Unsupervised Long-Term Person Re-Identification with Clothes Change ( http://arxiv.org/abs/2202.03087v3 )

ライセンス: Link先を確認
Mingkun Li, Shupeng Cheng, Peng Xu, Xiatian Zhu, Chun-Guang Li, Jun Guo(参考訳) 着替えによる再識別(re-id)は,より実用的なユーザビリティと実世界展開への拡張性を備えた新たな課題である。 既存のre-idメソッドの多くは、すべての人の服を空間と時間にわたって固定していると人工的に仮定している。 この条件は、平均的な人が1日以内に着替えることが多いため、短期的な再識別シナリオにおいてほとんど有効である。 この仮定を緩和するために、近年のいくつかの研究は、衣服の変化に相違のある教師付き学習者識別表現に焦点をあてて、衣料変化面を導入している。 この長期的なre-idの方向性をさらに一歩進めて、短期の人物のre-idデータセットと比較して注釈をつけるのにはるかに高価で退屈な、人物識別ラベルの必要性をさらに排除します。 従来の教師なしの短期的な再識別と比較して、この新たな問題は、同じ人が異なる場所や時間に複数の服を着ることができるのに対して、異なる人が同じ服を持っている場合、非常に困難である。 このような障害を克服するために,クラスタリングの信頼性に応じて教師なしクラスタリング基準を適応的に調整できる,新しいCPC手法を提案する。 長期にわたる3つのre-idデータセットの実験では、我々のCPCはSOTAの教師なしre-idメソッドよりも優れており、教師付きre-idモデルと密接に一致している。

We investigate unsupervised person re-identification (Re-ID) with clothes change, a new challenging problem with more practical usability and scalability to real-world deployment. Most existing re-id methods artificially assume the clothes of every single person to be stationary across space and time. This condition is mostly valid for short-term re-id scenarios since an average person would often change the clothes even within a single day. To alleviate this assumption, several recent works have introduced the clothes change facet to re-id, with a focus on supervised learning person identity discriminative representation with invariance to clothes changes. Taking a step further towards this long-term re-id direction, we further eliminate the requirement of person identity labels, as they are significantly more expensive and more tedious to annotate in comparison to short-term person re-id datasets. Compared to conventional unsupervised short-term re-id, this new problem is drastically more challenging as different people may have similar clothes whilst the same person can wear multiple suites of clothes over different locations and times with very distinct appearance. To overcome such obstacles, we introduce a novel Curriculum Person Clustering (CPC) method that can adaptively regulate the unsupervised clustering criterion according to the clustering confidence. Experiments on three long-term person re-id datasets show that our CPC outperforms SOTA unsupervised re-id methods and even closely matches the supervised re-id models.
翻訳日:2024-01-24 20:31:42 公開日:2024-01-23
# SkipNode: ディープグラフ畳み込みネットワークのパフォーマンス劣化を軽減する

SkipNode: On Alleviating Performance Degradation for Deep Graph Convolutional Networks ( http://arxiv.org/abs/2112.11628v4 )

ライセンス: Link先を確認
Weigang Lu, Yibing Zhan, Binbin Lin, Ziyu Guan, Liu Liu, Baosheng Yu, Wei Zhao, Yaming Yang, and Dacheng Tao(参考訳) グラフ畳み込みネットワーク(GCN)は、モデルが深くなるとパフォーマンスが低下する。 しかし、初期の作品ではパフォーマンスの劣化は過度なスムーシングによるものだった。 本稿では,深いGCNにおける性能劣化の根本的な原因を理論的および実験的に検討する:過度な平滑化と勾配消滅は,深いGCNにおいて性能がより早く劣化する原因となる相互強化効果を有する。 一方、既存のアンチ・オーバー・スムーシング手法はすべてモデル深さまで完全な畳み込みを行う。 モデル深度の増加による過平滑化の指数収束に抵抗することはできなかった。 本研究では,深いGCNの性能劣化を克服する,シンプルで効果的なプラグイン・アンド・プレイモジュールであるSkipnodeを提案する。 各畳み込み層のグラフノードをサンプリングして畳み込み操作をスキップする。 この方法では、(1)全てのノードが全層を伝播するわけではないこと、(2)勾配を直接‘skipped’ノードに渡すことができるため、オーバースムーシングと勾配の消滅を効果的に抑制することができる。 我々は,Skipnodeの有効性とSOTAベースラインよりも優れていることを示すため,理論的解析と実証評価の両方を提供する。

Graph Convolutional Networks (GCNs) suffer from performance degradation when models go deeper. However, earlier works only attributed the performance degeneration to over-smoothing. In this paper, we conduct theoretical and experimental analysis to explore the fundamental causes of performance degradation in deep GCNs: over-smoothing and gradient vanishing have a mutually reinforcing effect that causes the performance to deteriorate more quickly in deep GCNs. On the other hand, existing anti-over-smoothing methods all perform full convolutions up to the model depth. They could not well resist the exponential convergence of over-smoothing due to model depth increasing. In this work, we propose a simple yet effective plug-and-play module, Skipnode, to overcome the performance degradation of deep GCNs. It samples graph nodes in each convolutional layer to skip the convolution operation. In this way, both over-smoothing and gradient vanishing can be effectively suppressed since (1) not all nodes'features propagate through full layers and, (2) the gradient can be directly passed back through ``skipped'' nodes. We provide both theoretical analysis and empirical evaluation to demonstrate the efficacy of Skipnode and its superiority over SOTA baselines.
翻訳日:2024-01-24 20:31:14 公開日:2024-01-23
# 一般化された分布外検出:調査

Generalized Out-of-Distribution Detection: A Survey ( http://arxiv.org/abs/2110.11334v3 )

ライセンス: Link先を確認
Jingkang Yang, Kaiyang Zhou, Yixuan Li, Ziwei Liu(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、機械学習システムの信頼性と安全性を確保するために重要である。 例えば、自動運転では、訓練中に見たことがなく、安全な判断ができない異常なシーンや物体を検知したときに、運転システムに警告を発し、人間に制御を渡すようにしたいのです。 OOD検出という用語は2017年に初めて登場し、その後研究コミュニティから注目を集め、分類に基づくものから密度に基づくもの、距離に基づくものまで、数多くの方法が開発されている。 一方,異常検出 (ad), ノベルティ検出 (nd), 開集合認識 (osr), 異常検出 (od) などの問題は, モチベーションや方法論の観点からはood検出と密接に関連している。 共通の目標にもかかわらず、これらのトピックは独立して発展し、定義と問題設定の微妙な違いはしばしば読者や実践者を混乱させる。 本調査では,先述した5つの問題,すなわちAD,ND,OSR,OOD,ODを含む一般化OOD検出という統合されたフレームワークを最初に提示する。 私たちのフレームワークでは、これらの5つの問題は特別なケースやサブタスクと見ることができ、区別が容易です。 次に,これらの5つの領域について,ood検出手法に着目した最近の技術開発の概要を概説する。 この調査はオープンな課題と潜在的研究の方向性で締めくくります。

Out-of-distribution (OOD) detection is critical to ensuring the reliability and safety of machine learning systems. For instance, in autonomous driving, we would like the driving system to issue an alert and hand over the control to humans when it detects unusual scenes or objects that it has never seen during training time and cannot make a safe decision. The term, OOD detection, first emerged in 2017 and since then has received increasing attention from the research community, leading to a plethora of methods developed, ranging from classification-based to density-based to distance-based ones. Meanwhile, several other problems, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD), are closely related to OOD detection in terms of motivation and methodology. Despite common goals, these topics develop in isolation, and their subtle differences in definition and problem setting often confuse readers and practitioners. In this survey, we first present a unified framework called generalized OOD detection, which encompasses the five aforementioned problems, i.e., AD, ND, OSR, OOD detection, and OD. Under our framework, these five problems can be seen as special cases or sub-tasks, and are easier to distinguish. We then review each of these five areas by summarizing their recent technical developments, with a special focus on OOD detection methodologies. We conclude this survey with open challenges and potential research directions.
翻訳日:2024-01-24 20:30:55 公開日:2024-01-23
# dpgnn:表現学習のための二重知覚グラフニューラルネットワーク

DPGNN: Dual-Perception Graph Neural Network for Representation Learning ( http://arxiv.org/abs/2110.07869v3 )

ライセンス: Link先を確認
Li Zhou, Wenyu Chen, Dingyi Zeng, Shaohuan Cheng, Wanlong Liu, Malu Zhang, Hong Qu(参考訳) グラフニューラルネットワーク(GNN)は近年注目を集め、グラフベースのタスクの多く、特にグラフ上の半教師付き学習において顕著なパフォーマンスを達成した。 しかし、既存のほとんどのGNNは、メッセージパッシングパラダイムに基づいて、1つのトポロジー空間における近隣情報を反復的に集約している。 その成功にもかかわらず、GNNの表現力は、メッセージソース拡張の柔軟性、ノードレベルのメッセージ出力の不一致、単一メッセージ空間の制限などいくつかの欠点によって制限されている。 これらの欠点に対処するため,マルチステップメッセージソースの特性,ノード固有のメッセージ出力,マルチスペースメッセージインタラクションに基づく新しいメッセージパッシングパラダイムを提案する。 その妥当性を検証するため,新たなメッセージパッシングパラダイムをDual-Perception Graph Neural Network (DPGNN) としてインスタンス化し,ノード固有のマルチステップ近傍情報を適応的に集約するノード間アテンション機構を適用した。 提案する DPGNN は,グラフ表現学習のための構造近傍情報と特徴関連情報を同時に取得することができる。 異なるトポロジ構造を持つ6つのベンチマークデータセットの実験結果から,提案手法は最新の最先端モデルよりも優れており,本手法の優位性と汎用性を示す。 我々の知る限り、私たちはGNNでノード固有のメッセージパッシングを最初に検討しています。

Graph neural networks (GNNs) have drawn increasing attention in recent years and achieved remarkable performance in many graph-based tasks, especially in semi-supervised learning on graphs. However, most existing GNNs are based on the message-passing paradigm to iteratively aggregate neighborhood information in a single topology space. Despite their success, the expressive power of GNNs is limited by some drawbacks, such as inflexibility of message source expansion, negligence of node-level message output discrepancy, and restriction of single message space. To address these drawbacks, we present a novel message-passing paradigm, based on the properties of multi-step message source, node-specific message output, and multi-space message interaction. To verify its validity, we instantiate the new message-passing paradigm as a Dual-Perception Graph Neural Network (DPGNN), which applies a node-to-step attention mechanism to aggregate node-specific multi-step neighborhood information adaptively. Our proposed DPGNN can capture the structural neighborhood information and the feature-related information simultaneously for graph representation learning. Experimental results on six benchmark datasets with different topological structures demonstrate that our method outperforms the latest state-of-the-art models, which proves the superiority and versatility of our method. To our knowledge, we are the first to consider node-specific message passing in the GNNs.
翻訳日:2024-01-24 20:30:29 公開日:2024-01-23
# 条件付き優先文と一般化付加ユーティリティに基づく言語のための拡張知識コンパイルマップ

An extended Knowledge Compilation Map for Conditional Preference Statements-based and Generalized Additive Utilities-based Languages ( http://arxiv.org/abs/2102.04107v2 )

ライセンス: Link先を確認
H\'el\`ene Fargier (IRIT-ADRIA), Stefan Mengel (CRIL), J\'er\^ome Mengin (IRIT-ADRIA)(参考訳) 条件付き選好文は組合せ領域よりもコンパクトに選好を表現するために使われてきた。 CP-netとその一般化、およびレキソグラフィー選好ツリーの中核にある。 いくつかの作品がクエリの複雑さに対処している(最適化、特に支配)。 本稿では,これらの結果のいくつかを拡張し,条件付き選好ステートメントに基づく言語のための知識コンパイルマップに寄与する同値性や変数除去などの変換など,これまでに取り組まれていない他のクエリについて検討する。 また,問合せや変換の表現性や複雑さについても検討した。

Conditional preference statements have been used to compactly represent preferences over combinatorial domains. They are at the core of CP-nets and their generalizations, and lexicographic preference trees. Several works have addressed the complexity of some queries (optimization, dominance in particular). We extend in this paper some of these results, and study other queries which have not been addressed so far, like equivalence, and transformations, like conditioning and variable elimination, thereby contributing to a knowledge compilation map for languages based on conditional preference statements. We also study the expressiveness and complexity of queries and transformations for generalized additive utilities.
翻訳日:2024-01-24 20:30:03 公開日:2024-01-23
# 深層畳み込みニューラルネットワークによる沿岸域の弱教師付き土地分類

Weakly-supervised land classification for coastal zone based on deep convolutional neural networks by incorporating dual-polarimetric characteristics into training dataset ( http://arxiv.org/abs/2003.13648v2 )

ライセンス: Link先を確認
Sheng Sun, Armando Marino, Wenze Shui, Zhongwen Hu(参考訳) 本研究では,空間偏光合成開口レーダ(PolSAR)データセットを用いた意味的セグメンテーションにおけるDCNNの性能について検討する。 PolSARデータを用いたセマンティックセグメンテーションタスクは、SARデータの特徴とアノテート手順が考慮されている場合、弱い教師付き学習に分類される。 データセットは当初、実行可能な事前トレーニングイメージを選択するために分析される。 次に,空間分解能と観測幾何学の観点から,空間データと空中データの違いについて検討した。 本研究では,terrasar-x dlrで取得した2つの双極性画像を用いた。 より教師付き情報を持つトレーニングデータセットを作成するための新しい方法を開発した。 具体的には、一連の典型的な分類画像と強度画像がトレーニングデータセットとして機能する。 フィールドサーベイは、精度評価に使用される地上真理データセットを得るために、約20平方キロメートルの領域で実施される。 上記のトレーニングデータセットに対して,いくつかの移行学習戦略が作成されている。 次に、SegNet、U-Net、LinkNetを含む3つのDCNNモデルが実装されている。

In this work we explore the performance of DCNNs on semantic segmentation using spaceborne polarimetric synthetic aperture radar (PolSAR) datasets. The semantic segmentation task using PolSAR data can be categorized as weakly supervised learning when the characteristics of SAR data and data annotating procedures are factored in. Datasets are initially analyzed for selecting feasible pre-training images. Then the differences between spaceborne and airborne datasets are examined in terms of spatial resolution and viewing geometry. In this study we used two dual-polarimetric images acquired by TerraSAR-X DLR. A novel method to produce training dataset with more supervised information is developed. Specifically, a series of typical classified images as well as intensity images serve as training datasets. A field survey is conducted for an area of about 20 square kilometers to obtain a ground truth dataset used for accuracy evaluation. Several transfer learning strategies are made for aforementioned training datasets which will be combined in a practicable order. Three DCNN models, including SegNet, U-Net, and LinkNet, are implemented next.
翻訳日:2024-01-24 20:29:21 公開日:2024-01-23
# 反ユニタリ対称性を持つフェルミオン行列積状態と1次元短距離絡み合い位相

Fermionic Matrix Product States and One-Dimensional Short-Range Entangled Phases with Anti-Unitary Symmetries ( http://arxiv.org/abs/1710.00140v2 )

ライセンス: Link先を確認
Alex Turzillo, Minyoung You(参考訳) 行列積状態(mps)の形式性を拡張し、ユニタリおよび反ユニタリ対称性を持つフェルミオンの一次元ガッピング系を記述する。 さらに、向き反転する空間対称性を持つ系も考慮される。 そのような系の短距離の絡み合った位相は、エッジ状態における対称性の射影作用を特徴づける3つの不変量によって分類される。 閉鎖上の状態の性質としてこれらの不変量の解釈を与える。 RG固定点におけるフェルミオンMPS系と同変代数の関係を利用して、一般的なフェルミオン対称性群によって保護されるフェルミオン相の積み重ねに対する群則を導出する。

We extend the formalism of Matrix Product States (MPS) to describe one-dimensional gapped systems of fermions with both unitary and anti-unitary symmetries. Additionally, systems with orientation-reversing spatial symmetries are considered. The short-ranged entangled phases of such systems are classified by three invariants, which characterize the projective action of the symmetry on edge states. We give interpretations of these invariants as properties of states on the closed chain. The relationship between fermionic MPS systems at an RG fixed point and equivariant algebras is exploited to derive a group law for the stacking of fermionic phases protected by general fermionic symmetry groups.
翻訳日:2024-01-24 20:28:18 公開日:2024-01-23
# ニューロデドのホモトピーに基づく正確なダイナミクス発見のためのトレーニング

Homotopy-based training of NeuralODEs for accurate dynamics discovery ( http://arxiv.org/abs/2210.01407v6 )

ライセンス: Link先を確認
Joon-Hyuk Ko, Hankyul Koh, Nojun Park, Wonho Jhe(参考訳) ニューラル常微分方程式(NeuralODEs)は、物理科学の微分方程式に基づくモデリングパラダイムでニューラルネットワークを橋渡しし、時系列データから動的法則を抽出する魅力的な方法である。 しかし、これらのモデルは長いトレーニング時間と、特に長い持続時間データに対して最適でない結果を示すことが多い。 文献における一般的な戦略はニューロデドアーキテクチャに強い制約を課し、本質的に安定なモデルダイナミクスを促進するが、未知の支配方程式が仮定された制約を満たすことが保証されていないため、そのような手法はダイナミクスの発見には不向きである。 本稿では,モデルアーキテクチャの変更を必要とせず,同期とホモトピー最適化に基づくニューラルオードの新しい学習法を提案する。 モデルダイナミクスとトレーニングデータの同期は、当初不規則な損失環境を弱めており、ホモトピー最適化によってトレーニングを強化することができる。 ベンチマーク実験により,本手法は,他のモデル非依存手法に比べて半数未満のトレーニングエポックを必要とする場合が多いが,競争力やトレーニング損失が向上することを示す。 さらに,本手法で学習したモデルでは補間能力が向上し,提案手法の有効性が強調された。

Neural Ordinary Differential Equations (NeuralODEs) present an attractive way to extract dynamical laws from time series data, as they bridge neural networks with the differential equation-based modeling paradigm of the physical sciences. However, these models often display long training times and suboptimal results, especially for longer duration data. While a common strategy in the literature imposes strong constraints to the NeuralODE architecture to inherently promote stable model dynamics, such methods are ill-suited for dynamics discovery as the unknown governing equation is not guaranteed to satisfy the assumed constraints. In this paper, we develop a new training method for NeuralODEs, based on synchronization and homotopy optimization, that does not require changes to the model architecture. We show that synchronizing the model dynamics and the training data tames the originally irregular loss landscape, which homotopy optimization can then leverage to enhance training. Through benchmark experiments, we demonstrate our method achieves competitive or better training loss while often requiring less than half the number of training epochs compared to other model-agnostic techniques. Furthermore, models trained with our method display better extrapolation capabilities, highlighting the effectiveness of our method.
翻訳日:2024-01-24 20:21:25 公開日:2024-01-23
# mr画像における脳腫瘍の弱教師付き分節化のための深部スーパーピクセル生成とクラスタリング

Deep Superpixel Generation and Clustering for Weakly Supervised Segmentation of Brain Tumors in MR Images ( http://arxiv.org/abs/2209.09930v2 )

ライセンス: Link先を確認
Jay J. Yoo, Khashayar Namdar, Farzad Khalvati(参考訳) 医療画像中の腫瘍やその他の異常をセグメント化するための機械学習モデルのトレーニングは、診断ツールを開発する上で重要なステップだが、一般的には手作業で注釈付き地上真理セグメンテーションが必要であり、かなりの時間とリソースを必要とする。 本研究は,スーパーピクセル生成モデルとスーパーピクセルクラスタリングモデルを用いて,脳腫瘍の弱い分節化を可能にすることを提案する。 提案手法では,2値画像レベルの分類ラベルをアクセスしやすく,基本真理アノテーションを必要とせず,標準的な弱教師付き手法が生成する関心区分の初期領域を著しく改善する。 マルチモーダル脳腫瘍セグメンテーションチャレンジ2020データセットから得られた2次元磁気共鳴脳スキャンと、パイプラインを訓練するための腫瘍の存在を示すラベルを用いた。 テストコホートでは,Dice係数平均0.691,Hausdorff距離平均95%を18.1とし,既存のスーパーピクセルベースの弱教師付きセグメンテーション法を上回った。

Training machine learning models to segment tumors and other anomalies in medical images is an important step for developing diagnostic tools but generally requires manually annotated ground truth segmentations, which necessitates significant time and resources. This work proposes the use of a superpixel generation model and a superpixel clustering model to enable weakly supervised brain tumor segmentations. The proposed method utilizes binary image-level classification labels, which are readily accessible, to significantly improve the initial region of interest segmentations generated by standard weakly supervised methods without requiring ground truth annotations. We used 2D slices of magnetic resonance brain scans from the Multimodal Brain Tumor Segmentation Challenge 2020 dataset and labels indicating the presence of tumors to train the pipeline. On the test cohort, our method achieved a mean Dice coefficient of 0.691 and a mean 95% Hausdorff distance of 18.1, outperforming existing superpixel-based weakly supervised segmentation methods.
翻訳日:2024-01-24 20:21:04 公開日:2024-01-23
# 集中治療における電子健康記録を用いたcovid-19予測モデリングの総合ベンチマーク

A Comprehensive Benchmark for COVID-19 Predictive Modeling Using Electronic Health Records in Intensive Care ( http://arxiv.org/abs/2209.07805v4 )

ライセンス: Link先を確認
Junyi Gao, Yinghao Zhu, Wenqing Wang, Yasha Wang, Wen Tang, Ewen M. Harrison, Liantao Ma(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中の医療システムに重荷を課し、大きな社会的破壊と経済的な損失をもたらした。 電子健康記録(ehr)データを用いた集中治療室におけるcovid-19患者の死亡予測のような臨床予測タスクを行うために、多くのディープラーニングモデルが提案されている。 臨床応用での最初の成功にもかかわらず、現在ベンチマーク結果の欠如により、適切な比較を行い、臨床利用の最適なモデルを選択することができる。 さらに、従来の予測タスクの定式化と集中治療における現実的な臨床実践との間には相違がある。 これらのギャップを埋めるために,集中治療室におけるアウトカム特異的長期予測と早期死亡予測という2つの臨床予測課題を提案する。 この2つのタスクは、covid-19患者の臨床試験に対応するために、naive long-of-stay と death prediction タスクから適応される。 5つの機械学習モデル,6つの基本的なディープラーニングモデル,ehrデータ専用に設計された6つのディープラーニング予測モデルなど,2つのタスクにおいて17の最先端予測モデルを評価する。 2つの現実世界のCOVID-19 EHRデータセットのデータを用いて、ベンチマーク結果を提供する。 1つのデータセットは調査を必要とせずに公開されており、別のデータセットは要求に応じてアクセスすることができる。 2つのタスクに対して公正かつ再現可能なベンチマーク結果を提供する。 すべての実験結果とモデルをオンラインプラットフォームにデプロイします。 また、臨床医や研究者がプラットフォームにデータをアップロードして、トレーニング済みのモデルを使って素早く予測結果を得られるようにもしています。 私たちは、COVID-19予測モデリングのためのディープラーニングと機械学習の研究をさらに促進したいと考えています。

The COVID-19 pandemic has posed a heavy burden to the healthcare system worldwide and caused huge social disruption and economic loss. Many deep learning models have been proposed to conduct clinical predictive tasks such as mortality prediction for COVID-19 patients in intensive care units using Electronic Health Record (EHR) data. Despite their initial success in certain clinical applications, there is currently a lack of benchmarking results to achieve a fair comparison so that we can select the optimal model for clinical use. Furthermore, there is a discrepancy between the formulation of traditional prediction tasks and real-world clinical practice in intensive care. To fill these gaps, we propose two clinical prediction tasks, Outcome-specific length-of-stay prediction and Early mortality prediction for COVID-19 patients in intensive care units. The two tasks are adapted from the naive length-of-stay and mortality prediction tasks to accommodate the clinical practice for COVID-19 patients. We propose fair, detailed, open-source data-preprocessing pipelines and evaluate 17 state-of-the-art predictive models on two tasks, including 5 machine learning models, 6 basic deep learning models and 6 deep learning predictive models specifically designed for EHR data. We provide benchmarking results using data from two real-world COVID-19 EHR datasets. One dataset is publicly available without needing any inquiry and another dataset can be accessed on request. We provide fair, reproducible benchmarking results for two tasks. We deploy all experiment results and models on an online platform. We also allow clinicians and researchers to upload their data to the platform and get quick prediction results using our trained models. We hope our efforts can further facilitate deep learning and machine learning research for COVID-19 predictive modeling.
翻訳日:2024-01-24 20:20:46 公開日:2024-01-23
# コヒーレンス、非局所性、文脈性を目撃する不平等

Inequalities witnessing coherence, nonlocality, and contextuality ( http://arxiv.org/abs/2209.02670v4 )

ライセンス: Link先を確認
Rafael Wagner, Rui Soares Barbosa, Ernesto F. Galv\~ao(参考訳) 量子コヒーレンス(quantum coherence)、非局所性(nonlocality)、文脈性(contextity)は、計量学、通信、計算における量子優位の重要な資源である。 我々は、局所的、非文脈的、コヒーレンスのないモデルに縛られる古典性不等式を導出するグラフベースのアプローチを導入し、これらの異なる量子資源を統一的に記述する。 提案手法は,最近提案された基底非依存コヒーレンス証人を一般化し,排他的グラフアプローチのすべての非文脈性不等式を回復する。 さらに、ある古典的不平等の違反は、文脈的な準備を目撃する。 このような古典的不等式をすべて探索するアルゴリズムを記述し、それを用いて最も単純なシナリオを解析する。

Quantum coherence, nonlocality, and contextuality are key resources for quantum advantage in metrology, communication, and computation. We introduce a graph-based approach to derive classicality inequalities that bound local, non-contextual, and coherence-free models, offering a unified description of these seemingly disparate quantum resources. Our approach generalizes recently proposed basis-independent coherence witnesses, and recovers all non-contextuality inequalities of the exclusivity graph approach. Moreover, violations of certain classicality inequalities witness preparation contextuality. We describe an algorithm to find all such classicality inequalities, and use it to analyze some of the simplest scenarios.
翻訳日:2024-01-24 20:20:20 公開日:2024-01-23
# ハイブリッドイジング古典アルゴリズムの解析のための共陽性フレームワーク

A Copositive Framework for Analysis of Hybrid Ising-Classical Algorithms ( http://arxiv.org/abs/2207.13630v3 )

ライセンス: Link先を確認
Robin Brown, David E. Bernal Neira, Davide Venturelli, Marco Pavone(参考訳) 近年、量子/量子にインスパイアされた技術は、イジングスピンハミルトニアンの基底状態のおよその探索が可能になった。 このような技術を活用して難しい最適化問題の解決を加速するという約束は、直接転写から既存の最適化アルゴリズムに根ざしたハイブリッド量子古典的アプローチまで、ソリューションプロセスの一部としてIsing問題を統合する方法の探求への関心を高めている。 量子コンピュータは、それらを完全に置き換えるのではなく、古典的コンピュータを強化するべきであると広く認識されているが、その相互作用の分析的特徴付けの導出に比較的注意が向けられている。 本稿では、Isingソルバを用いた混合二項二次プログラム(MBQP)の解法におけるハイブリッドアルゴリズムの形式解析について述べる。 既存のmbqpsの完全正の再構成と新しい強双対性結果を利用することで、共陽性行列の円錐上の双対問題の厳密性を示し、結果として得られる再構成は凸最適化の直接的な解析を継承することができる。 本稿では,ハイブリッド量子古典的切削平面アルゴリズムを用いてこの問題を解決することを提案する。 凸切断平面アルゴリズムの既存の複雑性結果を用いて、このハイブリッドフレームワークの古典的な部分は多項式時間であることが保証されていると推定する。 これはnpハード問題に適用すると、解の複雑さはイジングソルバによって処理されるサブルーチンに移されることを示唆している。

Recent years have seen significant advances in quantum/quantum-inspired technologies capable of approximately searching for the ground state of Ising spin Hamiltonians. The promise of leveraging such technologies to accelerate the solution of difficult optimization problems has spurred an increased interest in exploring methods to integrate Ising problems as part of their solution process, with existing approaches ranging from direct transcription to hybrid quantum-classical approaches rooted in existing optimization algorithms. While it is widely acknowledged that quantum computers should augment classical computers, rather than replace them entirely, comparatively little attention has been directed toward deriving analytical characterizations of their interactions. In this paper, we present a formal analysis of hybrid algorithms in the context of solving mixed-binary quadratic programs (MBQP) via Ising solvers. By leveraging an existing completely positive reformulation of MBQPs, as well as a new strong-duality result, we show the exactness of the dual problem over the cone of copositive matrices, thus allowing the resulting reformulation to inherit the straightforward analysis of convex optimization. We propose to solve this reformulation with a hybrid quantum-classical cutting-plane algorithm. Using existing complexity results for convex cutting-plane algorithms, we deduce that the classical portion of this hybrid framework is guaranteed to be polynomial time. This suggests that when applied to NP-hard problems, the complexity of the solution is shifted onto the subroutine handled by the Ising solver.
翻訳日:2024-01-24 20:19:42 公開日:2024-01-23
# オンラインバイレベル最適化:オンライン交互勾配法の後悔分析

Online Bilevel Optimization: Regret Analysis of Online Alternating Gradient Methods ( http://arxiv.org/abs/2207.02829v5 )

ライセンス: Link先を確認
Davoud Ataee Tarzanagh, Parvin Nazari, Bojian Hou, Li Shen, Laura Balzano(参考訳) 本稿では,時間変化を伴う2レベル問題の列を順次明らかにする,\textit{online bilevel optimization} 設定を提案する。 我々は、シングルレベルオンラインアルゴリズムの既知の後悔の限界を二レベル設定に拡張する。 具体的には, \textit{bilevel regret} という概念を新たに提供し,滑らかさを活用できるオンラインの交代時間平均勾配法を開発し,内側および外側の最小化配列の経路長の観点で後悔の限界を与える。

This paper introduces an \textit{online bilevel optimization} setting in which a sequence of time-varying bilevel problems are revealed one after the other. We extend the known regret bounds for single-level online algorithms to the bilevel setting. Specifically, we provide new notions of \textit{bilevel regret}, develop an online alternating time-averaged gradient method that is capable of leveraging smoothness, and give regret bounds in terms of the path-length of the inner and outer minimizer sequences.
翻訳日:2024-01-24 20:19:19 公開日:2024-01-23
# 正規化フローによる直交領域適応

Gradual Domain Adaptation via Normalizing Flows ( http://arxiv.org/abs/2206.11492v4 )

ライセンス: Link先を確認
Shogo Sagawa, Hideitsu Hino(参考訳) 標準ドメイン適応メソッドは、ソースドメインとターゲットドメインの間に大きなギャップがある場合、うまく機能しない。 段階的ドメイン適応(gradual domain adaptation)は、この問題に対処するためのアプローチのひとつです。 これは、徐々にソースドメインからターゲットドメインにシフトする中間ドメインを活用することを伴う。 従来の研究では, 中間領域の数は多く, 隣接領域間の距離も小さく, ラベルなしデータセットによる自己学習を含む漸進領域適応アルゴリズムが適用可能であると考えられた。 しかし実際には、中間領域の数に制限があり、隣接領域間の距離が大きいため、徐々に自己学習が失敗する。 本稿では,教師なしドメイン適応の枠組みを維持しつつ,この問題に対処するための正規化フローの利用を提案する。 提案手法は,対象領域の分布からソース領域を介してガウス混合分布への変換を学習する。 提案手法を実世界のデータセットを用いて実験により評価し,上記の問題を緩和し,分類性能を向上させることを確認する。

Standard domain adaptation methods do not work well when a large gap exists between the source and target domains. Gradual domain adaptation is one of the approaches used to address the problem. It involves leveraging the intermediate domain, which gradually shifts from the source domain to the target domain. In previous work, it is assumed that the number of intermediate domains is large and the distance between adjacent domains is small; hence, the gradual domain adaptation algorithm, involving self-training with unlabeled datasets, is applicable. In practice, however, gradual self-training will fail because the number of intermediate domains is limited and the distance between adjacent domains is large. We propose the use of normalizing flows to deal with this problem while maintaining the framework of unsupervised domain adaptation. The proposed method learns a transformation from the distribution of the target domain to the Gaussian mixture distribution via the source domain. We evaluate our proposed method by experiments using real-world datasets and confirm that it mitigates the above-explained problem and improves the classification performance.
翻訳日:2024-01-24 20:18:42 公開日:2024-01-23
# エッジ対応Weisfeiler-LemanアルゴリズムによるGNNの強化

Empowering GNNs via Edge-Aware Weisfeiler-Leman Algorithm ( http://arxiv.org/abs/2206.02059v3 )

ライセンス: Link先を確認
Meng Liu, Haiyang Yu, Shuiwang Ji(参考訳) メッセージパッシンググラフニューラルネットワーク(GNN)は1次元Weisfeiler-Leman (1-WL)アルゴリズムによって上界表現性を持つことが知られている。 より強力なGNNを実現するために、既存の試みはアドホックな機能を必要とするか、あるいは高時間と空間の複雑さを引き起こす操作を伴う。 本稿では,メッセージパッシング方式のスケーラビリティを保った汎用かつ実証可能なGNNフレームワークを提案する。 特に,グラフ同型テストにおける1-WLの有効性について,近傍の辺を考慮しNC-1-WLを実現することを提案する。 NC-1-WLの表現性は理論上は1-WL以上、3-WL以下であることが示されている。 さらに,NC-1-WLのニューラルバージョンとしてNC-GNNフレームワークを提案する。 NC-GNNの実装はNC-1-WLと同じくらい強力である。 実験により、NC-GNNは様々なベンチマークで効率的かつ効率的に機能することが示された。

Message passing graph neural networks (GNNs) are known to have their expressiveness upper-bounded by 1-dimensional Weisfeiler-Leman (1-WL) algorithm. To achieve more powerful GNNs, existing attempts either require ad hoc features, or involve operations that incur high time and space complexities. In this work, we propose a general and provably powerful GNN framework that preserves the scalability of the message passing scheme. In particular, we first propose to empower 1-WL for graph isomorphism test by considering edges among neighbors, giving rise to NC-1-WL. The expressiveness of NC-1-WL is shown to be strictly above 1-WL and below 3-WL theoretically. Further, we propose the NC-GNN framework as a differentiable neural version of NC-1-WL. Our simple implementation of NC-GNN is provably as powerful as NC-1-WL. Experiments demonstrate that our NC-GNN performs effectively and efficiently on various benchmarks.
翻訳日:2024-01-24 20:18:26 公開日:2024-01-23
# アンダーサンプルデータからのMR画像再構成のための適応的局所近傍ニューラルネットワーク

Adaptive Local Neighborhood-based Neural Networks for MR Image Reconstruction from Undersampled Data ( http://arxiv.org/abs/2206.00775v2 )

ライセンス: Link先を確認
Shijun Liang, Anish Lahiri and Saiprasad Ravishankar(参考訳) 近年の医用画像再構成技術は, 臨床応用に適した高品質な医用画像の作成を, 低コストで, かつ患者への悪影響を最小限に抑えることに焦点を当てている。 近年の研究では,少ないサンプルのk空間データから深層学習を用いたMR画像の再構成が期待されている。 本研究では,トレーニングセットの小さな適応的に推定された近傍にニューラルネットワークを適合させることにより,再構成時にニューラルネットワークを迅速に推定する手法を提案する。 手短に言うと、本アルゴリズムは、テスト再構成に類似したデータセット内の隣人検索と、これらの隣人に対するローカルネットワークのトレーニングと、テスト再構築の更新を交互に行う。 私たちの再構築モデルは、大規模で多様なトレーニングセットに適合するよりも、再構成されるイメージと何らかの意味で類似したデータセットで学習されるため、新しいスキャンに適応する。 また、比較的高速ながら、トレーニングセットや柔軟なスキャン設定の変更も処理できる。 提案手法はLONDN-MRIと呼ばれ,深層アンロール型再構成ネットワークを用いて複数のデータセットで検証した。 k空間の4倍、8倍アンダーサンプリングと1次元可変密度ランダム位相エンコードアンダーサンプリングマスクで再構成を行った。 提案手法は,大規模データセット上でグローバルにトレーニングされたモデルや,他のスキャン適応型モデルと比較して,高品質な再構築を実現する。

Recent medical image reconstruction techniques focus on generating high-quality medical images suitable for clinical use at the lowest possible cost and with the fewest possible adverse effects on patients. Recent works have shown significant promise for reconstructing MR images from sparsely sampled k-space data using deep learning. In this work, we propose a technique that rapidly estimates deep neural networks directly at reconstruction time by fitting them on small adaptively estimated neighborhoods of a training set. In brief, our algorithm alternates between searching for neighbors in a data set that are similar to the test reconstruction, and training a local network on these neighbors followed by updating the test reconstruction. Because our reconstruction model is learned on a dataset that is in some sense similar to the image being reconstructed rather than being fit on a large, diverse training set, it is more adaptive to new scans. It can also handle changes in training sets and flexible scan settings, while being relatively fast. Our approach, dubbed LONDN-MRI, was validated on multiple data sets using deep unrolled reconstruction networks. Reconstructions were performed at four fold and eight fold undersampling of k-space with 1D variable-density random phase-encode undersampling masks. Our results demonstrate that our proposed locally-trained method produces higher-quality reconstructions compared to models trained globally on larger datasets as well as other scan-adaptive methods.
翻訳日:2024-01-24 20:18:09 公開日:2024-01-23
# 嗜好誘発を伴うパーソナライズされたアルゴリズムリアクション

Personalized Algorithmic Recourse with Preference Elicitation ( http://arxiv.org/abs/2205.13743v5 )

ライセンス: Link先を確認
Giovanni De Toni, Paolo Viappiani, Stefano Teso, Bruno Lepri, Andrea Passerini(参考訳) algorithmic recourse (ar) は、ユーザが一度実行したアクションのシーケンスを計算することで、望ましくないマシン決定を覆す問題である。 アクションのシーケンスはユーザが実装するために必要な労力をあまり必要としないのが最重要視されている。 しかし、ARに対するほとんどのアプローチは、アクションがすべてのユーザにとって同じコストであると考えており、そのため特定のユーザに不公平に高価なリコースプランを推奨する可能性がある。 この観察から得られたPEARは、エンドユーザーのニーズに合わせてパーソナライズされたアルゴリズムによるリコースを提供する最初の人道支援手法である。 PEARは、ベイジアン選好引用からの洞察に基づいて、ターゲットユーザに対して選択セットクエリを尋ねることで、アクションのコストを反復的に見積もる。 クエリ自体は、コスト見積とユーザの応答の両方について不確実性を考慮した情報ゲインの原則尺度である選択の期待効用を最大化することによって計算される。 PEARは、Reinforcement LearningエージェントとMonte Carlo Tree Searchを統合して、有望なリコース計画を素早く特定する。 実世界のデータセットに対する実証的な評価は、PEARがいかに高品質なパーソナライズされたリコースをほんの数イテレーションで生成するかを強調します。

Algorithmic Recourse (AR) is the problem of computing a sequence of actions that -- once performed by a user -- overturns an undesirable machine decision. It is paramount that the sequence of actions does not require too much effort for users to implement. Yet, most approaches to AR assume that actions cost the same for all users, and thus may recommend unfairly expensive recourse plans to certain users. Prompted by this observation, we introduce PEAR, the first human-in-the-loop approach capable of providing personalized algorithmic recourse tailored to the needs of any end-user. PEAR builds on insights from Bayesian Preference Elicitation to iteratively refine an estimate of the costs of actions by asking choice set queries to the target user. The queries themselves are computed by maximizing the Expected Utility of Selection, a principled measure of information gain accounting for uncertainty on both the cost estimate and the user's responses. PEAR integrates elicitation into a Reinforcement Learning agent coupled with Monte Carlo Tree Search to quickly identify promising recourse plans. Our empirical evaluation on real-world datasets highlights how PEAR produces high-quality personalized recourse in only a handful of iterations.
翻訳日:2024-01-24 20:17:46 公開日:2024-01-23
# トレーニングラベルの重要事項の選択:定量的MRIパラメータ推定におけるディープラーニングの最適活用法

Choice of training label matters: how to best use deep learning for quantitative MRI parameter estimation ( http://arxiv.org/abs/2205.05587v3 )

ライセンス: Link先を確認
Sean C. Epstein, Timothy J. P. Bray, Margaret Hall-Craggs and Hui Zhang(参考訳) 定量的MRIのパラメータ推定手法として,ディープラーニング(DL)が普及している。 教師付き学習または自己教師付き学習のいずれかに依存する、さまざまな競合実装が提案されている。 自己監督的なアプローチは、しばしば教師なし(unsupervised)と呼ばれ、オートエンコーダ(auto-encoder)に基づいて緩やかに行われている。 これら2つの学習パラダイムは、異なる強みを持つことが示されている。 特に、自己教師型アプローチは、監督型アプローチよりも低いバイアスパラメータ推定を提供している。 この結果は直観に反する - 教師付きラベルに事前知識を組み込むことで、理論的には、精度が向上するはずだ。 本研究では,この教師付きアプローチの明らかな限界が,基礎訓練ラベルのナイーブな選択に起因していることを示す。 故意に基礎的でないラベルをトレーニングすることにより,教師あり学習フレームワーク内で,自己教師あり手法に関連する低バイアスパラメータ推定を再現し,改良できることを示す。 このアプローチは、教師付き学習に基づく単一の統一的なディープラーニングパラメータ推定フレームワークのステージを設定し、トレーニングラベルを注意深く調整することでバイアスと分散のトレードオフが生まれる。

Deep learning (DL) is gaining popularity as a parameter estimation method for quantitative MRI. A range of competing implementations have been proposed, relying on either supervised or self-supervised learning. Self-supervised approaches, sometimes referred to as unsupervised, have been loosely based on auto-encoders, whereas supervised methods have, to date, been trained on groundtruth labels. These two learning paradigms have been shown to have distinct strengths. Notably, self-supervised approaches have offered lower-bias parameter estimates than their supervised alternatives. This result is counterintuitive - incorporating prior knowledge with supervised labels should, in theory, lead to improved accuracy. In this work, we show that this apparent limitation of supervised approaches stems from the naive choice of groundtruth training labels. By training on labels which are deliberately not groundtruth, we show that the low-bias parameter estimation previously associated with self-supervised methods can be replicated - and improved on - within a supervised learning framework. This approach sets the stage for a single, unifying, deep learning parameter estimation framework, based on supervised learning, where trade-offs between bias and variance are made by careful adjustment of training label.
翻訳日:2024-01-24 20:17:24 公開日:2024-01-23
# 高速かつ信頼性の高いニューラルネットワークによる多目的システムのロバスト安定化

Robust stabilization of polytopic systems via fast and reliable neural network-based approximations ( http://arxiv.org/abs/2204.13209v2 )

ライセンス: Link先を確認
Filippo Fabiani, Paul J. Goulart(参考訳) 可変構造をもつ制御則や(最小)選択ポリシーに基づく制御法を含む,線形システムの従来の安定化制御器の高速かつ信頼性の高いニューラルネットワーク(NN)に基づく近似設計について検討する。 構造的特性を保証した信頼性の高い制御サーロゲートの設計に向けた最近のアプローチに基づき、訓練された整流線形単位 (relu) に基づく近似がそのような従来の制御器を置き換えるとき、線形不確定システムの閉ループ安定性と性能を保証する体系的な手法を開発した。 まず、reluベースと従来のコントローラベースのステート・トゥ・インプットマッピングの最悪の近似誤差を伴う十分な条件を提供し、最終的にシステムが調整可能なサイズと収束率のセット内でバウンダリングされることを保証する。 そこで我々は,その量を正確に計算できるオフライン混合整数最適化法を開発した。

We consider the design of fast and reliable neural network (NN)-based approximations of traditional stabilizing controllers for linear systems with polytopic uncertainty, including control laws with variable structure and those based on a (minimal) selection policy. Building upon recent approaches for the design of reliable control surrogates with guaranteed structural properties, we develop a systematic procedure to certify the closed-loop stability and performance of a linear uncertain system when a trained rectified linear unit (ReLU)-based approximation replaces such traditional controllers. First, we provide a sufficient condition, which involves the worst-case approximation error between ReLU-based and traditional controller-based state-to-input mappings, ensuring that the system is ultimately bounded within a set with adjustable size and convergence rate. Then, we develop an offline, mixed-integer optimization-based method that allows us to compute that quantity exactly.
翻訳日:2024-01-24 20:17:01 公開日:2024-01-23
# フロッケの格子上のホーキング放射と局所ハミルトンクエンチダイナミクス

Hawking radiation on the lattice from Floquet and local Hamiltonian quench dynamics ( http://arxiv.org/abs/2204.06583v3 )

ライセンス: Link先を確認
Daan Maertens, Nick Bultinck, Karel Van Acoleyen(参考訳) ホーキング対生成を示す2つの自由フェルミオン格子モデルを構築する。 特に、d=1+1の質量を持たないディラックフェルミオンの最も単純な場合を考えると、ホーキング効果は、反対のキラル性を持つモードと相互作用する非一様ハミルトニアンを持つ一様真空状態のクエンチで理解することができる。 どちらのモデルも、格子の離散化から生じる追加モードは、ホーキング放射のバルク貯留層として重要な役割を果たす。 我々の最初のモデルは、局所ホッピングダイナミクスと1つの格子上の翻訳を結合し、その結果のフロケダイナミクスは、地平線外の領域からフェルミ粒子を散乱させて因果地平線を実現する。 2つ目のモデルは、純粋に局所的なホッピングハミルトニアンに依存しており、内側から散乱するフェルミオンを見つけます。 どちらの場合も、逆格子間隔までのホーキング温度に対して、得られたホーキングスペクトルはフェルミ・ディラック量子場理論の予測と完全に一致している。

We construct two free fermion lattice models exhibiting Hawking pair creation. Specifically, we consider the simplest case of a d=1+1 massless Dirac fermion, for which the Hawking effect can be understood in terms of a quench of the uniform vacuum state with a non-uniform Hamiltonian that interfaces modes with opposite chirality. For both our models we find that additional modes arising from the lattice discretization play a crucial role, as they provide the bulk reservoir for the Hawking radiation: the Hawking pairs emerge from fermions deep inside the Fermi sea scattering off the effective black hole horizon. Our first model combines local hopping dynamics with a translation over one lattice site, and we find the resulting Floquet dynamics to realize a causal horizon, with fermions scattering from the region outside the horizon. For our second model, which relies on a purely local hopping Hamiltonian, we find the fermions to scatter from the inside. In both cases, for Hawking temperatures up to the inverse lattice spacing we numerically find the resulting Hawking spectrum to be in perfect agreement with the Fermi-Dirac quantum field theory prediction.
翻訳日:2024-01-24 20:16:45 公開日:2024-01-23
# 直交多項式を持つ開系の非摂動力学のディジタル量子シミュレーション

Digital quantum simulation of non-perturbative dynamics of open systems with orthogonal polynomials ( http://arxiv.org/abs/2203.14653v3 )

ライセンス: Link先を確認
Jos\'e D. Guimar\~aes, Mikhail I. Vasilevskiy and Lu\'is S. Barbosa(参考訳) 量子力学の古典的非摂動論的シミュレーションは、いくつかのスケーラビリティの問題、すなわち、シミュレーションの時間の長さまたは開システムの大きさの関数としての計算労力の指数関数的スケーリングに直面している。 本研究では、時間進化密度演算子と直交多項式アルゴリズム(TEDOPA)を量子コンピュータ上で用いることを提案し、これを量子TEDOPA(Q-TEDOPA)と呼び、ボソニック環境(連続フォノン浴)に線形に結合したオープン量子系の非摂動力学をシミュレートする。 ハミルトニアンの基底を変更することにより、TEDOPAは局所的近傍相互作用のみを持つ高調波発振器の連鎖を発生させ、超伝導量子プロセッサのような量子ビット接続に制限された量子デバイスの実装に適合する。 量子デバイス上でのtedopaの実装を詳細に分析し,本研究で検討したシステムの時間発展シミュレーションにおいて,計算資源の指数関数的スケーリングを回避できることを示す。 提案手法をIBMQデバイス上の非マルコフ高調波発振器環境への中等結合強度条件下での2つの光ハーベスティング分子間の励起子輸送シミュレーションに応用した。 Q-TEDOPAの応用は、量子生物学系の力学や強い相関した凝縮物質系の力学など、異なる領域に属する摂動技術では解決できない問題にまたがる。

Classical non-perturbative simulations of open quantum systems' dynamics face several scalability problems, namely, exponential scaling of the computational effort as a function of either the time length of the simulation or the size of the open system. In this work, we propose the use of the Time Evolving Density operator with Orthogonal Polynomials Algorithm (TEDOPA) on a quantum computer, which we term as Quantum TEDOPA (Q-TEDOPA), to simulate non-perturbative dynamics of open quantum systems linearly coupled to a bosonic environment (continuous phonon bath). By performing a change of basis of the Hamiltonian, the TEDOPA yields a chain of harmonic oscillators with only local nearest-neighbour interactions, making this algorithm suitable for implementation on quantum devices with limited qubit connectivity such as superconducting quantum processors. We analyse in detail the implementation of the TEDOPA on a quantum device and show that exponential scalings of computational resources can potentially be avoided for time-evolution simulations of the systems considered in this work. We applied the proposed method to the simulation of the exciton transport between two light-harvesting molecules in the regime of moderate coupling strength to a non-Markovian harmonic oscillator environment on an IBMQ device. Applications of the Q-TEDOPA span problems which can not be solved by perturbation techniques belonging to different areas, such as the dynamics of quantum biological systems and strongly correlated condensed matter systems.
翻訳日:2024-01-24 20:16:21 公開日:2024-01-23
# 循環型対向ネットワークによる産業・医療異常検出

Industrial and Medical Anomaly Detection Through Cycle-Consistent Adversarial Networks ( http://arxiv.org/abs/2302.05154v2 )

ライセンス: Link先を確認
Arnaud Bougaham, Valentin Delchevalerie, Mohammed El Adoui, Beno\^it Fr\'enay(参考訳) 本研究では,産業用および医療用画像に対する新たな異常検出(AD)手法を提案する。 この方法は教師なし学習の理論的な強みと、正規クラスと異常クラスの両方のデータ可用性を活用する。 実際、ADはしばしば教師なしのタスクとして定式化され、訓練中は通常の画像のみを暗示する。 これらの通常の画像は、例えばオートエンコーダアーキテクチャを通して再構成される。 しかし、異常データに含まれる情報は、利用可能であれば、この再構築にも有用である。 このモデルは、異常な(観察的に正常な)イメージを正常な(観察的に異常な)イメージに変換する方法をよりよく学習することで、弱点を識別することができる。 この課題に対処するために,提案手法はCycle-Generative Adversarial Networks (Cycle-GAN) を用いて正規変換を行う。 入力画像が正規発生器によって再構成された後、異常スコアが入力と再構成の差を定量化する。 ビジネス品質制約を満たすしきい値セットに基づいて、入力画像が正常かどうかをフラグ付けする。 提案手法は産業用および医療用データセット上で評価される。 その結果, 最先端手法と比較して, ゼロ偽陰性制約による精度の高い性能を示すことができた。 コードはhttps://github.com/ValDelch/CycleGANS-AnomalyDetectionで公開されている。

In this study, a new Anomaly Detection (AD) approach for industrial and medical images is proposed. This method leverages the theoretical strengths of unsupervised learning and the data availability of both normal and abnormal classes. Indeed, the AD is often formulated as an unsupervised task, implying only normal images during training. These normal images are devoted to be reconstructed, through an autoencoder architecture for instance. However, the information contained in abnormal data, when available, is also valuable for this reconstruction. The model would be able to identify its weaknesses by better learning how to transform an abnormal (respectively normal) image into a normal (respectively abnormal) one, helping the entire model to learn better than a single normal to normal reconstruction. To address this challenge, the proposed method uses Cycle-Generative Adversarial Networks (Cycle-GAN) for (ab)normal-to-normal translation. After an input image has been reconstructed by the normal generator, an anomaly score quantifies the differences between the input and its reconstruction. Based on a threshold set to satisfy a business quality constraint, the input image is then flagged as normal or not. The proposed method is evaluated on industrial and medical datasets. The results demonstrate accurate performance with a zero false negative constraint compared to state-of-the-art methods. The code is available at https://github.com/ValDelch/CycleGANS-AnomalyDetection.
翻訳日:2024-01-24 20:08:59 公開日:2024-01-23
# パートアウェア表現学習による自己指導型事前学習の理解

Understanding Self-Supervised Pretraining with Part-Aware Representation Learning ( http://arxiv.org/abs/2301.11915v2 )

ライセンス: Link先を確認
Jie Zhu, Jiyang Qi, Mingyu Ding, Xiaokang Chen, Ping Luo, Xinggang Wang, Wenyu Liu, Leye Wang, Jingdong Wang(参考訳) 本稿では,自己指導型事前学習手法がパート認識型表現を学習する能力を研究することによって,自己指導型事前学習の理解に関心がある。 この研究の主な動機は、対照的な学習で使用されるランダムなビューと、マスキング画像モデリングで使用されるランダムなマスク(可視性)パッチが、しばしばオブジェクト部分に関するものである点にある。 プロジェクション層は、エンコーダから学習したオブジェクト部分表現からオブジェクト全体の表現を幻覚し、マスクされた画像モデリングは部分的なタスクであり、オブジェクトのマスクされたパッチは可視的なパッチから幻覚される。 この説明は、オブジェクト部分を理解するには、自己教師付き事前学習エンコーダが必要であることを示唆する。 我々は,既訓練の市販エンコーダと,オブジェクトレベルの認識と部分レベルの認識に関するいくつかの代表的な手法を実証的に比較した。 その結果,全教師付きモデルは,オブジェクト指向認識のための自己教師付きモデルよりも優れており,ほとんどの自己教師付きコントラスト学習およびマスク付き画像モデリング手法は,全教師付き部分レベル認識法よりも優れていることがわかった。 コントラスト学習とマスキング画像モデリングの組み合わせにより,さらなる性能向上が期待できる。

In this paper, we are interested in understanding self-supervised pretraining through studying the capability that self-supervised representation pretraining methods learn part-aware representations. The study is mainly motivated by that random views, used in contrastive learning, and random masked (visible) patches, used in masked image modeling, are often about object parts. We explain that contrastive learning is a part-to-whole task: the projection layer hallucinates the whole object representation from the object part representation learned from the encoder, and that masked image modeling is a part-to-part task: the masked patches of the object are hallucinated from the visible patches. The explanation suggests that the self-supervised pretrained encoder is required to understand the object part. We empirically compare the off-the-shelf encoders pretrained with several representative methods on object-level recognition and part-level recognition. The results show that the fully-supervised model outperforms self-supervised models for object-level recognition, and most self-supervised contrastive learning and masked image modeling methods outperform the fully-supervised method for part-level recognition. It is observed that the combination of contrastive learning and masked image modeling further improves the performance.
翻訳日:2024-01-24 20:08:35 公開日:2024-01-23
# 古典システムにおけるベル非局所性

Bell nonlocality in classical systems ( http://arxiv.org/abs/2301.10885v2 )

ライセンス: Link先を確認
Giulio Chiribella, Lorenzo Giannelli, and Carlo Maria Scandolo(参考訳) 古典物理学の現実的な解釈は、すべての古典系が明確に定義された性質を持っていると仮定するが、これは観測者にとって未知であるが、それでも物理現実の一部である。 ここでは、古典系を分離して考える場合、この解釈は一貫しているが、古典系が他の物理系と共存している場合、原理上は偽造することができることを示す。 これを実現するために、全ての離散古典系と、反古典系と呼ばれる他の系の集合を含むおもちゃ理論を構築し、反粒子が粒子と双対であるのと同様の方法で古典系と双対である。 おもちゃ理論では、全ての古典系は反古典的パートナーと絡み合うことができ、全ての古典的/反古典的系は、ベル非局所性の活性化を引き起こす。 この事実を用いて、古典システムにおける測定結果が、一般には、所定のものとみなすことができないことを証明した。

The realistic interpretation of classical physics assumes that every classical system has well-defined properties, which may be unknown to the observer, but are nevertheless part of the physical reality. Here we show that, while this interpretation is consistent when classical systems are considered in isolation, it can in principle be falsified if classical systems coexist with other types of physical systems. To make this point, we construct a toy theory that includes all discrete classical systems, as well as another set of systems, called anti-classical, which are dual to the classical ones in a similar way as anti-particles are dual to particles. In our toy theory, every classical system can be entangled with an anti-classical partner, and every pure entangled pair of classical/anti-classical systems gives rise to activation of Bell nonlocality. Using this fact, we prove that the outcomes of measurements on classical systems cannot, in general, be regarded as predetermined.
翻訳日:2024-01-24 20:08:11 公開日:2024-01-23
# 予測モデルに対する損失制御校正

Loss-Controlling Calibration for Predictive Models ( http://arxiv.org/abs/2301.04378v3 )

ライセンス: Link先を確認
Di Wang, Junzhi Shi, Pingping Wang, Shuo Zhuang, Hongyue Li(参考訳) 本稿では,交換可能データに対する損失制御予測を行うための予測モデルの校正のための学習フレームワークを提案する。 比較して, 提案する損失制御手法によって構築される予測器は, 設定された予測器に限らず, 損失関数は単調仮定を伴わない任意の可測関数となる。 効率よく損失値を制御するために,テストラベルが得られたときの有限サンプル制御保証を証明するために交換可能性を保存する変換を導入し,予測器構築のための近似手法を開発した。 変換は、パラメータ探索の最適化アルゴリズムを含む、任意の事前定義された関数の上に構築することができる。 このアプローチは共形損失制御予測の自然な拡張であり、集合予測器がネスト特性を持ち、損失関数が単調である場合、後者に還元することができる。 提案手法は,選択回帰および高影響気象予報問題に適用し,一般損失制御予測の有効性を示す。

We propose a learning framework for calibrating predictive models to make loss-controlling prediction for exchangeable data, which extends our recently proposed conformal loss-controlling prediction for more general cases. By comparison, the predictors built by the proposed loss-controlling approach are not limited to set predictors, and the loss function can be any measurable function without the monotone assumption. To control the loss values in an efficient way, we introduce transformations preserving exchangeability to prove finite-sample controlling guarantee when the test label is obtained, and then develop an approximation approach to construct predictors. The transformations can be built on any predefined function, which include using optimization algorithms for parameter searching. This approach is a natural extension of conformal loss-controlling prediction, since it can be reduced to the latter when the set predictors have the nesting property and the loss functions are monotone. Our proposed method is applied to selective regression and high-impact weather forecasting problems, which demonstrates its effectiveness for general loss-controlling prediction.
翻訳日:2024-01-24 20:07:54 公開日:2024-01-23
# 共形損失制御予測

Conformal Loss-Controlling Prediction ( http://arxiv.org/abs/2301.02424v2 )

ライセンス: Link先を確認
Di Wang, Ping Wang, Zhong Ji, Xiaojun Yang, Hongyue Li(参考訳) コンフォーマル予測は、予測セットの予測カバレッジを制御する学習フレームワークであり、任意の学習アルゴリズムに基づいてポイント予測を行うことができる。 本研究では,損失関数の値を制御する必要がある状況に対して,共形予測を拡張した共形損失制御予測という学習フレームワークを提案する。 リスク制御予測セットと,損失関数の期待値を制御することを目的とした共形リスク制御に関する既存の研究とは違い,本論文では,誤発見損失から一般損失への共形予測の拡張である任意のテスト対象の損失に着目した。 制御保証は有限事例におけるデータの交換可能性の仮定の下で証明され、数値気象予報アプリケーションのクラス変動損失と統計的後処理を伴う分類について実証的に検証し、ポイントワイズ分類およびポイントワイズ回帰問題として導入する。 すべての理論解析と実験結果から,損失制御手法の有効性を確認した。

Conformal prediction is a learning framework controlling prediction coverage of prediction sets, which can be built on any learning algorithm for point prediction. This work proposes a learning framework named conformal loss-controlling prediction, which extends conformal prediction to the situation where the value of a loss function needs to be controlled. Different from existing works about risk-controlling prediction sets and conformal risk control with the purpose of controlling the expected values of loss functions, the proposed approach in this paper focuses on the loss for any test object, which is an extension of conformal prediction from miscoverage loss to some general loss. The controlling guarantee is proved under the assumption of exchangeability of data in finite-sample cases and the framework is tested empirically for classification with a class-varying loss and statistical postprocessing of numerical weather forecasting applications, which are introduced as point-wise classification and point-wise regression problems. All theoretical analysis and experimental results confirm the effectiveness of our loss-controlling approach.
翻訳日:2024-01-24 20:07:37 公開日:2024-01-23
# ファイバファブリペロキャビティにおける直接レーザーによる光学膜

Direct laser-written optomechanical membranes in fiber Fabry-Perot cavities ( http://arxiv.org/abs/2212.13532v4 )

ライセンス: Link先を確認
Lukas Tenbrake, Alexander Fa{\ss}bender, Sebastian Hofferberth, Stefan Linden, Hannes Pfeifer(参考訳) マイクロおよびナノフォトニック光機械実験により、単一フォノンレベルでの機械共振器の操作が可能となった。 これらの構造には、チューニング性、柔軟性、マルチモードシステムへのスケーリングに制限された精巧な技術が必要である。 本稿では,繊維ファブリペロキャビティ内の3次元レーザーによる高分子膜を用いたキャビティオプティオメカニクス実験を行った。 基本メガヘルツのメカニカルモードに対する真空結合強度は約30kHzに達する。 我々は,機械共振器の光力学的バネチューニングを,数kHz以上の温度で観測した。 レーザー書き込みプロセスの極端な柔軟性により、膜を顕微鏡の空洞に直接統合することができる。 直接ファイバカップリング、結合共振器システムへのスケーリング機能、散逸希釈構造の潜在的実装、電極の統合は、ファイバチップ統合加速度計、光機械的に調整可能なマルチモードメカニカルシステム、マイクロ波から光学変換のための直接ファイバ結合システムにとって有望なプラットフォームとなる。

Integrated micro and nanophotonic optomechanical experiments enable the manipulation of mechanical resonators on the single phonon level. Interfacing these structures requires elaborate techniques limited in tunability, flexibility, and scaling towards multi-mode systems. Here, we demonstrate a cavity optomechanical experiment using 3D-laser-written polymer membranes inside fiber Fabry-Perot cavities. Vacuum coupling strengths of ~ 30 kHz to the fundamental megahertz mechanical mode are reached. We observe optomechanical spring tuning of the mechanical resonator by tens of kHz exceeding its linewidth at cryogenic temperatures. The extreme flexibility of the laser writing process allows for a direct integration of the membrane into the microscopic cavity. The direct fiber coupling, its scaling capabilities to coupled resonator systems, and the potential implementation of dissipation dilution structures and integration of electrodes make it a promising platform for fiber-tip integrated accelerometers, optomechanically tunable multi-mode mechanical systems, or directly fiber-coupled systems for microwave to optics conversion.
翻訳日:2024-01-24 20:07:18 公開日:2024-01-23
# グラフ畳み込みネットワークにおけるホモフィリーは二重降下一般化を変調する

Homophily modulates double descent generalization in graph convolution networks ( http://arxiv.org/abs/2212.13069v3 )

ライセンス: Link先を確認
Cheng Shi, Liming Pan, Hong Hu and Ivan Dokmani\'c(参考訳) グラフニューラルネットワーク(GNN)は、生物学的、社会的、輸送ネットワークなどの関係データモデリングに優れているが、その成功の基盤はよく理解されていない。 統計学習理論の伝統的な複雑性尺度は、二重降下や関係セマンティクスが一般化誤差に与える影響のような観察された現象を説明できない。 キーネットワークとデータセットにおける ``transductive'' の二重降下に関する実験的な観察により、統計物理学とランダム行列理論の分析ツールを用いて、文脈確率ブロックモデルに基づく単純なグラフ畳み込みネットワークにおける一般化を正確に特徴づける。 本研究は, 好中球と異種球のデータに対する学習のニュアンスを照らし, GNNの存在が疑問視されている二重降下を予測するものである。 グラフノイズ,特徴雑音,トレーニングラベル数との相互作用によって,リスクがどのように形成されるかを示す。 実世界のGNNやデータセットの質的傾向を把握し,スタイル化されたモデルを超えて適用した。 現状のグラフ畳み込みネットワークの性能向上のために,我々は解析的洞察を用いてヘテロ親和性データセット上でのグラフ畳み込みネットワークの性能を向上させる。

Graph neural networks (GNNs) excel in modeling relational data such as biological, social, and transportation networks, but the underpinnings of their success are not well understood. Traditional complexity measures from statistical learning theory fail to account for observed phenomena like the double descent or the impact of relational semantics on generalization error. Motivated by experimental observations of ``transductive'' double descent in key networks and datasets, we use analytical tools from statistical physics and random matrix theory to precisely characterize generalization in simple graph convolution networks on the contextual stochastic block model. Our results illuminate the nuances of learning on homophilic versus heterophilic data and predict double descent whose existence in GNNs has been questioned by recent work. We show how risk is shaped by the interplay between the graph noise, feature noise, and the number of training labels. Our findings apply beyond stylized models, capturing qualitative trends in real-world GNNs and datasets. As a case in point, we use our analytic insights to improve performance of state-of-the-art graph convolution networks on heterophilic datasets.
翻訳日:2024-01-24 20:07:00 公開日:2024-01-23
# エッジ予測のためのグラフニューラルネットワークのエッジ利用

Refined Edge Usage of Graph Neural Networks for Edge Prediction ( http://arxiv.org/abs/2212.12970v3 )

ライセンス: Link先を確認
Jiarui Jin, Yangkun Wang, Weinan Zhang, Quan Gan, Xiang Song, Yong Yu, Zheng Zhang, David Wipf(参考訳) もともとノード分類のために提案されたグラフニューラルネットワーク(GNN)も、エッジ予測(リンク予測)に関する最近の多くの研究を動機付けている。 しかし、既存の手法では、しばしば見過ごされた2つのタスクの区別に関する精巧な設計が欠如している。 (i)エッジは、ノード分類タスクにおけるトポロジのみを構成するが、エッジ予測タスクにおけるトポロジと監督(ラベル)の両方として使用できる。 (2)ノード分類は各ノードに対して予測を行い、エッジ予測は各ノードのペアによって決定される。 そこで我々はエッジ対応メッセージパスIng neuRal nEtworks (EMPIRE) という新しいエッジ予測パラダイムを提案する。 具体的には、まず、各エッジをトポロジーまたは監督(トポロジーエッジまたは監督エッジと呼ばれる)としてのみ使用する各エッジの使用を規定するエッジ分割技術を導入する。 次に、(トポロジーエッジを介して)ターゲットノードを認識しているソースノードへのメッセージを生成する新しいメッセージパッシングメカニズムを開発する。 監視エッジで接続されたペアと接続されていないペアの差を強調するために、さらにメッセージを重み付けして、その差を反映できる相対的なペアを強調します。 さらに, 監視インスタンスの'硬'負のインスタンスを効率的にサンプリングし, 性能を著しく向上する新規なノードペアサンプリング手法を設計する。 実験の結果,複数の均質グラフデータセットにおけるエッジ予測タスクに関して,提案手法が既存の最先端モデルを大幅に上回ることができることを確認した。

Graph Neural Networks (GNNs), originally proposed for node classification, have also motivated many recent works on edge prediction (a.k.a., link prediction). However, existing methods lack elaborate design regarding the distinctions between two tasks that have been frequently overlooked: (i) edges only constitute the topology in the node classification task but can be used as both the topology and the supervisions (i.e., labels) in the edge prediction task; (ii) the node classification makes prediction over each individual node, while the edge prediction is determinated by each pair of nodes. To this end, we propose a novel edge prediction paradigm named Edge-aware Message PassIng neuRal nEtworks (EMPIRE). Concretely, we first introduce an edge splitting technique to specify use of each edge where each edge is solely used as either the topology or the supervision (named as topology edge or supervision edge). We then develop a new message passing mechanism that generates the messages to source nodes (through topology edges) being aware of target nodes (through supervision edges). In order to emphasize the differences between pairs connected by supervision edges and pairs unconnected, we further weight the messages to highlight the relative ones that can reflect the differences. In addition, we design a novel negative node-pair sampling trick that efficiently samples 'hard' negative instances in the supervision instances, and can significantly improve the performance. Experimental results verify that the proposed method can significantly outperform existing state-of-the-art models regarding the edge prediction task on multiple homogeneous and heterogeneous graph datasets.
翻訳日:2024-01-24 20:06:38 公開日:2024-01-23
# 文選択によるテキスト生成の強化による質問生成の学習

Learning to Generate Questions by Enhancing Text Generation with Sentence Selection ( http://arxiv.org/abs/2212.12192v2 )

ライセンス: Link先を確認
Pham Quoc-Hung, Minh-Tien Nguyen, Manh Tran-Tien, Hung Le, and Xuan-Hieu Phan(参考訳) 回答認識型質問生成問題に対するアプローチを提案する。 強固な事前学習された言語モデルの能力のみに頼るのではなく、文脈内のいくつかの関連文で回答や質問の情報が見つかることを観察する。 それに基づいて,セレクタとジェネレータという2つのモジュールを含むモデルを設計する。 セレクタは、暗黙のローカル情報を提供するために、解答に関する関連文にもっと集中するようにモデルを強制する。 生成器は、セレクタからのローカル情報と、エンコーダによって符号化されたコンテキスト全体からグローバル情報とを暗黙的に組み合わせて質問を生成する。 このモデルは2つのモジュール間の遅延相互作用を活用するために共同で訓練されている。 2つのベンチマークデータセットの実験結果から,質問生成タスクにおいて,我々のモデルは強い事前学習モデルよりも優れていることが示された。 コードも利用可能である。

We introduce an approach for the answer-aware question generation problem. Instead of only relying on the capability of strong pre-trained language models, we observe that the information of answers and questions can be found in some relevant sentences in the context. Based on that, we design a model which includes two modules: a selector and a generator. The selector forces the model to more focus on relevant sentences regarding an answer to provide implicit local information. The generator generates questions by implicitly combining local information from the selector and global information from the whole context encoded by the encoder. The model is trained jointly to take advantage of latent interactions between the two modules. Experimental results on two benchmark datasets show that our model is better than strong pre-trained models for the question generation task. The code is also available.
翻訳日:2024-01-24 20:06:12 公開日:2024-01-23
# 多段階時系列予測のためのコプラ共形予測

Copula Conformal Prediction for Multi-step Time Series Forecasting ( http://arxiv.org/abs/2212.03281v3 )

ライセンス: Link先を確認
Sophia Sun, Rose Yu(参考訳) 正確な不確実性測定は、堅牢で信頼性の高い機械学習システムを構築するための重要なステップである。 共形予測(conformal prediction)は、実装の容易さ、統計カバレッジの保証、基盤となる予測器の汎用性で有名な分布のない不確実性定量化アルゴリズムである。 しかし、時系列に対する既存の共形予測アルゴリズムは、時間依存を考慮せずに単段予測に制限される。 本稿では,多変量・多段階時系列予測のためのCopula Conformal Predictionアルゴリズム,CopulaCPTSを提案する。 copulacpts が有限サンプル妥当性保証を持つことを証明した。 いくつかの合成および実世界の多変量時系列データセットにおいて、CopulaCPTSは既存の手法よりも多段階予測タスクに対してより校正され、鋭い信頼区間を生成することを示す。

Accurate uncertainty measurement is a key step to building robust and reliable machine learning systems. Conformal prediction is a distribution-free uncertainty quantification algorithm popular for its ease of implementation, statistical coverage guarantees, and versatility for underlying forecasters. However, existing conformal prediction algorithms for time series are limited to single-step prediction without considering the temporal dependency. In this paper we propose a Copula Conformal Prediction algorithm for multivariate, multi-step Time Series forecasting, CopulaCPTS. We prove that CopulaCPTS has finite sample validity guarantee. On several synthetic and real-world multivariate time series datasets, we show that CopulaCPTS produces more calibrated and sharp confidence intervals for multi-step prediction tasks than existing techniques.
翻訳日:2024-01-24 20:05:29 公開日:2024-01-23
# 固定周波数トランペット量子ビットを用いたアナログ量子シミュレーション

Analogue Quantum Simulation with Fixed-Frequency Transmon Qubits ( http://arxiv.org/abs/2211.16439v3 )

ライセンス: Link先を確認
Sean Greenaway, Adam Smith, Florian Mintert and Daniel Malz(参考訳) スピン系のアナログ量子シミュレーションを実現するために,固定周波数と固定相互作用を持つトランスモン量子ビットの適合性を実験的に評価した。 量子プロセストモグラフィとより効率的なハミルトニアントモグラフィを用いて,商用量子プロセッサ上で,この目標に必要な一連の基準を検証した。 低振幅での重要な単一量子ビット誤差は、現在利用可能なデバイスでのアナログシミュレーションの実現を防ぐための制限因子として同定される。 さらに,量子ビットと低次元環境とのコヒーレントな結合によって同定される駆動パルスの欠如におけるスプリアスダイナミックスも発見する。 適度な改良により、時間依存多体スピンハミルトニアンの豊富なファミリーのアナログシミュレーションが可能となる。

We experimentally assess the suitability of transmon qubits with fixed frequencies and fixed interactions for the realization of analogue quantum simulations of spin systems. We test a set of necessary criteria for this goal on a commercial quantum processor using full quantum process tomography and more efficient Hamiltonian tomography. Significant single qubit errors at low amplitudes are identified as a limiting factor preventing the realization of analogue simulations on currently available devices. We additionally find spurious dynamics in the absence of drive pulses, which we identify with coherent coupling between the qubit and a low dimensional environment. With moderate improvements, analogue simulation of a rich family of time-dependent many-body spin Hamiltonians may be possible.
翻訳日:2024-01-24 20:05:15 公開日:2024-01-23
# 検索に基づくソフトウェアマイクロベンチマーク優先化の評価

Evaluating Search-Based Software Microbenchmark Prioritization ( http://arxiv.org/abs/2211.13525v2 )

ライセンス: Link先を確認
Christoph Laaber, Tao Yue, Shaukat Ali(参考訳) コード変更の後にソフトウェアのパフォーマンスが劣化しないようにするのが最重要です。 解決策は、(機能的な)ユニットテストに似たパフォーマンステスト技術であるソフトウェアマイクロベンチマークを定期的に実行することです。 この課題に対処するため、テストケース優先順位付け(TCP)のような回帰テスト手法を調査し、マイクロベンチマークスイート内での実行を順序付けして、より早くより大きなパフォーマンス変化を検出する。 このようなテクニックはユニットテスト用に設計され、マイクロベンチマークでサブパーを実行するか、複雑なパフォーマンスモデルを必要とする。 本稿では,単目的および多目的の検索に基づくマイクロベンチマーク優先順位付け手法を実験的に評価し,その効果と効率性について検討した。 そこで我々は,3つの検索目標,すなわち最大化のためのカバレッジ,最小化のためのカバレッジ重なり,最大化のための過去のパフォーマンス変化検出を考案する。 検索アルゴリズム(SA)は競争力があるばかりでなく、最高の欲求、カバレッジベースのベースラインを上回りません。 しかし、パフォーマンス変更履歴のみを利用する単純な欲求的手法(カバレッジ情報なしで)は、最高のカバレッジベースの手法と同等かそれ以上に効果的であるが、実行時のオーバーヘッドは1%未満である。 これらの結果は、単純な非カバレッジベースのテクニックが、複雑なカバレッジベース技術よりもマイクロベンチマークに適していることを示している。

Ensuring that software performance does not degrade after a code change is paramount. A solution is to regularly execute software microbenchmarks, a performance testing technique similar to (functional) unit tests, which, however, often becomes infeasible due to extensive runtimes. To address that challenge, research has investigated regression testing techniques, such as test case prioritization (TCP), which reorder the execution within a microbenchmark suite to detect larger performance changes sooner. Such techniques are either designed for unit tests and perform sub-par on microbenchmarks or require complex performance models, drastically reducing their potential application. In this paper, we empirically evaluate single- and multi-objective search-based microbenchmark prioritization techniques to understand whether they are more effective and efficient than greedy, coverage-based techniques. For this, we devise three search objectives, i.e., coverage to maximize, coverage overlap to minimize, and historical performance change detection to maximize. We find that search algorithms (SAs) are only competitive with but do not outperform the best greedy, coverage-based baselines. However, a simple greedy technique utilizing solely the performance change history (without coverage information) is equally or more effective than the best coverage-based techniques while being considerably more efficient, with a runtime overhead of less than 1%. These results show that simple, non-coverage-based techniques are a better fit for microbenchmarks than complex coverage-based techniques.
翻訳日:2024-01-24 20:05:05 公開日:2024-01-23
# 確率補間合成最小化のための最適アルゴリズム

Optimal Algorithms for Stochastic Complementary Composite Minimization ( http://arxiv.org/abs/2211.01758v2 )

ライセンス: Link先を確認
Alexandre d'Aspremont, Crist\'obal Guzm\'an, Cl\'ement Lezane(参考訳) 統計学と機械学習における正規化手法に着想を得て,確率的設定における相補的複合最小化について検討した。 この問題は、確率的一階神託と構造的一様凸(おそらくは非スムースかつ非リプシッツ)正規化項が与えられた(弱く)滑らかな関数の和の最小化に対応する。 密接に関連する設定で集中的に作業したにも関わらず、私たちの仕事の前には、この問題の複雑さの境界は知られていません。 予測と高い確率で、新たな過剰なリスク境界を提供することで、このギャップを埋めます。 我々のアルゴリズムはほぼ最適であり、このタイプの問題に対する新しい低い複雑性境界によって証明する。 我々は,我々の手法と最先端技術を比較した数値結果を提供することで結論付けた。

Inspired by regularization techniques in statistics and machine learning, we study complementary composite minimization in the stochastic setting. This problem corresponds to the minimization of the sum of a (weakly) smooth function endowed with a stochastic first-order oracle, and a structured uniformly convex (possibly nonsmooth and non-Lipschitz) regularization term. Despite intensive work on closely related settings, prior to our work no complexity bounds for this problem were known. We close this gap by providing novel excess risk bounds, both in expectation and with high probability. Our algorithms are nearly optimal, which we prove via novel lower complexity bounds for this class of problems. We conclude by providing numerical results comparing our methods to the state of the art.
翻訳日:2024-01-24 20:04:40 公開日:2024-01-23
# 静的コード警告の進化を追跡する - 最先端とより良いアプローチ

Tracking the Evolution of Static Code Warnings: the State-of-the-Art and a Better Approach ( http://arxiv.org/abs/2210.02651v2 )

ライセンス: Link先を確認
Junjie Li, Jinqiu Yang(参考訳) 静的バグ検出ツールは、悪いプログラミングプラクティスや潜在的な欠陥など、コードの問題を検出するのに役立つ。 コードレビューや継続的インテグレーションなど,最新のソフトウェア開発ワークフローに静的バグ検出機能を統合するという最近の取り組みは,報告された警告をオンザフライで修正するモチベーションを高めている。 報告された警告の進化を追跡する適切なメカニズムは、そのような統合をよりサポートできる。 さらに、静的コード警告の追跡は、自動プログラム修復のための修正パターンの学習や、どの警告がより関心があるかの学習など、多くのダウンストリームのソフトウェアエンジニアリングタスクに役立ち、自動的に優先順位付けできる。 さらに、トラッキングツールの利用により、開発者はプロジェクト全体からの何千もの警告に圧倒されるのではなく、最新のかつ実行可能な静的警告に集中することができる。 これにより、静的解析ツールの利用が強化される。 したがって、静的バグ検出器による警告を正確に追跡することは、静的バグ検出器のさらなる利用を改善するために重要である。

Static bug detection tools help developers detect problems in the code, including bad programming practices and potential defects. Recent efforts to integrate static bug detectors in modern software development workflows, such as in code review and continuous integration, are shown to better motivate developers to fix the reported warnings on the fly. A proper mechanism to track the evolution of the reported warnings can better support such integration. Moreover, tracking the static code warnings will benefit many downstream software engineering tasks, such as learning the fix patterns for automated program repair, and learning which warnings are of more interest, so they can be prioritized automatically. In addition, the utilization of tracking tools enables developers to concentrate on the most recent and actionable static warnings rather than being overwhelmed by the thousands of warnings from the entire project. This, in turn, enhances the utilization of static analysis tools. Hence, precisely tracking the warnings by static bug detectors is critical to improving the utilization of static bug detectors further.
翻訳日:2024-01-24 20:04:26 公開日:2024-01-23
# SpecInfer: 木に基づく投機推論と検証による生成型大規模言語モデルの高速化

SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification ( http://arxiv.org/abs/2305.09781v3 )

ライセンス: Link先を確認
Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Zhengxin Zhang, Rae Ying Yee Wong, Alan Zhu, Lijie Yang, Xiaoxiang Shi, Chunan Shi, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia(参考訳) 本稿では,木に基づく投機的推論と検証を行う生成型大言語モデル(llm)を高速化するシステムであるspecinferを提案する。 SpecInferの背景にある重要なアイデアは、小さな投機モデルを利用してLCMの出力を予測することだ。 トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLCMに対して並列に検証する。 SpecInferは、インクリメンタルデコーダの代わりに LLM をトークンツリー検証器として使用し、モデル品質を確実に保ちながら、生成 LLM を提供するためのエンドツーエンドのレイテンシと計算要求を大幅に削減する。 評価の結果, SpecInfer は分散 LLM では 1.5-2.8x ,オフロード型 LLM では 2.6-3.5x で, 生成性能は 1.5-2.8x で優れていた。 SpecInferはhttps://github.com/flexflow/FlexFlow/で公開されている。

This paper introduces SpecInfer, a system that accelerates generative large language model (LLM) serving with tree-based speculative inference and verification. The key idea behind SpecInfer is leveraging small speculative models to predict the LLM's outputs; the predictions are organized as a token tree, whose nodes each represent a candidate token sequence. The correctness of all candidate token sequences represented by a token tree is verified against the LLM in parallel using a novel tree-based parallel decoding mechanism. SpecInfer uses an LLM as a token tree verifier instead of an incremental decoder, which significantly reduces the end-to-end latency and computational requirement for serving generative LLMs while provably preserving model quality. Our evaluation shows that SpecInfer outperforms existing LLM serving systems by 1.5-2.8x for distributed LLM inference and by 2.6-3.5x for offloading-based LLM inference, while preserving the same generative performance. SpecInfer is publicly available at https://github.com/flexflow/FlexFlow/
翻訳日:2024-01-24 19:57:01 公開日:2024-01-23
# エンタングルメント支援マルチパーティ計算の通信複雑性

Communication complexity of entanglement assisted multi-party computation ( http://arxiv.org/abs/2305.04435v2 )

ライセンス: Link先を確認
Ruoyu Meng, Aditya Ramamoorthy(参考訳) プレイヤー2, \dots, n$はプレイヤー1に適切な情報を伝達する必要があるので、適切な約束を持つ「一般化された」内部積関数を計算することができる。 プロトコルの通信複雑性は、通信が必要なビットの総数である。 n$ が素数で選択された関数の場合、量子プロトコル(複雑性 $(n-1) \log n$ ビット)と古典的なプロトコル(複雑性 $(n-1)^2 (\log n^2$) ビット)を示す。 量子プロトコルでは、プレイヤーは絡み合った量子ビットにアクセスするが、通信は古典的である。 さらに,古典的通信複雑性の下位境界を決定する整数線形プログラミングの定式化を提案する。 これは、量子プロトコルが古典的プロトコルよりも厳密に優れていることを示す。

We consider a quantum and classical version multi-party function computation problem with $n$ players, where players $2, \dots, n$ need to communicate appropriate information to player 1, so that a "generalized" inner product function with an appropriate promise can be calculated. The communication complexity of a protocol is the total number of bits that need to be communicated. When $n$ is prime and for our chosen function, we exhibit a quantum protocol (with complexity $(n-1) \log n$ bits) and a classical protocol (with complexity $(n-1)^2 (\log n^2$) bits). In the quantum protocol, the players have access to entangled qudits but the communication is still classical. Furthermore, we present an integer linear programming formulation for determining a lower bound on the classical communication complexity. This demonstrates that our quantum protocol is strictly better than classical protocols.
翻訳日:2024-01-24 19:56:41 公開日:2024-01-23
# 思考の視覚的連鎖:マルチモーダルインフィルによる論理ギャップのブリッジ

Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings ( http://arxiv.org/abs/2305.02317v3 )

ライセンス: Link先を確認
Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang(参考訳) 大規模言語モデルの最近の進歩は、モデルが人間のような方法で問題を分解できるチェーン・オブ・シントにおける推論を引き出す。 このパラダイムは言語モデルの多段階推論能力を向上させるが、ユニモーダルであり、主に質問応答タスクに適用することで制限される。 視覚的な拡張を推論に組み込むことは、特に複雑で想像力のあるタスクに不可欠である、と我々は主張する。 その結果,VCoTは,逐次データ内の論理的ギャップを再帰的にブリッジするために,視覚言語接地を促進させる新しい手法である。 提案手法は,視覚的なガイダンスを用いて合成マルチモーダルインフィルメントを生成し,時間的推論の恩恵を受ける下流タスクの論理的ギャップを低減し,モデルの多段階推論への解釈可能性を提供する。 我々はvcotをビジュアルストーリーテリングとwikihow要約データセットに適用し、vcotが下流のパフォーマンス向上に使用できる、新しい一貫性のある合成データ拡張を提供するという人間的評価を通して実証する。

Recent advances in large language models elicit reasoning in a chain-of-thought that allows models to decompose problems in a human-like fashion. Though this paradigm improves multi-step reasoning ability in language models, it is limited by being unimodal and applied mainly to question-answering tasks. We claim that incorporating visual augmentation into reasoning is essential, especially for complex, imaginative tasks. Consequently, we introduce VCoT, a novel method that leverages chain-of-thought prompting with vision-language grounding to recursively bridge the logical gaps within sequential data. Our method uses visual guidance to generate synthetic multimodal infillings that add consistent and novel information to reduce the logical gaps for downstream tasks that can benefit from temporal reasoning, as well as provide interpretability into models' multi-step reasoning. We apply VCoT to the Visual Storytelling and WikiHow summarization datasets and demonstrate through human evaluation that VCoT offers novel and consistent synthetic data augmentation beating chain-of-thought baselines, which can be used to enhance downstream performance.
翻訳日:2024-01-24 19:56:04 公開日:2024-01-23
# 構成シーン再構成のためのゼロショットプランナのエネルギーモデル

Energy-based Models are Zero-Shot Planners for Compositional Scene Rearrangement ( http://arxiv.org/abs/2304.14391v4 )

ライセンス: Link先を確認
Nikolaos Gkanatsios, Ayush Jain, Zhou Xian, Yunchu Zhang, Christopher Atkeson, Katerina Fragkiadaki(参考訳) 言語は構成的であり、命令はロボットが再配置を行うシーンにおいて、オブジェクト間で保持する複数の関係制約を表現することができる。 本研究の焦点は、より長い指示や訓練時に見たことのない空間概念の構成を一般化する、インストラクタブルなシーン再構成フレームワークである。 本稿では,相対的な物体配置よりもエネルギー関数で言語に指示された空間概念を表現することを提案する。 言語パーサは命令を対応するエネルギー関数にマッピングし、オープンボキャブラリな視覚言語モデルはシーン内の関連するオブジェクトに対する議論を基礎としている。 我々は,各言語が指示を述語するエネルギー関数の和の勾配勾配によるゴールシーン構成を生成する。 ローカルビジョンベースのポリシーでは、オブジェクトを推論されたゴールロケーションに再配置する。 我々は、確立された命令誘導操作ベンチマークと、導入した構成命令のベンチマークを用いて、モデルをテストする。 我々は,シミュレーションや実世界において,高い合成命令をゼロショットで実行可能であることを示す。 言語から反応する反応ポリシーと大規模言語モデルプランナーを大きなマージンで上回り、特に複数の空間概念の合成を含む長い命令に対して優れている。 シミュレーションと実世界のロボット実行ビデオ、および私たちのコードとデータセットは、当社のウェブサイトで公開されています。

Language is compositional; an instruction can express multiple relation constraints to hold among objects in a scene that a robot is tasked to rearrange. Our focus in this work is an instructable scene-rearranging framework that generalizes to longer instructions and to spatial concept compositions never seen at training time. We propose to represent language-instructed spatial concepts with energy functions over relative object arrangements. A language parser maps instructions to corresponding energy functions and an open-vocabulary visual-language model grounds their arguments to relevant objects in the scene. We generate goal scene configurations by gradient descent on the sum of energy functions, one per language predicate in the instruction. Local vision-based policies then re-locate objects to the inferred goal locations. We test our model on established instruction-guided manipulation benchmarks, as well as benchmarks of compositional instructions we introduce. We show our model can execute highly compositional instructions zero-shot in simulation and in the real world. It outperforms language-to-action reactive policies and Large Language Model planners by a large margin, especially for long instructions that involve compositions of multiple spatial concepts. Simulation and real-world robot execution videos, as well as our code and datasets are publicly available on our website: https://ebmplanner.github.io.
翻訳日:2024-01-24 19:55:44 公開日:2024-01-23
# 内視鏡画像とビデオにおける最小侵襲手術器具の分節化のための方法とデータセット:術法の現状について

Methods and datasets for segmentation of minimally invasive surgical instruments in endoscopic images and videos: A review of the state of the art ( http://arxiv.org/abs/2304.13014v4 )

ライセンス: Link先を確認
Tobias Rueckert (1), Daniel Rueckert (2 and 3), Christoph Palm (1 and 4) ((1) Regensburg Medical Image Computing (ReMIC), Ostbayerische Technische Hochschule Regensburg (OTH Regensburg), Germany, (2) Artificial Intelligence in Healthcare and Medicine, Klinikum rechts der Isar, Technical University of Munich, Germany, (3) Department of Computing, Imperial College London, UK, (4) Regensburg Center of Health Sciences and Technology (RCHST), OTH Regensburg, Germany)(参考訳) コンピュータ・ロボット支援の低侵襲手術の分野では,内視鏡的画像・映像における手術器具の認識により,近年,大きな進歩を遂げている。 特に、楽器の位置や種類の決定は、非常に興味深い。 現在の作業には空間的情報と時間的情報の両方が含まれており、手術用具の経時的移動を予測することは最終分節の質を改善するかもしれないという考えがある。 公開データセットの提供は、最近、主にディープラーニングに基づく新しい手法の開発を奨励している。 本稿では,本論文において,手法開発と評価に使用されるデータセットを特定し,その頻度を定量化する。 さらに,内視鏡的画像と映像における低侵襲手術器具のセグメンテーションと追跡に関する研究の現状について概説する。 本論文は,単一フレームのセマンティクスとインスタンスセグメンテーションの両アプローチ,時間情報を含む手法を考慮し,楽器に付着する種類のマーカーを使わずに,純粋に視覚的に機能する手法に焦点を当てる。 分析された出版物は、Google Scholar、Web of Science、PubMedのプラットフォームで識別された。 検索語は「インストラメントセグメンテーション」、「インストラメントトラッキング」、「サージカルツールセグメンテーション」、「サージカルツールトラッキング」であり、その結果、01/2015から07/2023の間に合計で741の論文が発行され、そのうち123は体系的選択基準で含まれていた。 レビューされた文献に関する議論が提供され、既存の欠点と将来の発展の可能性を強調している。

In the field of computer- and robot-assisted minimally invasive surgery, enormous progress has been made in recent years based on the recognition of surgical instruments in endoscopic images and videos. In particular, the determination of the position and type of instruments is of great interest. Current work involves both spatial and temporal information, with the idea that predicting the movement of surgical tools over time may improve the quality of the final segmentations. The provision of publicly available datasets has recently encouraged the development of new methods, mainly based on deep learning. In this review, we identify and characterize datasets used for method development and evaluation and quantify their frequency of use in the literature. We further present an overview of the current state of research regarding the segmentation and tracking of minimally invasive surgical instruments in endoscopic images and videos. The paper focuses on methods that work purely visually, without markers of any kind attached to the instruments, considering both single-frame semantic and instance segmentation approaches, as well as those that incorporate temporal information. The publications analyzed were identified through the platforms Google Scholar, Web of Science, and PubMed. The search terms used were "instrument segmentation", "instrument tracking", "surgical tool segmentation", and "surgical tool tracking", resulting in a total of 741 articles published between 01/2015 and 07/2023, of which 123 were included using systematic selection criteria. A discussion of the reviewed literature is provided, highlighting existing shortcomings and emphasizing the available potential for future developments.
翻訳日:2024-01-24 19:55:23 公開日:2024-01-23
# ビジネスプロセスにおける資源配分の学習方針

Learning policies for resource allocation in business processes ( http://arxiv.org/abs/2304.09970v2 )

ライセンス: Link先を確認
J. Middelhuis, R. Lo Bianco, E. Scherzer, Z. A. Bukhsh, I. J. B. F. Adan, R. M. Dijkman(参考訳) アクティビティへのリソースの効率的な割り当ては、ビジネスプロセスの実行において重要であるが、依然として困難である。 リソース割り当ての方法論は製造のようなドメインでは十分に確立されているが、ビジネスプロセス管理における彼らの応用は限られている。 既存のメソッドは、多数のアクティビティを持つ大規模なプロセスや、複数のケースにまたがる最適化に適さないことが多い。 本稿では,ビジネスプロセスにおける資源配分に関する2つの学習手法を提案することにより,このギャップに対処することを目的とする。 最初の方法は、深層強化学習(DRL)を利用して、ビジネスプロセスで行動することによって、ほぼ最適なポリシーを学ぶ。 第2の方法はスコアベースの値関数近似アプローチで、キュレートされた特徴の集合の重みを学習し、リソース割り当てを優先する。 提案手法を評価するため,先天的なプロセスフローと特徴を持つ6つの異なるビジネスプロセスを最初に設計した。 これらのビジネスプロセスは3つの現実的な規模のビジネスプロセスを形成するために接続された。 従来のヒューリスティックスと既存のリソース割り当て手法に対してベンチマークを行った。 その結果,6つのビジネスプロセスのうち5つで,ベンチマークを上回ったり,競合したりする適応的資源配分ポリシーを学習できることがわかった。 DRLアプローチは3つの複合ビジネスプロセスすべてにおいてすべてのベンチマークを上回り、平均すると、最高のパフォーマンスベンチマークよりも13.1%良いポリシーを見つける。

Efficient allocation of resources to activities is pivotal in executing business processes but remains challenging. While resource allocation methodologies are well-established in domains like manufacturing, their application within business process management remains limited. Existing methods often do not scale well to large processes with numerous activities or optimize across multiple cases. This paper aims to address this gap by proposing two learning-based methods for resource allocation in business processes. The first method leverages Deep Reinforcement Learning (DRL) to learn near-optimal policies by taking action in the business process. The second method is a score-based value function approximation approach, which learns the weights of a set of curated features to prioritize resource assignments. To evaluate the proposed approaches, we first designed six distinct business processes with archetypal process flows and characteristics. These business processes were then connected to form three realistically sized business processes. We benchmarked our methods against traditional heuristics and existing resource allocation methods. The results show that our methods learn adaptive resource allocation policies that outperform or are competitive with the benchmarks in five out of six individual business processes. The DRL approach outperforms all benchmarks in all three composite business processes and finds a policy that is, on average, 13.1% better than the best-performing benchmark.
翻訳日:2024-01-24 19:54:45 公開日:2024-01-23
# 画像生成モデルの定性的故障とディープフェイク検出への応用

Qualitative Failures of Image Generation Models and Their Application in Detecting Deepfakes ( http://arxiv.org/abs/2304.06470v5 )

ライセンス: Link先を確認
Ali Borji(参考訳) 画像生成モデルと映像生成モデルがフォトリアリスティックな画像を作成する能力は前代未聞の高さに達しており、実像と偽像を区別することは多くの場合困難である。 しかし、この進歩にもかかわらず、生成した画像の品質と現実世界に見られるものとの間にはギャップが残っている。 そこで本稿では,画像生成モデルにおける質的欠点を5つのカテゴリに分類し,学術出版物とソーシャルメディアの双方から膨大な文献をレビューした。 これらの失敗を理解することによって、これらのモデルの改善が必要な領域を特定し、深い偽物を検出する戦略を開発することができる。 今日の社会におけるディープフェイクの流行は深刻な懸念であり、我々の発見は彼らのネガティブな影響を軽減するのに役立つ。

The ability of image and video generation models to create photorealistic images has reached unprecedented heights, making it difficult to distinguish between real and fake images in many cases. However, despite this progress, a gap remains between the quality of generated images and those found in the real world. To address this, we have reviewed a vast body of literature from both academic publications and social media to identify qualitative shortcomings in image generation models, which we have classified into five categories. By understanding these failures, we can identify areas where these models need improvement, as well as develop strategies for detecting deep fakes. The prevalence of deep fakes in today's society is a serious concern, and our findings can help mitigate their negative impact.
翻訳日:2024-01-24 19:54:26 公開日:2024-01-23
# 2成分ボース-アインシュタイン凝縮体におけるペレグリンソリトンの実験的実現

Experimental realization of the Peregrine soliton in repulsive two-component Bose-Einstein condensates ( http://arxiv.org/abs/2304.05951v3 )

ライセンス: Link先を確認
A. Romero-Ros, G. C. Katsimiga, S. I. Mistakidis, S. Mossman, G. Biondini, P. Schmelcher, P. Engels, and P. G. Kevrekidis(参考訳) 粒子不均衡な2成分のBose-Einstein凝縮系におけるペレグリンソリトンを実験的に実現した。 マイノリティ成分の効果的なフォーカスダイナミクスと変調不安定性は、初期ダイナミクスをシードする魅力的なポテンシャル井戸の助けを借りてペレグリンソリトンを動的に生成する機会を与える。 ペレグリンソリトン生成は再現性が高く, 実験により, 少数成分と多数成分を別々に監視し, 井戸の有無, 深さの異なる単一成分のダイナミクスと比較できる。 ここで利用した各成分の集中度を示す。 実験条件を模擬した3次元シミュレーションと,その進化力学をさらに探求する1次元解析により,数値解析と理論的基礎を提供する。

We experimentally realize the Peregrine soliton in a highly particle-imbalanced two-component repulsive Bose-Einstein condensate in the immiscible regime. The effective focusing dynamics and resulting modulational instability of the minority component provide the opportunity to dynamically create a Peregrine soliton with the aid of an attractive potential well that seeds the initial dynamics. The Peregrine soliton formation is highly reproducible, and our experiments allow us to separately monitor the minority and majority components, and to compare with the single component dynamics in the absence or presence of the well with varying depths. We showcase the centrality of each of the ingredients leveraged herein. Numerical corroborations and a theoretical basis for our findings are provided through three-dimensional simulations emulating the experimental setting and via a one-dimensional analysis further exploring its evolution dynamics.
翻訳日:2024-01-24 19:54:13 公開日:2024-01-23
# 量子ワークストレージのためのrydbergイオンフライホイール

Rydberg ion flywheel for quantum work storage ( http://arxiv.org/abs/2304.05252v2 )

ライセンス: Link先を確認
Wilson S. Martins, Federico Carollo, Weibin Li, Kay Brandner, Igor Lesanovsky(参考訳) 閉じ込められたイオンは、長いコヒーレンス時間と高いスケーラビリティと制御性を提供する量子技術のためのプラットフォームを提供する。 ここでは、このプラットフォームを用いて、2つのレーザー駆動で強く結合したRydbergイオンからなる熱デバイスの現実的なモデルを開発する。 このシステムの翻訳自由度は、電子自由度に適用される循環熱力学過程によって生成されるワークアウトプットを格納するフライホイールとして利用できることを示す。 このような過程を外部制御パラメータの周期的変動によって模倣し,数値的および解析的計算に基づく平均場アプローチを用いて関連する物理過程を同定し,フライホイールの帯電率を決定する。 我々の研究は、多体作業媒体と普遍的な作業記憶装置の両方を備えることができるRydbergイオンに基づく顕微鏡熱機械の設計の道を開く。

Trapped ions provide a platform for quantum technologies that offers long coherence times and high degrees of scalability and controllability. Here, we use this platform to develop a realistic model of a thermal device consisting of two laser-driven, strongly coupled Rydberg ions in a harmonic trap. We show that the translational degrees of freedom of this system can be utilized as a flywheel storing the work output that is generated by a cyclic thermodynamic process applied to its electronic degrees of freedom. Mimicking such a process through periodic variations of external control parameters, we use a mean-field approach underpinned by numerical and analytical calculations to identify relevant physical processes and to determine the charging rate of the flywheel. Our work paves the way for the design of microscopic thermal machines based on Rydberg ions that can be equipped with both many-body working media and universal work storages.
翻訳日:2024-01-24 19:53:37 公開日:2024-01-23
# サンプル効率のよい対人模倣学習

Sample-efficient Adversarial Imitation Learning ( http://arxiv.org/abs/2303.07846v2 )

ライセンス: Link先を確認
Dahuin Jung, Hyungyu Lee, Sungroh Yoon(参考訳) 学習を実演して行う模倣学習は, 報酬関数を事前に定義しない逐次意思決定課題に対して研究され, 進歩してきた。 しかし、模擬学習法は、専門家の行動をうまく模倣するために、多くの専門家のデモンストレーションサンプルを必要とする。 サンプル効率を向上させるために,与えられたデータから膨大なトレーニング信号を生成できる自己教師あり表現学習を用いる。 本研究では,非画像制御タスクにおいて,多様な歪みや時間予測に頑健な状態や行動表現を学習するための,自己教師付き表現に基づく敵対的模倣学習手法を提案する。 特に,表データに対する既存の自己教師あり学習法と比較して,多様な歪みに対して頑健な状態表現と行動表現の異なる腐敗法を提案する。 我々は,サンプル複雑性の少ない情報的特徴多様体を作ることで,模倣学習の性能が著しく向上することを理論的に実証的に観察する。 提案手法は,MuJoCo上での既存の逆模倣学習法に対して,100の専門的状態-作用対に制限された設定で相対的に39%改善したことを示す。 さらに, 各種因子に対する洞察を与えるために, 種々の最適性を有する実験を用いて包括的アブレーションを行い, 追加実験を行った。

Imitation learning, in which learning is performed by demonstration, has been studied and advanced for sequential decision-making tasks in which a reward function is not predefined. However, imitation learning methods still require numerous expert demonstration samples to successfully imitate an expert's behavior. To improve sample efficiency, we utilize self-supervised representation learning, which can generate vast training signals from the given data. In this study, we propose a self-supervised representation-based adversarial imitation learning method to learn state and action representations that are robust to diverse distortions and temporally predictive, on non-image control tasks. In particular, in comparison with existing self-supervised learning methods for tabular data, we propose a different corruption method for state and action representations that is robust to diverse distortions. We theoretically and empirically observe that making an informative feature manifold with less sample complexity significantly improves the performance of imitation learning. The proposed method shows a 39% relative improvement over existing adversarial imitation learning methods on MuJoCo in a setting limited to 100 expert state-action pairs. Moreover, we conduct comprehensive ablations and additional experiments using demonstrations with varying optimality to provide insights into a range of factors.
翻訳日:2024-01-24 19:53:22 公開日:2024-01-23
# PATS:地域特徴マッチングのための部分分割型パッチエリア交通

PATS: Patch Area Transportation with Subdivision for Local Feature Matching ( http://arxiv.org/abs/2303.07700v3 )

ライセンス: Link先を確認
Junjie Ni, Yijin Li, Zhaoyang Huang, Hongsheng Li, Hujun Bao, Zhaopeng Cui, Guofeng Zhang(参考訳) ローカル機能マッチングは、イメージペア間のスパース対応を確立することを目的としている。 近年,検出器フリーの手法は一般的に優れた性能を示すが,大規模な差のある画像対では満足できない。 本稿では,この問題を解決するために,PATS(Patch Area Transportation with Subdivision)を提案する。 高価なイメージピラミッドを構築する代わりに、元のイメージペアを同じサイズのパッチに分割し、徐々にサイズを変えて、同じ規模の小さなパッチに分割し始めます。 しかし、相対的なカメラポーズとシーン構造の両方でスケール差が決定されるため、これらのパッチ間のスケール差は自明ではない。 また、実際の場面の根拠となる真理を得ることは困難である。 そこで本研究では,自己教師あり方式でスケール差を学習できるパッチエリア輸送を提案する。 1対1のマッチングのみを扱う2部グラフマッチングとは対照的に、パッチエリアトランスポーテーションは多対多の関係を扱うことができる。 PATSは、マッチング精度とカバレッジの両方を改善し、相対的なポーズ推定、視覚的ローカライゼーション、光フロー推定などの下流タスクにおいて優れた性能を示す。 ソースコードは \url{https://zju3dv.github.io/pats/} で入手できる。

Local feature matching aims at establishing sparse correspondences between a pair of images. Recently, detector-free methods present generally better performance but are not satisfactory in image pairs with large scale differences. In this paper, we propose Patch Area Transportation with Subdivision (PATS) to tackle this issue. Instead of building an expensive image pyramid, we start by splitting the original image pair into equal-sized patches and gradually resizing and subdividing them into smaller patches with the same scale. However, estimating scale differences between these patches is non-trivial since the scale differences are determined by both relative camera poses and scene structures, and thus spatially varying over image pairs. Moreover, it is hard to obtain the ground truth for real scenes. To this end, we propose patch area transportation, which enables learning scale differences in a self-supervised manner. In contrast to bipartite graph matching, which only handles one-to-one matching, our patch area transportation can deal with many-to-many relationships. PATS improves both matching accuracy and coverage, and shows superior performance in downstream tasks, such as relative pose estimation, visual localization, and optical flow estimation. The source code is available at \url{https://zju3dv.github.io/pats/}.
翻訳日:2024-01-24 19:53:01 公開日:2024-01-23
# 非局所積測定による量子ステアリング共有の活性化

Activation of quantum steering sharing with unsharp nonlocal product measurements ( http://arxiv.org/abs/2303.05954v3 )

ライセンス: Link先を確認
Xin-Hong Han, Tian Qian, Shan-Chuan Dong, Ya Xiao and Yong-Jian Gu(参考訳) 量子ステアリングは、アンシャープ測定を利用して複数の観測者の間で共有される。 しかし、その使用法は局所測定に限られており、非局所測定に基づくケースには適していない。 本稿では, 量子楕円体を用いて量子ステアリングを共有することによって, 最適非局所測定を効率的に構築する手法を提案する。 この手法は任意の二分法状態に適しており、多数の測定設定を持つシナリオにおいても利点がある。 グリーンベルガー・ホルン・ザイリンガー状態を図解として、非シャープな非局所的積測定を用いることで、局所的測定と対照的に操舵共有現象を活性化できることを示す。 さらに,不等強度の非局所的な測定では,等強度の計測に比べて高い活性化能を有することが示された。 我々のアクティベーション方法は、共有状態のコピーや他の量子相関を省略する必要性を排除し、実用的な実験や資源の保存に便利なものにするため、以前のものと異なる。

Quantum steering is commonly shared among multiple observers by utilizing unsharp measurements. However, their usage is limited to local measurements and is not suitable for nonlocal-measurement-based cases. Here, we present a novel approach in this study, suggesting a highly efficient technique to construct optimal nonlocal measurements by utilizing quantum ellipsoids to share quantum steering. This technique is suitable for any bipartite state and offers benefits even in scenarios with a high number of measurement settings. Using the Greenberger-Horne-Zeilinger state as an illustration, we show that employing unsharp nonlocal product measurements can activate the phenomenon of steering sharing in contrast to using local measurements. Moreover, our findings demonstrate that nonlocal measurements with unequal strength possess a greater activation capability compared to those with equal strength. Our activation method differs from previous ones as it eliminates the need to copy the shared states or diminish other quantum correlations, thus making it convenient for practical experimentation and conservation of resources.
翻訳日:2024-01-24 19:52:41 公開日:2024-01-23
# スパースガウス過程による変圧器の校正

Calibrating Transformers via Sparse Gaussian Processes ( http://arxiv.org/abs/2303.02444v2 )

ライセンス: Link先を確認
Wenlong Chen, Yingzhen Li(参考訳) トランスフォーマーモデルは、自然言語処理、音声認識、コンピュータビジョンにおける幅広い応用において、予測タスクにおいて大きな成功を収めている。 トランスフォーマーの成功を安全クリティカルな領域に拡張するには、不確かさの校正が必要となる。 そこで本研究では,マルチヘッドアテンションブロック(mhas)の出力空間に直接ベイズ推定を行い,その不確かさを校正するsparse gaussian process attention (sgpa)を提案する。 スケールされたドット積演算を有効な対称カーネルに置き換え、スパースガウス過程(SGP)技術を用いてMHA出力の後方過程を近似する。 SGPAベースのトランスフォーマーは、テキスト、画像、グラフ上の一連の予測タスクにおいて、競合予測精度を達成すると同時に、分布内キャリブレーションと分布外ロバストネスと検出の両方を顕著に改善する。

Transformer models have achieved profound success in prediction tasks in a wide range of applications in natural language processing, speech recognition and computer vision. Extending Transformer's success to safety-critical domains requires calibrated uncertainty estimation which remains under-explored. To address this, we propose Sparse Gaussian Process attention (SGPA), which performs Bayesian inference directly in the output space of multi-head attention blocks (MHAs) in transformer to calibrate its uncertainty. It replaces the scaled dot-product operation with a valid symmetric kernel and uses sparse Gaussian processes (SGP) techniques to approximate the posterior processes of MHA outputs. Empirically, on a suite of prediction tasks on text, images and graphs, SGPA-based Transformers achieve competitive predictive accuracy, while noticeably improving both in-distribution calibration and out-of-distribution robustness and detection.
翻訳日:2024-01-24 19:52:23 公開日:2024-01-23
# deepseanet: efficientdetによる水中物体検出の改善

DeepSeaNet: Improving Underwater Object Detection using EfficientDet ( http://arxiv.org/abs/2306.06075v2 )

ライセンス: Link先を確認
Sanyam Jain(参考訳) 海洋生物や深海生物は、水生生物の安全を認識し監視することは困難である。 水が粒状粒子と不純物で塩分である場合、課題が増えている。 このような自然な逆境環境では、CNNのような従来のアプローチは失敗し始め、計算に費用がかかる。 このプロジェクトでは,Brackish-Datasetと呼ばれる既存の注釈付き水中データセット上に,EfficientDet, YOLOv5, YOLOv8, Detectron2など,さまざまなオブジェクト検出モデルを実装し,評価する。 このデータセットは、Limfjorden水中で捕獲された魚、カニ、ヒトデ、その他の水生動物の注釈画像からなる。 本研究の目的は,同一データセット上での新しいモデルの効率を検証し,その精度と推定時間に基づいて先行する結果と比較することである。 まず、同じデータセット上で、YOLOv3 (31.10%平均平均精度)、YOLOv4 (83.72% mAP)、YOLOv5 (97.6%)、YOLOv8 (98.20%)、EfficientDet (98.56% mAP)、Dectorron2 (95.20% mAP)の結果を比較します。 第2に、逆方向雑音の複雑な特徴融合を行うためのBiSkFPN機構(BiFPNネックとスキップ接続)を改良し、改良されたEfficientDetを摂動に頑健にする。 第3に,adversarial learning (98.04% map) による効率的なdet (98.63% map) とyolov5の精度への影響を分析した。 最後に、ブラックボックスモデルの説明可能性を促進するために、2つのモデルにクラスアクティベーションマップベース説明(cam)を提供します。 総じて、modified efficientdetは、88.54%のフィーチャマップを持つ他のモデルよりも、5倍のクロスバリデーションで高い精度を達成したことを示している。

Marine animals and deep underwater objects are difficult to recognize and monitor for safety of aquatic life. There is an increasing challenge when the water is saline with granular particles and impurities. In such natural adversarial environment, traditional approaches like CNN start to fail and are expensive to compute. This project involves implementing and evaluating various object detection models, including EfficientDet, YOLOv5, YOLOv8, and Detectron2, on an existing annotated underwater dataset, called the Brackish-Dataset. The dataset comprises annotated image sequences of fish, crabs, starfish, and other aquatic animals captured in Limfjorden water with limited visibility. The aim of this research project is to study the efficiency of newer models on the same dataset and contrast them with the previous results based on accuracy and inference time. Firstly, I compare the results of YOLOv3 (31.10% mean Average Precision (mAP)), YOLOv4 (83.72% mAP), YOLOv5 (97.6%), YOLOv8 (98.20%), EfficientDet (98.56% mAP) and Detectron2 (95.20% mAP) on the same dataset. Secondly, I provide a modified BiSkFPN mechanism (BiFPN neck with skip connections) to perform complex feature fusion in adversarial noise which makes modified EfficientDet robust to perturbations. Third, analyzed the effect on accuracy of EfficientDet (98.63% mAP) and YOLOv5 by adversarial learning (98.04% mAP). Last, I provide class activation map based explanations (CAM) for the two models to promote Explainability in black box models. Overall, the results indicate that modified EfficientDet achieved higher accuracy with five-fold cross validation than the other models with 88.54% IoU of feature maps.
翻訳日:2024-01-24 19:46:05 公開日:2024-01-23
# アナログスピンシミュレーター:振幅の均一性を維持する方法

Analogue Spin Simulators: How to keep the Amplitude Homogeneous ( http://arxiv.org/abs/2306.05743v3 )

ライセンス: Link先を確認
Wouter Verstraelen, Piotr Deuar, Micha{\l} Matuszewski, Timothy C.H. Liew(参考訳) スピングラフの基底状態をシミュレートするセットアップにより、計算の難しい最適化問題を効率的に解くことができる。 この目標に対する現在の光学的設定は、各有効スピンの自由度と位相次数の分離が困難であり、マッピングを無効にするリスクがある。 本稿では,この問題を特定の幾何学的アレンジメントによって排除する,結合型光学キャビティモードのセットアップを提案する。 有効なモンテカルロ解法として作用し、基底状態は正確に見つけることができる。 パラメータをチューニングすることで、セットアップはXYやIsingの問題を解決する。

A setup that simulates ground states of spin graphs would allow one to solve computationally hard optimisation problems efficiently. Current optical setups to this goal have difficulties decoupling the amplitude and phase degrees of freedom of each effective spin; risking to yield the mapping invalid, a problem known as amplitude heterogeneity. Here, we propose a setup with coupled active optical cavity modes, where this problem is eliminated through their particular geometric arrangement. Acting as an effective Monte Carlo solver, the ground state can be found exactly. By tuning a parameter, the setup solves XY or Ising problems.
翻訳日:2024-01-24 19:45:29 公開日:2024-01-23
# 樹木空間を突き抜ける--根と未根の木の連続系統解析

Leaping through tree space: continuous phylogenetic inference for rooted and unrooted trees ( http://arxiv.org/abs/2306.05739v4 )

ライセンス: Link先を確認
Matthew J Penn, Neil Scheidwasser, Joseph Penn, Christl A Donnelly, David A Duch\^ene, and Samir Bhatt(参考訳) 現在、系統学は生命科学において基本的存在であり、生命の最も初期の分岐と疫病の起源と拡散に関する洞察を与えている。 しかし、樹木の広大な空間から適切な系統を見つけることは依然として困難である。 この問題に対処するために,勾配の計算が可能な連続空間において,木探索と推論の両方を初めて行う。 この連続緩和により、根付き木と根付き木の両方で木空間を横断する大きな跳躍が可能となり、局所極小への収束の影響を受けにくくなる。 提案手法は, 未開根木に対する推定法や, シミュレーションにおいて, 超測定の場合, 木と根を正確に推定する手法よりも優れている。 本手法は, 下顎脊椎動物の系統学を実証した, 無視可能な量のデータを用いた経験的データに対して有効である。 実際、ウルトラメトリックシグナルを持つ遺伝子は、脊椎動物の主要な系統を解決するのに十分であった。 最適化は自動微分によって可能であり、本手法は最も困難でデータ不足な系統的疑問を探索するための効果的な方法を示す。

Phylogenetics is now fundamental in life sciences, providing insights into the earliest branches of life and the origins and spread of epidemics. However, finding suitable phylogenies from the vast space of possible trees remains challenging. To address this problem, for the first time, we perform both tree exploration and inference in a continuous space where the computation of gradients is possible. This continuous relaxation allows for major leaps across tree space in both rooted and unrooted trees, and is less susceptible to convergence to local minima. Our approach outperforms the current best methods for inference on unrooted trees and, in simulation, accurately infers the tree and root in ultrametric cases. The approach is effective in cases of empirical data with negligible amounts of data, which we demonstrate on the phylogeny of jawed vertebrates. Indeed, only a few genes with an ultrametric signal were generally sufficient for resolving the major lineages of vertebrates. Optimisation is possible via automatic differentiation and our method presents an effective way forwards for exploring the most difficult, data-deficient phylogenetic questions.
翻訳日:2024-01-24 19:45:20 公開日:2024-01-23
# フェデレーション平均化における未知参加統計に取り組む軽量手法

A Lightweight Method for Tackling Unknown Participation Statistics in Federated Averaging ( http://arxiv.org/abs/2306.03401v2 )

ライセンス: Link先を確認
Shiqiang Wang, Mingyue Ji(参考訳) フェデレートラーニング(FL)では、クライアントは通常、事前知識が不明な多様な参加統計を持ち、適切に扱わなければFLのパフォーマンスを著しく損なう可能性がある。 この問題に対処する既存の作業は通常、クライアントの総数に匹敵する乗算係数において、かなりの量の追加メモリを必要とするグローバルな分散削減に基づいている。 重要なオープンな問題は、未参加率のクライアントの存在下でFLの軽量な方法を見つけることである。 本稿では、各クライアントの参加履歴に基づいて、フェデレーション平均化(FedAvg)における集約重みを適応させることにより、この問題に対処する。 まず,不均一参加統計により,非最適凝集重み付きfedavgが元のfl目標の最適解から逸脱し,最適凝集重みを求める必要性が示された。 しかし,参加統計が不明な場合,最適重量を計算することは困難である。 そこで本研究では,クライアント参加の統計を知らずに最適な重み付けのオンライン推定に基づいて,クライアント更新を適応的に重み付けすることにより,fedavgを改善するfedauという新しいアルゴリズムを提案する。 推定誤差と収束率を結合する新しい手法を用いてFedAUの理論的収束解析を行う。 理論的な結果は,FedAUが元の目的の最適解に収束し,線形スピードアップなどの望ましい性質を持つことを示す一方で,重要かつ興味深い知見を提示する。 また, 各種参加パターンを用いたベースライン法よりもFedAUの利点を検証した。

In federated learning (FL), clients usually have diverse participation statistics that are unknown a priori, which can significantly harm the performance of FL if not handled properly. Existing works aiming at addressing this problem are usually based on global variance reduction, which requires a substantial amount of additional memory in a multiplicative factor equal to the total number of clients. An important open problem is to find a lightweight method for FL in the presence of clients with unknown participation rates. In this paper, we address this problem by adapting the aggregation weights in federated averaging (FedAvg) based on the participation history of each client. We first show that, with heterogeneous participation statistics, FedAvg with non-optimal aggregation weights can diverge from the optimal solution of the original FL objective, indicating the need of finding optimal aggregation weights. However, it is difficult to compute the optimal weights when the participation statistics are unknown. To address this problem, we present a new algorithm called FedAU, which improves FedAvg by adaptively weighting the client updates based on online estimates of the optimal weights without knowing the statistics of client participation. We provide a theoretical convergence analysis of FedAU using a novel methodology to connect the estimation error and convergence. Our theoretical results reveal important and interesting insights, while showing that FedAU converges to an optimal solution of the original objective and has desirable properties such as linear speedup. Our experimental results also verify the advantage of FedAU over baseline methods with various participation patterns.
翻訳日:2024-01-24 19:45:02 公開日:2024-01-23
# 三次元メタマテリアルの例外点近傍における超非対称吸収と反射

Extremely asymmetric absorption and reflection near the exceptional point of three-dimensional metamaterial ( http://arxiv.org/abs/2306.02804v2 )

ライセンス: Link先を確認
Yanjie Wu, Ding Zhang, Qiuyu Li, Hai Lin, Xintong Shi, Jie Xiong, Haoquan Hu, Jing Tian, Bian Wu, Y. Liu(参考訳) 近年、非エルミートメタマテリアルシステムによって実現された特定の物理現象は、大きな研究関心を集めている。 本稿では, 例外点(EP)近傍の非エルミート三次元メタマテリアルを提案し, 極めて非対称な吸収と反射を示す。 従来のものと異なり、このメタマテリアルはロスアシスト設計で構築されている。 グラフェン系抵抗インキの手法と従来のプリント基板(PCB)プロセスを組み合わせることで, 局所的な損失を構造に導入する。 準原子中の分裂環共振器(SRR)間の損失を調整し、EP近傍の超非対称吸収と反射を実験的に観察した。 同時に、等価回路モデル(ECM)をハミルトニアン量子物理モデルにリンクすることにより、等価な非エルミタンハミルトニアンを取得し、非エルミタン伝送行列を構築する。 ecmの構造と回路パラメータのチューニングがep応答を持つメタマテリアルシステムを生成することを示す。 このシステムは非対称なメタマテリアル吸収体の設計に利用できる。 我々の研究は、3DメタマテリアルプラットフォームにおけるEPの完全な吸収、センシング、その他の応用を開発するための道筋をたどっている。

In recent years, particular physical phenomena enabled by non-Hermitian metamaterial systems have attracted significant research interests. In this paper, a non-Hermitian three-dimensional metamaterial near the exceptional point (EP) is proposed to demonstrate extremely asymmetric absorption and reflection. Unlike its conventional counterparts, this proposed metamaterial is constructed with a loss-assisted design. Localized losses are introduced into the structure by combining our technique of graphene-based resistive inks with conventional printed circuit board (PCB) process. Extremely asymmetric absorption and reflection near the EP are experimentally observed by tuning the loss between split ring resonators (SRRs) in the meta-atoms. Simultaneously, by linking the equivalent circuit model (ECM) with the Hamiltonian quantum physical model, the equivalent non-Hermitian Hamiltonian is obtained and a non-Hermitian transmission matrix is constructed. We show that tuning the structure and circuit parameters of the ECM produces a metamaterial system with EP response. Our system can be used in the design of asymmetric metamaterial absorbers. Our work lays down the way for the manipulation of EP to develop perfect absorption, sensing and other applications in the 3D metamaterial platform.
翻訳日:2024-01-24 19:44:32 公開日:2024-01-23
# OWQ:大規模言語モデルにおける重み量子化のためのアクティベーション・アウトリーから学んだ教訓

OWQ: Lessons learned from activation outliers for weight quantization in large language models ( http://arxiv.org/abs/2306.02272v3 )

ライセンス: Link先を確認
Changhun Lee, Jungyu Jin, Taesu Kim, Hyungjun Kim, Eunhyeok Park(参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、推論に強力なサーバグレードGPUを必要とし、実際のデプロイメントを制限する。 この課題に対処するために,低精度表現によるLCMのフットプリントの最小化を目的とした,outlier-aware weight Quantization (OWQ)法を提案する。 owqは量子化に敏感な構造重みの小さなサブセットを優先し、高精度に保存し、残りの密度重みに高度に調整された量子化を適用する。 この感度対応混合精度スキームは量子化誤差を顕著に低減し、OWQを用いた3.1ビットモデルがOPTQで最適化された4ビットモデルと互換性があることを示した。 さらにOWQは、WCT(Wilt column tuning)と呼ばれるタスク固有の適応のためのパラメータ効率の細かいチューニングを導入し、最適化されたフォーマットで最小限のメモリオーバーヘッドでタスク固有のLLM適応を可能にする。 OWQはLLM最適化文献の柔軟性、効率、実用性において顕著な進歩を示している。 ソースコードはhttps://github.com/xvyaward/owqで入手できる。

Large language models (LLMs) with hundreds of billions of parameters require powerful server-grade GPUs for inference, limiting their practical deployment. To address this challenge, we introduce the outlier-aware weight quantization (OWQ) method, which aims to minimize LLM's footprint through low-precision representation. OWQ prioritizes a small subset of structured weights sensitive to quantization, storing them in high-precision, while applying highly tuned quantization to the remaining dense weights. This sensitivity-aware mixed-precision scheme reduces the quantization error notably, and extensive experiments demonstrate that 3.1-bit models using OWQ perform comparably to 4-bit models optimized by OPTQ. Furthermore, OWQ incorporates a parameter-efficient fine-tuning for task-specific adaptation, called weak column tuning (WCT), enabling accurate task-specific LLM adaptation with minimal memory overhead in the optimized format. OWQ represents a notable advancement in the flexibility, efficiency, and practicality of LLM optimization literature. The source code is available at https://github.com/xvyaward/owq
翻訳日:2024-01-24 19:44:13 公開日:2024-01-23
# 自由落下原子の到着時の量子遅延

Quantum delay in the time of arrival of free-falling atoms ( http://arxiv.org/abs/2306.02141v2 )

ライセンス: Link先を確認
Mathieu Beau and Lionel Martellini(参考訳) 統計学の標準結果を用いて, ガウス量子系では, 固定位置における時間計測の分布は, ボルン則によって与えられる一定の時間における位置測定の分布から直接推測できることを示した。 均一な重力場に落下する質量$m$の量子粒子への応用として、我々はこの手法を用いて、軌道の時間(TOA)の確率密度の正確な明示的な式を得る。 長い飛行時間近似では、ゼロ初期平均速度のときの古典的TOAに対する平均正の相対シフトが漸近的に与えられる: $\delta = \frac{q^2}{2} $ when the factor $q\equiv \frac {\hbar}{2m\sigma \sqrt{2gx}} \ll 1$ and by $\delta = \sqrt {\frac{2}{\pi}}q $ when $q\gg 1$ (量子状態) $\sigma$ is the width of the initial Gausian wavepacket and $x$ is the distance to the detector。 また,これらの予測を検証可能な実験条件についても論じる。

Using standard results from statistics, we show that for Gaussian quantum systems the distribution of a time measurement at a fixed position can be directly inferred from the distribution of a position measurement at a fixed time as given by the Born rule. In an application to a quantum particle of mass $m$ falling in a uniform gravitational field $g$, we use this approach to obtain an exact explicit expression for the probability density of the time-of-arrival (TOA). In the long time-of-flight approximation, we predict that the average positive relative shift with respect to the classical TOA in case of a zero initial mean velocity is asymptotically given by $\delta = \frac{q^2}{2} $ when the factor $q\equiv \frac{\hbar}{2m\sigma \sqrt{2gx}} \ll 1$ (semi-classical regime), and by $\delta = \sqrt{\frac{2}{\pi}}q $ when $q\gg 1$ (quantum regime), where $\sigma$ is the width of the initial Gaussian wavepacket and $x$ is the mean distance to the detector. We also discuss experimental conditions under which these predictions can be tested.
翻訳日:2024-01-24 19:43:51 公開日:2024-01-23
# 非エルミート系の複素スペクトルを走査する変分量子アルゴリズム

Variational quantum algorithms for scanning the complex spectrum of non-Hermitian systems ( http://arxiv.org/abs/2305.19807v2 )

ライセンス: Link先を確認
Xu-Dan Xie, Zheng-Yuan Xue and Dan-Bo Zhang(参考訳) 変動エネルギーを最小化することで量子コンピュータ上で非エルミート量子多体系を解くことは、エネルギーが複雑になるので困難である。 そこで,エネルギー分散を基礎として,ゼロ分散は固有値と関連する左右の固有状態を自然に決定できるため,非エルミートハミルトニアンを解く変分法を提案する。 さらに、エネルギーはコスト関数のパラメータとして設定され、2段階最適化方式を用いて各固有状態を効率よく得る全スペクトルを得るように調整することができる。 数値シミュレーションにより,左右の固有状態を作成し,生体直交関係を検証し,可観測性を評価するアルゴリズムを示す。 また,量子ノイズがアルゴリズムに与える影響を調査し,その性能を誤差緩和法を用いて大幅に改善できることを示す。 そこで本研究では,近距離雑音量子コンピュータ上で変分量子アルゴリズムを用いた非エルミート量子多体系の解法を提案する。

Solving non-Hermitian quantum many-body systems on a quantum computer by minimizing the variational energy is challenging as the energy can be complex. Here, based on energy variance, we propose a variational method for solving the non-Hermitian Hamiltonian, as zero variance can naturally determine the eigenvalues and the associated left and right eigenstates. Moreover, the energy is set as a parameter in the cost function and can be tuned to obtain the whole spectrum, where each eigenstate can be efficiently obtained using a two-step optimization scheme. Through numerical simulations, we demonstrate the algorithm for preparing the left and right eigenstates, verifying the biorthogonal relations, as well as evaluating the observables. We also investigate the impact of quantum noise on our algorithm and show that its performance can be largely improved using error mitigation techniques. Therefore, our work suggests an avenue for solving non-Hermitian quantum many-body systems with variational quantum algorithms on near-term noisy quantum computers.
翻訳日:2024-01-24 19:43:17 公開日:2024-01-23
# 非矩形不確かさ集合をもつロバストMDPのポリシー勾配アルゴリズム

Policy Gradient Algorithms for Robust MDPs with Non-Rectangular Uncertainty Sets ( http://arxiv.org/abs/2305.19004v3 )

ライセンス: Link先を確認
Mengmeng Li, Daniel Kuhn, Tobias Sutter(参考訳) 本研究では,非正三角形不確実性集合を持つロバスト無限ホリゾンマルコフ決定過程(mdps)に対するポリシー勾配アルゴリズムを提案する。 実際、統計的最適性特性を示し、限られたデータの最適利用を行う不確実性集合は長方形でないことが多い。 残念なことに、対応する堅牢なMDPは動的プログラミング技術では解決できず、実際は難解である。 まず,ロバストな政策評価問題を大域的最適性に解くが非効率なランダム予測型ランジュバンダイナミクスアルゴリズムを提案する。 また,ロバストな政策評価問題のみをほぼ解決する効率的な決定論的政策勾配法を提案し,不確実性集合の非正方性の新しい尺度を用いて近似誤差がスケールすることを示す。 最後に,$\mathcal{o}(1/\epsilon^4)$反復におけるロバストなポリシー改善問題に対して$\epsilon$-optimal解を求めるアクター-クリティックアルゴリズムについて述べる。 そこで我々は,大域的最適性保証を提供する非矩形不確実性集合を持つ頑健なMDPに対する最初の完全解法を提案する。 数値実験により,本アルゴリズムは最先端手法と良好に比較できることがわかった。

We propose policy gradient algorithms for robust infinite-horizon Markov decision processes (MDPs) with non-rectangular uncertainty sets, thereby addressing an open challenge in the robust MDP literature. Indeed, uncertainty sets that display statistical optimality properties and make optimal use of limited data often fail to be rectangular. Unfortunately, the corresponding robust MDPs cannot be solved with dynamic programming techniques and are in fact provably intractable. We first present a randomized projected Langevin dynamics algorithm that solves the robust policy evaluation problem to global optimality but is inefficient. We also propose a deterministic policy gradient method that is efficient but solves the robust policy evaluation problem only approximately, and we prove that the approximation error scales with a new measure of non-rectangularity of the uncertainty set. Finally, we describe an actor-critic algorithm that finds an $\epsilon$-optimal solution for the robust policy improvement problem in $\mathcal{O}(1/\epsilon^4)$ iterations. We thus present the first complete solution scheme for robust MDPs with non-rectangular uncertainty sets offering global optimality guarantees. Numerical experiments show that our algorithms compare favorably against state-of-the-art methods.
翻訳日:2024-01-24 19:43:01 公開日:2024-01-23
# 配電系統の一般化を支援する格子セルコードに対する決定点プロセスの注意

Determinantal Point Process Attention Over Grid Cell Code Supports Out of Distribution Generalization ( http://arxiv.org/abs/2305.18417v3 )

ライセンス: Link先を確認
Shanka Subhra Mondal, Steven Frankland, Taylor Webb, and Jonathan D. Cohen(参考訳) ディープニューラルネットワークは、人間のような知性をエミュレートする上で大きな進歩を遂げており、脳がそれに依存する複雑な計算問題をどう解決するかを理解する方法として、ますます使われている。 しかし、これらはまだ不足しているため、脳が人間の能力の強い一般化をサポートする方法についての洞察を得られていない。 そのようなケースの1つは、トレーニングセットの配布外にあるテスト例の一般化成功(ood)パフォーマンスである。 ここでは、この能力に寄与する可能性のある脳内処理の特性を同定する。 本稿では,ood一般化を実現するために,神経計算の具体的特徴を浮き彫りにした2部アルゴリズムについて述べるとともに,二つの難解な認知タスクにおける性能評価による概念実証を提供する。 まず、哺乳類の脳がグリッドセルコード(例えば、エントルフィン皮質)を用いて計量空間を表すという事実を描き出す: 表現空間をカバーする繰り返しモチーフで組織された関係構造の抽象表現。 第二に、DPPアテンション(DPP-A)と呼ばれる、DPP(Determinantal Point Process)を用いたグリッドセルコード上での注意機構を提案する。 標準タスク最適化エラーとdpp-aを組み合わせた損失関数は、グリッドセルコードの繰り返しモチーフを活用でき、共通アーキテクチャと統合でき、アナログや算術タスクにおいて強力なood一般化性能を達成することができる。 これは、哺乳類の脳の格子細胞コードが一般化性能にどのように寄与するかの解釈と、ニューラルネットワークにおけるそのような能力を改善する潜在的な手段の両方を提供する。

Deep neural networks have made tremendous gains in emulating human-like intelligence, and have been used increasingly as ways of understanding how the brain may solve the complex computational problems on which this relies. However, these still fall short of, and therefore fail to provide insight into how the brain supports strong forms of generalization of which humans are capable. One such case is out-of-distribution (OOD) generalization-successful performance on test examples that lie outside the distribution of the training set. Here, we identify properties of processing in the brain that may contribute to this ability. We describe a two-part algorithm that draws on specific features of neural computation to achieve OOD generalization, and provide a proof of concept by evaluating performance on two challenging cognitive tasks. First we draw on the fact that the mammalian brain represents metric spaces using grid cell code (e.g., in the entorhinal cortex): abstract representations of relational structure, organized in recurring motifs that cover the representational space. Second, we propose an attentional mechanism that operates over the grid cell code using Determinantal Point Process (DPP), that we call DPP attention (DPP-A) -- a transformation that ensures maximum sparseness in the coverage of that space. We show that a loss function that combines standard task-optimized error with DPP-A can exploit the recurring motifs in the grid cell code, and can be integrated with common architectures to achieve strong OOD generalization performance on analogy and arithmetic tasks. This provides both an interpretation of how the grid cell code in the mammalian brain may contribute to generalization performance, and at the same time a potential means for improving such capabilities in artificial neural networks.
翻訳日:2024-01-24 19:42:39 公開日:2024-01-23
# 画像キャプションのための様々なコンテキスト内構成の探索

Exploring Diverse In-Context Configurations for Image Captioning ( http://arxiv.org/abs/2305.14800v6 )

ライセンス: Link先を確認
Xu Yang, Yongliang Wu, Mingzhuo Yang, Haokun Chen, Xin Geng(参考訳) 言語モデル(LM)が文脈内数ショット学習者にとって良いことを発見した後、コンテキスト内シーケンス設定を最適化するための多くの戦略が提案されている。 近年、Vision-Language(VL)ドメインの研究者たちは、最も単純な方法であるieしか使用せずに、数発の学習者も開発している。 テキスト内のイメージとテキストのペアを設定する。 様々な構成がVLインコンテキスト学習に与える影響を検討するために,画像選択のための4つの戦略と,画像キャプションのためのインコンテキスト画像-テキストペアを構成するキャプション代入のための4つの戦略を考案した。 ここでは、視覚条件のLMとして見ることができるため、ケーススタディとして画像キャプションが使用される。 我々の総合的な実験は2つの反直感的だが有意義な洞察を与え、マルチモーダル・シナジーによるVLインコンテキスト学習の特徴をNLPの場合と比較した。 さらに,最適組み合わせ戦略の探索では,ベースラインと比較してCIDErスコアの平均20.9の性能向上が観察された。 コードはhttps://github.com/yongliang-wu/explorecfgで与えられる。

After discovering that Language Models (LMs) can be good in-context few-shot learners, numerous strategies have been proposed to optimize in-context sequence configurations. Recently, researchers in Vision-Language (VL) domains also develop their few-shot learners, while they only use the simplest way, ie., randomly sampling, to configure in-context image-text pairs. In order to explore the effects of varying configurations on VL in-context learning, we devised four strategies for image selection and four for caption assignment to configure in-context image-text pairs for image captioning. Here Image Captioning is used as the case study since it can be seen as the visually-conditioned LM. Our comprehensive experiments yield two counter-intuitive but valuable insights, highlighting the distinct characteristics of VL in-context learning due to multi-modal synergy, as compared to the NLP case. Furthermore, in our exploration of optimal combination strategies, we observed an average performance enhancement of 20.9 of CIDEr scores compared to the baseline. The code is given in https://github.com/yongliang-wu/ExploreCfg.
翻訳日:2024-01-24 19:42:09 公開日:2024-01-23
# 画像誘導ストーリーエンドジェネレーションに対する反復的敵攻撃

Iterative Adversarial Attack on Image-guided Story Ending Generation ( http://arxiv.org/abs/2305.13208v2 )

ライセンス: Link先を確認
Youze Wang, Wenbo Hu, Richang Hong(参考訳) マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。 この分野では、マルチモーダルテキスト生成は、複数のモーダルからのデータ処理とテキスト出力を含む重要な側面である。 画像誘導型ストーリーエンディング生成(IgSEG)は特に重要な課題であり、完全なストーリーエンディングを伴うテキストと画像データの複雑な関係を理解することを目的としている。 残念ながら、最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。 現在の敵攻撃法は主に単一モダリティデータに重点を置いており、クロスモーダル情報を用いたマルチモーダルテキスト生成タスクに対する敵攻撃を解析しない。 そこで本稿では,画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。 実験の結果,提案手法は既存の単一モーダルおよび非定型マルチモーダル攻撃法よりも優れており,多モーダル機械翻訳や多モーダル質問応答など,多モーダルテキスト生成モデルの逆ロバスト性向上の可能性を示している。

Multimodal learning involves developing models that can integrate information from various sources like images and texts. In this field, multimodal text generation is a crucial aspect that involves processing data from multiple modalities and outputting text. The image-guided story ending generation (IgSEG) is a particularly significant task, targeting on an understanding of complex relationships between text and image data with a complete story text ending. Unfortunately, deep neural networks, which are the backbone of recent IgSEG models, are vulnerable to adversarial samples. Current adversarial attack methods mainly focus on single-modality data and do not analyze adversarial attacks for multimodal text generation tasks that use cross-modal information. To this end, we propose an iterative adversarial attack method (Iterative-attack) that fuses image and text modality attacks, allowing for an attack search for adversarial text and image in an more effective iterative way. Experimental results demonstrate that the proposed method outperforms existing single-modal and non-iterative multimodal attack methods, indicating the potential for improving the adversarial robustness of multimodal text generation models, such as multimodal machine translation, multimodal question answering, etc.
翻訳日:2024-01-24 19:41:28 公開日:2024-01-23
# Join: 固有の画像分解のための共同GANインバージョン

JoIN: Joint GANs Inversion for Intrinsic Image Decomposition ( http://arxiv.org/abs/2305.11321v2 )

ライセンス: Link先を確認
Viraj Shah, Svetlana Lazebnik, Julien Philip(参考訳) 本稿では,gan(generative adversarial network)のバンクを先行として,不適切な逆画像問題を解くことを提案し,本手法を顔や素材の固有画像分解に適用する。 提案手法は,複雑な画像分布をキャプチャするGANの実証的な成功に基づいている。 我々のアプローチの核心は、GANの潜伏空間が逆問題を解決するのに適した最適化領域であるという考えである。 入力画像が与えられた場合、GANの集合の潜在符号を共同で反転させ、それらの出力を組み合わせて入力を再生する。 1つのGANのみを反転させるのに制限のあるほとんどのGAN反転法とは対照的に、複数のGANを共同で反転させながら、分布前を維持できることを実証する。 提案手法はモジュラーであり,様々なフォワードイメージングモデルが可能であり,合成画像と実画像の両方をうまく分解できることを示す。

In this work, we propose to solve ill-posed inverse imaging problems using a bank of Generative Adversarial Networks (GAN) as a prior and apply our method to the case of Intrinsic Image Decomposition for faces and materials. Our method builds on the demonstrated success of GANs to capture complex image distributions. At the core of our approach is the idea that the latent space of a GAN is a well-suited optimization domain to solve inverse problems. Given an input image, we propose to jointly inverse the latent codes of a set of GANs and combine their outputs to reproduce the input. Contrary to most GAN inversion methods which are limited to inverting only a single GAN, we demonstrate that it is possible to maintain distribution priors while inverting several GANs jointly. We show that our approach is modular, allowing various forward imaging models, and that it can successfully decompose both synthetic and real images.
翻訳日:2024-01-24 19:41:04 公開日:2024-01-23
# 純状態トモグラフィにおける一意な決定性に対する変分的アプローチ

A Variational Approach to Unique Determinedness in Pure-state Tomography ( http://arxiv.org/abs/2305.10811v2 )

ライセンス: Link先を確認
Chao Zhang, Xuanran Zhu, Bei Zeng(参考訳) 純状態トモグラフィーにおいて、一意決定性(ud)の概念は、測定結果から一意的に純状態を決定する能力である。 本研究は,UD測定方式の構築と検証に関わる課題に対して,堅牢な解決策を提供する,新しい変分的アプローチを提案する。 我々は、特殊に定義された損失関数を最小化し、udと非udの区別を可能にする効果的なアルゴリズムを提案する。 これにより、様々な次元にわたる多数の最適純状態パウリ計測スキームが発見される。 さらに, 純状態 (udp) と全状態 (uda) 間の一意的に決定されたアライメントを, 純状態回復における本質的ロバスト性を前提として, ポーリ測定を用いた場合の qubit システムにおける一意に決定されるアライメントを識別する。 我々は,損失関数の物理的意味を理論的枠組みによってさらに解釈する。 本研究は、量子状態トモグラフィにおけるudの理解を促進するだけでなく、実験応用に有用な実用的な洞察を与え、数学的最適性と実験的実用性とのバランスのとれたアプローチの必要性を浮き彫りにした。

In pure-state tomography, the concept of unique determinedness (UD) -- the ability to uniquely determine pure states from measurement results -- is crucial. This study presents a new variational approach to examining UD, offering a robust solution to the challenges associated with the construction and certification of UD measurement schemes. We put forward an effective algorithm that minimizes a specially defined loss function, enabling the differentiation between UD and non-UD measurement schemes. This leads to the discovery of numerous optimal pure-state Pauli measurement schemes across a variety of dimensions. Additionally, we discern an alignment between uniquely determined among pure states (UDP) and uniquely determined among all states (UDA) in qubit systems when utilizing Pauli measurements, underscoring its intrinsic robustness under pure-state recovery. We further interpret the physical meaning of our loss function, bolstered by a theoretical framework. Our study not only propels the understanding of UD in quantum state tomography forward, but also delivers valuable practical insights for experimental applications, highlighting the need for a balanced approach between mathematical optimality and experimental pragmatism.
翻訳日:2024-01-24 19:40:47 公開日:2024-01-23
# 署名ネットワークにおける防衛同盟

Defensive Alliances in Signed Networks ( http://arxiv.org/abs/2309.06801v2 )

ライセンス: Link先を確認
Emmanuel Arrighi, Zhidan Feng, Henning Fernau, Kevin Mann, Xingqin Qi, Petra Wolf(参考訳) 社会的)ネットワークとマルチエージェントシステムの分析は人工知能の中心的なテーマである。 いくつかの研究は、特定の目標を達成するために協力できるエージェントのグループを見つけることを扱う。 この目的のために、グラフやネットワークの文献にいわゆるクラスタやコミュニティの概念が導入された。 このうち、防衛同盟は量的グループ構造の一種である。 しかし、このような同盟に関するすべての研究は、非常に直感的なレベルでの同盟の形成の中心となる一つの側面を無視しており、エージェントが他のエージェントに対する態度に関して事前条件づけられていると仮定している。 サイン付きネットワークは心理学の文献に導入され、自然にグラフを一般化し、エージェント間の好みや解離をモデル化した。 そこで我々は,署名ネットワークの文脈において,防衛同盟という新たな概念を提案する。 この概念に関連するいくつかの自然アルゴリズム的問題について検討する。 これは、署名されたネットワーク内でエージェントのグループを見つけるという、よく確立されたアイデアである相関クラスタリングの概念と結びついています。 また、符号付きグラフに対する新しい構造パラメータ、符号付き近傍多様性sndを導入し、符号付きグラフで最小の防御的アライアンスを見つけるパラメータ化されたアルゴリズムを示す。

The analysis of (social) networks and multi-agent systems is a central theme in Artificial Intelligence. Some line of research deals with finding groups of agents that could work together to achieve a certain goal. To this end, different notions of so-called clusters or communities have been introduced in the literature of graphs and networks. Among these, defensive alliance is a kind of quantitative group structure. However, all studies on the alliance so for have ignored one aspect that is central to the formation of alliances on a very intuitive level, assuming that the agents are preconditioned concerning their attitude towards other agents: they prefer to be in some group (alliance) together with the agents they like, so that they are happy to help each other towards their common aim, possibly then working against the agents outside of their group that they dislike. Signed networks were introduced in the psychology literature to model liking and disliking between agents, generalizing graphs in a natural way. Hence, we propose the novel notion of a defensive alliance in the context of signed networks. We then investigate several natural algorithmic questions related to this notion. These, and also combinatorial findings, connect our notion to that of correlation clustering, which is a well-established idea of finding groups of agents within a signed network. Also, we introduce a new structural parameter for signed graphs, signed neighborhood diversity snd, and exhibit a parameterized algorithm that finds a smallest defensive alliance in a signed graph.
翻訳日:2024-01-24 19:33:43 公開日:2024-01-23
# ユニバーサルデバイスエンコーディングとグラフアテンションネットワークによるTCADシミュレーションの革新

Revolutionizing TCAD Simulations with Universal Device Encoding and Graph Attention Networks ( http://arxiv.org/abs/2308.11624v2 )

ライセンス: Link先を確認
Guangxi Fan, Leilai Shao, Kain Lu Low(参考訳) TCADデバイスシミュレーションにおける半導体デバイスエンコーディングのための人工知能(AI)とグラフ表現を利用した革新的な手法を提案する。 グラフベースのユニバーサルエンコーディングスキームは、材料レベルおよびデバイスレベルの埋め込みを考えるだけでなく、有限要素メッシュによく使われる補間演算に触発された新しい空間的関係埋め込みを導入する。 デバイスシミュレーションからの普遍的な物理法則は、スロゲートポアソンエミュレーションとドリフト拡散モデルに基づく電流電圧予測を含む包括的なデータ駆動モデリングに活用される。 どちらも、RelGATと呼ばれる新しいグラフアテンションネットワークを用いて実現されている。 デバイスシミュレータsendaurus tcadに基づく包括的な技術的詳細が提示され、研究者はデバイスレベルでai駆動電子設計自動化(eda)ソリューションを採用することができる。

An innovative methodology that leverages artificial intelligence (AI) and graph representation for semiconductor device encoding in TCAD device simulation is proposed. A graph-based universal encoding scheme is presented that not only considers material-level and device-level embeddings, but also introduces a novel spatial relationship embedding inspired by interpolation operations typically used in finite element meshing. Universal physical laws from device simulations are leveraged for comprehensive data-driven modeling, which encompasses surrogate Poisson emulation and current-voltage (IV) prediction based on drift-diffusion model. Both are achieved using a novel graph attention network, referred to as RelGAT. Comprehensive technical details based on the device simulator Sentaurus TCAD are presented, empowering researchers to adopt the proposed AI-driven Electronic Design Automation (EDA) solution at the device level.
翻訳日:2024-01-24 19:33:21 公開日:2024-01-23
# 証明可能な保証によるニューロシンボリック学習における生データの解読

Deciphering Raw Data in Neuro-Symbolic Learning with Provable Guarantees ( http://arxiv.org/abs/2308.10487v2 )

ライセンス: Link先を確認
Lue Tao, Yu-Xuan Huang, Wang-Zhou Dai, Yuan Jiang(参考訳) ニューロシンボリックハイブリッドシステムは機械学習とシンボリック推論の統合に有望であり、認知モデルは論理的な推論を通じてシンボリックな知識ベースから推論された情報によって促進される。 ハイブリッドシステムの正確な知覚モデル学習能力を示す実証的な証拠はあるものの、学習可能性に関する理論的理解はいまだに不足している。 したがって、なぜハイブリッドシステムが特定のタスクに成功し、いつ異なる知識ベースで失敗するかは、まだ不明である。 本稿では,知識ベースから指導信号を特徴付ける新しい手法を導入し,学習を成功させる上での知識の有効性を決定するための基準を確立する。 これにより,上記の2つの質問に,調査対象の知識ベースを検査することで,初めて対処することができる。 分析の結果,多くの知識ベースが基準を満たすことが示唆され,効果的な学習が可能となった。 総合的な実験によりベンチマークタスクにおける基準の有用性を確認した。

Neuro-symbolic hybrid systems are promising for integrating machine learning and symbolic reasoning, where perception models are facilitated with information inferred from a symbolic knowledge base through logical reasoning. Despite empirical evidence showing the ability of hybrid systems to learn accurate perception models, the theoretical understanding of learnability is still lacking. Hence, it remains unclear why a hybrid system succeeds for a specific task and when it may fail given a different knowledge base. In this paper, we introduce a novel way of characterising supervision signals from a knowledge base, and establish a criterion for determining the knowledge's efficacy in facilitating successful learning. This, for the first time, allows us to address the two questions above by inspecting the knowledge base under investigation. Our analysis suggests that many knowledge bases satisfy the criterion, thus enabling effective learning, while some fail to satisfy it, indicating potential failures. Comprehensive experiments confirm the utility of our criterion on benchmark tasks.
翻訳日:2024-01-24 19:32:52 公開日:2024-01-23
# 人間中心のNLP Fact-checking:Matchmaking for AIを用いたFact-checkersの共同設計

Human-centered NLP Fact-checking: Co-Designing with Fact-checkers using Matchmaking for AI ( http://arxiv.org/abs/2308.07213v2 )

ライセンス: Link先を確認
Houjiang Liu, Anubrata Das, Alexander Boltz, Didi Zhou, Daisy Pinaroc, Matthew Lease, Min Kyung Lee(参考訳) ファクトチェックには多くの自然言語処理(NLP)技術が提案されているが、学術研究とファクトチェック機関の両方では、ファクトチェックの実践や価値観、ニーズとの整合性に乏しいため、そのようなNLP作業の採用が制限されていると報告している。 これを解決するために、ファクトチェッカー、デザイナ、NLP研究者が、技術によってどのファクトチェッカーに対処する必要があるかを共同で特定し、潜在的なソリューションのアイデアをブレインストーミングする、共同設計手法であるMatchmaking for AIを調査した。 22のプロのファクトチェッカーによる共同設計セッションでは、"北の星"を提供する11のデザインアイデアが生まれ、ファクトチェッカーの基準を新しいNLPデザイン概念に統合しました。 これらの概念は、事前バンキングミス情報、効率的でパーソナライズされたミス情報の監視、ファクトチェックの潜在的なバイアスを積極的に低減すること、ファクトチェックレポートを共同執筆することなど幅広い。 私たちの研究は、人間中心のファクトチェック研究と実践とaiの共同設計研究の両方に新たな洞察を与えます。

While many Natural Language Processing (NLP) techniques have been proposed for fact-checking, both academic research and fact-checking organizations report limited adoption of such NLP work due to poor alignment with fact-checker practices, values, and needs. To address this, we investigate a co-design method, Matchmaking for AI, to enable fact-checkers, designers, and NLP researchers to collaboratively identify what fact-checker needs should be addressed by technology, and to brainstorm ideas for potential solutions. Co-design sessions we conducted with 22 professional fact-checkers yielded a set of 11 design ideas that offer a "north star", integrating fact-checker criteria into novel NLP design concepts. These concepts range from pre-bunking misinformation, efficient and personalized monitoring misinformation, proactively reducing fact-checker potential biases, and collaborative writing fact-check reports. Our work provides new insights into both human-centered fact-checking research and practice and AI co-design research.
翻訳日:2024-01-24 19:32:35 公開日:2024-01-23
# 2モード量子状態を持つサブショットノイズ干渉計

Sub-shot-noise interferometry with two mode quantum states ( http://arxiv.org/abs/2307.16479v2 )

ライセンス: Link先を確認
Quentin Marolleau, Charlie Leprince, Victor Gondret, Denis Boiron, Christoph I Westbrook(参考訳) 双発フォック状態と2モード圧縮真空状態から始まる不完全な検出器を用いたサブショットノイズ干渉法の実現可能性について検討した。 対応する位相の不確かさに対する解析式を導出する。 我々は、損失が与えられたしきい値よりも小さい限り、標準量子限界以下の位相シフト測定が可能であり、測定された位相が最適値に十分近いことを見出した。 分析公式をPythonパッケージで提供し、オンラインでアクセスします。

We study the feasibility of sub-shot-noise interferometry with imperfect detectors, starting from twin-Fock states and two mode squeezed vacuum states. We derive analytical expressions for the corresponding phase uncertainty. We find that one can achieve phase shift measurements below the standard quantum limit, as long as the losses are smaller than a given threshold, and that the measured phase is close enough to an optimal value. We provide our analytical formulae in a Python package, accessible online.
翻訳日:2024-01-24 19:32:11 公開日:2024-01-23
# 都市部埋め込みのための地域意識多視点表現学習

Region-Wise Attentive Multi-View Representation Learning for Urban Region Embeddings ( http://arxiv.org/abs/2307.03212v2 )

ライセンス: Link先を確認
Weiliang Chan and Qianqian Ren(参考訳) 都市領域の埋め込みは、複雑さと都市データの性質が絶えず変化するため、重要かつ非常に困難な問題である。 この課題に対処するため,我々は,都市域の多視点依存を捉えるための領域ワイズ多視点表現学習(ROMER)を提案し,厳密な地域条件の制約を伴わずに都市域の表現表現を学習する。 本モデルでは,多元都市データから都市域表現を学ぶことに注力する。 まず,モビリティフローパターン,poiセマンティクス,チェックインダイナミクスから多視点相関を捉える。 次に,グラフ内の2つの頂点の類似性を学習するために,グローバルグラフアテンションネットワークを採用する。 複数ビューの特徴を包括的に検討し共有するために,2段階の融合モジュールを提案し,外部の注意を払って重みを学習し,多視点埋め込みを実現する。 実世界のデータセット上での2つの下流タスクに対する大規模な実験により、我々のモデルは最先端の手法を最大17倍改善することを示した。

Urban region embedding is an important and yet highly challenging issue due to the complexity and constantly changing nature of urban data. To address the challenges, we propose a Region-Wise Multi-View Representation Learning (ROMER) to capture multi-view dependencies and learn expressive representations of urban regions without the constraints of rigid neighbourhood region conditions. Our model focus on learn urban region representation from multi-source urban data. First, we capture the multi-view correlations from mobility flow patterns, POI semantics and check-in dynamics. Then, we adopt global graph attention networks to learn similarity of any two vertices in graphs. To comprehensively consider and share features of multiple views, a two-stage fusion module is further proposed to learn weights with external attention to fuse multi-view embeddings. Extensive experiments for two downstream tasks on real-world datasets demonstrate that our model outperforms state-of-the-art methods by up to 17\% improvement.
翻訳日:2024-01-24 19:31:42 公開日:2024-01-23
# 信頼に基づくカスケードデフェデレーションはいつ有効か?

When Does Confidence-Based Cascade Deferral Suffice? ( http://arxiv.org/abs/2307.02764v2 )

ライセンス: Link先を確認
Wittawat Jitkrittum, Neha Gupta, Aditya Krishna Menon, Harikrishna Narasimhan, Ankit Singh Rawat, Sanjiv Kumar(参考訳) カスケードは、一連の分類器が順番に呼び出されるサンプル間で、推論コストを適応的に変化させる古典的な戦略である。 deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。 1つの単純なdeferral ruleは、例えば最大予測ソフトマックス確率に基づいて、現在の分類器の信頼性を利用する。 カスケードの構造(例えば、下流モデルのエラーをモデル化しない)に従順であるにもかかわらず、このような信頼に基づく推論は、実際には非常にうまく機能する。 本稿では,信頼度に基づく推論が失敗する条件と,代替的推論戦略がうまく機能する場合の状況についてより深く理解することを目指す。 まず、信頼に基づく推論が苦しむ可能性のある設定を正確に特徴づける最適deferralルールの理論的特徴付けを示す。 次に, ポストホック・デフェラルのメカニズムについて検討し, 設定における信頼度に基づくデフェラルの大幅な改善を実証する。 (i)下流モデルは入力のサブセットでのみうまく機能する専門家である。 (ii)サンプルはラベルノイズを受けており、 (iii)列車と試験台の間には分布シフトがある。

Cascades are a classical strategy to enable inference cost to vary adaptively across samples, wherein a sequence of classifiers are invoked in turn. A deferral rule determines whether to invoke the next classifier in the sequence, or to terminate prediction. One simple deferral rule employs the confidence of the current classifier, e.g., based on the maximum predicted softmax probability. Despite being oblivious to the structure of the cascade -- e.g., not modelling the errors of downstream models -- such confidence-based deferral often works remarkably well in practice. In this paper, we seek to better understand the conditions under which confidence-based deferral may fail, and when alternate deferral strategies can perform better. We first present a theoretical characterisation of the optimal deferral rule, which precisely characterises settings under which confidence-based deferral may suffer. We then study post-hoc deferral mechanisms, and demonstrate they can significantly improve upon confidence-based deferral in settings where (i) downstream models are specialists that only work well on a subset of inputs, (ii) samples are subject to label noise, and (iii) there is distribution shift between the train and test set.
翻訳日:2024-01-24 19:31:23 公開日:2024-01-23
# 可逆ニューラルネットワークを用いたkoopmanオペレータ学習

Koopman operator learning using invertible neural networks ( http://arxiv.org/abs/2306.17396v2 )

ライセンス: Link先を確認
Yuhuang Meng, Jianguo Huang, Yue Qiu(参考訳) クープマン作用素論において、有限次元非線形系は可観測関数の集合を用いて無限だが線型系に変換される。 しかし、事前知識に基づいてkoopman演算子の不変部分空間にまたがる可観測関数を手動で選択することは非効率的かつ困難である。 さらに、現在の方法論は可観測関数の可逆性の重要性を無視し、不正確な結果をもたらす傾向にある。 これらの課題に対処するために、結合フロー可逆ニューラルネットワーク(CF-INN)フレームワークを利用したフローベース動的モード分解と呼ばれるフローDMDを提案する。 FlowDMDはCF-INNの内在的可逆特性を利用して、クープマン作用素の不変部分空間を学び、状態変数を正確に再構成する。 数値実験により,最先端手法と比較して,アルゴリズムの優れた性能を示す。

In Koopman operator theory, a finite-dimensional nonlinear system is transformed into an infinite but linear system using a set of observable functions. However, manually selecting observable functions that span the invariant subspace of the Koopman operator based on prior knowledge is inefficient and challenging, particularly when little or no information is available about the underlying systems. Furthermore, current methodologies tend to disregard the importance of the invertibility of observable functions, which leads to inaccurate results. To address these challenges, we propose the so-called FlowDMD, aka Flow-based Dynamic Mode Decomposition, that utilizes the Coupling Flow Invertible Neural Network (CF-INN) framework. FlowDMD leverages the intrinsically invertible characteristics of the CF-INN to learn the invariant subspaces of the Koopman operator and accurately reconstruct state variables. Numerical experiments demonstrate the superior performance of our algorithm compared to state-of-the-art methodologies.
翻訳日:2024-01-24 19:30:38 公開日:2024-01-23
# 公正な機械学習のための保険の展望

Insights From Insurance for Fair Machine Learning ( http://arxiv.org/abs/2306.14624v2 )

ライセンス: Link先を確認
Christian Fr\"ohlich and Robert C. Williamson(参考訳) 我々は、保険が機械学習システムの社会的位置のアナロジーとして機能し、機械学習の学者がリッチで学際的な保険文学から洞察を得られることを論じる。 保険における不確実性、公正性、責任の相互作用の追跡は、機械学習における公正性に対する新たな視点を提供する。 我々は、保険の公正の概念を機械学習の親類と結びつけ、この橋を使って公平性を校正として問題化する。 このプロセスでは、主に機械学習の文献で見過ごされてきた2つのテーマ、すなわち責任と集合的個人的緊張を前向きに持ち込みます。

We argue that insurance can act as an analogon for the social situatedness of machine learning systems, hence allowing machine learning scholars to take insights from the rich and interdisciplinary insurance literature. Tracing the interaction of uncertainty, fairness and responsibility in insurance provides a fresh perspective on fairness in machine learning. We link insurance fairness conceptions to their machine learning relatives, and use this bridge to problematize fairness as calibration. In this process, we bring to the forefront two themes that have been largely overlooked in the machine learning literature: responsibility and aggregate-individual tensions.
翻訳日:2024-01-24 19:30:19 公開日:2024-01-23
# 弱教師付きビデオ異常検出のためのプロンプト強化コンテキスト特徴の学習

Learning Prompt-Enhanced Context Features for Weakly-Supervised Video Anomaly Detection ( http://arxiv.org/abs/2306.14451v2 )

ライセンス: Link先を確認
Yujiang Pu, Xiaoyu Wu, Lulu Yang, Shengjin Wang(参考訳) 弱い監督下での映像異常検出は、特に訓練中にフレームレベルのアノテーションが欠如しているため、重大な課題を呈する。 従来の研究では、複数のインスタンス学習(MIL)に基づく分類損失を伴うグラフ畳み込みネットワークと自己認識機構を利用して時間関係をモデル化し、識別的特徴を学習する一方で、これらの手法では、局所的およびグローバルな依存関係を個別にキャプチャするためにマルチブランチアーキテクチャを用いており、パラメータと計算コストが増大する。 さらに、MILに基づく損失のバイナリ制約によって提供される粗粒層間分離性は、異常なクラス内での微粒層識別性を無視する。 そこで本研究では,効率的なコンテキストモデリングとセマンティック識別性の向上に着目した,弱教師付き異常検出フレームワークを提案する。 本稿では,類似度行列を再利用し,適応的融合を実装することで,包括的文脈情報を取り込む時間的コンテキスト集約(tca)モジュールを提案する。 さらに,文脈特徴の識別能力を高めるために知識に基づくプロンプトを用いて意味的優先の統合を行い,異常サブクラス間の分離性を確保したprompten-enhanced learning (pel)モジュールを提案する。 提案手法の有効性を検証する広範な実験を行い, ucf-crime, xd-violence, shanghaitechデータセットの3つの難解なベンチマークにおいて,パラメータの削減と計算労力の削減による競合性能の実証を行った。 特に,本手法は,異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を明らかにする。 私たちのコードは、https://github.com/yujiangpu20/pel4vadで利用可能です。

Video anomaly detection under weak supervision presents significant challenges, particularly due to the lack of frame-level annotations during training. While prior research has utilized graph convolution networks and self-attention mechanisms alongside multiple instance learning (MIL)-based classification loss to model temporal relations and learn discriminative features, these methods often employ multi-branch architectures to capture local and global dependencies separately, resulting in increased parameters and computational costs. Moreover, the coarse-grained interclass separability provided by the binary constraint of MIL-based loss neglects the fine-grained discriminability within anomalous classes. In response, this paper introduces a weakly supervised anomaly detection framework that focuses on efficient context modeling and enhanced semantic discriminability. We present a Temporal Context Aggregation (TCA) module that captures comprehensive contextual information by reusing the similarity matrix and implementing adaptive fusion. Additionally, we propose a Prompt-Enhanced Learning (PEL) module that integrates semantic priors using knowledge-based prompts to boost the discriminative capacity of context features while ensuring separability between anomaly sub-classes. Extensive experiments validate the effectiveness of our method's components, demonstrating competitive performance with reduced parameters and computational effort on three challenging benchmarks: UCF-Crime, XD-Violence, and ShanghaiTech datasets. Notably, our approach significantly improves the detection accuracy of certain anomaly sub-classes, underscoring its practical value and efficacy. Our code is available at: https://github.com/yujiangpu20/PEL4VAD.
翻訳日:2024-01-24 19:30:08 公開日:2024-01-23
# 量子力学の時空対称展開:解釈と到着時予測

Space-time-symmetric extension of quantum mechanics: Interpretation and arrival-time predictions ( http://arxiv.org/abs/2306.12000v2 )

ライセンス: Link先を確認
Ruben E. Ara\'ujo, Ricardo Ximenes, and Eduardo O. Dias(参考訳) 時間が自己随伴作用素となり、位置がパラメータとなる別の量子化規則が、Dias and Parisio [Phys] によって提案された。 rev. a {\bf 95}, 032133 (2017)]。 このアプローチでは、著者らは量子力学の時空対称(sts)拡張(qm)を導出し、そこでは空間の各点において新しい量子状態(粒子に内在する) |{\phi}(x)\rangle$ が定義される。 $|\phi(x)\rangle$ は空間条件 (SC) Schr\\odinger 方程式に従い、$|t\rangle$, $\langle t|\phi(x)\rangle$ 上の射影は、粒子の到着時刻の確率振幅を$x$ とする。 本稿では、まず、SC Schr\"odinger 方程式と STS 拡張における観測値の固有状態の解釈を提供する。通常の QM と類似して、x_0$ で局所化された検出器によって実行される粒子の任意の測定を予測できる「初期」状態 $|\phi(x_0)\rangle$ -- により、SC Schr\"odinger 方程式は $|\phi(x)\rangle={\hat U}(x,x_0)|\phi(x_0)\rangle$ を提供するので、検出器が $x \lessgtr x_0$ であるときの測定を予測できる。 また、空間依存ポテンシャルに対して、STS 拡張における運動量固有状態 $|P_b(x)\rangle$ は、通常の QM のエネルギー固有状態が時間依存ポテンシャルの時間に依存するように位置に依存することを検証する。 この文脈では、標準 qm における運動量固有状態の粒子が ||\psi(t)\rangle=|p\rangle|_t$ であるのに対して、時刻 $t$ は運動量 $p$(かつ不定な位置)を持つが、状態における同じ粒子は $|\phi(x)\rangle=|p_b(x)\rangle$ である。 $|\psi(t)\rangle$ と $|{\phi}(x)\rangle$ は、それぞれ$t$ と $x$ で収集された同じ観測可能量の実験データを記述しているという事実を調べることで、同じ粒子について補完的な情報を提供すると結論付ける。

An alternative quantization rule, in which time becomes a self-adjoint operator and position is a parameter, was proposed by Dias and Parisio [Phys. Rev. A {\bf 95}, 032133 (2017)]. In this approach, the authors derive a space-time-symmetric (STS) extension of quantum mechanics (QM) where a new quantum state (intrinsic to the particle), $|{\phi}(x)\rangle$, is defined at each point in space. $|\phi(x)\rangle$ obeys a space-conditional (SC) Schr\"odinger equation and its projection on $|t\rangle$, $\langle t|\phi(x)\rangle$, represents the probability amplitude of the particle's arrival time at $x$. In this work, first we provide an interpretation of the SC Schr\"odinger equation and the eigenstates of observables in the STS extension. Analogous to the usual QM, we propose that by knowing the "initial" state $|\phi(x_0)\rangle$ -- which predicts any measurement on the particle performed by a detector localized at $x_0$ -- the SC Schr\"odinger equation provides $|\phi(x)\rangle={\hat U}(x,x_0)|\phi(x_0)\rangle$, enabling us to predict measurements when the detector is at $x \lessgtr x_0$. We also verify that for space-dependent potentials, momentum eigenstates in the STS extension, $|P_b(x)\rangle$, depend on position just as energy eigenstates in the usual QM depend on time for time-dependent potentials. In this context, whereas a particle in the momentum eigenstate in the standard QM, $|\psi(t)\rangle=|P\rangle|_t$, at time $t$, has momentum $P$ (and indefinite position), the same particle in the state $|\phi(x)\rangle=|P_b(x)\rangle$ arrives at position $x$ with momentum $P_b(x)$ (and indefinite arrival time). By investigating the fact that $|\psi(t)\rangle$ and $|{\phi}(x)\rangle$ describe experimental data of the same observables collected at $t$ and $x$, respectively, we conclude that they provide complementary information about the same particle...
翻訳日:2024-01-24 19:29:36 公開日:2024-01-23
# 抗癌剤感受性予測のためのGPT-3の評価

Evaluation of GPT-3 for Anti-Cancer Drug Sensitivity Prediction ( http://arxiv.org/abs/2309.10016v2 )

ライセンス: Link先を確認
Shaika Chowdhury, Sivaraman Rajaganapathy, Lichao Sun, James Cerhan, Nansu Zong(参考訳) 本研究では,5種類の組織にまたがる構造化医薬ゲノムデータを用いた抗がん剤感受性予測タスクにおけるGPT-3の有用性を検討した。 この薬剤の笑顔表現と細胞株のゲノム変異の特徴は、薬物応答の予測であった。 この研究の成果は、精密腫瘍学においてより効率的な治療プロトコルを設計する道を開く可能性を秘めている。

In this study, we investigated the potential of GPT-3 for the anti-cancer drug sensitivity prediction task using structured pharmacogenomics data across five tissue types and evaluated its performance with zero-shot prompting and fine-tuning paradigms. The drug's smile representation and cell line's genomic mutation features were predictive of the drug response. The results from this study have the potential to pave the way for designing more efficient treatment protocols in precision oncology.
翻訳日:2024-01-24 19:21:39 公開日:2024-01-23
# 文脈バイアスと開語彙キーワードスポッティングを用いたマルチタスク学習によるWhisperの強化

A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting ( http://arxiv.org/abs/2309.09552v3 )

ライセンス: Link先を確認
Yuang Li, Yinglu Li, Min Zhang, Chang Su, Mengxin Ren, Xiaosong Qiao, Xiaofeng Zhao, Mengyao Piao, Jiawei Yu, Xinglin Lv, Miaomiao Ma, Yanqing Zhao, Hao Yang(参考訳) エンド・ツー・エンド自動音声認識(asr)システムは、個人名、組織、用語など、トレーニングデータにあまり遭遇しない珍しい名前のエンティティを認識するのに苦労することが多い。 本稿では,openai のwhisper モデルに基づく新しいasrシステムである context biasing whisper (cb-whisper) を提案する。 認識されたエンティティは、whisperデコーダのプロンプトとして使用される。 まず,OV-KWS タスクと ASR タスクを併用したマルチタスク学習手法を提案する。 実験により,中国語のAishellホットワードサブセットと2つの内部コードスウィッチテストセットのWhisperモデルと比較して,エンティティリコールを大幅に改善した。 しかし,大惨事による内部テストセットにおける混合エラーレート(mer)の増加がみられた。 そこで本研究では, ov-kwsを別モジュールとして使用し, 幻覚を防止すべく, 発声型プロンプトを構築することを提案する。 OV-KWSモジュールは、小さめ、中、大型モデルのMERとEntity Recallを一貫して改善する。

End-to-end automatic speech recognition (ASR) systems often struggle to recognize rare name entities, such as personal names, organizations, and terminologies not frequently encountered in the training data. This paper presents Contextual Biasing Whisper (CB-Whisper), a novel ASR system based on OpenAI's Whisper model that can recognize user-defined name entities by performing open-vocabulary keyword-spotting (OV-KWS) using the hidden states of Whisper encoder. The recognized entities are used as prompts for the Whisper decoder. We first propose a multitask training approach with OV-KWS and ASR tasks to optimize the model. Experiments show that this approach substantially improves the entity recalls compared to the original Whisper model on Chinese Aishell hot word subsets and two internal code-switch test sets. However, we observed a slight increase in mixed-error-rate (MER) on internal test sets due to catastrophic forgetting. To address this problem and use different sizes of the Whisper model without finetuning, we propose to use OV-KWS as a separate module and construct a spoken form prompt to prevent hallucination. The OV-KWS module consistently improves MER and Entity Recall for whisper-small, medium, and large models.
翻訳日:2024-01-24 19:21:30 公開日:2024-01-23
# 脳卒中における失語症重症度予測の不確かさの定量化

Quantifying predictive uncertainty of aphasia severity in stroke patients with sparse heteroscedastic Bayesian high-dimensional regression ( http://arxiv.org/abs/2309.08783v3 )

ライセンス: Link先を確認
Anja Zgodic, Ray Bai, Jiajia Zhang, Yuan Wang, Chris Rorden, Alexander McLain(参考訳) 高次元データに対する疎線型回帰法は、通常、残留物が一定の分散を持つと仮定する。 例えば、Aphasia Quotient(AQ)は言語障害の重要な尺度であり、治療決定を通知するが、脳卒中患者の測定は困難である。 脳損傷の高分解能T2神経画像を用いてAQを予測することが重要である。 しかし、スパース回帰モデルは変換が適用された後もヘテロシデスティックな誤りの顕著な証拠を示す。 この相似性仮定の違反は、推定係数のバイアス、不適切な長さの予測間隔(PI)、I型エラーの増加につながる可能性がある。 ベイズ的ヘテロ代数学的線形回帰モデルはホモ代数学的誤差の仮定を緩和するが、パラメータに対する制限的な事前仮定を強制することができる。 本稿では,h-probe(heteroscedastic partitioned empirical bayes expectal conditional maximization)アルゴリズムを用いた,高次元ヘテロシデスティック線形回帰モデルの推定法を提案する。 H-PROBE は計算効率のよい最大余剰推定法であり、最小の事前仮定を必要とする。 本研究では,高次元神経画像を用いて予測の不確かさを正確に定量化するためのAQのためのPIを提供する。 分析の結果,H-PROBEは適用範囲を犠牲にすることなく,標準手法よりも狭いPI幅を提供できることが示された。 狭義のPIは中等度から重度の失語リスクを決定するために臨床的に重要である。 さらに,H-PROBEによる予測,変数選択,予測推測が,他の手法と比較して優れていることを示す。

Sparse linear regression methods for high-dimensional data commonly assume that residuals have constant variance, which can be violated in practice. For example, Aphasia Quotient (AQ) is a critical measure of language impairment and informs treatment decisions, but it is challenging to measure in stroke patients. It is of interest to use high-resolution T2 neuroimages of brain damage to predict AQ. However, sparse regression models show marked evidence of heteroscedastic error even after transformations are applied. This violation of the homoscedasticity assumption can lead to bias in estimated coefficients, prediction intervals (PI) with improper length, and increased type I errors. Bayesian heteroscedastic linear regression models relax the homoscedastic error assumption but can enforce restrictive prior assumptions on parameters, and many are computationally infeasible in the high-dimensional setting. This paper proposes estimating high-dimensional heteroscedastic linear regression models using a heteroscedastic partitioned empirical Bayes Expectation Conditional Maximization (H-PROBE) algorithm. H-PROBE is a computationally efficient maximum a posteriori estimation approach that requires minimal prior assumptions and can incorporate covariates hypothesized to impact heterogeneity. We apply this method by using high-dimensional neuroimages to predict and provide PIs for AQ that accurately quantify predictive uncertainty. Our analysis demonstrates that H-PROBE can provide narrower PI widths than standard methods without sacrificing coverage. Narrower PIs are clinically important for determining the risk of moderate to severe aphasia. Additionally, through extensive simulation studies, we exhibit that H-PROBE results in superior prediction, variable selection, and predictive inference compared to alternative methods.
翻訳日:2024-01-24 19:21:04 公開日:2024-01-23
# narratives of war: ukraine memetic warfare on twitter (英語)

Narratives of War: Ukrainian Memetic Warfare on Twitter ( http://arxiv.org/abs/2309.08363v2 )

ライセンス: Link先を確認
Yelena Mejova, Arthur Capozzi, Corrado Monti, Gianmarco De Francisci Morales(参考訳) 2022年のロシアによるウクライナ侵攻は、サイバー戦争において政府関係者によるソーシャルメディアの利用が激化している。 ミームによる戦時コミュニケーションは、@uamemesforcesのような独立したアカウントだけでなく、@ウクライナや@DefenceUのような公式ウクライナ政府アカウントによる完全な国家間戦争でも、初めて成功した戦略だ。 我々は、物語のレンズを通して、この目覚ましい戦法を研究し、それらを成功の鍵となる要素とみなす:「活気のある」物語のツイートは、リツイートの2倍の回数である。 しかし、敵に焦点を絞った邪悪な物語は、ウクライナにより多くの援助を提供する国と英雄主義や犠牲者についてより多く共鳴する。 以上の結果から,ウクライナの影響行動とそれに対する世界的な対応を微妙に検証し,戦時における社会技術的システムの進化に関する新たな知見を得た。

The 2022 Russian invasion of Ukraine has seen an intensification in the use of social media by governmental actors in cyber warfare. Wartime communication via memes has been a successful strategy used not only by independent accounts such as @uamemesforces, but also-for the first time in a full-scale interstate war-by official Ukrainian government accounts such as @Ukraine and @DefenceU. We study this prominent example of memetic warfare through the lens of its narratives, and find them to be a key component of success: tweets with a 'victim' narrative garner twice as many retweets. However, malevolent narratives focusing on the enemy resonate more than those about heroism or victims with countries providing more assistance to Ukraine. Our findings present a nuanced examination of Ukraine's influence operations and of the worldwide response to it, thus contributing new insights into the evolution of socio-technical systems in times of war.
翻訳日:2024-01-24 19:20:22 公開日:2024-01-23
# 量子局所テスト可能な符号のトレードオフ構成

Tradeoff Constructions for Quantum Locally Testable Codes ( http://arxiv.org/abs/2309.05541v3 )

ライセンス: Link先を確認
Adam Wills, Ting-Chun Lin, Min-Hsiu Hsieh(参考訳) 本研究では,新しいパラメータの量子ローカルテスト可能なコード(qltcs)の探索を継続し,新しいqltcを古いものにする3つの構成を提示する。 第一に、量子符号の音質をHastingsのqLDPC符号の重み付け構造(arXiv:2102.10030)で解析し、qLTCの重み付け手順を与える。 次に,任意のqltcの音質を一定に増やし,その距離と寸法を保ちながら,その局所性にのみ影響する,qltcsの新しい「音度増幅」手順について述べる。 最後に、ael距離増幅構造をqltcsの場合に初めて適用し、他のパラメータを犠牲にして、高距離qltcを線形距離の1つにすることができる。 これらの構成は、未発見のqltcsで新しいパラメータを取得するために使用できるが、以前は未知のパラメータレジームでコードの存在を証明するために、現在多くのアプリケーションも発見している。 特に、これらの操作のハイパースフィア製品コード arXiv:1608.05089 やヘミノビックコード arXiv:1911.03069 への応用は、これまで知られていなかった多くのパラメータをもたらす。 さらに、音の増幅は、(局所的なテスト可能ではなく)最初の漸近的に優れた量子コード(線形距離と次元を持つもの)と定音性を生成するために用いられる。 最後に、次の3つの結果の応用について説明する。

In this work, we continue the search for quantum locally testable codes (qLTCs) of new parameters by presenting three constructions that can make new qLTCs from old. The first analyses the soundness of a quantum code under Hastings' weight reduction construction for qLDPC codes arXiv:2102.10030 to give a weight reduction procedure for qLTCs. Secondly, we describe a novel `soundness amplification' procedure for qLTCs which can increase the soundness of any qLTC to a constant while preserving its distance and dimension, with an impact only felt on its locality. Finally, we apply the AEL distance amplification construction to the case of qLTCs for the first time which can turn a high-distance qLTC into one with linear distance, at the expense of other parameters. These constructions can be used on as-yet undiscovered qLTCs to obtain new parameters, but we also find a number of present applications to prove the existence of codes in previously unknown parameter regimes. In particular, applications of these operations to the hypersphere product code arXiv:1608.05089 and the hemicubic code arXiv:1911.03069 yield many previously unknown parameters. Additionally, soundness amplification can be used to produce the first asymptotically good testable quantum code (rather than locally testable) - that being one with linear distance and dimension, as well as constant soundness. Lastly, applications of all three results are described to an upcoming work.
翻訳日:2024-01-24 19:19:44 公開日:2024-01-23
# VGDiffZero:テキストと画像の拡散モデルはゼロショットのビジュアルグラウンド

VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders ( http://arxiv.org/abs/2309.01141v4 )

ライセンス: Link先を確認
Xuyang Liu, Siteng Huang, Yachen Kang, Honggang Chen, Donglin Wang(参考訳) 大規模テキストから画像への拡散モデルは、事前学習から強い視覚言語アライメントを活用することで、生成的タスクに素晴らしい能力を示している。 しかし、視覚言語識別タスクの多くは、時間と計算リソースに大きなコストをかけて、そのようなアライメントを得るために注意深くラベルされたデータセットを広範囲に微調整する必要がある。 本研究では,事前学習した生成拡散モデルを直接,微調整や追加の訓練データセットを使わずに視覚的接地を識別する難しいタスクに適用することを検討する。 具体的には,テキストから画像への拡散モデルに基づく,単純かつ効果的なゼロショット視覚接地フレームワークであるvgdiffzeroを提案する。 また,各提案のグローバルコンテキストとローカルコンテキストの両方を考慮した包括的領域スケーリング手法を設計する。 RefCOCO、RefCOCO+、RefCOCOgの大規模な実験は、VGDiffZeroがゼロショットの視覚的グラウンドで強いパフォーマンスを達成することを示している。 私たちのコードはhttps://github.com/xuyang-liu16/vgdiffzeroで利用可能です。

Large-scale text-to-image diffusion models have shown impressive capabilities for generative tasks by leveraging strong vision-language alignment from pre-training. However, most vision-language discriminative tasks require extensive fine-tuning on carefully-labeled datasets to acquire such alignment, with great cost in time and computing resources. In this work, we explore directly applying a pre-trained generative diffusion model to the challenging discriminative task of visual grounding without any fine-tuning and additional training dataset. Specifically, we propose VGDiffZero, a simple yet effective zero-shot visual grounding framework based on text-to-image diffusion models. We also design a comprehensive region-scoring method considering both global and local contexts of each isolated proposal. Extensive experiments on RefCOCO, RefCOCO+, and RefCOCOg show that VGDiffZero achieves strong performance on zero-shot visual grounding. Our code is available at https://github.com/xuyang-liu16/VGDiffZero.
翻訳日:2024-01-24 19:18:46 公開日:2024-01-23
# speechtokenizer: 音声大言語モデルのための統一音声トークン化子

SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models ( http://arxiv.org/abs/2308.16692v2 )

ライセンス: Link先を確認
Xin Zhang, Dong Zhang, Shimin Li, Yaqian Zhou, Xipeng Qiu(参考訳) 現在の音声大言語モデルは、個別の音声表現に基づいて構築されており、意味トークンと音響トークンに分類することができる。 しかし、既存の音声トークンは、特に言語モデリングのために設計されていない。 音声言語モデル構築における音声トークンの適合性を評価するため,最初のベンチマークslmtokbenchを開発した。 その結果,この目的のために意味トークンや音響トークンは理想的ではないことがわかった。 そこで本稿では,大言語モデルのための統一音声トークンであるSpeechTokenizerを提案する。 SpeechTokenizerは、残差ベクトル量子化(RVQ)を備えたEncoder-Decoderアーキテクチャを採用している。 意味的および音響的トークンを統一するSpeechTokenizerは、異なるRVQ層に階層的に音声情報の異なる側面を分離する。 さらに,SpeechTokenizerを利用した統一音声言語モデル(USLM)を構築した。 実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。 また、USLMはゼロショットテキスト音声タスクにおいてVALL-Eより優れている。 コードとモデルはhttps://github.com/zhangxinfd/speechtokenizer/で入手できる。

Current speech large language models build upon discrete speech representations, which can be categorized into semantic tokens and acoustic tokens. However, existing speech tokens are not specifically designed for speech language modeling. To assess the suitability of speech tokens for building speech language models, we established the first benchmark, SLMTokBench. Our results indicate that neither semantic nor acoustic tokens are ideal for this purpose. Therefore, we propose SpeechTokenizer, a unified speech tokenizer for speech large language models. SpeechTokenizer adopts the Encoder-Decoder architecture with residual vector quantization (RVQ). Unifying semantic and acoustic tokens, SpeechTokenizer disentangles different aspects of speech information hierarchically across different RVQ layers. Furthermore, We construct a Unified Speech Language Model (USLM) leveraging SpeechTokenizer. Experiments show that SpeechTokenizer performs comparably to EnCodec in speech reconstruction and demonstrates strong performance on the SLMTokBench benchmark. Also, USLM outperforms VALL-E in zero-shot Text-to-Speech tasks. Code and models are available at https://github.com/ZhangXInFD/SpeechTokenizer/.
翻訳日:2024-01-24 19:18:29 公開日:2024-01-23
# PET画像再構成のためのスコアベース生成モデル

Score-Based Generative Models for PET Image Reconstruction ( http://arxiv.org/abs/2308.14190v2 )

ライセンス: Link先を確認
Imraj RD Singh, Alexander Denker, Riccardo Barbano, \v{Z}eljko Kereta, Bangti Jin, Kris Thielemans, Peter Maass, Simon Arridge(参考訳) スコアに基づく生成モデルは、磁気共鳴画像およびctにおける医用画像再構成タスクにおいて、非常に有望な結果を示している。 しかし、ポジトロン・エミッション・トモグラフィー(PET)への応用はいまだに未発見である。 pet画像再構成には多種多様な課題があり、高いばらつきと広いダイナミックレンジのポアソンノイズがある。 これらの課題に対処するために、PET固有のスコアベース生成モデルの適応法を提案する。 提案するフレームワークは, 2D PET と 3D PET の両方に対して開発された。 また,磁気共鳴画像を用いたガイド再構成の拡張も提供する。 病変のない患者実効的データを用いたモデルを用いて2dおよび3d$\textit{in-silico}$実験を行い,病変のないデータおよび病変の分布データの評価を行った。 提案手法のロバスト性およびPET再建における有意義な可能性を示す。

Score-based generative models have demonstrated highly promising results for medical image reconstruction tasks in magnetic resonance imaging or computed tomography. However, their application to Positron Emission Tomography (PET) is still largely unexplored. PET image reconstruction involves a variety of challenges, including Poisson noise with high variance and a wide dynamic range. To address these challenges, we propose several PET-specific adaptations of score-based generative models. The proposed framework is developed for both 2D and 3D PET. In addition, we provide an extension to guided reconstruction using magnetic resonance images. We validate the approach through extensive 2D and 3D $\textit{in-silico}$ experiments with a model trained on patient-realistic data without lesions, and evaluate on data without lesions as well as out-of-distribution data with lesions. This demonstrates the proposed method's robustness and significant potential for improved PET reconstruction.
翻訳日:2024-01-24 19:17:48 公開日:2024-01-23
# プランクスケール物理学からの光のスクイーズ

Squeezing of light from Planck-scale physics ( http://arxiv.org/abs/2308.13788v4 )

ライセンス: Link先を確認
Danilo Artigas, Killian Martineau, Jakub Mielczarek(参考訳) 本稿では,プランクスケール効果による非古典的な光の発生の可能性を検討する。 この目的のために、ハイゼンベルクの不確かさ関係の変形モデルがシングルモードおよびマルチモード光に広く研究されている。 このモデルにより変形した分散関係が導かれ、光子の到着時に進行する。 鍵となる発見は、このモデルが光の状態を絞る振動パターンにもつながることだ。 さらに、振動の振幅はエネルギー固有状態に対して一定であるが、消滅作用素固有値 $\alpha \neq0 $ のコヒーレント状態に対する線形成長を示す。 この2つ目のケースは、天体物理学的な光子にとって重要な、スクイーズと位相空間の変位の蓄積につながる。 特に、$\alpha \sim 1$ の場合、メガパーセク距離で放出される光学スペクトルのコヒーレント光は、オーダーユニティの振幅でスクイージングを得る。 これは、遠い天体物理源に由来する光の非古典的性質の測定が、これらの予測をテストするために窓を開くことを示唆している。

In this article, the possibility of generating non-classical light due to Planck-scale effects is considered. For this purpose, a widely studied model of deformation of the Heisenberg uncertainty relation is applied to single-mode and multi-mode lights. The model leads to a deformed dispersion relation, which manifests in an advancement in the time of arrival of photons. The key finding is that the model also leads to an oscillatory pattern of squeezing of the state of light. Furthermore, while the amplitude of the oscillations is constant for energy eigenstates, it exhibits linear growth over time for coherent states with the annihilation operator eigenvalue $\alpha \neq0 $. This second case leads to the accumulation of squeezing and phase-space displacement, which can be significant for astrophysical photons. In particular, for $\alpha \sim 1$, coherent light in the optical spectrum emitted at megaparsec distances would acquire squeezing with the amplitude of the order unity. This suggests that measurements of the non-classical properties of light originating from distant astrophysical sources may open a window to test these predictions.
翻訳日:2024-01-24 19:17:36 公開日:2024-01-23
# 有限温度でのガウスボソンサンプリング

Gaussian boson sampling at finite temperature ( http://arxiv.org/abs/2308.13291v2 )

ライセンス: Link先を確認
Gabriele Bressanini, Hyukjoon Kwon and M.S. Kim(参考訳) ガウスボソンサンプリング(GBS)は、光子を用いた量子優位性の実験的な実証の候補である。 しかし、十分な大きなノイズは、GBS実装が量子スピードアップが達成可能な状態に入るのを妨げる可能性がある。 本稿では, 一般的な量子光学サンプリング実験において, 熱雑音が古典的誘引性に与える影響について検討する。 我々は、効率的なシミュレーションを実現するための十分な条件を確立し、システムと不完全性を特徴づける関連するパラメータ間の不等式で表現する。 熱雑音の付加は、量子効果を示すために必要となる残雑音パラメータの制約を締め付ける効果があることを示す。 さらに,量子サンプリング実験が古典的シミュレート可能となる閾値温度が存在することを示し,この現象を量子状態の非古典的性質の消失と関連づけることで直感的な物理解釈を提供する。

Gaussian boson sampling (GBS) is a promising candidate for an experimental demonstration of quantum advantage using photons. However, sufficiently large noise might hinder a GBS implementation from entering the regime where quantum speedup is achievable. Here, we investigate how thermal noise affects the classical intractability of generic quantum optical sampling experiments, GBS being a particular instance of the latter. We do so by establishing sufficient conditions for an efficient simulation to be feasible, expressed in the form of inequalities between the relevant parameters that characterize the system and its imperfections. We demonstrate that the addition of thermal noise has the effect of tightening the constraints on the remaining noise parameters, required to show quantum advantage. Furthermore, we show that there exist a threshold temperature at which any quantum sampling experiment becomes classically simulable, and provide an intuitive physical interpretation by relating this occurrence with the disappearance of the quantum state's non-classical properties.
翻訳日:2024-01-24 19:17:17 公開日:2024-01-23
# 大規模言語モデルの投票:まれな疾患の特定を促す

Large Language Models Vote: Prompting for Rare Disease Identification ( http://arxiv.org/abs/2308.12890v3 )

ライセンス: Link先を確認
David Oniani, Jordan Hilsman, Hang Dong, Fengyi Gao, Shiven Verma, Yanshan Wang(参考訳) 生成型大言語モデル(llms)の出現は、正確かつ効率的なプロンプトアプローチの必要性を強調している。 LLMはFew-Shot Learning(FSL)のコンテキストによく適用され、最小限のトレーニングデータでタスクが実行される。 FSLは、健康のためのAIを含む多くの人工知能(AI)サブドメインで人気を集めている。 まれな病気は人口のごく一部に影響する。 臨床ノートからの希少な疾患の同定には、データ可用性が制限されているため、本質的にFSL技術が必要である。 手動のデータ収集とアノテーションは高価かつ時間を要する。 本稿では,FSL 設定における LLM クエリの性能向上のためのフレキシブルなプロンプト手法である Models-Vote Prompting (MVP) を提案する。 MVPは多数のLCMに同じタスクを実行させ、その結果のアウトプットに対して過半数の投票を行う。 本手法は,1ショットの稀な疾患の同定と分類作業において,アンサンブル内の任意のモデルに対して改善された結果を達成する。 また、MIMIC-IV Data Use Agreement (DUA)に署名した人にも利用可能な、FSLのための新たなレアな疾患データセットをリリースする。 さらに、MVPでは、各モデルを複数回トリガーし、手動アノテーションに必要な時間を大幅に増加させ、これに対応するために、生成LDM評価を自動化するためにJSONを使用することの可能性を評価する。

The emergence of generative Large Language Models (LLMs) emphasizes the need for accurate and efficient prompting approaches. LLMs are often applied in Few-Shot Learning (FSL) contexts, where tasks are executed with minimal training data. FSL has become popular in many Artificial Intelligence (AI) subdomains, including AI for health. Rare diseases affect a small fraction of the population. Rare disease identification from clinical notes inherently requires FSL techniques due to limited data availability. Manual data collection and annotation is both expensive and time-consuming. In this paper, we propose Models-Vote Prompting (MVP), a flexible prompting approach for improving the performance of LLM queries in FSL settings. MVP works by prompting numerous LLMs to perform the same tasks and then conducting a majority vote on the resulting outputs. This method achieves improved results to any one model in the ensemble on one-shot rare disease identification and classification tasks. We also release a novel rare disease dataset for FSL, available to those who signed the MIMIC-IV Data Use Agreement (DUA). Furthermore, in using MVP, each model is prompted multiple times, substantially increasing the time needed for manual annotation, and to address this, we assess the feasibility of using JSON for automating generative LLM evaluation.
翻訳日:2024-01-24 19:17:02 公開日:2024-01-23
# タスク固有の知識をエンコードするoutlier次元

Outlier Dimensions Encode Task-Specific Knowledge ( http://arxiv.org/abs/2310.17715v2 )

ライセンス: Link先を確認
William Rudman, Catherine Chen, and Carsten Eickhoff(参考訳) 大規模言語モデル(LLM)からの表現は、非常に高い分散を持つ次元の小さなサブセットによって支配されていることが知られている。 従来の研究は、LLM表現におけるこれらの外接次元の非難は下流のパフォーマンスを損なうが、外接次元は埋め込みの表現品質に有害であると主張している。 本研究では,微調整が外周寸法に与える影響について検討し,その有効性を示す。 1)事前訓練で発生する外周寸法は微調整モデルで継続する。 2) 1つの外れ値次元は、最小エラー率で下流タスクを完了することができる。 結果から,外乱次元は重要なタスク固有知識を符号化し,一方の外乱次元における表現の値が下流モデル決定を駆動できることが示唆された。

Representations from large language models (LLMs) are known to be dominated by a small subset of dimensions with exceedingly high variance. Previous works have argued that although ablating these outlier dimensions in LLM representations hurts downstream performance, outlier dimensions are detrimental to the representational quality of embeddings. In this study, we investigate how fine-tuning impacts outlier dimensions and show that 1) outlier dimensions that occur in pre-training persist in fine-tuned models and 2) a single outlier dimension can complete downstream tasks with a minimal error rate. Our results suggest that outlier dimensions can encode crucial task-specific knowledge and that the value of a representation in a single outlier dimension drives downstream model decisions.
翻訳日:2024-01-24 19:09:10 公開日:2024-01-23
# HetGPT: 事前学習した不均一グラフニューラルネットワークにおけるプロンプトチューニングのパワーを損なう

HetGPT: Harnessing the Power of Prompt Tuning in Pre-Trained Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2310.15318v3 )

ライセンス: Link先を確認
Yihong Ma, Ning Yan, Jiayu Li, Masood Mortazavi and Nitesh V. Chawla(参考訳) グラフは、webの複雑なパターンやリッチな情報を表現し分析するための自然な選択として登場し、オンラインページ分類やソーシャルレコメンデーションといったアプリケーションを可能にする。 一般的な"pre-train, fine-tune"パラダイムは、グラフ機械学習タスク、特にラベル付きノードが制限されたシナリオで広く採用されている。 しかしながら、このアプローチは、しばしば、前文タスクのトレーニング目標と下流タスクのトレーニング目標のミスバランスを示す。 このギャップは,事前トレーニングから得られた知識が下流タスクのパフォーマンスに悪影響を及ぼすという,“負の転送”問題を引き起こす可能性がある。 自然言語処理(NLP)におけるプロンプトベースの学習の急増は、グラフに"事前訓練、プロンプト"パラダイムを適用する可能性を示唆している。 しかし、既存のグラフプロンプト技術は、Webグラフ固有の不均一性を無視して、均質グラフに適合する。 このギャップを埋めるため,我々は,事前学習されたヘテロジニアスグラフニューラルネットワーク(hgnns)の予測性能を向上させる汎用後学習促進フレームワークhetgptを提案する。 キーとなるのは,仮想クラスプロンプトと異種機能プロンプトを統合した,新しいプロンプト関数の設計である。 さらに、HetGPTは多視点近傍集約機構を導入し、複素近傍構造をヘテロジニアスグラフで捉える。 3つのベンチマークデータセットに対する大規模な実験は、半教師付きノード分類における最先端HGNNの性能を高めるHetGPTの機能を示す。

Graphs have emerged as a natural choice to represent and analyze the intricate patterns and rich information of the Web, enabling applications such as online page classification and social recommendation. The prevailing "pre-train, fine-tune" paradigm has been widely adopted in graph machine learning tasks, particularly in scenarios with limited labeled nodes. However, this approach often exhibits a misalignment between the training objectives of pretext tasks and those of downstream tasks. This gap can result in the "negative transfer" problem, wherein the knowledge gained from pre-training adversely affects performance in the downstream tasks. The surge in prompt-based learning within Natural Language Processing (NLP) suggests the potential of adapting a "pre-train, prompt" paradigm to graphs as an alternative. However, existing graph prompting techniques are tailored to homogeneous graphs, neglecting the inherent heterogeneity of Web graphs. To bridge this gap, we propose HetGPT, a general post-training prompting framework to improve the predictive performance of pre-trained heterogeneous graph neural networks (HGNNs). The key is the design of a novel prompting function that integrates a virtual class prompt and a heterogeneous feature prompt, with the aim to reformulate downstream tasks to mirror pretext tasks. Moreover, HetGPT introduces a multi-view neighborhood aggregation mechanism, capturing the complex neighborhood structure in heterogeneous graphs. Extensive experiments on three benchmark datasets demonstrate HetGPT's capability to enhance the performance of state-of-the-art HGNNs on semi-supervised node classification.
翻訳日:2024-01-24 19:08:56 公開日:2024-01-23
# LLM使用指導とインタラクション方略が学習者パフォーマンスと知覚に及ぼす影響

Impact of Guidance and Interaction Strategies for LLM Use on Learner Performance and Perception ( http://arxiv.org/abs/2310.13712v2 )

ライセンス: Link先を確認
Harsh Kumar, Ilya Musabirov, Mohi Reza, Jiakai Shi, Xinyuan Wang, Joseph Jay Williams, Anastasia Kuzminykh, Michael Liut(参考訳) 個人化されたチャットボットベースの指導アシスタントは、特に直接教師の存在が限られている教室の大きさの増大に対処するために不可欠である。 大規模言語モデル(llm)は有望な道のりを提供し、教育の有用性を探求する研究が増えている。 しかし、この課題は、LLMの有効性を確立するだけでなく、学習者とこれらのモデル間の相互作用のニュアンスを認識し、学習者のエンゲージメントと結果に影響を与える。 大学生のコンピュータサイエンス教室(n=145)と多作性に関する制御実験(n=356)を行い,教育的指導戦略が学習者のパフォーマンス,自信,llmに対する信頼に与える影響について検討した。 直接LLMは性能を極端に改善し、学生ソリューションの精錬は信頼性を高めた。 構造化ガイダンスは、ランダムなクエリを減らし、学生がLLMに課題をコピー&ペーストする例も減らした。 本研究は,LLM支援学習環境の形成における教師の役割を強調した。

Personalized chatbot-based teaching assistants can be crucial in addressing increasing classroom sizes, especially where direct teacher presence is limited. Large language models (LLMs) offer a promising avenue, with increasing research exploring their educational utility. However, the challenge lies not only in establishing the efficacy of LLMs but also in discerning the nuances of interaction between learners and these models, which impact learners' engagement and results. We conducted a formative study in an undergraduate computer science classroom (N=145) and a controlled experiment on Prolific (N=356) to explore the impact of four pedagogically informed guidance strategies on the learners' performance, confidence and trust in LLMs. Direct LLM answers marginally improved performance, while refining student solutions fostered trust. Structured guidance reduced random queries as well as instances of students copy-pasting assignment questions to the LLM. Our work highlights the role that teachers can play in shaping LLM-supported learning environments.
翻訳日:2024-01-24 19:08:26 公開日:2024-01-23
# LLM系剤の高レベル挙動の形式的特定

Formally Specifying the High-Level Behavior of LLM-Based Agents ( http://arxiv.org/abs/2310.08535v2 )

ライセンス: Link先を確認
Maxwell Crouse, Ibrahim Abdelaziz, Ramon Astudillo, Kinjal Basu, Soham Dan, Sadhana Kumaravel, Achille Fokoue, Pavan Kapanipathi, Salim Roukos, Luis Lastras(参考訳) LLMを利用した自律的ゴール駆動エージェントは、最近、調達にコストがかかるタスク固有の微調整モデルを必要としない、課題を解決するための有望なツールとして登場した。 現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。 本研究では,エージェント構築のプロセスを簡単にする最小限の生成フレームワークを提案することにより,新しいエージェントの設計と実装の難しさを軽減することを目的とする。 私たちが導入したフレームワークは、ユーザが要求するエージェントの振る舞いを高レベルで宣言的な仕様で定義し、llmが望ましい振る舞いを示す出力を生成することを保証するデコーディングモニタの構築に使用できます。 私たちの宣言的アプローチでは,実装や実施の方法を気にせずに動作を記述することで,さまざまなllmベースのエージェントによる迅速な設計,実装,実験を可能にします。 提案するフレームワークが最近のLCMベースのエージェント(例えばReACT)の実装にどのように使用できるかを示し、より複雑な振る舞いを持つ新しいエージェントであるPlan-Act-Summarize-Solve(PASS)エージェントを定義するために、我々のアプローチの柔軟性をどのように活用できるかを示す。 最後に,提案手法が他のエージェントよりも優れていることを示す。

Autonomous, goal-driven agents powered by LLMs have recently emerged as promising tools for solving challenging problems without the need for task-specific finetuned models that can be expensive to procure. Currently, the design and implementation of such agents is ad hoc, as the wide variety of tasks that LLM-based agents may be applied to naturally means there can be no one-size-fits-all approach to agent design. In this work we aim to alleviate the difficulty of designing and implementing new agents by proposing a minimalistic generation framework that simplifies the process of building agents. The framework we introduce allows the user to define desired agent behaviors in a high-level, declarative specification that is then used to construct a decoding monitor which guarantees the LLM will produce an output exhibiting the desired behavior. Our declarative approach, in which the behavior is described without concern for how it should be implemented or enforced, enables rapid design, implementation, and experimentation with different LLM-based agents. We demonstrate how the proposed framework can be used to implement recent LLM-based agents (e.g., ReACT), and show how the flexibility of our approach can be leveraged to define a new agent with more complex behavior, the Plan-Act-Summarize-Solve (PASS) agent. Lastly, we demonstrate that our method outperforms other agents on multiple popular reasoning-centric question-answering benchmarks.
翻訳日:2024-01-24 19:08:07 公開日:2024-01-23
# リモートセンシング画像テキスト検索のための方向指向視覚意味埋め込みモデル

Direction-Oriented Visual-semantic Embedding Model for Remote Sensing Image-text Retrieval ( http://arxiv.org/abs/2310.08276v2 )

ライセンス: Link先を確認
Qing Ma, Jiancheng Pan, Cong Bai(参考訳) 近年,画像テキスト検索が急速に進歩している。 しかし、非意味的視覚的特徴とテキスト的特徴の誤一致につながる視覚的意味的不均衡のため、リモートセンシングの課題である。 この問題を解決するために,視覚と言語の関係をマイニングする新しい方向指向視覚意味埋め込みモデル(dove)を提案する。 我々の目指すのは、潜在空間における視覚的およびテキスト的表現を極力近く、冗長性のない地域視覚表現に向けることである。 具体的には、ROAM(Regional-Oriented Attention Module)は、最終視覚とテキストの埋め込みの間の距離を、局所的な視覚的特徴に基づいて適応的に調整する。 一方、軽量なDigging Text Genome Assistant (DTGA) は、抽出可能なテキスト表現の範囲を広げ、注意力の少ない操作でグローバルなワードレベルのセマンティック接続を強化するように設計されている。 最終的には、グローバルな視覚意味制約を利用して、単一の視覚依存を減らし、最終的な視覚およびテキスト表現の外部制約として機能する。 RSICDとRSITMDの2つのベンチマークデータセット上で,パラメータ評価,定量的比較,アブレーション研究,視覚解析などの広範な実験により,本手法の有効性と優位性を検証した。

Image-text retrieval has developed rapidly in recent years. However, it is still a challenge in remote sensing due to visual-semantic imbalance, which leads to incorrect matching of non-semantic visual and textual features. To solve this problem, we propose a novel Direction-Oriented Visual-semantic Embedding Model (DOVE) to mine the relationship between vision and language. Our highlight is to conduct visual and textual representations in latent space, directing them as close as possible to a redundancy-free regional visual representation. Concretely, a Regional-Oriented Attention Module (ROAM) adaptively adjusts the distance between the final visual and textual embeddings in the latent semantic space, oriented by regional visual features. Meanwhile, a lightweight Digging Text Genome Assistant (DTGA) is designed to expand the range of tractable textual representation and enhance global word-level semantic connections using less attention operations. Ultimately, we exploit a global visual-semantic constraint to reduce single visual dependency and serve as an external constraint for the final visual and textual representations. The effectiveness and superiority of our method are verified by extensive experiments including parameter evaluation, quantitative comparison, ablation studies and visual analysis, on two benchmark datasets, RSICD and RSITMD.
翻訳日:2024-01-24 19:07:41 公開日:2024-01-23
# SpikePoint: イベントカメラアクション認識のための効率的なポイントベーススパイクニューラルネットワーク

SpikePoint: An Efficient Point-based Spiking Neural Network for Event Cameras Action Recognition ( http://arxiv.org/abs/2310.07189v2 )

ライセンス: Link先を確認
Hongwei Ren, Yue Zhou, Yulong Huang, Haotian Fu, Xiaopeng Lin, Jie Song, Bojun Cheng(参考訳) イベントカメラはバイオインスパイアされたセンサーで、光強度の局所的な変化に対応し、低レイテンシ、高エネルギー効率、高ダイナミックレンジを特徴とする。 一方、スパイキングニューラルネットワーク(SNN)は、その顕著な効率と耐故障性のために注目されている。 イベントカメラに固有のエネルギー効率とSNNのスパイクベースの処理能力を相乗的に活用することにより、アクション認識タスクのような超低消費電力アプリケーションシナリオを実現することができる。 しかし、既存のアプローチでは非同期イベントを従来のフレームに変換することが必要であり、snsやイベントカメラの設計概念と矛盾するデータマッピングの努力とスパーシティの喪失に繋がる。 この課題に対処するために,新しいエンドツーエンドのポイントベースSNNアーキテクチャであるSpikePointを提案する。 spikepointはスパースイベントクラウドデータの処理に優れており、単一のステージ構造を通じてグローバルとローカル両方の特徴を効果的に抽出する。 surrogateトレーニングメソッドを活用することで、spikepointは少ないパラメータで高い精度を実現し、低消費電力を維持し、特にさまざまなデータセットでidマッピング機能抽出器を使用している。 SpikePointは4つのイベントベースのアクション認識データセット上で、他のSNNメソッドを上回る16のタイムステップで、最先端(SOTA)パフォーマンスを達成する。 さらに、ANN(Artificial Neural Network)が使用するパラメータの0.35%と0.5%の電力消費を利用して、3つのデータセット上のすべてのメソッドでSOTA性能を実現する。 これらの結果はPoint Cloudの重要性を強調し、多くの超低消費電力のイベントベースのデータ処理アプリケーションに道を開く。

Event cameras are bio-inspired sensors that respond to local changes in light intensity and feature low latency, high energy efficiency, and high dynamic range. Meanwhile, Spiking Neural Networks (SNNs) have gained significant attention due to their remarkable efficiency and fault tolerance. By synergistically harnessing the energy efficiency inherent in event cameras and the spike-based processing capabilities of SNNs, their integration could enable ultra-low-power application scenarios, such as action recognition tasks. However, existing approaches often entail converting asynchronous events into conventional frames, leading to additional data mapping efforts and a loss of sparsity, contradicting the design concept of SNNs and event cameras. To address this challenge, we propose SpikePoint, a novel end-to-end point-based SNN architecture. SpikePoint excels at processing sparse event cloud data, effectively extracting both global and local features through a singular-stage structure. Leveraging the surrogate training method, SpikePoint achieves high accuracy with few parameters and maintains low power consumption, specifically employing the identity mapping feature extractor on diverse datasets. SpikePoint achieves state-of-the-art (SOTA) performance on four event-based action recognition datasets using only 16 timesteps, surpassing other SNN methods. Moreover, it also achieves SOTA performance across all methods on three datasets, utilizing approximately 0.3\% of the parameters and 0.5\% of power consumption employed by artificial neural networks (ANNs). These results emphasize the significance of Point Cloud and pave the way for many ultra-low-power event-based data processing applications.
翻訳日:2024-01-24 19:07:18 公開日:2024-01-23
# RetrievalがLong Context Large Language Modelsに対応

Retrieval meets Long Context Large Language Models ( http://arxiv.org/abs/2310.03025v2 )

ライセンス: Link先を確認
Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu, Zihan Liu, Sandeep Subramanian, Evelina Bakhturina, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 大規模言語モデル (LLM) のコンテキストウィンドウの拡張は近年普及しており、LLMを検索で拡張するソリューションは長年にわたって存在してきた。 自然な疑問は 一 検索拡大対長期コンテキストウィンドウ。下流タスクにとってどちらがよいか。 二 両方の方法を組み合わせて両世界の長所を得ることができるか。 本研究では,2つの最先端事前学習LDM,すなわちプロプライエタリな43B GPTとLlama2-70Bを用いて,両方の解について検討する。 意外なことに、単純な検索拡張による4Kコンテキストウィンドウを持つLLMは、長いコンテキストタスクにおける位置補間により、16Kコンテキストウィンドウを持つ微調整LLMに匹敵する性能を達成できるが、計算ははるかに少ない。 さらに,拡張コンテキストウィンドウのサイズに関わらず,検索によりLLMの性能が大幅に向上することを示す。 私たちのベストモデルである検索型llama2-70b32kコンテキストウィンドウ,gpt-3.5-turbo-16kおよびdavinci003を,質問応答,クエリベースの要約,コンテキスト内少数ショット学習タスクを含む9つの長いコンテキストタスクの平均スコアで上回っている。 また、非リトリーバルのllama2-70b-32kベースラインをマージンで上回っている。 本研究は, LLMの長期拡張と検索強化の選択に関する一般的な知見を提供する。

Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and Llama2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented Llama2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on nine long context tasks including question answering, query-based summarization, and in-context few-shot learning tasks. It also outperforms its non-retrieval Llama2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.
翻訳日:2024-01-24 19:06:43 公開日:2024-01-23
# AutomaTikZ:TikZによる科学ベクトルグラフのテキストガイド合成

AutomaTikZ: Text-Guided Synthesis of Scientific Vector Graphics with TikZ ( http://arxiv.org/abs/2310.00367v2 )

ライセンス: Link先を確認
Jonas Belouadi, Anne Lauscher, Steffen Eger(参考訳) テキストからビットマップグラフィックスを生成することは注目されているが、科学的にはベクトルグラフィックスが好まれる。 ベクトルグラフィックスは一般に低レベルのグラフィックスプリミティブを使って符号化されるので、直接生成するのは困難である。 これを解決するために,ベクトルグラフィックスにコンパイル可能なよく知られた抽象グラフィック言語であるTikZを,科学図形の中間表現として用いることを提案する。 TikZは、人間指向の高レベルなコマンドを提供し、大きな言語モデルで条件付き言語モデリングを容易にする。 この目的のために,120kのTikZ図面をキャプションに並べた最初の大規模TikZデータセットであるDaTikZを紹介する。 DaTikZ上でLLaMAを微調整し、マルチモーダルCLIP埋め込みでLLaMAを増強する新しいモデルCLiMAと組み合わせる。 ヒトおよび自動評価では、CLiMAとLLaMAは、人造図形と類似性の観点から、商用のGPT-4とClaude 2を上回り、テキスト画像アライメントも改善した。 詳細な分析により、全てのモデルがよく一般化され、暗記の影響を受けないことが示された。 しかし、GPT-4とClaude 2は、人間と我々のモデルの両方と比較して、より単純な数値を生成する傾向にある。 当社のフレームワークであるAutomaTikZとモデルウェイトとデータセットを公開しています。

Generating bitmap graphics from text has gained considerable attention, yet for scientific figures, vector graphics are often preferred. Given that vector graphics are typically encoded using low-level graphics primitives, generating them directly is difficult. To address this, we propose the use of TikZ, a well-known abstract graphics language that can be compiled to vector graphics, as an intermediate representation of scientific figures. TikZ offers human-oriented, high-level commands, thereby facilitating conditional language modeling with any large language model. To this end, we introduce DaTikZ, the first large-scale TikZ dataset consisting of 120k TikZ drawings aligned with captions. We fine-tune LLaMA on DaTikZ, as well as our new model CLiMA, which augments LLaMA with multimodal CLIP embeddings. In both human and automatic evaluation, CLiMA and LLaMA outperform commercial GPT-4 and Claude 2 in terms of similarity to human-created figures, with CLiMA additionally improving text-image alignment. Our detailed analysis shows that all models generalize well and are not susceptible to memorization. GPT-4 and Claude 2, however, tend to generate more simplistic figures compared to both humans and our models. We make our framework, AutomaTikZ, along with model weights and datasets, publicly available.
翻訳日:2024-01-24 19:05:45 公開日:2024-01-23
# 中性子誘電体モーメントの量子不確かさについて

On the Quantum Uncertainty of the Neutron Electric Dipole Moment ( http://arxiv.org/abs/2310.00208v2 )

ライセンス: Link先を確認
Octavio Guerrero, Libertad Barr\'on-Palos and Daniel Sudarsky(参考訳) 中性子の電気双極子モーメント(EDM)に境界を置くことへの継続的な関心は、強い相互作用の特性、特にCP対称性の下での挙動に関係しているためである。 そこで本研究では,電流境界と期待量子不確かさとの間に約13桁のマグニチュードの差から生じる明らかな緊張について考察する。 我々は,オークリッジ国立研究所のスパレーション中性子源におけるnEDM実験を考慮に入れた,対応する形式主義のバージョンを用いて,弱測定の概念の「ノズル」の解法を提案する。

The continued interest in placing bounds on the neutron's Electric Dipole Moment (EDM) is due to the implications regarding the characteristics of the strong interaction and, in particular, its behavior under the CP symmetry. In this work, we discuss the apparent tension resulting from the discrepancy of about 13 orders of magnitude between the current bounds and the expected quantum uncertainty in the relevant quantity. We offer a resolution of the "puzzle" in terms of the notion of a weak measurement, using a version of the corresponding formalism adapted to consideration of the nEDM experiment at the Spallation Neutron Source at the Oak Ridge National Laboratory.
翻訳日:2024-01-24 19:05:19 公開日:2024-01-23
# タスク一貫性スコア識別特徴分布モデリングによる連続行動評価

Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling ( http://arxiv.org/abs/2309.17105v4 )

ライセンス: Link先を確認
Yuan-Ming Li, Ling-An Zeng, Jing-Ke Meng and Wei-Shi Zheng(参考訳) アクション品質アセスメント(AQA)は、アクションがどれだけうまく実行されるかに答えようとするタスクである。 AQAの既存の研究は、すべてのトレーニングデータが一度にトレーニングのために見えるが、新しい技術行動を評価するための継続的な学習はできないと仮定している。 本研究では,AQA(Continual-AQA)の継続学習問題に対処し,AQAタスクを忘れずに逐次学習するよう統一モデルに促す。 連続AQAのモデル化の考え方は,タスクや動作の種類に関わらず,潜在特徴がスコアラベルと強い相関関係を示すタスク一貫性のあるスコア識別特徴分布を逐次学習することである。 この観点から、継続AQAにおける忘れを2つの側面から緩和することを目指している。 まず,新しいデータと過去のデータの特徴を識別的分布に融合させるため,メモリサイズが制限された前のタスクからのデータを保存・再利用する新しい特徴スコア相関認識リハーサルを提案する。 第二に、行動一般グラフ(Action General-Specific Graph)は、行動一般および行動特化知識を学習・分離し、タスク一貫性のスコア識別特徴をよりよく抽出できるようにする。 提案するコンポーネントの貢献度を評価するために,広範な実験を行った。 既存の連続学習手法との比較により,提案手法の有効性と汎用性が検証された。

Action Quality Assessment (AQA) is a task that tries to answer how well an action is carried out. While remarkable progress has been achieved, existing works on AQA assume that all the training data are visible for training in one time, but do not enable continual learning on assessing new technical actions. In this work, we address such a Continual Learning problem in AQA (Continual-AQA), which urges a unified model to learn AQA tasks sequentially without forgetting. Our idea for modeling Continual-AQA is to sequentially learn a task-consistent score-discriminative feature distribution, in which the latent features express a strong correlation with the score labels regardless of the task or action types. From this perspective, we aim to mitigate the forgetting in Continual-AQA from two aspects. Firstly, to fuse the features of new and previous data into a score-discriminative distribution, a novel Feature-Score Correlation-Aware Rehearsal is proposed to store and reuse data from previous tasks with limited memory size. Secondly, an Action General-Specific Graph is developed to learn and decouple the action-general and action-specific knowledge so that the task-consistent score-discriminative features can be better extracted across various tasks. Extensive experiments are conducted to evaluate the contributions of proposed components. The comparisons with the existing continual learning methods additionally verify the effectiveness and versatility of our approach.
翻訳日:2024-01-24 19:04:49 公開日:2024-01-23
# 「AIはパフォーマンスを高め、これも同じことをすることは間違いない」:Placebo効果はAIの否定的な記述に対して堅牢である

"AI enhances our performance, I have no doubt this one will do the same": The Placebo effect is robust to negative descriptions of AI ( http://arxiv.org/abs/2309.16606v2 )

ライセンス: Link先を確認
Agnes M. Kloft, Robin Welsch, Thomas Kosch, Steeven Villa(参考訳) 高度なAI期待は、プラセボ効果を通じて人間とAIのインタラクションのパフォーマンスを促進する。 プラセボ効果に対する期待を下げることは望ましいが、過剰にネガティブな期待はノセボ効果を引き起こす可能性がある。 文字識別タスクでは、AIがインターフェースを適用することによってパフォーマンスを向上または低下させるであろうと参加者に通知しましたが、実際にはどんな状態でもAIは存在していません。 ベイズ分析の結果,シェームAIが存在するときのAI記述によらず,参加者は高い期待を抱き,記述的に優れていることがわかった。 認知モデリングを使うことで、この利点をより多くの情報を集める参加者にさかのぼることができる。 レプリケーション調査では、否定的なAI記述は期待を変更せず、AIによるパフォーマンス期待はバイアスがあり、否定的な言語記述に対して堅牢であることを示唆している。 ユーザの期待がAIインタラクションと評価に与える影響を議論し、人間とAIインタラクションのための行動プラセボマーカーを提供する。

Heightened AI expectations facilitate performance in human-AI interactions through placebo effects. While lowering expectations to control for placebo effects is advisable, overly negative expectations could induce nocebo effects. In a letter discrimination task, we informed participants that an AI would either increase or decrease their performance by adapting the interface, but in reality, no AI was present in any condition. A Bayesian analysis showed that participants had high expectations and performed descriptively better irrespective of the AI description when a sham-AI was present. Using cognitive modeling, we could trace this advantage back to participants gathering more information. A replication study verified that negative AI descriptions do not alter expectations, suggesting that performance expectations with AI are biased and robust to negative verbal descriptions. We discuss the impact of user expectations on AI interactions and evaluation and provide a behavioral placebo marker for human-AI interaction
翻訳日:2024-01-24 19:04:24 公開日:2024-01-23
# ニューラル特徴学習のための幾何学的枠組み

A Geometric Framework for Neural Feature Learning ( http://arxiv.org/abs/2309.10140v2 )

ライセンス: Link先を確認
Xiangxiang Xu, Lizhong Zheng(参考訳) 本稿では,ニューラル特徴抽出器に基づくシステム設計学習フレームワークを提案する。 まず,同じ関数空間における統計的依存と特徴を幾何学的構造で統一する特徴幾何を導入する。 特徴幾何学を適用することにより,各学習問題を学習設定で指定された依存成分の最適特徴近似解として定式化する。 本稿では,データサンプルから最適な特徴を学習するための学習アルゴリズムを設計するためのネスト手法を提案する。 ネスティング手法の適用例を示すために,条件付き推論やマルチモーダル学習を含む多変量学習問題についても検討し,最適な特徴を示し,古典的アプローチとの関連を明らかにする。

We present a novel framework for learning system design based on neural feature extractors. First, we introduce the feature geometry, which unifies statistical dependence and features in the same function space with geometric structures. By applying the feature geometry, we formulate each learning problem as solving the optimal feature approximation of the dependence component specified by the learning setting. We propose a nesting technique for designing learning algorithms to learn the optimal features from data samples, which can be applied to off-the-shelf network architectures and optimizers. To demonstrate the applications of the nesting technique, we further discuss multivariate learning problems, including conditioned inference and multimodal learning, where we present the optimal features and reveal their connections to classical approaches.
翻訳日:2024-01-24 19:04:07 公開日:2024-01-23
# 普遍なトランザクビットゲートの集合におけるカオス的揺らぎ

Chaotic fluctuations in a universal set of transmon qubit gates ( http://arxiv.org/abs/2311.14592v2 )

ライセンス: Link先を確認
Daniel Basilewitsch, Simon-Dominik B\"orner, Christoph Berke, Alexander Altland, Simon Trebst, Christiane P. Koch(参考訳) トランスモン量子ビット(transmon qubits)は、強い、おそらくカオス的な揺らぎが積み重なりやすい非線形共振器の量子化から生じる。 このような不安定性は、計算部分空間外の高励起状態の過渡的集団を含む高速ゲート演算に影響を及ぼす可能性が高い。 本稿では,時間発展作用素の瞬時固有位相,特に曲率の統計解析により,カオス変動によって影響を受ける部分空間を同定できることを示す。 解析の結果、いわゆる量子速度限界に近い速度で動作している高速絡み込みゲートは、2つのトランスモンでダイナミクスが部分的にカオスになる過渡状態を含むことがわかった。

Transmon qubits arise from the quantization of nonlinear resonators, systems that are prone to the buildup of strong, possibly chaotic, fluctuations. Such instabilities will likely affect fast gate operations which involve the transient population of higher excited states outside the computational subspace. Here we show that a statistical analysis of the instantaneous eigenphases of the time evolution operator, in particular of their curvatures, allows for identifying the subspace affected by chaotic fluctuations. Our analysis shows that fast entangling gates, operating at speeds close to the so-called quantum speed limit, contain transient regimes where the dynamics indeed becomes partially chaotic for just two transmons.
翻訳日:2024-01-24 18:57:16 公開日:2024-01-23
# 大規模意思決定のための大規模言語モデルベースエージェントの制御:アクタ・クリティカルアプローチ

Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach ( http://arxiv.org/abs/2311.13884v3 )

ライセンス: Link先を確認
Bin Zhang, Hangyu Mao, Jingqing Ruan, Ying Wen, Yang Li, Shao Zhang, Zhiwei Xu, Dapeng Li, Ziyue Li, Rui Zhao, Lijuan Li, Guoliang Fan(参考訳) 大規模言語モデル(LLM)の顕著な進歩は、マルチエージェントシステム(MAS)における計画と意思決定の問題に対処するための新たな道を開く。 しかし, エージェントの数が増加するにつれて, LLMの幻覚やMASの調整の問題はますます顕著になっている。 さらに, トークンの有効利用は, LLMを用いて多数のエージェント間の相互作用を促進する上で重要な考慮事項となる。 本稿では,これらの課題を緩和するLLaMACと呼ばれるモジュラーフレームワークを開発する。 LLaMACは人間の脳に類似した値分布をコードし、内部および外部からのフィードバック機構を利用してモジュール間の協調と反復的推論を促進する。 システム資源割当とロボットグリッド輸送に関する評価を通じて,提案手法によって得られるかなりのアドバンテージを実証する。

The remarkable progress in Large Language Models (LLMs) opens up new avenues for addressing planning and decision-making problems in Multi-Agent Systems (MAS). However, as the number of agents increases, the issues of hallucination in LLMs and coordination in MAS have become increasingly prominent. Additionally, the efficient utilization of tokens emerges as a critical consideration when employing LLMs to facilitate the interactions among a substantial number of agents. In this paper, we develop a modular framework called LLaMAC to mitigate these challenges. LLaMAC implements a value distribution encoding similar to that found in the human brain, utilizing internal and external feedback mechanisms to facilitate collaboration and iterative reasoning among its modules. Through evaluations involving system resource allocation and robot grid transportation, we demonstrate the considerable advantages afforded by our proposed approach.
翻訳日:2024-01-24 18:57:03 公開日:2024-01-23
# カットオフのない簡易dirac相互作用作用素の自己随伴性

Self-adjointness of a simplified Dirac interaction operator without any cutoffs ( http://arxiv.org/abs/2311.12870v4 )

ライセンス: Link先を確認
Mads J. Damgaard(参考訳) ディラック相互作用作用素の簡略化版として、$\hat h_\mathrm{i} \propto \int d\mathbf{k}d\mathbf{p}(\hat a(\mathbf{k}) + \hat a^\dagger(-\mathbf{k})) \hat b^\dagger(\mathbf{p} + \mathbf{k}) \hat b(\mathbf{p})/\sqrt{|\mathbf{k}|}$ がヒルベルト空間において密な領域上の自己随伴であることを示す。 これを示すために使用するテクニックは、より広い範囲の演算子にも拡張できる可能性がある。 したがって、この手法は将来より数学的に明確に定義されたQFTの理論につながる可能性がある。

We show that a simplified version of the Dirac interaction operator given by $\hat H_\mathrm{I} \propto \int d\mathbf{k}d\mathbf{p}(\hat a(\mathbf{k}) + \hat a^\dagger(-\mathbf{k})) \hat b^\dagger(\mathbf{p} + \mathbf{k}) \hat b(\mathbf{p})/\sqrt{|\mathbf{k}|}$ is self-adjoint on a certain domain that is dense in the Hilbert space, even without any cutoffs. The technique that we use for showing this can potentially be extended to a much wider range of operators as well. This technique might therefore potentially lead to more mathematically well-defined theories of QFT in the future.
翻訳日:2024-01-24 18:56:50 公開日:2024-01-23
# Beyond Turing: 機械生成テキスト検出のためのアプローチの比較分析

Beyond Turing: A Comparative Analysis of Approaches for Detecting Machine-Generated Text ( http://arxiv.org/abs/2311.12373v2 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda(参考訳) 事前訓練された言語モデル(PLM)によるテキスト生成において、人間と機械生成したテキストの区別はエスカレートする課題である。 本稿では,従来の浅層学習,言語モデル(lm)の微調整,多言語モデルの微調整の3つの方法について詳細な評価を行う。 これらのアプローチは、さまざまなマシン生成テキストで厳格にテストされ、人間と機械による言語構造を区別する能力のベンチマークを提供する。 これらの結果から,NLPの重要領域における進歩の必要性が強調された。 この研究は価値ある洞察を与え、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開く。

Significant progress has been made on text generation by pre-trained language models (PLMs), yet distinguishing between human and machine-generated text poses an escalating challenge. This paper offers an in-depth evaluation of three distinct methods used to address this task: traditional shallow learning, Language Model (LM) fine-tuning, and Multilingual Model fine-tuning. These approaches are rigorously tested on a wide range of machine-generated texts, providing a benchmark of their competence in distinguishing between human-authored and machine-authored linguistic constructs. The results reveal considerable differences in performance across methods, thus emphasizing the continued need for advancement in this crucial area of NLP. This study offers valuable insights and paves the way for future research aimed at creating robust and highly discriminative models.
翻訳日:2024-01-24 18:56:22 公開日:2024-01-23
# ランダム量子状態の非ゼロ平均量子ウィッシュアート分布とその応用

Non-Zero Mean Quantum Wishart Distribution Of Random Quantum States And Application ( http://arxiv.org/abs/2311.10672v2 )

ライセンス: Link先を確認
Shrobona Bagchi(参考訳) ランダム量子状態は、量子情報科学の様々な分野で有用である。 ガウス分布を用いたランダム量子状態の分布は、量子情報科学の様々なシナリオで用いられている。 このうちの1つは、統計学で通常使われるウィッシュアート分布を用いて導出されるランダム量子状態の分布である。 このウィッシュアート分布を用いたランダム量子状態の分布は、最近量子ウィッシュアート分布 \cite{Han} と命名された。 量子ウィッシュアート分布は、一般共分散行列とゼロ平均行列を持つ非中央分布に対して発見されている。 ここでは、任意の一般階数1の平均行列と実空間と複素ヒルベルト空間の任意の次元に対する一般共分散行列を持つ非中央ウィッシュアート分布に関連するランダム量子状態の分布に対する閉形式式を求める。 これを非零平均量子ウィッシュアート分布と呼ぶ。 任意の次元に対する実および複素ヒルベルト空間におけるピーク位置の所望の配置方法を見出す。 また、量子状態のランダムサンプリングのための高速かつ効率的なアルゴリズムを用いて、主に量子状態推定実験データの文脈で発生する、標的分布がよく振る舞う任意の確率分布関数であるような量子ビットに対してこれを適用した。

Random quantum states are useful in various areas of quantum information science. Distributions of random quantum states using Gaussian distributions have been used in various scenarios in quantum information science. One of this is the distribution of random quantum states derived using the Wishart distibution usually used in statistics. This distribution of random quantum states using the Wishart distribution has recently been named as the quantum Wishart distribution \cite{Han}. The quantum Wishart distribution has been found for non-central distribution with a general covariance matrix and zero mean matrix. Here, we find out the closed form expression for the distribution of random quantum states pertaining to non-central Wishart distribution with any general rank one mean matrix and a general covariance matrix for arbitrary dimensions in both real and complex Hilbert space. We term this as the non-zero mean quantum Wishart distribution. We find out the method for the desired placement of its peak position in the real and complex Hilbert space for arbitrary dimensions. We also show an application of this via a fast and efficient algorithm for the random sampling of quantum states, mainly for qubits where the target distribution is a well behaved arbitrary probability distribution function occurring in the context of quantum state estimation experimental data .
翻訳日:2024-01-24 18:56:08 公開日:2024-01-23
# 都市環境における安全かつインタラクティブな自動運転のための想像力提示階層強化学習

Imagination-Augmented Hierarchical Reinforcement Learning for Safe and Interactive Autonomous Driving in Urban Environments ( http://arxiv.org/abs/2311.10309v2 )

ライセンス: Link先を確認
Sang-Hyun Lee, Yoonjae Jung, Seung-Woo Seo(参考訳) 階層的強化学習(HRL)は、階層構造を明示的に活用することにより、時間的抽象化を強化学習(RL)に組み込む。 現代のHRLは通常、高レベルのポリシーと低レベルのポリシーからなる階層的なエージェントを設計する。 高レベルポリシーは、どの低レベルポリシーを低周波数で起動するかを選択し、活性化された低レベルポリシーは各タイムステップでアクションを選択する。 最近のHRLアルゴリズムは、合成ナビゲーションタスクにおける標準RLアルゴリズムよりも性能が向上している。 しかし、現実世界のナビゲーションタスクにこれらのHRLアルゴリズムを適用することはできない。 主な課題の1つは、現実世界のナビゲーションタスクは、エージェントが動的環境で安全かつインタラクティブな振る舞いを実行する必要があることである。 本稿では,現実のナビゲーションタスクにおいて,エージェントが安全かつインタラクティブな振る舞いを学習できるようにするために,AIHRL(imimation-augmented HRL)を提案する。 イマジネーションとは、実際の環境との相互作用なしに行動の結果を予測することである。 IAHRLの背景にある重要な考え方は、低レベルのポリシーは安全で構造的な振る舞いを想像し、高レベルのポリシーは、想像された振る舞いを解釈することによって周囲のオブジェクトとの相互作用を推論する。 また,我々のハイレベルポリシーを周囲のオブジェクトの順序に置換不変にし,エージェントを優先する新たな注意機構を導入する。 IAHRLを評価するために,都市部における複雑な運転タスクを5つ導入した。 実験の結果,IAHRLはエージェントが安全かつ対話的な行動を実行でき,成功率が高く,平均エピソードステップがベースラインよりも低いことが示唆された。

Hierarchical reinforcement learning (HRL) incorporates temporal abstraction into reinforcement learning (RL) by explicitly taking advantage of hierarchical structure. Modern HRL typically designs a hierarchical agent composed of a high-level policy and low-level policies. The high-level policy selects which low-level policy to activate at a lower frequency and the activated low-level policy selects an action at each time step. Recent HRL algorithms have achieved performance gains over standard RL algorithms in synthetic navigation tasks. However, we cannot apply these HRL algorithms to real-world navigation tasks. One of the main challenges is that real-world navigation tasks require an agent to perform safe and interactive behaviors in dynamic environments. In this paper, we propose imagination-augmented HRL (IAHRL) that efficiently integrates imagination into HRL to enable an agent to learn safe and interactive behaviors in real-world navigation tasks. Imagination is to predict the consequences of actions without interactions with actual environments. The key idea behind IAHRL is that the low-level policies imagine safe and structured behaviors, and then the high-level policy infers interactions with surrounding objects by interpreting the imagined behaviors. We also introduce a new attention mechanism that allows our high-level policy to be permutation-invariant to the order of surrounding objects and to prioritize our agent over them. To evaluate IAHRL, we introduce five complex urban driving tasks, which are among the most challenging real-world navigation tasks. The experimental results indicate that IAHRL enables an agent to perform safe and interactive behaviors, achieving higher success rates and lower average episode steps than baselines.
翻訳日:2024-01-24 18:55:49 公開日:2024-01-23
# 偏光化学のための機械学習:化学動力学へのアクセス

Machine Learning for Polaritonic Chemistry: Accessing chemical kinetics ( http://arxiv.org/abs/2311.09739v2 )

ライセンス: Link先を確認
Christian Sch\"afer, Jakub Fojt, Eric Lindgren, Paul Erhart(参考訳) 閉じ込められた光学環境における化学反応性と物質構造の変化は増加傾向にあるが、微視的なメカニズムに関する決定的な理解はいまだに解明されていない。 これは主に、現実的な分子の溶解したアンサンブルの振動と反応性のダイナミクスを正確に予測することは小さな試みではなく、強い光-物質相互作用を加えることは物事を単純化しないという事実に由来する。 本稿では、密度関数理論計算と分子動力学を用いて学習した機械学習(ml)モデルの組合せに基づく枠組みを構築し、シミュレーションを高速化する。 次に, 従来実験およびアブイニチノシミュレーションを用いて検討されてきた1-フェニル-2-トリメチルシリルアセチレンの脱保護反応に対する強結合, 反応速度定数の変化, エンタルピーおよびエントロピーへの影響について検討した。 特に運動学の変化に関して、批判的な実験観測と定性的な一致が見いだされる一方で、従来の理論的な予測との違いも見いだされる。 ml-acceleratedとab initioシミュレーションが一致する特徴は, 実験的に推定された運動挙動を示す。 相反する特徴は、反応過程への動的電子分極の寄与が、現在信じられているよりも重要であることを示している。 我々の研究は、分極化学におけるMLの実用的利用を実証し、共通近似の限界を論じ、分極化学をより包括的に記述する方法を舗装する。

Altering chemical reactivity and material structure in confined optical environments is on the rise, and yet, a conclusive understanding of the microscopic mechanisms remains elusive. This originates mostly from the fact that accurately predicting vibrational and reactive dynamics for soluted ensembles of realistic molecules is no small endeavor, and adding (collective) strong light-matter interaction does not simplify matters. Here, we establish a framework based on a combination of machine learning (ML) models, trained using density-functional theory calculations, and molecular dynamics to accelerate such simulations. We then apply this approach to evaluate strong coupling, changes in reaction rate constant, and their influence on enthalpy and entropy for the deprotection reaction of 1-phenyl-2-trimethylsilylacetylene, which has been studied previously both experimentally and using ab initio simulations. While we find qualitative agreement with critical experimental observations, especially with regard to the changes in kinetics, we also find differences in comparison with previous theoretical predictions. The features for which the ML-accelerated and ab initio simulations agree show the experimentally estimated kinetic behavior. Conflicting features indicate that a contribution of dynamic electronic polarization to the reaction process is more relevant then currently believed. Our work demonstrates the practical use of ML for polaritonic chemistry, discusses limitations of common approximations and paves the way for a more holistic description of polaritonic chemistry.
翻訳日:2024-01-24 18:55:22 公開日:2024-01-23
# 電気生理学的データからニューロンの相互作用をマッピングし予測するための貯水池計算モデル

Reservoir-Computing Model for Mapping and Forecasting Neuronal Interactions from Electrophysiological Data ( http://arxiv.org/abs/2311.03131v2 )

ライセンス: Link先を確認
Ilya Auslender, Giorgio Letti, Yasaman Heydari, Clara Zaccaria, Lorenzo Pavesi(参考訳) 神経ネットワークの電気生理学的性質は、非常に短い時間スケールで異なる細胞ユニット間の様々な相互作用を明らかにすることができる。 これらの信号を分析する多くの課題の1つは、与えられたネットワークの形態と機能を取得することである。 本研究では,Reservoir Computing Network (RCN) アーキテクチャに基づく計算モデルを構築し,神経培養の電気生理学的測定から時空間データをデコードし,ニューロンユニット間の接続性を表すマクロ領域上のネットワーク構造を再構築した。 本研究では,クロスコリレーションやトランスファーエントロピーといった一般的な手法よりも高い精度でネットワークの接続マップを予測できることを実証する。 さらに,局所的な刺激など,特定の入力に対するネットワーク応答を予測するモデルの有効性を実験的に実証した。

Electrophysiological nature of neuronal networks allows to reveal various interactions between different cell units at a very short time-scales. One of the many challenges in analyzing these signals is to retrieve the morphology and functionality of a given network. In this work we developed a computational model, based on Reservoir Computing Network (RCN) architecture, which decodes the spatio-temporal data from electro-physiological measurements of neuronal cultures and reconstructs the network structure on a macroscopic domain, representing the connectivity between neuronal units. We demonstrate that the model can predict the connectivity map of the network with higher accuracy than the common methods such as Cross-Correlation and Transfer-Entropy. In addition, we experimentally demonstrate the ability of the model to predict a network response to a specific input, such as localized stimulus.
翻訳日:2024-01-24 18:54:52 公開日:2024-01-23
# 高周波スペクトルのピークと幅:超低温フェルミガスの位相図の解析

Peaks and widths of radio-frequency spectra: An analysis of the phase diagram of ultra-cold Fermi gases ( http://arxiv.org/abs/2311.00479v2 )

ライセンス: Link先を確認
L. Pisani, M. Pini, P. Pieri, G. Calvanese Strinati(参考訳) 温度-vs結合相図の正常領域における平衡密度を持つ2成分フェルミガスの放射周波数(rf)スペクトルに関する包括的理論的研究を行う。 特に、rfスペクトルは2つの特徴ピークで解析され、それは区別されるか重複することがある。 クロスオーバーのbec側では、これら2つの寄与はフェルミオン準粒子ピークとペアリングによるボソニック様の寄与と関連している。 クロスオーバーのBCS側では、2つのピークは、それぞれ高いあるいは低い相対モータで発生する粒子間の相互作用と関連している。 この2つのピーク解析により,超流動相で以前に同定されたrfスペクトルの幅と対の大きさの相関を正規相に拡張できるか,また,bcs-becクロスオーバーの温度vs結合位相図を様々な物理的セクタに分割できるかを示す。 rfスペクトルの形状と幅に関するいくつかの分析結果も適切な温度と結合限界で導出される。

We provide a comprehensive theoretical study of the radio-frequency (rf) spectra of a two-component Fermi gas with balanced populations in the normal region of the temperature-vs-coupling phase diagram. In particular, rf spectra are analyzed in terms of two characteristic peaks, which can be either distinct or overlapping. On the BEC side of the crossover, these two contributions are associated with a fermionic quasi-particle peak and a bosonic-like contribution due to pairing. On the BCS side of the crossover, the two peaks are instead associated with interactions between particles occurring, respectively, at high or low relative momenta. Through this two-peak analysis, we show how and to what extent the correlation between the widths of the rf spectra and the pair size, previously identified in the superfluid phase at low temperature, can be extended to the normal phase, as well as how the temperature-vs-coupling phase diagram of the BCS-BEC crossover can be partitioned in a number of distinct physical sectors. Several analytic results for the shape and widths of the rf spectra are also derived in appropriate temperature and coupling limits.
翻訳日:2024-01-24 18:53:47 公開日:2024-01-23
# 原子核のマルチコンフィグレーション時間依存密度汎関数理論:技術的および数値的側面

Multiconfigurational time-dependent density functional theory for atomic nuclei: Technical and numerical aspects ( http://arxiv.org/abs/2310.20557v2 )

ライセンス: Link先を確認
Petar Marevi\'c and David Regnier and Denis Lacroix(参考訳) 原子時間依存密度汎関数理論 (TDDFT) は、原子核の様々な力学現象を記述するためのツールである。 最近の研究では、複数のTDDFT軌道を混合することにより、集合空間における量子揺らぎを考慮に入れた、多構成TDDFT(Multiconfigurational TDDFT)モデルの拡張について報告した。 本稿では,モデルの技術的および数値的側面に焦点を当てる。 本稿では,混合関数の運動方程式を得るために用いられる時間依存変分原理の特性について概説する。 さらに,ハミルトニアン・カーネル,ノルム・カーネル,明示的な時間微分を持つカーネルなど,運動方程式の様々な成分の評価について検討する。 運動方程式を解く数値解法を詳述し,モデルの基礎となる主要な仮定を概説する。 技術的な議論は、$^{40}$Caの集合四重極振動を考える数値的な例で補われ、特に、収束の問題、線形依存基底の処理、エネルギー保存、相互作用の密度依存部分の処方則に焦点を当てている。

The nuclear time-dependent density functional theory (TDDFT) is a tool of choice for describing various dynamical phenomena in atomic nuclei. In a recent study, we reported an extension of the framework - the multiconfigurational TDDFT (MC-TDDFT) model - that takes into account quantum fluctuations in the collective space by mixing several TDDFT trajectories. In this article, we focus on technical and numerical aspects of the model. We outline the properties of the time-dependent variational principle that is employed to obtain the equation of motion for the mixing function. Furthermore, we discuss evaluation of various ingredients of the equation of motion, including the Hamiltonian kernel, norm kernel, and kernels with explicit time derivatives. We detail the numerical methods for resolving the equation of motion and outline the major assumptions underpinning the model. A technical discussion is supplemented with numerical examples that consider collective quadrupole vibrations in $^{40}$Ca, particularly focusing on the issues of convergence, treatment of linearly dependent bases, energy conservation, and prescriptions for the density-dependent part of an interaction.
翻訳日:2024-01-24 18:53:25 公開日:2024-01-23
# 超高速CN + $c$-C$_6$H$_{12}$反応ダイナミクスに及ぼす振動空洞結合強度の影響の探索

Exploring the impact of vibrational cavity coupling strength on ultrafast CN + $c$-C$_6$H$_{12}$ reaction dynamics ( http://arxiv.org/abs/2310.19133v2 )

ライセンス: Link先を確認
Liying Chen, Ashley P. Fidler, Alexander M. McKillop, Marissa L. Weichman(参考訳) 分子偏光子、光遷移の強い空洞結合に起因するハイブリッド光物質状態は、化学反応を導く新しい経路を提供するかもしれない。 しかし, 清浄なベンチマークシステムにおけるキャビティ修飾反応性の実証は, ポーラリトン化学の機構と範囲を明らかにするために必要である。 ここでは、過渡吸収を用いて、シクロヘキサン(c$-C$_6$H$_{12}$)およびクロロホルム(CHCl$_3$)溶媒と相互作用するCNラジカル(c$-C$_6$H$_{12}$)の超高速ダイナミクスを観察する。 c$-C$_6$H$_{12}$:CHCl$_3$比を変調することにより、55$-85 cm$^{-1}$の集合共役結合強度の下で溶媒錯体と水素(H)吸蔵過程がどのように進行するかを探索する。 反応速度は, 結合強度に関係なく, 余剰, 共鳴, 共振共振共振器結合条件で変化しない。 これらの結果から, cnとchcl$_3$とのh-アブストラクション反応において, 振動キャビティカップリング強度の不足は, 従来観測されていた不飽和キャビティ効果の決定因子にはなり得ないことが示唆された。

Molecular polaritons, hybrid light-matter states resulting from strong cavity coupling of optical transitions, may provide a new route to guide chemical reactions. However, demonstrations of cavity-modified reactivity in clean benchmark systems are still needed to clarify the mechanisms and scope of polariton chemistry. Here, we use transient absorption to observe the ultrafast dynamics of CN radicals interacting with a cyclohexane ($c$-C$_6$H$_{12}$) and chloroform (CHCl$_3$) solvent mixture under vibrational strong coupling of the brightest C$-$H stretching mode of $c$-C$_6$H$_{12}$. By modulating the $c$-C$_6$H$_{12}$:CHCl$_3$ ratio, we explore how solvent complexation and hydrogen (H)-abstraction processes proceed under collective cavity coupling strengths ranging from 55$-$85 cm$^{-1}$. Reaction rates remain unchanged for all extracavity, on resonance, and off-resonance cavity coupling conditions, regardless of coupling strength. These results suggest that insufficient vibrational cavity coupling strength may not be the determining factor for the negligible cavity effects observed previously in H-abstraction reactions of CN with CHCl$_3$.
翻訳日:2024-01-24 18:53:04 公開日:2024-01-23
# ジェネレーティブAIからジェネレーティブなモノのインターネット:基礎、フレームワーク、展望

From Generative AI to Generative Internet of Things: Fundamentals, Framework, and Outlooks ( http://arxiv.org/abs/2310.18382v2 )

ライセンス: Link先を確認
Jinbo Wen, Jiangtian Nie, Jiawen Kang, Dusit Niyato, Hongyang Du, Yang Zhang, Mohsen Guizani(参考訳) 生成人工知能(GAI)は、現実的なデータを生成し、高度な意思決定を促進する能力を持っている。 GAIを現代的なモノのインターネット(IoT)に統合することによって、ジェネレーティブ・インターネット・オブ・モノ(GIoT)が登場し、社会のさまざまな側面に革命をもたらす大きな可能性を秘めており、スマート監視や音声アシスタントといったより効率的でインテリジェントなIoTアプリケーションを可能にしている。 本稿では,GIoTの概念を述べるとともに,その可能性を探究する。 具体的には、まず4つのgai技術を概説し、giotアプリケーションについて検討する。 次に,giotを実現する上での課題を詳述するとともに,gdm(generative diffusion model)をインセンティブ機構設計に採用し,セキュアなgiot管理にブロックチェーン技術を適用する,汎用的なgaiベースのセキュアインセンティブ機構フレームワークを提案する。 さらに,gdmsを利用してユーザのセンシングデータを高品質で提供するためのインセンティブを効果的に生み出す,最新の車両交通監視のインターネットに関する事例研究を行う。 最後に、giotの将来的な人気について調査する価値のあるいくつかのオープンな方向を提案する。

Generative Artificial Intelligence (GAI) possesses the capabilities of generating realistic data and facilitating advanced decision-making. By integrating GAI into modern Internet of Things (IoT), Generative Internet of Things (GIoT) is emerging and holds immense potential to revolutionize various aspects of society, enabling more efficient and intelligent IoT applications, such as smart surveillance and voice assistants. In this article, we present the concept of GIoT and conduct an exploration of its potential prospects. Specifically, we first overview four GAI techniques and investigate promising GIoT applications. Then, we elaborate on the main challenges in enabling GIoT and propose a general GAI-based secure incentive mechanism framework to address them, in which we adopt Generative Diffusion Models (GDMs) for incentive mechanism designs and apply blockchain technologies for secure GIoT management. Moreover, we conduct a case study on modern Internet of Vehicle traffic monitoring, which utilizes GDMs to generate effective contracts for incentivizing users to contribute sensing data with high quality. Finally, we suggest several open directions worth investigating for the future popularity of GIoT.
翻訳日:2024-01-24 18:52:36 公開日:2024-01-23
# 非定常学習のための安定原理

A Stability Principle for Learning under Non-Stationarity ( http://arxiv.org/abs/2310.18304v2 )

ライセンス: Link先を確認
Chengpiao Huang, Kaizheng Wang(参考訳) 非定常環境における統計的学習のための多目的フレームワークを開発する。 各期間において,確率的誤差に対して累積バイアスを許容範囲に保ちつつ,履歴データの利用を最大化するルックバックウィンドウを選択するための安定性原理を適用した。 我々の理論は、未知の非定常性に対するこのアプローチの適応性を示している。 後悔の限界は、人口損失が強く凸している場合やリプシッツのみの対数的要因まで最小限である。 解析の中心には、関数間の類似性の尺度と、非定常データ列を準定常断片に分割するセグメンテーション技法の2つの新しい要素がある。

We develop a versatile framework for statistical learning in non-stationary environments. In each time period, our approach applies a stability principle to select a look-back window that maximizes the utilization of historical data while keeping the cumulative bias within an acceptable range relative to the stochastic error. Our theory showcases the adaptability of this approach to unknown non-stationarity. The regret bound is minimax optimal up to logarithmic factors when the population losses are strongly convex, or Lipschitz only. At the heart of our analysis lie two novel components: a measure of similarity between functions and a segmentation technique for dividing the non-stationary data sequence into quasi-stationary pieces.
翻訳日:2024-01-24 18:52:15 公開日:2024-01-23
# 信頼できるAIソフトウェア開発支援に向けて

Towards Trustworthy AI Software Development Assistance ( http://arxiv.org/abs/2312.09126v2 )

ライセンス: Link先を確認
Daniel Maninger, Krishna Narasimhan, Mira Mezini(参考訳) 近い将来、AIソフトウェア開発アシスタントがソフトウェア産業において重要な役割を果たすことが期待されている。 しかし、現在のソフトウェア開発アシスタントは信頼できない傾向にあり、しばしば誤った、安全でない、あるいは品質の低いコードを生成する。 我々は、信頼できるAIソフトウェア開発アシスタントの構築、トレーニング、使用のための全体的アーキテクチャを導入することで、これらの問題を解決することを目指している。 アーキテクチャの中心には、現実世界のコーディングシナリオと複雑なソフトウェアアーキテクチャを表すデータセットでトレーニングされた基礎的なllmがあり、正確性を超えたコード品質基準に微調整されています。 LLMは、高度な意味理解のためにグラフベースのコード表現を利用する。 我々は,システムに統合された知識グラフを想定し,最新の背景知識を提供し,アシスタントが適切な説明を行えるようにする。 最後に、制約付きデコードのためのモジュラーフレームワークは、特定の保証(例えば、正確性とセキュリティ)が生成されたコードを保持することを保証します。

It is expected that in the near future, AI software development assistants will play an important role in the software industry. However, current software development assistants tend to be unreliable, often producing incorrect, unsafe, or low-quality code. We seek to resolve these issues by introducing a holistic architecture for constructing, training, and using trustworthy AI software development assistants. In the center of the architecture, there is a foundational LLM trained on datasets representative of real-world coding scenarios and complex software architectures, and fine-tuned on code quality criteria beyond correctness. The LLM will make use of graph-based code representations for advanced semantic comprehension. We envision a knowledge graph integrated into the system to provide up-to-date background knowledge and to enable the assistant to provide appropriate explanations. Finally, a modular framework for constrained decoding will ensure that certain guarantees (e.g., for correctness and security) hold for the generated code.
翻訳日:2024-01-24 18:45:31 公開日:2024-01-23
# サブメガヘルツ線幅を有するナノダイヤモンド中のシリコン空洞中心の強結合スピン

Strongly Coupled Spins of Silicon-Vacancy Centers Inside a Nanodiamond with Sub-Megahertz Linewidth ( http://arxiv.org/abs/2312.08967v2 )

ライセンス: Link先を確認
Marco Klotz, Richard Waltrich, Niklas Lettner, Viatcheslav Agafonov, Alexander Kubanek(参考訳) 空飛ぶ量子ビットと効率的にインターフェースできる長寿命の量子メモリの探索は、長年続いている。 可能な1つの解決策は、ダイヤモンドのカラーセンターの電子スピンを使用して、長寿命の核スピンと光子の間の相互作用を仲介することである。 これをナノダイアモンドで実現することで、フォトニックデバイスへの統合をさらに促進し、量子メモリにアクセス可能なハイブリッド量子システムの実現を可能にする。 そこで, ナノダイヤモンド中の負電荷のシリコン空洞中心のスピン環境を調査し, 電子スピンのデコヒーレンス速度が1mhz以下であるのに対し, 電子スピンの強い結合を示す。 さらに,マルチスピン結合とナノダイアモンドにおける量子メモリレジスタの確立の可能性を示す。

The search for long-lived quantum memories, which can be efficiently interfaced with flying qubits is longstanding. One possible solution is to use the electron spin of a color center in diamond to mediate interaction between a long-lived nuclear spin and a photon. Realizing this in a nanodiamond furthermore facilitates the integration into photonic devices and enables the realization of hybrid quantum systems with access to quantum memories. Here, we investigated the spin environment of negatively-charged Silicon-Vacancy centers in a nanodiamond and demonstrate strong coupling of its electron spin, while the electron spin's decoherence rate remained below 1 MHz. We furthermore demonstrate multi-spin coupling with the potential to establish registers of quantum memories in nanodiamonds.
翻訳日:2024-01-24 18:45:16 公開日:2024-01-23
# segment beyond view: 音声と視覚のセマンティクスセグメンテーションのための部分欠落したモダリティの処理

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation ( http://arxiv.org/abs/2312.08673v2 )

ライセンス: Link先を確認
Renjie Wu, Hu Wang, Feras Dayoub, Hsiang-Ting Chen(参考訳) 拡張現実(ar)デバイスは、著名なモバイルインタラクションプラットフォームとして登場し、特に対向車に関するユーザー安全性の課題に直面している。 搭載カメラアレイを利用するソリューションもあるが、これらのカメラはしばしば前方または下向きの視野を持つ視野(FoV)に制限がある。 そこで本研究では,新しい音声・視覚意味セグメンテーション手法であるsbv(out-of-view semantic segmentation task and segment beyond view)を提案する。 SBVは教師-学生蒸留モデル(Omni2Ego)を用いた聴覚情報を用いて、FoV以外の情報を見逃す視覚的モダリティを補う。 このモデルはパノラマ情報を活用した視覚教師、8チャンネルオーディオを持つ聴覚教師と、限られたfovとバイノーラルオーディオを入力として、fov外のオブジェクトの意味セグメンテーションを生成するオーディオ・ビジュアル・学生からなる。 SBVは既存のモデルを比較評価で上回り、様々なFoV範囲とモノラルオーディオ設定で一貫したパフォーマンスを示す。

Augmented Reality (AR) devices, emerging as prominent mobile interaction platforms, face challenges in user safety, particularly concerning oncoming vehicles. While some solutions leverage onboard camera arrays, these cameras often have limited field-of-view (FoV) with front or downward perspectives. Addressing this, we propose a new out-of-view semantic segmentation task and Segment Beyond View (SBV), a novel audio-visual semantic segmentation method. SBV supplements the visual modality, which miss the information beyond FoV, with the auditory information using a teacher-student distillation model (Omni2Ego). The model consists of a vision teacher utilising panoramic information, an auditory teacher with 8-channel audio, and an audio-visual student that takes views with limited FoV and binaural audio as input and produce semantic segmentation for objects outside FoV. SBV outperforms existing models in comparative evaluations and shows a consistent performance across varying FoV ranges and in monaural audio settings.
翻訳日:2024-01-24 18:45:01 公開日:2024-01-23
# 大規模言語モデルにおけるテキスト透かしの実態調査

A Survey of Text Watermarking in the Era of Large Language Models ( http://arxiv.org/abs/2312.07913v4 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Yijian Lu, Jingjing Li, Xuming Hu, Xi Zhang, Lijie Wen, Irwin King, Hui Xiong and Philip S. Yu(参考訳) テキスト透かしアルゴリズムは、テキストコンテンツの著作権保護において重要な役割を果たすが、その能力と応用シナリオは歴史的に制限されている。 近年の大規模言語モデル(LLM)の発展は,テキスト透かし技術の進歩に新たな機会をもたらしている。 LLMはテキスト理解と生成能力を通じてテキスト透かしアルゴリズムの能力を向上するだけでなく、独自の著作権保護のためにテキスト透かしアルゴリズムを使用する必要がある。 本稿では,テキスト透かし技術の現状に関する包括的調査を行い,(1)異なるテキスト透かし技術の概要と比較,(2)テキスト透かしアルゴリズムの評価方法,(2)成功率,テキスト品質への影響,堅牢性,忘れやすさ,(3)テキスト透かし技術の潜在的な応用シナリオ,(4)テキスト透かし技術の課題と今後の展開について述べる。 本調査は,テキスト透かし技術の徹底的な理解を研究者に提供することを目的としている。

Text watermarking algorithms play a crucial role in the copyright protection of textual content, yet their capabilities and application scenarios have been limited historically. The recent developments in large language models (LLMs) have opened new opportunities for the advancement of text watermarking techniques. LLMs not only enhance the capabilities of text watermarking algorithms through their text understanding and generation abilities but also necessitate the use of text watermarking algorithms for their own copyright protection. This paper conducts a comprehensive survey of the current state of text watermarking technology, covering four main aspects: (1) an overview and comparison of different text watermarking techniques; (2) evaluation methods for text watermarking algorithms, including their success rates, impact on text quality, robustness, and unforgeability; (3) potential application scenarios for text watermarking technology; (4) current challenges and future directions for development. This survey aims to provide researchers with a thorough understanding of text watermarking technology, thereby promoting its further advancement.
翻訳日:2024-01-24 18:44:36 公開日:2024-01-23
# テキスト操作検出に向けて:新しいデータセットと新しい解法

Toward Real Text Manipulation Detection: New Dataset and New Solution ( http://arxiv.org/abs/2312.06934v2 )

ライセンス: Link先を確認
Dongliang Luo, Yuliang Liu, Rui Yang, Xianjin Liu, Jishen Zeng, Yu Zhou, Xiang Bai(参考訳) 写実的なテキスト改ざんが急増し、画像中の不正なテキストの検出が情報セキュリティの維持に寄与している。 しかし、プロのテキスト操作とアノテーションに関連する高いコストは、実世界のデータセットの可用性を制限し、ほとんどは合成改ざんに依存しており、実世界の改ざん属性を不適切に複製している。 この問題に対処するために,手動で5,986枚と5,258枚の自動改ざん画像を含む14,250枚のテキスト画像を含むReal Text Manipulation (RTM)データセットと,ソリューション安定性を評価するための3,006個の未修正テキスト画像を提案する。 評価の結果,rtmデータセット上でのテキスト偽造検出では既存の手法が乱れていることがわかった。 本稿では,マルチモーダル情報融合のための,一貫性を考慮したアグリゲーションハブとGated Cross Neighborhood-attention Fusionモジュールを備えたロバストなベースラインソリューションを提案し,トレーニング中にTampered-Authentic Contrastive Learningモジュールを補足し,特徴表現の区別を強化した。 このフレームワークは、他のデュアルストリームアーキテクチャに拡張可能で、それぞれ手動と全体的な操作で7.33%と6.38%の顕著なローカライゼーション性能向上を示した。 我々の貢献は、実世界のテキスト改ざん検出の進歩を促進することを目的としている。 コードとデータセットはhttps://github.com/DrLuo/RTMで公開される。

With the surge in realistic text tampering, detecting fraudulent text in images has gained prominence for maintaining information security. However, the high costs associated with professional text manipulation and annotation limit the availability of real-world datasets, with most relying on synthetic tampering, which inadequately replicates real-world tampering attributes. To address this issue, we present the Real Text Manipulation (RTM) dataset, encompassing 14,250 text images, which include 5,986 manually and 5,258 automatically tampered images, created using a variety of techniques, alongside 3,006 unaltered text images for evaluating solution stability. Our evaluations indicate that existing methods falter in text forgery detection on the RTM dataset. We propose a robust baseline solution featuring a Consistency-aware Aggregation Hub and a Gated Cross Neighborhood-attention Fusion module for efficient multi-modal information fusion, supplemented by a Tampered-Authentic Contrastive Learning module during training, enriching feature representation distinction. This framework, extendable to other dual-stream architectures, demonstrated notable localization performance improvements of 7.33% and 6.38% on manual and overall manipulations, respectively. Our contributions aim to propel advancements in real-world text tampering detection. Code and dataset will be made available at https://github.com/DrLuo/RTM
翻訳日:2024-01-24 18:43:52 公開日:2024-01-23
# 量子アルゴリズムを用いたランダムハイパーグラフMAX-3-XORSAT問題の近似性について

On the approximability of random-hypergraph MAX-3-XORSAT problems with quantum algorithms ( http://arxiv.org/abs/2312.06104v2 )

ライセンス: Link先を確認
Eliot Kapit, Brandon A. Barton, Sean Feeney, George Grattan, Pratik Patnaik, Jacob Sagal, Lincoln D. Carr, and Vadim Oganesyan(参考訳) 制約満足度問題はコンピュータ科学の重要な分野である。 これらの問題の多くは、最悪の場合と典型的には、すべての既知の方法において指数関数的に難しい複雑性クラスNPにある。 基本的には、誘導された局所的最小脱出法の欠如は、厳密な最適化と近似的最適化の両方のハードネスを古典的に保証するが、ハミルトニアン時間発展に基づく量子アルゴリズムの近似ハードネスの直感的なメカニズムはあまり理解されていない。 我々は,max-3-xorsat問題クラスを用いてこの問題を考察する。 量子完全性と近似硬さのメカニズムは基本的に異なると結論づける。 量子断熱最適化のような従来の手法が良い近似アルゴリズムでない理由を定性的に同定する。 これらの問題に支障を来さない新しいスペクトル折り畳み最適化法を提案し,解析的および数値的に検討する。 基底状態が真のランダム問題と比較して異常な割合の制約を満たすような,極端に植栽された解インスタンスを含むランダムランク3ハイパーグラフを考える。 エネルギーを$E = N_{unsat}-N_{sat}$と定義すると、スペクトル的に折り畳まれた量子最適化はエネルギー$E \leq A E_{GS}$(ここでは$E_{GS}$は基底状態エネルギー)を多項式時間で返し、保守的に$A \simeq 0.6$となる。 シミュレーションにおけるランダム近似ハード(プラントド・ソリューション)インスタンスに対するスペクトル折り畳み量子最適化のパラメータ変動を徹底的にベンチマークし、この予測と一致した性能を求める。 我々は、この近似保証がすべての可能なハイパーグラフに対して成り立つとは主張しないが、アルゴリズムのメカニズムは広く一般化することができる。 これらの結果は、量子コンピュータが以前想定されていたよりも近似最適化に強力であることを示唆している。

Constraint satisfaction problems are an important area of computer science. Many of these problems are in the complexity class NP which is exponentially hard for all known methods, both for worst cases and often typical. Fundamentally, the lack of any guided local minimum escape method ensures the hardness of both exact and approximate optimization classically, but the intuitive mechanism for approximation hardness in quantum algorithms based on Hamiltonian time evolution is poorly understood. We explore this question using the prototypically hard MAX-3-XORSAT problem class. We conclude that the mechanisms for quantum exact and approximation hardness are fundamentally distinct. We qualitatively identify why traditional methods such as quantum adiabatic optimization are not good approximation algorithms. We propose a new spectral folding optimization method that does not suffer from these issues and study it analytically and numerically. We consider random rank-3 hypergraphs including extremal planted solution instances, where the ground state satisfies an anomalously high fraction of constraints compared to truly random problems. We show that, if we define the energy to be $E = N_{unsat}-N_{sat}$, then spectrally folded quantum optimization will return states with energy $E \leq A E_{GS}$ (where $E_{GS}$ is the ground state energy) in polynomial time, where conservatively, $A \simeq 0.6$. We thoroughly benchmark variations of spectrally folded quantum optimization for random classically approximation-hard (planted solution) instances in simulation, and find performance consistent with this prediction. We do not claim that this approximation guarantee holds for all possible hypergraphs, though our algorithm's mechanism can likely generalize widely. These results suggest that quantum computers are more powerful for approximate optimization than had been previously assumed.
翻訳日:2024-01-24 18:43:27 公開日:2024-01-23
# 相対論的量子オットーエンジン:量子場からのインスタントワーク抽出

Relativistic quantum Otto engine: Instant work extraction from a quantum field ( http://arxiv.org/abs/2312.04485v3 )

ライセンス: Link先を確認
Kensuke Gallock-Yoshimura(参考訳) 本研究では,unruh-dewitt粒子検出器を用いて量子オットーエンジンに対する非摂動的アプローチを行い,任意の大域的双曲曲線時空における量子クライン・ゴルドン場から仕事を抽出する。 我々は、真空状態、熱状態、および圧縮状態を含む任意の準自由状態における場を考えることにより、その範囲を広げる。 本手法の重要な特徴は,検出器とフィールド間の瞬時相互作用であり,非摂動解析が可能となる。 第2等調過程の検出器が第1の相互作用から信号を受け取ると、2つの等調過程が瞬時に発生しても、検出器は量子オットーサイクルから正の仕事をうまく抽出できることを実証する。 このシグナリングにより検出器は磁場に熱を放出し、熱力学サイクルが完了する。 実演として,安静時の検出器を平坦な時空で検討し,ミンコフスキー真空状態から抽出した作品を計算した。

In this study, we carry out a non-perturbative approach to a quantum Otto engine, employing an Unruh-DeWitt particle detector to extract work from a quantum Klein-Gordon field in an arbitrary globally hyperbolic curved spacetime. We broaden the scope by considering the field in any quasi-free state, which includes vacuum, thermal, and squeezed states. A key aspect of our method is the instantaneous interaction between the detector and the field, which enables a thorough non-perturbative analysis. We demonstrate that the detector can successfully extract positive work from the quantum Otto cycle, even when two isochoric processes occur instantaneously, provided the detector in the second isochoric process receives a signal from the first interaction. This signaling allows the detector to release heat into the field, thereby the thermodynamic cycle is completed. As a demonstration, we consider a detector at rest in flat spacetime and compute the work extracted from the Minkowski vacuum state.
翻訳日:2024-01-24 18:42:51 公開日:2024-01-23
# 自動運転におけるオープンソースデータエコシステムの現状と将来

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future ( http://arxiv.org/abs/2312.03408v2 )

ライセンス: Link先を確認
Hongyang Li and Yang Li and Huijie Wang and Jia Zeng and Pinlong Cai and Huilin Xu and Dahua Lin and Junchi Yan and Feng Xu and Lu Xiong and Jingdong Wang and Futang Zhu and Kai Yan and Chunjing Xu and Tiancai Wang and Beipeng Mu and Shaoqing Ren and Zhihui Peng and Yu Qiao(参考訳) 自動運転技術の継続的な成熟と応用により、オープンソースの自動運転データセットを体系的に検討することで、業界エコシステムの堅牢な進化を育むことができる。 現在の自動運転データセットは、広く2世代に分類できる。 第1世代の自動運転データセットは、センサーモダリティが比較的シンプルで、データスケールが小さく、知覚レベルのタスクに限定されている。 2012年に導入されたkittiは、この最初の波の顕著な代表である。 対照的に、第2世代のデータセットは、センサーのモダリティの増大、データスケールと多様性の増大、および予測と制御を包含する知覚からのタスクの拡張を示す。 第2世代の代表的な例として、2019年頃に導入されたnuScenesとWaymoがある。 この包括的なレビューは、学界と産業界の両方の同僚と共同で行われ、国内外の70以上のオープンソースの自動運転データセットを体系的に評価している。 高品質なデータセットの作成の基礎となる原則、データエンジンシステムの重要な役割、スケーラブルなデータ生成を容易にするための生成基盤モデルの利用など、さまざまな側面に対する洞察を提供する。 さらに、将来の第3世代自動運転データセットが持つべき特性とデータスケールについて、徹底的な分析と談話を行う。 また、解決を保障する科学的、技術的課題も検討している。 これらの取り組みは、自律的な革新を推進し、重要な領域における技術強化を促進する上で重要なものである。 詳細はhttps://github.com/opendrivelab/driveagiを参照。

With the continuous maturation and application of autonomous driving technology, a systematic examination of open-source autonomous driving datasets becomes instrumental in fostering the robust evolution of the industry ecosystem. Current autonomous driving datasets can broadly be categorized into two generations. The first-generation autonomous driving datasets are characterized by relatively simpler sensor modalities, smaller data scale, and is limited to perception-level tasks. KITTI, introduced in 2012, serves as a prominent representative of this initial wave. In contrast, the second-generation datasets exhibit heightened complexity in sensor modalities, greater data scale and diversity, and an expansion of tasks from perception to encompass prediction and control. Leading examples of the second generation include nuScenes and Waymo, introduced around 2019. This comprehensive review, conducted in collaboration with esteemed colleagues from both academia and industry, systematically assesses over seventy open-source autonomous driving datasets from domestic and international sources. It offers insights into various aspects, such as the principles underlying the creation of high-quality datasets, the pivotal role of data engine systems, and the utilization of generative foundation models to facilitate scalable data generation. Furthermore, this review undertakes an exhaustive analysis and discourse regarding the characteristics and data scales that future third-generation autonomous driving datasets should possess. It also delves into the scientific and technical challenges that warrant resolution. These endeavors are pivotal in advancing autonomous innovation and fostering technological enhancement in critical domains. For further details, please refer to https://github.com/OpenDriveLab/DriveAGI.
翻訳日:2024-01-24 18:42:31 公開日:2024-01-23
# 条件付き変分拡散モデル

Conditional Variational Diffusion Models ( http://arxiv.org/abs/2312.02246v3 )

ライセンス: Link先を確認
Gabriel della Maggiora, Luis Alberto Croquevielle, Nikita Deshpande, Harry Horsley, Thomas Heinis, Artur Yakimovich(参考訳) 逆問題とは、工学と科学における重要な課題である観測からパラメータを決定することである。 近年、生成モデル、特に拡散モデルがこの領域で、現実的な解と優れた数学的性質を生み出す能力で人気を集めている。 拡散モデルの成功にもかかわらず、拡散モデルの重要な欠点は拡散過程のダイナミクスを制御する分散スケジュールの選択に対する感度である。 このスケジュールを特定のアプリケーション向けに微調整することは重要だが、時間的コストがかかり、最適な結果が保証されない。 トレーニングプロセスの一環として,スケジュール学習のための新しい手法を提案する。 提案手法は,データに対する確率的条件付けをサポートし,高品質なソリューションを提供し,柔軟性があり,最小限のオーバーヘッドで異なるアプリケーションに適応できることを示す。 このアプローチは、超解像顕微鏡と定量的位相イメージングという2つの非関係の逆問題で検証され、従来の手法と同等あるいは優れた結果が得られる。 実験によるスケジュールの微調整は、よりよい結果をもたらす安定した方法でトレーニング中に学習できるため、避けるべきである。

Inverse problems aim to determine parameters from observations, a crucial task in engineering and science. Lately, generative models, especially diffusion models, have gained popularity in this area for their ability to produce realistic solutions and their good mathematical properties. Despite their success, an important drawback of diffusion models is their sensitivity to the choice of variance schedule, which controls the dynamics of the diffusion process. Fine-tuning this schedule for specific applications is crucial but time-costly and does not guarantee an optimal result. We propose a novel approach for learning the schedule as part of the training process. Our method supports probabilistic conditioning on data, provides high-quality solutions, and is flexible, proving able to adapt to different applications with minimum overhead. This approach is tested in two unrelated inverse problems: super-resolution microscopy and quantitative phase imaging, yielding comparable or superior results to previous methods and fine-tuned diffusion models. We conclude that fine-tuning the schedule by experimentation should be avoided because it can be learned during training in a stable way that yields better results.
翻訳日:2024-01-24 18:42:09 公開日:2024-01-23
# WavePlanes: 動的ニューラルラジアンス場のためのコンパクトウェーブレット表現

WavePlanes: A compact Wavelet representation for Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2312.02218v2 )

ライセンス: Link先を確認
Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull(参考訳) Dynamic Neural Radiance Fields (Dynamic NeRF)は、移動シーンをモデル化するためのNeRF技術を強化する。 しかし、それらは資源集約的で圧縮が難しい。 本稿では,高速かつコンパクトな明示的モデルであるWavePlanesについて述べる。 Nレベル2次元ウェーブレット係数を用いたマルチスケール空間および時空間特徴平面表現を提案する。 逆離散ウェーブレット変換は、N特徴信号を様々な詳細で再構成し、4次元グリッドにおける体積の色と密度を近似するために線形デコードする。 ウェーブレット係数の間隔を計算し、非ゼロ係数と各平面上の位置のみを含むハッシュマップを圧縮する。 これにより、圧縮されたモデルサイズは ~12 MB になる。 最先端のプレーンベースモデルと比較すると、WavePlanesは最大15倍小さくなり、計算負荷が小さくなり、1時間のトレーニングで同等の結果が得られます。 さらに,従来提案してきたスキームと同様に機能する新しい機能融合スキームを提案し,解釈性も向上した。 私たちのコードは、https://github.com/azzarelli/waveplanes/で利用可能です。

Dynamic Neural Radiance Fields (Dynamic NeRF) enhance NeRF technology to model moving scenes. However, they are resource intensive and challenging to compress. To address this issue, this paper presents WavePlanes, a fast and more compact explicit model. We propose a multi-scale space and space-time feature plane representation using N-level 2-D wavelet coefficients. The inverse discrete wavelet transform reconstructs N feature signals at varying detail, which are linearly decoded to approximate the color and density of volumes in a 4-D grid. Exploiting the sparsity of wavelet coefficients, we compress a Hash Map containing only non-zero coefficients and their locations on each plane. This results in a compressed model size of ~12 MB. Compared with state-of-the-art plane-based models, WavePlanes is up to 15x smaller, less computationally demanding and achieves comparable results in as little as one hour of training - without requiring custom CUDA code or high performance computing resources. Additionally, we propose new feature fusion schemes that work as well as previously proposed schemes while providing greater interpretability. Our code is available at: https://github.com/azzarelli/waveplanes/
翻訳日:2024-01-24 18:41:52 公開日:2024-01-23
# 雑音量子コンピュータ上の量子重力のモデル

A model of quantum gravity on a noisy quantum computer ( http://arxiv.org/abs/2311.17991v2 )

ライセンス: Link先を確認
Muhammad Asaduzzaman, Raghav G. Jha, Bharath Sambasivam(参考訳) 我々は、IBMの超伝導量子ビット量子コンピュータ上で、量子重力の重要な玩具モデルであるSachdev-Ye-Kitaev(SYK)モデルを研究する。 量子化ハミルトニアンにおける項の可換クラスタ数を最小化するためにグラフ色アルゴリズムを用いることで、n$ majorana fermions に対する一階リー積公式を用いた時間発展の回路複雑性が $\mathcal{o}(n^5 j^{2}t^2/\epsilon)$ ここで $j$ は次元結合パラメータ、$t$ は進化時間、$\epsilon$ は所望の精度である。 この複雑さは、文献の既存の結果よりも大幅に改善されている。 この改良されたリソース要求により、最大340個の2ビットゲートを使用する$N=6, 8$の時間進化を行い、ノイズの多いハードウェア結果に対して異なるエラー軽減スキームを実行する。 従来のコンピュータとノイズレスシミュレータの正確な対角化によって得られた結果とよく一致している。 特に、量子多体系のカオス的性質を定量化する標準的な方法である時間$t$と時間外順序相関器(OTOC)の後の真空状態への回帰確率を計算する。

We study the Sachdev-Ye-Kitaev (SYK) model -- an important toy model for quantum gravity on IBM's superconducting qubit quantum computers. By using a graph-coloring algorithm to minimize the number of commuting clusters of terms in the qubitized Hamiltonian, we find the circuit complexity of the time evolution using the first-order Lie product formula for $N$ Majorana fermions is $\mathcal{O}(N^5 J^{2}t^2/\epsilon)$ where $J$ is the dimensionful coupling parameter, $t$ is the evolution time, and $\epsilon$ is the desired accuracy. This complexity is a significant improvement over existing results in the literature. With this improved resource requirement, we perform the time evolution for $N=6, 8$ using up to 340 two-qubit gates and perform different error mitigation schemes on the noisy hardware results. We find good agreement with the results obtained using exact diagonalization on classical computers and noiseless simulators. In particular, we compute the return probability to the vacuum state after time $t$ and out-of-time order correlators (OTOC) which is a standard method of quantifying the chaotic nature of quantum many-body systems.
翻訳日:2024-01-24 18:41:34 公開日:2024-01-23
# GraphPro: 推奨のためのグラフ事前トレーニングとプロンプト学習

GraphPro: Graph Pre-training and Prompt Learning for Recommendation ( http://arxiv.org/abs/2311.16716v4 )

ライセンス: Link先を確認
Yuhao Yang, Lianghao Xia, Da Luo, Kangyi Lin, Chao Huang(参考訳) GNNベースのレコメンデータは、マルチホップメッセージパッシングによる複雑なユーザ-イテムインタラクションのモデリングに長けている。 しかし,既存手法ではユーザとイテムの相互作用の動的性質を無視することが多く,ユーザの嗜好の変化や,新たに到着したデータの分散シフトへの適応を阻害する。 したがって、現実世界の動的環境におけるスケーラビリティと性能は限られている。 本研究では,パラメータ効率と動的グラフ事前学習と即時学習を組み合わせたグラフプロを提案する。 この新しい組み合わせにより、GNNは長期的なユーザの好みと短期的な振る舞いのダイナミクスの両方を効果的に捉え、正確でタイムリーなレコメンデーションの提供を可能にします。 graphproフレームワークは,事前学習したgnnモデルに時間的プロンプト機構とグラフ構造的プロンプト学習機構をシームレスに統合することにより,ユーザの好みを進化させる課題に対処する。 時間的プロンプトメカニズムは、ユーザとイテムの相互作用に関する時間情報を符号化し、モデルが時間的コンテキストを自然に捉え、グラフ構造的プロンプト学習機構は、学習済みの知識を連続的なインクリメンタルトレーニングを必要とせずに、行動力学に適応させることができる。 さらに,実世界の動的シナリオを模倣するレコメンデーションのための動的評価設定を導入し,オフライン・オンラインギャップをよりよいレベルに橋渡しする。 大規模な産業展開を含む大規模な実験は、さまざまな最先端のレコメンデータと統合されたGraphProの軽量なプラグインスケーラビリティを示し、有効性、堅牢性、効率性の観点からGraphProの利点を強調します。

GNN-based recommenders have excelled in modeling intricate user-item interactions through multi-hop message passing. However, existing methods often overlook the dynamic nature of evolving user-item interactions, which impedes the adaption to changing user preferences and distribution shifts in newly arriving data. Thus, their scalability and performances in real-world dynamic environments are limited. In this study, we propose GraphPro, a framework that incorporates parameter-efficient and dynamic graph pre-training with prompt learning. This novel combination empowers GNNs to effectively capture both long-term user preferences and short-term behavior dynamics, enabling the delivery of accurate and timely recommendations. Our GraphPro framework addresses the challenge of evolving user preferences by seamlessly integrating a temporal prompt mechanism and a graph-structural prompt learning mechanism into the pre-trained GNN model. The temporal prompt mechanism encodes time information on user-item interaction, allowing the model to naturally capture temporal context, while the graph-structural prompt learning mechanism enables the transfer of pre-trained knowledge to adapt to behavior dynamics without the need for continuous incremental training. We further bring in a dynamic evaluation setting for recommendation to mimic real-world dynamic scenarios and bridge the offline-online gap to a better level. Our extensive experiments including a large-scale industrial deployment showcases the lightweight plug-in scalability of our GraphPro when integrated with various state-of-the-art recommenders, emphasizing the advantages of GraphPro in terms of effectiveness, robustness and efficiency.
翻訳日:2024-01-24 18:41:10 公開日:2024-01-23
# グリオ芽腫浸潤のパーソナライズド予測:数学的モデル、物理インフォームドニューラルネットワーク、マルチモーダルスコープ

Personalized Predictions of Glioblastoma Infiltration: Mathematical Models, Physics-Informed Neural Networks and Multimodal Scans ( http://arxiv.org/abs/2311.16536v2 )

ライセンス: Link先を確認
Ray Zirui Zhang, Ivan Ezhov, Michal Balcerak, Andy Zhu, Benedikt Wiestler, Bjoern Menze, John Lowengrub(参考訳) 医学的MRI検査からGlioblastoma(GBM)の浸潤を予測することは、腫瘍の増殖動態を理解し、個別の放射線治療計画を立てるのに不可欠であり、GBM成長の数学的モデルは腫瘍細胞の空間分布の予測においてそのデータを補うことができる。 しかし、これは、時間的データや画像診断と診断の間の制限による逆問題である臨床データから、モデルの患者固有のパラメータを推定する必要がある。 本研究では,単一3次元構造MRIスナップショットからGBM成長の反応拡散PDEモデルの患者固有のパラメータを推定するために物理情報ニューラルネットワーク(PINN)を用いる手法を提案する。 PINNはデータとPDEの両方を損失関数に埋め込み、理論とデータを統合する。 主なイノベーションは、特徴的な非次元パラメータの同定と推定、非次元パラメータを利用する事前学習ステップ、患者固有のパラメータを決定するための微調整ステップである。 さらに、拡散領域法は、PINNフレームワーク内の複雑な脳の形状を扱うために用いられる。 本手法は, 合成データと患者データの両方で検証され, 個人化gbm治療のための臨床設定において, リアルタイムパラメトリック推論が期待できる。

Predicting the infiltration of Glioblastoma (GBM) from medical MRI scans is crucial for understanding tumor growth dynamics and designing personalized radiotherapy treatment plans.Mathematical models of GBM growth can complement the data in the prediction of spatial distributions of tumor cells. However, this requires estimating patient-specific parameters of the model from clinical data, which is a challenging inverse problem due to limited temporal data and the limited time between imaging and diagnosis. This work proposes a method that uses Physics-Informed Neural Networks (PINNs) to estimate patient-specific parameters of a reaction-diffusion PDE model of GBM growth from a single 3D structural MRI snapshot. PINNs embed both the data and the PDE into a loss function, thus integrating theory and data. Key innovations include the identification and estimation of characteristic non-dimensional parameters, a pre-training step that utilizes the non-dimensional parameters and a fine-tuning step to determine the patient specific parameters. Additionally, the diffuse domain method is employed to handle the complex brain geometry within the PINN framework. Our method is validated both on synthetic and patient datasets, and shows promise for real-time parametric inference in the clinical setting for personalized GBM treatment.
翻訳日:2024-01-24 18:40:38 公開日:2024-01-23
# Prompt-driven Nucleus Instance Segmentation のパワーを解放する

Unleashing the Power of Prompt-driven Nucleus Instance Segmentation ( http://arxiv.org/abs/2311.15939v3 )

ライセンス: Link先を確認
Zhongyi Shui and Yunlong Zhang and Kai Yao and Chenglu Zhu and Sunyi Zheng and Jingxiong Li and Honglin Li and Yuxuan Sun and Ruizhe Guo and Lin Yang(参考訳) 組織像における核インスタンスのセグメンテーションは、幅広い臨床応用に不可欠である。 現在の支配的アルゴリズムは核プロキシマップの回帰に依存する。 推定されたマップから核インスタンスを区別するには、エラーが発生しやすくパラメータに敏感な、注意深くキュレートされた後処理が必要である。 近年,Segment Anything Model (SAM) は医用画像のセグメンテーションに大きな注目を集めている。 それでも、核のインスタンスセグメンテーションに対するそのポテンシャルは、ほとんど未発見のままである。 本稿では, 自動核インスタンス分割のための核プロンプトとSAMから構成される新しいプロンプト駆動型フレームワークを提案する。 具体的には、SAMが微調整され、刺激された核の対応するマスクを出力している間、プロンプトは各核に対してユニークな点プロンプトを生成することを学習する。 さらに、重なり合う核を同定するモデルの能力を高めるために、隣接核を負のプロンプトとして含むことを提案する。 複雑な後処理がなければ,提案手法は3つの挑戦的ベンチマークに対して新しい最先端性能を設定できる。 コードは \url{github.com/windygoo/PromptNucSeg} で入手できる。

Nucleus instance segmentation in histology images is crucial for a broad spectrum of clinical applications. Current dominant algorithms rely on regression of nuclear proxy maps. Distinguishing nucleus instances from the estimated maps requires carefully curated post-processing, which is error-prone and parameter-sensitive. Recently, the Segment Anything Model (SAM) has earned huge attention in medical image segmentation, owing to its impressive generalization ability and promptable property. Nevertheless, its potential on nucleus instance segmentation remains largely underexplored. In this paper, we present a novel prompt-driven framework that consists of a nucleus prompter and SAM for automatic nucleus instance segmentation. Specifically, the prompter learns to generate a unique point prompt for each nucleus while the SAM is fine-tuned to output the corresponding mask for the prompted nucleus. Furthermore, we propose the inclusion of adjacent nuclei as negative prompts to enhance the model's capability to identify overlapping nuclei. Without complicated post-processing, our proposed method sets a new state-of-the-art performance on three challenging benchmarks. Code is available at \url{github.com/windygoo/PromptNucSeg}
翻訳日:2024-01-24 18:40:16 公開日:2024-01-23
# catma: マイクロサービスアプリケーションのためのコンフォーマンス分析ツール

CATMA: Conformance Analysis Tool For Microservice Applications ( http://arxiv.org/abs/2401.09838v2 )

ライセンス: Link先を確認
Clinton Cao, Simon Schneider, Nicol\'as E. D\'iaz Ferreyra, Sicco Verwer, Annibale Panichella, Riccardo Scandariato(参考訳) マイクロサービスアーキテクチャにより、開発者はソフトウェアシステムのコア機能を複数の小さなサービスに分割できる。 しかし、このアーキテクチャスタイルは、システムのデプロイが実装に準拠しているかどうかをデバッグし、評価することを難しくする。 本稿では,システムデプロイメントと実装の非互換性を検出する自動ツールCATMAを提案する。 検出された不一致を自動的に可視化し、潜在的な解釈を生成する。 CATMAの評価は、性能の面で有望な結果を示し、有用な洞察を提供する。 CATMAは \url{https://cyber-analytics.nl/catma.github.io/} で利用可能であり、デモビデオは \url{https://youtu.be/WKP1hG-TDKc} で公開されている。

The microservice architecture allows developers to divide the core functionality of their software system into multiple smaller services. However, this architectural style also makes it harder for them to debug and assess whether the system's deployment conforms to its implementation. We present CATMA, an automated tool that detects non-conformances between the system's deployment and implementation. It automatically visualizes and generates potential interpretations for the detected discrepancies. Our evaluation of CATMA shows promising results in terms of performance and providing useful insights. CATMA is available at \url{https://cyber-analytics.nl/catma.github.io/}, and a demonstration video is available at \url{https://youtu.be/WKP1hG-TDKc}.
翻訳日:2024-01-24 18:33:37 公開日:2024-01-23
# 音声対話システムの客観的評価のためのユーザ行動分析

An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue Systems ( http://arxiv.org/abs/2401.04867v2 )

ライセンス: Link先を確認
Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara, Gabriel Skantze(参考訳) 音声対話システムの評価手法の確立は重要であるが,課題もある。 主観評価はユーザ実験で一般的に用いられるが,研究比較や再現性には客観的評価が必要である。 そこで本研究では,ユーザの行動に基づいた間接的かつ客観的なシステム評価フレームワークを提案する。 本稿では,ソーシャル対話課題におけるユーザの行動と主観的評価スコアとの関係について検討する。 その結果,注意的聴取や就職面接など,ユーザ発話が第一の対話タスクでは,発話数や単語数などの指標が評価に重要な役割を果たすことがわかった。 障害の観察は、就職面接などの形式的タスクの有効性を示すこともできる。 一方,初対面会話などの対話性が高い対話タスクでは,平均的なスイッチ停止時間など,ターンテイクに関連する行動が重要となる。 これらの結果から,適切なユーザ行動の選択は,各ソーシャル対話タスクにおける客観的評価に有用であることが示唆された。

Establishing evaluation schemes for spoken dialogue systems is important, but it can also be challenging. While subjective evaluations are commonly used in user experiments, objective evaluations are necessary for research comparison and reproducibility. To address this issue, we propose a framework for indirectly but objectively evaluating systems based on users' behaviors. In this paper, to this end, we investigate the relationship between user behaviors and subjective evaluation scores in social dialogue tasks: attentive listening, job interview, and first-meeting conversation. The results reveal that in dialogue tasks where user utterances are primary, such as attentive listening and job interview, indicators like the number of utterances and words play a significant role in evaluation. Observing disfluency also can indicate the effectiveness of formal tasks, such as job interview. On the other hand, in dialogue tasks with high interactivity, such as first-meeting conversation, behaviors related to turn-taking, like average switch pause length, become more important. These findings suggest that selecting appropriate user behaviors can provide valuable insights for objective evaluation in each social dialogue task.
翻訳日:2024-01-24 18:33:25 公開日:2024-01-23
# RudolfV:病理学者のための基礎モデル

RudolfV: A Foundation Model by Pathologists for Pathologists ( http://arxiv.org/abs/2401.04079v2 )

ライセンス: Link先を確認
Jonas Dippel, Barbara Feulner, Tobias Winterhoff, Simon Schallenberg, Gabriel Dernbach, Andreas Kunft, Stephan Tietz, Philipp Jurmeister, David Horst, Lukas Ruff, Klaus-Robert M\"uller, Frederick Klauschen, Maximilian Alber(参考訳) 病理は臨床医学や生医学研究において中心的な役割を果たす。 人工知能は多くの病理学的タスクで有望な結果を示しているが、トレーニングデータが不足しているまれな疾患の一般化と対処は依然として課題である。 ラベルのないデータからの知識を基礎モデルに蒸留し、潜在的に限定されたラベル付きデータから学ぶことは、これらの課題に対処するための有効な道を提供する。 本稿では,準自動データキュレーションと病理学領域知識の統合により,デジタル病理学の基礎モデルの現状を,スライド画像全体に適用する。 具体的には、計算と病理医のドメイン知識を組み合わせて、異なる固定、染色、走査プロトコルからのデータに加えて、EUと米国全体で異なる表示や実験室のデータを含む750万の画像パッチに対応する103万のスライドの多様なデータセットを算出し、(2)意味論的に類似したスライドと組織パッチをグループ化し、(3)トレーニング中に入力画像を拡張する。 その結果得られたモデルを,公開ベンチマークと内部ベンチマークで評価し,基礎モデルは1桁以下のスライドでトレーニングされているものの,競合するモデルと同等以上のパフォーマンスを示す。 より多くのデータとより大きなモデルにアプローチをスケールすることで、診断や生体医学研究においてますます複雑な現実世界のタスクに対処するためのパフォーマンスとキャパシティがさらに高まると期待しています。

Histopathology plays a central role in clinical medicine and biomedical research. While artificial intelligence shows promising results on many pathological tasks, generalization and dealing with rare diseases, where training data is scarce, remains a challenge. Distilling knowledge from unlabeled data into a foundation model before learning from, potentially limited, labeled data provides a viable path to address these challenges. In this work, we extend the state of the art of foundation models for digital pathology whole slide images by semi-automated data curation and incorporating pathologist domain knowledge. Specifically, we combine computational and pathologist domain knowledge (1) to curate a diverse dataset of 103k slides corresponding to 750 million image patches covering data from different fixation, staining, and scanning protocols as well as data from different indications and labs across the EU and US, (2) for grouping semantically similar slides and tissue patches, and (3) to augment the input images during training. We evaluate the resulting model on a set of public and internal benchmarks and show that although our foundation model is trained with an order of magnitude less slides, it performs on par or better than competing models. We expect that scaling our approach to more data and larger models will further increase its performance and capacity to deal with increasingly complex real world tasks in diagnostics and biomedical research.
翻訳日:2024-01-24 18:33:09 公開日:2024-01-23
# マルチモーダルインフォーマティブ ViT:ハイパースペクトルとLiDAR分類のための情報集約と分布

Multimodal Informative ViT: Information Aggregation and Distribution for Hyperspectral and LiDAR Classification ( http://arxiv.org/abs/2401.03179v2 )

ライセンス: Link先を確認
Jiaqing Zhang, Jie Lei, Weiying Xie, Geng Yang, Daixun Li, Yunsong Li(参考訳) マルチモーダル土地被覆分類(MLCC、Multimodal Land Cover Classification)において、データ分散の冗長性は共通の課題であり、複数のモダリティから無関係な情報がそれらの特徴の効果的な統合を妨げる。 そこで本研究では,革新的な情報集約分散機構を備えたシステムであるmivit(multimodal informative vit)を提案する。 このアプローチは冗長性レベルを再定義し、パフォーマンスアウェアな要素を融合表現に統合し、前方と後方の両方でセマンティクスの学習を容易にする。 MIVitは、各モードの分離されたおよび融合された特徴の実験的分布における冗長性を著しく減少させることで際立っている。 水平・垂直方向の浅部局所特徴抽出には指向性アテンションフュージョン(OAF)と、長距離の注意を通して深部グローバル特徴を抽出するトランスフォーマー特徴抽出器を用いる。 また,相互情報に基づく情報集約制約(IAC)を提案する。 さらに,mivitにおける情報配信フロー(idf)は,異なるモダリティの特徴マップにまたがるグローバル分類情報を分散することにより,性能認識性を高める。 このアーキテクチャはまた、軽量な独立モダリティ分類器のモダリティ問題に対処し、典型的にはトランスフォーマーに関連する計算負荷を削減する。 以上の結果から,mivitの2方向アグリゲート分散機構は,3つのマルチモーダルデータセットにおいて95.56%の平均精度を達成した。 この性能はMLCCの最先端手法を上回る。 MIVitのコードはhttps://github.com/icey-zhang/MIViTでアクセスできる。

In multimodal land cover classification (MLCC), a common challenge is the redundancy in data distribution, where irrelevant information from multiple modalities can hinder the effective integration of their unique features. To tackle this, we introduce the Multimodal Informative Vit (MIVit), a system with an innovative information aggregate-distributing mechanism. This approach redefines redundancy levels and integrates performance-aware elements into the fused representation, facilitating the learning of semantics in both forward and backward directions. MIVit stands out by significantly reducing redundancy in the empirical distribution of each modality's separate and fused features. It employs oriented attention fusion (OAF) for extracting shallow local features across modalities in horizontal and vertical dimensions, and a Transformer feature extractor for extracting deep global features through long-range attention. We also propose an information aggregation constraint (IAC) based on mutual information, designed to remove redundant information and preserve complementary information within embedded features. Additionally, the information distribution flow (IDF) in MIVit enhances performance-awareness by distributing global classification information across different modalities' feature maps. This architecture also addresses missing modality challenges with lightweight independent modality classifiers, reducing the computational load typically associated with Transformers. Our results show that MIVit's bidirectional aggregate-distributing mechanism between modalities is highly effective, achieving an average overall accuracy of 95.56% across three multimodal datasets. This performance surpasses current state-of-the-art methods in MLCC. The code for MIVit is accessible at https://github.com/icey-zhang/MIViT.
翻訳日:2024-01-24 18:32:40 公開日:2024-01-23
# ブレンディングは必要なすべて:1兆ドルのパラメーターllmよりも安く、より良い代替手段

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM ( http://arxiv.org/abs/2401.02994v3 )

ライセンス: Link先を確認
Xiaoding Lu, Zongyi Liu, Adian Liusie, Vyas Raina, Vineet Mudupalli, Yuwen Zhang, William Beauchamp(参考訳) 会話型AI研究では、ChatGPTのようなモデルが示すように、多数のパラメータを持つモデルを開発する傾向が顕著です。 これらの拡張モデルは、より優れたチャット応答を生成する傾向にあるが、大きな計算リソースとメモリを必要とする。 より小さなモデルの組み合わせは、特異な大きなモデルと比較して、同等または拡張されたパフォーマンスを協調的に達成できるだろうか? 複数のチャットAIを統合する上で,単純かつ効果的な手法である「ブレンディング」というアプローチを導入する。 我々の実証的な証拠は、特定の小さなモデルが相乗的にブレンドされると、より大きいモデルの能力よりも優れ、または匹敵する可能性があることを示唆している。 例えば、中程度のサイズの3つのモデル(6B/13Bパラメータ)を統合することで、ChatGPT (175B+パラメータ)のようなかなり大きなモデルのパフォーマンス指標に匹敵したり、超えたりすることができる。 この仮説は、30日間にわたってChaiリサーチプラットフォーム上で大きなユーザベースを持つA/Bテスト手法を使って厳格にテストされている。 この結果は、計算要求の急増を伴わずに、チャットAIの有効性を高めるための実行可能なアプローチとして、"ブレンディング"戦略の可能性を強調している。

In conversational AI research, there's a noticeable trend towards developing models with a larger number of parameters, exemplified by models like ChatGPT. While these expansive models tend to generate increasingly better chat responses, they demand significant computational resources and memory. This study explores a pertinent question: Can a combination of smaller models collaboratively achieve comparable or enhanced performance relative to a singular large model? We introduce an approach termed "blending", a straightforward yet effective method of integrating multiple chat AIs. Our empirical evidence suggests that when specific smaller models are synergistically blended, they can potentially outperform or match the capabilities of much larger counterparts. For instance, integrating just three models of moderate size (6B/13B paramaeters) can rival or even surpass the performance metrics of a substantially larger model like ChatGPT (175B+ paramaters). This hypothesis is rigorously tested using A/B testing methodologies with a large user base on the Chai research platform over a span of thirty days. The findings underscore the potential of the "blending" strategy as a viable approach for enhancing chat AI efficacy without a corresponding surge in computational demands.
翻訳日:2024-01-24 18:32:08 公開日:2024-01-23
# 共鳴媒質中における高調波発生時の巨大絡み合った光の発生

Generation of massively entangled bright states of light during harmonic generation in resonant media ( http://arxiv.org/abs/2401.02817v2 )

ライセンス: Link先を確認
Sili Yi, Ihar Babushkin, Olga Smirnova, Misha Ivanov(参考訳) 基本レベルでは、光間相互作用の完全な説明は物質と光の両方を量子的に扱う必要がある。 しかし、光子四重項をコヒーレント状態で担持する高出力レーザーパルスを発生させる標準的な光源では、高出力レーザーマッター相互作用中の光の古典的な記述が適当と期待されている。 ここでは、多くのオクターブに絡み合った入射レーザー光の多重高調波の発生を含む、この標準像からの劇的な偏差を生成するために、物質の非線形光学応答をいかに制御できるかを示す。 特に、高調波の非自明な量子状態は、高調波の1つが物質系の異なるレーザーアドレス状態間の遷移を引き起こすとすぐに生成される。 このような遷移は、量子駆動場や物質相関がなくても十分な調和性の量子状態を生成するための鍵条件として現れる、絡み合った光マター波動関数を生成する。 逆に、単一の高調波を持つ材料系の絡み合いは、異なる高調波間の絡み合いを生成し、制御する。 したがって、高調波の少なくとも1つと共鳴に近い非線形メディアは、巨大に絡み合った量子状態を生成するのに最も魅力的である。 我々の分析は、attosecond physicsとquantum opticsのインターフェイスにおいて、量子情報科学に重要な可能性を開く。

At the fundamental level, full description of light-matter interaction requires quantum treatment of both matter and light. However, for standard light sources generating intense laser pulses carrying quadrillions of photons in a coherent state, classical description of light during intense laser-matter interaction has been expected to be adequate. Here we show how nonlinear optical response of matter can be controlled to generate dramatic deviations from this standard picture, including generation of multiple harmonics of the incident laser light entangled across many octaves. In particular, non-trivial quantum states of harmonics are generated as soon as one of the harmonics induces a transition between different laser-dressed states of the material system. Such transitions generate an entangled light-matter wavefunction, which emerges as the key condition for generating quantum states of harmonics, sufficient even in the absence of a quantum driving field or material correlations. In turn, entanglement of the material system with a single harmonic generates and controls entanglement between different harmonics. Hence, nonlinear media that are near-resonant with at least one of the harmonics appear to be most attractive for controlled generation of massively entangled quantum states of light. Our analysis opens remarkable opportunities at the interface of attosecond physics and quantum optics, with implications for quantum information science.
翻訳日:2024-01-24 18:31:48 公開日:2024-01-23
# AIGCBench: AIが生成した画像間コンテンツの総合評価

AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI ( http://arxiv.org/abs/2401.01651v3 )

ライセンス: Link先を確認
Fanda Fan, Chunjie Luo, Wanling Gao, Jianfeng Zhan(参考訳) 人工知能生成コンテンツ(AIGC)の急成長する分野は、特にビデオ生成において急速に進歩している。 本稿では,画像対ビデオ(i2v)生成に重点を置き,様々な映像生成タスクを評価するための総合的・スケーラブルなベンチマークであるaigcbenchについて述べる。 AIGCBenchは、同等条件下で異なる最先端アルゴリズムを評価するさまざまなオープンドメインの画像テキストデータセットを含めることで、多様なデータセットの不足に悩まされる既存のベンチマークの制限に取り組む。 我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。 ビデオ生成タスクの統一評価フレームワークを確立するため,ベンチマークでは,アルゴリズムの性能を評価するために,4次元にまたがる11のメトリクスを含む。 これらの次元は、制御ビデオアライメント、モーションエフェクト、時間的一貫性、ビデオ品質である。 これらの指標は、参照ビデオ依存とビデオフリーの両方であり、包括的な評価戦略を確実にする。 提案した評価基準は人間の判断とよく相関し、現在のI2Vアルゴリズムの強みと弱みに関する洞察を提供する。 本研究はI2V分野におけるさらなる研究・開発を促進することを目的としている。 AIGCBenchは、より広範なAIGCランドスケープのための標準化されたベンチマークを作成するための重要なステップであり、ビデオ生成タスクの将来の評価に適応可能で公平なフレームワークを提案する。 私たちは、プロジェクトwebサイトでデータセットと評価コードをオープンソース化した。

The burgeoning field of Artificial Intelligence Generated Content (AIGC) is witnessing rapid advancements, particularly in video generation. This paper introduces AIGCBench, a pioneering comprehensive and scalable benchmark designed to evaluate a variety of video generation tasks, with a primary focus on Image-to-Video (I2V) generation. AIGCBench tackles the limitations of existing benchmarks, which suffer from a lack of diverse datasets, by including a varied and open-domain image-text dataset that evaluates different state-of-the-art algorithms under equivalent conditions. We employ a novel text combiner and GPT-4 to create rich text prompts, which are then used to generate images via advanced Text-to-Image models. To establish a unified evaluation framework for video generation tasks, our benchmark includes 11 metrics spanning four dimensions to assess algorithm performance. These dimensions are control-video alignment, motion effects, temporal consistency, and video quality. These metrics are both reference video-dependent and video-free, ensuring a comprehensive evaluation strategy. The evaluation standard proposed correlates well with human judgment, providing insights into the strengths and weaknesses of current I2V algorithms. The findings from our extensive experiments aim to stimulate further research and development in the I2V field. AIGCBench represents a significant step toward creating standardized benchmarks for the broader AIGC landscape, proposing an adaptable and equitable framework for future assessments of video generation tasks. We have open-sourced the dataset and evaluation code on the project website: https://www.benchcouncil.org/AIGCBench.
翻訳日:2024-01-24 18:31:25 公開日:2024-01-23
# s$^{2}$-dms:スキップステップ拡散モデル

S$^{2}$-DMs:Skip-Step Diffusion Models ( http://arxiv.org/abs/2401.01520v2 )

ライセンス: Link先を確認
Yixuan Wang and Shuangyin Li(参考訳) 拡散モデルは強力な生成ツールとして出現し、サンプル品質のGANと競合し、自己回帰モデルの可能性スコアを反映している。 これらのモデルのサブセットはDDIMによって例示され、固有の非対称性を示す:それらは$T$ステップで訓練されるが、生成時に$T$のサブセットからのみサンプルされる。 この選択的サンプリングアプローチは、スピードに最適化されているものの、誤ってアンサンプリングされたステップから重要な情報を除外し、サンプル品質の潜在的な妥協につながる。 この問題に対処するため、S$^{2}$-DMは、選択的サンプリングフェーズで省略された情報を再統合するように細心に設計された革新的な$L_{skip}$を用いて、新しいトレーニング手法である。 このアプローチの利点は、特にサンプルの品質を高め、実装が非常にシンプルで、最小限のコード修正が必要であり、様々なサンプリングアルゴリズムと互換性を持つほど柔軟である。 cifar10データセットでは,様々なサンプリングアルゴリズム(ddim,pndm,deis)および異なるサンプリングステップ(10,20,...,1000)において,従来の手法でトレーニングされたモデルに対して3.27%から14.06%の改善を示した。 CELEBAデータセットでは、改善は8.97%から27.08%まで変化した。 コードへのアクセスと追加のリソースはgithubで提供される。

Diffusion models have emerged as powerful generative tools, rivaling GANs in sample quality and mirroring the likelihood scores of autoregressive models. A subset of these models, exemplified by DDIMs, exhibit an inherent asymmetry: they are trained over $T$ steps but only sample from a subset of $T$ during generation. This selective sampling approach, though optimized for speed, inadvertently misses out on vital information from the unsampled steps, leading to potential compromises in sample quality. To address this issue, we present the S$^{2}$-DMs, which is a new training method by using an innovative $L_{skip}$, meticulously designed to reintegrate the information omitted during the selective sampling phase. The benefits of this approach are manifold: it notably enhances sample quality, is exceptionally simple to implement, requires minimal code modifications, and is flexible enough to be compatible with various sampling algorithms. On the CIFAR10 dataset, models trained using our algorithm showed an improvement of 3.27% to 14.06% over models trained with traditional methods across various sampling algorithms (DDIMs, PNDMs, DEIS) and different numbers of sampling steps (10, 20, ..., 1000). On the CELEBA dataset, the improvement ranged from 8.97% to 27.08%. Access to the code and additional resources is provided in the github.
翻訳日:2024-01-24 18:31:01 公開日:2024-01-23
# 逆条件下でのロバストな個人化音声活動検出のための自己教師付き事前学習

Self-supervised Pretraining for Robust Personalized Voice Activity Detection in Adverse Conditions ( http://arxiv.org/abs/2312.16613v2 )

ライセンス: Link先を確認
Holger Severin Bovbjerg (1), Jesper Jensen (1, 2), Jan {\O}stergaard (1), Zheng-Hua Tan (1, 3) ((1) Aalborg University, (2) Oticon, (3) Pioneer Centre for AI, Denmark)(参考訳) 本稿では,個人化された音声活動検出(VAD)モデルの性能向上を図るために,大規模な未学習データセットに自己教師付き事前訓練を適用することを提案する。 我々は、自己回帰予測符号化(APC)フレームワークを用いて、長期記憶(LSTM)エンコーダを事前訓練し、パーソナライズされたVADのために微調整する。 また, パーソナライズされたvadのロバスト性向上を目的として, apcの異形化を提案する。 訓練されたモデルは、SNRレベルが異なる様々な種類のノイズによって汚染されたクリーン音声と音声の両方で体系的に評価され、純粋な教師付きモデルと比較される。 実験により,自己教師付き事前学習は,クリーンな条件下でのパフォーマンスを向上させるだけでなく,純粋に教師付き学習よりも有害な条件に頑健なモデルを生み出すことが示された。

In this paper, we propose the use of self-supervised pretraining on a large unlabelled data set to improve the performance of a personalized voice activity detection (VAD) model in adverse conditions. We pretrain a long short-term memory (LSTM)-encoder using the autoregressive predictive coding (APC) framework and fine-tune it for personalized VAD. We also propose a denoising variant of APC, with the goal of improving the robustness of personalized VAD. The trained models are systematically evaluated on both clean speech and speech contaminated by various types of noise at different SNR-levels and compared to a purely supervised model. Our experiments show that self-supervised pretraining not only improves performance in clean conditions, but also yields models which are more robust to adverse conditions compared to purely supervised learning.
翻訳日:2024-01-24 18:30:30 公開日:2024-01-23
# 価格の因果予測

Causal Forecasting for Pricing ( http://arxiv.org/abs/2312.15282v2 )

ライセンス: Link先を確認
Douglas Schultz, Johannes Stephan, Julian Sieber, Trudie Yeh, Manuel Kunz, Patrick Doupe, Tim Januschowski(参考訳) 本稿では,価格条件下での需要予測手法を提案する。 ここで、価格を需要に対する入力変数として因果関係のモデル化は、小売業者が下流意思決定問題において(営利的な)最適価格設定を目指すため、重要である。 提案手法は,因果推論のためのダブル機械学習手法と,最先端のトランスフォーマーに基づく予測モデルを組み合わせたものである。 広範にわたる実験実験において,本手法は人工的かつ現実的なデータを用いて,完全に制御された環境での因果効果を推定する。 一方,本手法がオフ・ポリシー・セッティング(つまり価格設定の変更がある場合)において予測手法を上回っており,オン・ポリシー・セッティングではわずかに遅れていることを実世界データで実証する。

This paper proposes a novel method for demand forecasting in a pricing context. Here, modeling the causal relationship between price as an input variable to demand is crucial because retailers aim to set prices in a (profit) optimal manner in a downstream decision making problem. Our methods bring together the Double Machine Learning methodology for causal inference and state-of-the-art transformer-based forecasting models. In extensive empirical experiments, we show on the one hand that our method estimates the causal effect better in a fully controlled setting via synthetic, yet realistic data. On the other hand, we demonstrate on real-world data that our method outperforms forecasting methods in off-policy settings (i.e., when there's a change in the pricing policy) while only slightly trailing in the on-policy setting.
翻訳日:2024-01-24 18:30:13 公開日:2024-01-23
# euオンラインプラットフォームのソフトウェアドキュメンテーションにおけるランキング透明性の遵守に関する実証的研究

An Empirical Study on Compliance with Ranking Transparency in the Software Documentation of EU Online Platforms ( http://arxiv.org/abs/2312.14794v2 )

ライセンス: Link先を確認
Francesco Sovrano, Micha\"el Lognoul, Alberto Bacchelli(参考訳) 欧州連合(eu)のプラットフォーム・ツー・ビジネス(p2b)規制の遵守は、オンラインプラットフォームでは困難であり、当局にとってコンプライアンスの評価は困難である。 これは部分的には、ランキングの透明性に関する情報(ソフトウェアドキュメントなど)を評価する自動化ツールの欠如によるものだ。 私たちの研究はこの問題に2つの方法で取り組む。 まず、主要な6つのプラットフォーム(Amazon、Bing、Booking、Google、Tripadvisor、Yahoo)のコンプライアンスを実証的に評価し、ドキュメントにかなりの違いがあることを明らかにする。 第2に,ChatGPTと情報検索技術に基づく自動コンプライアンス評価ツールの導入とテストを行う。 これらのツールは人的判断に対して評価され、コンプライアンス評価のための信頼できるプロキシとして有望な結果を示す。 今回の発見は、規制遵守の強化に寄与し、これらのプラットフォームにおけるビジネス格差を含む不平等の低減を目指す国連持続可能な開発目標10.3に適合する可能性がある。

Compliance with the European Union's Platform-to-Business (P2B) Regulation is challenging for online platforms, and assessing their compliance can be difficult for public authorities. This is partly due to the lack of automated tools for assessing the information (e.g., software documentation) platforms provide concerning ranking transparency. Our study tackles this issue in two ways. First, we empirically evaluate the compliance of six major platforms (Amazon, Bing, Booking, Google, Tripadvisor, and Yahoo), revealing substantial differences in their documentation. Second, we introduce and test automated compliance assessment tools based on ChatGPT and information retrieval technology. These tools are evaluated against human judgments, showing promising results as reliable proxies for compliance assessments. Our findings could help enhance regulatory compliance and align with the United Nations Sustainable Development Goal 10.3, which seeks to reduce inequality, including business disparities, on these platforms.
翻訳日:2024-01-24 18:29:59 公開日:2024-01-23
# AgentCoder: 反復テストと最適化を備えたマルチエージェントベースのコード生成

AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation ( http://arxiv.org/abs/2312.13010v2 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu, Jie M.Zhang, Michael Luck, and Heming Cui(参考訳) 自然言語処理(NLP)の進歩は、トランスフォーマーベースの大規模言語モデル(LLM)の開発によって著しく加速された。 これらのモデルはnlpタスク、特にコード生成に革命をもたらし、開発者の効率を高めたソフトウェア作成を支援する。 その進歩にもかかわらず、コードスニペット生成と効果的なテストケース生成と実行のバランスをとる上での課題は続く。 これらの問題に対処するために,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントなど,特殊なエージェントを備えたマルチエージェントフレームワークを備えた新しいソリューションであるマルチエージェントアシスタントコード生成(AgentCoder)を紹介する。 コーディング手順の間、プログラマエージェントは、テスト実行エージェントのフィードバックに基づいて、コード生成と改善に集中します。 テストデザイナエージェントは生成されたコードのテストケースを生成し、テスト実行エージェントはテストケースでコードを実行し、プログラマにフィードバックを書きます。 この協調システムは、単一エージェントモデルと従来の方法論の制限を越えて、堅牢なコード生成を保証する。 9つのコード生成モデルと12の拡張アプローチに関する広範な実験では、AgentCoderが既存のコード生成モデルよりも優れたパフォーマンスを示し、さまざまなベンチマークでエンジニアリング技術を推進しています。 例えば、HumanEval-ETの77.4%と89.1%のpass@1、GPT-3.5のMBPP-ET、SOTAのベースラインは69.5%と63.0%である。

The advancement of natural language processing (NLP) has been significantly boosted by the development of transformer-based large language models (LLMs). These models have revolutionized NLP tasks, particularly in code generation, aiding developers in creating software with enhanced efficiency. Despite their advancements, challenges in balancing code snippet generation with effective test case generation and execution persist. To address these issues, this paper introduces Multi-Agent Assistant Code Generation (AgentCoder), a novel solution comprising a multi-agent framework with specialized agents: the programmer agent, the test designer agent, and the test executor agent. During the coding procedure, the programmer agent will focus on the code generation and refinement based on the test executor agent's feedback. The test designer agent will generate test cases for the generated code, and the test executor agent will run the code with the test cases and write the feedback to the programmer. This collaborative system ensures robust code generation, surpassing the limitations of single-agent models and traditional methodologies. Our extensive experiments on 9 code generation models and 12 enhancement approaches showcase AgentCoder's superior performance over existing code generation models and prompt engineering techniques across various benchmarks. For example, AgentCoder achieves 77.4% and 89.1% pass@1 in HumanEval-ET and MBPP-ET with GPT-3.5, while SOTA baselines obtain only 69.5% and 63.0%.
翻訳日:2024-01-24 18:29:41 公開日:2024-01-23
# 雑音ラベルを用いた決定木学習におけるロバスト損失関数

Robust Loss Functions for Training Decision Trees with Noisy Labels ( http://arxiv.org/abs/2312.12937v2 )

ライセンス: Link先を確認
Jonathan Wilton, Nan Ye(参考訳) 我々は,頑健な学習アルゴリズムにつながる損失関数に着目し,能動的ラベル付きデータを用いた意思決定木を訓練する。 私たちの貢献は3倍です。 まず,決定木学習の文脈における既存損失関数の頑健性に関する新しい理論的知見を提供する。 いくつかの損失は、保守的損失と呼ばれるクラスに属しており、保守的損失は、トレーニング中の早期停止行動と、テスト中のノイズ耐性予測に繋がることを示している。 第2に,分散損失と呼ばれるロバスト損失関数を構築するためのフレームワークを提案する。 これらの損失は、仮定マージン分布に基づくパーセンタイルに基づくペナルティを適用し、ロバスト性パラメータによる異なるノイズ率への適応を可能にする。 特に, 負指数損失と呼ばれる新たな損失を導入することで, 効率のよい不純物還元学習アルゴリズムを実現する。 最後に、複数のデータセットとノイズ設定に関する実験により、我々の理論的洞察と適応的負指数損失の有効性を検証した。

We consider training decision trees using noisily labeled data, focusing on loss functions that can lead to robust learning algorithms. Our contributions are threefold. First, we offer novel theoretical insights on the robustness of many existing loss functions in the context of decision tree learning. We show that some of the losses belong to a class of what we call conservative losses, and the conservative losses lead to an early stopping behavior during training and noise-tolerant predictions during testing. Second, we introduce a framework for constructing robust loss functions, called distribution losses. These losses apply percentile-based penalties based on an assumed margin distribution, and they naturally allow adapting to different noise rates via a robustness parameter. In particular, we introduce a new loss called the negative exponential loss, which leads to an efficient greedy impurity-reduction learning algorithm. Lastly, our experiments on multiple datasets and noise settings validate our theoretical insight and the effectiveness of our adaptive negative exponential loss.
翻訳日:2024-01-24 18:29:14 公開日:2024-01-23
# 任意のオブジェクトをAmodallyで追跡する

Tracking Any Object Amodally ( http://arxiv.org/abs/2312.12433v2 )

ライセンス: Link先を確認
Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan(参考訳) 部分的な視界から完全な物体構造を理解する能力であるアモーダル知覚は、幼児にとっても基本的な技術である。 その重要性は、密閉された物体の明確な理解が不可欠である自律運転のような応用にまで及ぶ。 しかし、現代の検出と追跡アルゴリズムは、おそらくほとんどのデータセットにおけるモダルアノテーションの普及により、この重要な能力を見落としていることが多い。 amodalデータの不足に対処するために,我々はtao-amodalベンチマークを紹介する。 私たちのデータセットには、部分的にフレーム外であるオブジェクトを含む、可視およびoccludedオブジェクトのためのamodalおよびmodalバウンディングボックスが含まれています。 オブジェクトの永続性によるamodalトラッキングを強化するために、軽量プラグインモジュールであるamodal expanderを利用して、データ拡張による数百のビデオシーケンスの微調整を行い、標準のmodalトラッカをamodalトラッカに変換する。 TAO-Amodal上での閉塞物体の検出・追跡における3.3\%および1.6\%の改善を実現した。 人に対して評価すると,最先端のモダルベースラインに比べて2倍の劇的な改善が得られた。

Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of modal annotations in most datasets. To address the scarcity of amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse categories in thousands of video sequences. Our dataset includes amodal and modal bounding boxes for visible and occluded objects, including objects that are partially out-of-frame. To enhance amodal tracking with object permanence, we leverage a lightweight plug-in module, the amodal expander, to transform standard, modal trackers into amodal ones through fine-tuning on a few hundred video sequences with data augmentation. We achieve a 3.3\% and 1.6\% improvement on the detection and tracking of occluded objects on TAO-Amodal. When evaluated on people, our method produces dramatic improvements of 2x compared to state-of-the-art modal baselines.
翻訳日:2024-01-24 18:28:58 公開日:2024-01-23
# 生産におけるハイブリッド量子ソルバー : NISQ時代をどう成功させるか

Hybrid Quantum Solvers in Production: how to succeed in the NISQ era? ( http://arxiv.org/abs/2401.10302v2 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Aitor Gomez-Tejedor and Izaskun Oregi(参考訳) ハイブリッド量子コンピューティングは、量子コンピューティングの分野における現在と未来と考えられている。 NISQ時代のデバイスの限界に対処するためには、この傾向は単なるストップギャップとは考えられない。 両コンピューティングパラダイムを結びつける基盤は、時間とともに堅牢になるでしょう。 膨大な研究活動にもかかわらず、ハイブリッドコンピューティングの課題は、現在の解法の適切な評価から、ハイブリッドアルゴリズムの設計と公正な評価のための適切な方法論の確立まで、まだ数え切れないほどである。 この研究の貢献は2つある: まず、文献で最近発表された2つの異なる分類体系に頼って、最も頻繁に使用されるハイブリッド・ソルバについて記述し分類する。 第2に,現在実運用環境にデプロイされている2つのソルバに特に注目して,実業界に近いことを実証しました。 これらの解法は、D-WaveのHybridBQMSamplerとQuantagoniaのHybrid Solverに含まれるLeapHybridBQMSamplerである。 本稿では,2つのハイブリッド手法の性能をベンチマークとして,トラベリングセールスマン問題,車両ルーティング問題,ビンパッケージ問題,最大カット問題という4つのよく知られた組合せ最適化問題を用いて解析する。 この論文で提示された貢献のおかげで、読者は産業市場に近い生産におけるハイブリダイゼーション戦略のパフォーマンスについて洞察を得ることができる。

Hybrid quantum computing is considered the present and the future within the field of quantum computing. Far from being a passing fad, this trend cannot be considered just a stopgap to address the limitations of NISQ-era devices. The foundations linking both computing paradigms will remain robust over time. Despite buoyant research activity, the challenges in hybrid computing are still countless, ranging from the proper characterization of current solvers to the establishment of appropriate methodologies for the design and fair evaluation of hybrid algorithms. The contribution of this work is twofold: first, we describe and categorize some of the most frequently used hybrid solvers, resorting to two different taxonomies recently published in the literature. Secondly, we put a special focus on two solvers that are currently deployed in real production and that have demonstrated to be near the real industry. These solvers are the LeapHybridBQMSampler contained in D-Wave's Hybrid Solver Service and Quantagonia's Hybrid Solver. We analyze the performance of both hybrid methods using as benchmarks four well-known combinatorial optimization problems: the Traveling Salesman Problem, Vehicle Routing Problem, Bin Packing Problem, and Maximum Cut Problem. Thanks to the contributions presented in this paper, the reader gains insight into the performance of those hybridization strategies nowadays in production and close to the industrial markets.
翻訳日:2024-01-24 18:19:48 公開日:2024-01-23
# ChatQA: GPT-4レベルの会話型QAモデルの構築

ChatQA: Building GPT-4 Level Conversational QA Models ( http://arxiv.org/abs/2401.10225v2 )

ライセンス: Link先を確認
Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 本稿では,対話型質問応答(QA)モデルであるChatQAを紹介し,GPT-4レベルの精度を得る。 具体的には,大規模言語モデル(LLM)からゼロショット対話型QA結果を大幅に改善する2段階の命令チューニング手法を提案する。 対話型QAにおける検索強化生成を処理するため,マルチターンQAデータセット上に高密度検索器を微調整し,最新のクエリ書き換えモデルに匹敵する結果を得るとともに,デプロイメントコストを大幅に削減する。 特に、私たちのChatQA-70Bは、OpenAI GPTモデルの合成データに頼ることなく、10の会話型QAデータセット(54.14 vs. 53.90)の平均スコアでGPT-4を上回ります。

In this work, we introduce ChatQA, a family of conversational question answering (QA) models that obtain GPT-4 level accuracies. Specifically, we propose a two-stage instruction tuning method that can significantly improve the zero-shot conversational QA results from large language models (LLMs). To handle retrieval-augmented generation in conversational QA, we fine-tune a dense retriever on a multi-turn QA dataset, which provides comparable results to using the state-of-the-art query rewriting model while largely reducing deployment cost. Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10 conversational QA datasets (54.14 vs. 53.90), without relying on any synthetic data from OpenAI GPT models.
翻訳日:2024-01-24 18:19:25 公開日:2024-01-23
# 交通予測のための時空間大言語モデル

Spatial-Temporal Large Language Model for Traffic Prediction ( http://arxiv.org/abs/2401.10134v2 )

ライセンス: Link先を確認
Chenxi Liu, Sun Yang, Qianxiong Xu, Zhishuai Li, Cheng Long, Ziyue Li, Rui Zhao(参考訳) 知的交通システムにとって重要な要素である交通予測は、歴史的データを用いて特定の場所における将来の交通を予測しようとしている。 既存のトラフィック予測モデルでは、複雑なニューラルネットワーク構造の開発が強調されることが多いが、その精度は改善されていない。 近年,Large Language Models (LLM) は時系列解析において優れた機能を示している。 既存のモデルと異なり、LLMは主にパラメータ拡張と広範な事前学習を通じて、基本構造を維持しながら進行する。 本稿では,交通予測のための時空間大言語モデル(ST-LLM)を提案する。 具体的には、st-llmは各場所の時間ステップをトークンとして再定義し、空間的-時間的埋め込みモジュールを組み込んでトークンの空間的位置と全体的時間的表現を学ぶ。 次にこれらの表現を融合して各トークンに空間情報と時間情報を統一する。 さらに,交通予測のための空間的時間的依存関係を捉えることを目的とした,LLMの新たな部分凍結注意戦略を提案する。 実際のトラフィックデータセットに関する包括的な実験は、st-llmが最先端モデルを上回る証拠を提供する。 特にST-LLMは、少数ショットとゼロショットの予測シナリオで堅牢なパフォーマンスを示す。

Traffic prediction, a critical component for intelligent transportation systems, endeavors to foresee future traffic at specific locations using historical data. Although existing traffic prediction models often emphasize developing complex neural network structures, their accuracy has not seen improvements accordingly. Recently, Large Language Models (LLMs) have shown outstanding capabilities in time series analysis. Differing from existing models, LLMs progress mainly through parameter expansion and extensive pre-training while maintaining their fundamental structures. In this paper, we propose a Spatial-Temporal Large Language Model (ST-LLM) for traffic prediction. Specifically, ST-LLM redefines the timesteps at each location as tokens and incorporates a spatial-temporal embedding module to learn the spatial location and global temporal representations of tokens. Then these representations are fused to provide each token with unified spatial and temporal information. Furthermore, we propose a novel partially frozen attention strategy of the LLM, which is designed to capture spatial-temporal dependencies for traffic prediction. Comprehensive experiments on real traffic datasets offer evidence that ST-LLM outperforms state-of-the-art models. Notably, the ST-LLM also exhibits robust performance in both few-shot and zero-shot prediction scenarios.
翻訳日:2024-01-24 18:19:09 公開日:2024-01-23
# Infinite-Horizon Graph Filters: スパース情報集約に電力系列を活用する

Infinite-Horizon Graph Filters: Leveraging Power Series to Enhance Sparse Information Aggregation ( http://arxiv.org/abs/2401.09943v2 )

ライセンス: Link先を確認
Ruizhe Zhang, Xinke Jiang, Yuchen Fang, Jiayuan Luo, Yongxin Xu, Yichen Zhu, Xu Chu, Junfeng Zhao and Yasha Wang(参考訳) グラフニューラルネットワーク(GNN)は、近年、特にメッセージパッシングアプローチに基づく様々なグラフ学習タスクにおいて、かなりの効果を示している。 しかし、それらの性能はしばしば限られた受容領域によって制限され、スパースグラフの存在下ではより鋭くなってしまう。 無限拡張能力を持つ電力系列を考慮し,受動場を増大させるために,電力系列グラフフィルタを用いてノード分類を強化する新しいグラフパワーフィルタニューラルネットワーク(GPFN)を提案する。 具体的には、GPFNは、スペクトル領域と空間領域で解析可能な収束電力系列に基づいて、無限の受容場を持つグラフフィルタを構築する新しい手法を設計する。 さらに、GPFNは任意のパワー系列を統合し、長距離依存を捕捉できる一般的なフレームワークであることを理論的に証明する。 最後に、3つのデータセットに対する実験の結果は、最先端のベースラインよりもGPFNの方が優れていることを示した。

Graph Neural Networks (GNNs) have shown considerable effectiveness in a variety of graph learning tasks, particularly those based on the message-passing approach in recent years. However, their performance is often constrained by a limited receptive field, a challenge that becomes more acute in the presence of sparse graphs. In light of the power series, which possesses infinite expansion capabilities, we propose a novel Graph Power Filter Neural Network (GPFN) that enhances node classification by employing a power series graph filter to augment the receptive field. Concretely, our GPFN designs a new way to build a graph filter with an infinite receptive field based on the convergence power series, which can be analyzed in the spectral and spatial domains. Besides, we theoretically prove that our GPFN is a general framework that can integrate any power series and capture long-range dependencies. Finally, experimental results on three datasets demonstrate the superiority of our GPFN over state-of-the-art baselines.
翻訳日:2024-01-24 18:18:50 公開日:2024-01-23
# マルチモーダルディープラーニングを用いた不確実性を考慮したハードウェアトロイの木馬検出

Uncertainty-Aware Hardware Trojan Detection Using Multimodal Deep Learning ( http://arxiv.org/abs/2401.09479v2 )

ライセンス: Link先を確認
Rahul Vishwakarma, Amin Rezaei(参考訳) チップ製造の様々な段階でハードウェアトロイの木馬が挿入されるリスクは、ゼロトラストファブレス時代に増大している。 これに対応するために、ハードウェアトロイの木馬検出のための様々な機械学習ソリューションが開発されている。 統計学または深層学習のアプローチに焦点が当てられているが、トロイの木馬に感染したベンチマークの限られた数は検出精度に影響を与え、ゼロデイトロイの木馬を検出する可能性を制限する。 このギャップを埋めるために,我々はまず,生成型adversarial networkを用いて,グラフと表式という2つの代替表現モダリティでデータを増幅し,データセットが代表的に配布されることを保証する。 さらに,ハードウェアトロイの木馬を検出するマルチモーダル深層学習手法を提案し,早期融合戦略と後期融合戦略の両方から結果を評価する。 また,リスク対応意思決定における各予測の不確実性定量化指標を推定する。 結果は,提案手法の有効性を確認するだけでなく,他のハードウェアセキュリティ課題に対するマルチモダリティと不確実性定量化を用いた今後の研究への新たな扉を開くものである。

The risk of hardware Trojans being inserted at various stages of chip production has increased in a zero-trust fabless era. To counter this, various machine learning solutions have been developed for the detection of hardware Trojans. While most of the focus has been on either a statistical or deep learning approach, the limited number of Trojan-infected benchmarks affects the detection accuracy and restricts the possibility of detecting zero-day Trojans. To close the gap, we first employ generative adversarial networks to amplify our data in two alternative representation modalities, a graph and a tabular, ensuring that the dataset is distributed in a representative manner. Further, we propose a multimodal deep learning approach to detect hardware Trojans and evaluate the results from both early fusion and late fusion strategies. We also estimate the uncertainty quantification metrics of each prediction for risk-aware decision-making. The outcomes not only confirms the efficacy of our proposed hardware Trojan detection method but also opens a new door for future studies employing multimodality and uncertainty quantification to address other hardware security challenges.
翻訳日:2024-01-24 18:18:33 公開日:2024-01-23
# 2次元量子多体基底状態のバンバン-バン--2次元テンソルネットワークを用いたアルゴリズムの最適化

Bang-bang preparation of quantum many-body ground states in two dimensions: optimization of the algorithm with a two-dimensional tensor network ( http://arxiv.org/abs/2401.09158v2 )

ライセンス: Link先を確認
Yintai Zhang and Jacek Dziarmaga(参考訳) バンバン(BB)アルゴリズムは、初期積状態が$H_1$と$H_2$の間で交互に変化することによって、2次元(2次元)量子多体ハミルトンの基底状態を作成する。 近傍テンソル更新を用いて、BB進化を無限対絡み状態(iPEPS)でシミュレートする。 交代シーケンスはコスト関数として最終エネルギーで最適化される。 エネルギーは、その安定性のために接空間法で計算される。 この方法は、ipepの変分最適化により得られた基底状態に対する量子臨界点近傍の2次元横磁場量子イジングモデルでベンチマークされる。 最適BB配列は、基底状態の量子アニールまたは断熱処理(AP)をシミュレートする配列と非摂動的に異なる。 最適bbエネルギーは、最適なapエネルギーよりもはるかに速いバン数に収束する。

A bang-bang (BB) algorithm prepares the ground state of a two-dimensional (2D) quantum many-body Hamiltonian $H=H_1+H_2$ by evolving an initial product state alternating between $H_1$ and $H_2$. We use the neighborhood tensor update to simulate the BB evolution with an infinite pair-entangled projected state (iPEPS). The alternating sequence is optimized with the final energy as a cost function. The energy is calculated with the tangent space methods for the sake of their stability. The method is benchmarked in the 2D transverse field quantum Ising model near its quantum critical point against a ground state obtained by variational optimization of the iPEPS. The optimal BB sequence differs non-perturbatively from a sequence simulating quantum annealing or adiabatic preparation (AP) of the ground state. The optimal BB energy converges with the number of bangs much faster than the optimal AP energy.
翻訳日:2024-01-24 18:18:13 公開日:2024-01-23
# 学習勧告に関する学生の判断を支援する:会話説明可能性と指導のための知識グラフ型チャットボット

Supporting Student Decisions on Learning Recommendations: An LLM-Based Chatbot with Knowledge Graph Contextualization for Conversational Explainability and Mentoring ( http://arxiv.org/abs/2401.08517v2 )

ライセンス: Link先を確認
Hasan Abu-Rasheed, Mohamad Hussam Abdulsalam, Christian Weber, Madjid Fathi(参考訳) 学習推薦に対する学生のコミットメントは、それが推奨された理由やその理解に基づいてそれを修正できる能力についての理解とは分離できない。 説明可能性のアプローチの中で、チャットボットは、同僚やメンターとの議論と同様、会話で学生を巻き込む可能性を提供する。 しかし、生成型AI(GenAI)と大規模言語モデル(LLM)の進歩にもかかわらず、チャットボットの能力は人間のメンターを置き換えるには十分ではない。 そこで本稿では,チャットボットを会話の仲介者や限定的かつ制御された説明生成源として利用し,LLMの潜在能力を同時に獲得し,潜在的なリスクを低減させるアプローチを提案する。 提案するLLMベースのチャットボットは,学習パスレコメンデーションの理解を支援する。 我々は、知識グラフ(KG)を人間の情報ソースとして使用し、そのプロンプトのコンテキストを定義してLLMの出力を制御する。 グループチャットアプローチは、必要に応じて、あるいはチャットボットの予め定義されたタスクを超える場合に、学生と人間のメンターを結びつけるために開発された。 チャットボットをユーザ調査により評価し,概念実証を提供し,チャットボットを利用した会話説明可能性の潜在的要件と限界を強調する。

Student commitment towards a learning recommendation is not separable from their understanding of the reasons it was recommended to them; and their ability to modify it based on that understanding. Among explainability approaches, chatbots offer the potential to engage the student in a conversation, similar to a discussion with a peer or a mentor. The capabilities of chatbots, however, are still not sufficient to replace a human mentor, despite the advancements of generative AI (GenAI) and large language models (LLM). Therefore, we propose an approach to utilize chatbots as mediators of the conversation and sources of limited and controlled generation of explanations, to harvest the potential of LLMs while reducing their potential risks at the same time. The proposed LLM-based chatbot supports students in understanding learning-paths recommendations. We use a knowledge graph (KG) as a human-curated source of information, to regulate the LLM's output through defining its prompt's context. A group chat approach is developed to connect students with human mentors, either on demand or in cases that exceed the chatbot's pre-defined tasks. We evaluate the chatbot with a user study, to provide a proof-of-concept and highlight the potential requirements and limitations of utilizing chatbots in conversational explainability.
翻訳日:2024-01-24 18:17:36 公開日:2024-01-23
# SpecSTG:確率的時空間トラフィック予測のための高速スペクトル拡散フレームワーク

SpecSTG: A Fast Spectral Diffusion Framework for Probabilistic Spatio-Temporal Traffic Forecasting ( http://arxiv.org/abs/2401.08119v2 )

ライセンス: Link先を確認
Lequan Lin, Dai Shi, Andi Han, Junbin Gao(参考訳) 時空間グラフ(STG)学習の重要な応用である交通予測は、伝統的に正確な点推定のための決定論的モデルに依存してきた。 しかし、これらのモデルは将来の観測で予期せぬボラティリティの潜在的なリスクを特定するのに不足している。 このギャップに対処するため、確率的手法、特に拡散モデルの変種は不確実性を考慮した解として現れた。 しかし,既存の拡散手法では,トラヒックネットワーク内の個々のセンサに対して,将来的な時系列生成に重点を置いているため,確率的学習過程における空間ネットワーク特性の関与が不十分である。 交通データに固有の空間的依存関係と体系的パターンをよりよく活用するために,新しいスペクトル拡散フレームワークSpecSTGを提案する。 本手法は,将来の時系列のフーリエ表現を生成し,空間情報に富むスペクトル領域へ学習過程を変換する。 さらに,フーリエ入力用に設計された高速スペクトルグラフ畳み込みを取り入れ,既存モデルに関連する計算負荷を軽減する。 数値実験によりspecstgは、最先端のベースラインと比較して、トラフィックフローとトラヒックスピードデータセットで優れた性能を達成していることが示された。 SpecSTGのソースコードはhttps://anonymous.4open.science/r/SpecSTGで入手できる。

Traffic forecasting, a crucial application of spatio-temporal graph (STG) learning, has traditionally relied on deterministic models for accurate point estimations. Yet, these models fall short of identifying latent risks of unexpected volatility in future observations. To address this gap, probabilistic methods, especially variants of diffusion models, have emerged as uncertainty-aware solutions. However, existing diffusion methods typically focus on generating separate future time series for individual sensors in the traffic network, resulting in insufficient involvement of spatial network characteristics in the probabilistic learning process. To better leverage spatial dependencies and systematic patterns inherent in traffic data, we propose SpecSTG, a novel spectral diffusion framework. Our method generates the Fourier representation of future time series, transforming the learning process into the spectral domain enriched with spatial information. Additionally, our approach incorporates a fast spectral graph convolution designed for Fourier input, alleviating the computational burden associated with existing models. Numerical experiments show that SpecSTG achieves outstanding performance with traffic flow and traffic speed datasets compared to state-of-the-art baselines. The source code for SpecSTG is available at https://anonymous.4open.science/r/SpecSTG.
翻訳日:2024-01-24 18:17:13 公開日:2024-01-23
# インスタントアテンションマスクを用いた効率的な拡散型画像編集

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks ( http://arxiv.org/abs/2401.07709v2 )

ライセンス: Link先を確認
Siyu Zou, Jiji Tang, Yiyi Zhou, Jing He, Chaoyi Zhao, Rongsheng Zhang, Zhipeng Hu, Xiaoshuai Sun(参考訳) DIE(Diffusion-based Image Editing)は、拡散ベースの画像編集のターゲット領域を制御するためにセマンティックマスクを適用した、新たな研究ホットスポットである。 しかし、既存のほとんどのソリューションは手動操作やオフライン処理によってこれらのマスクを取得し、効率を大幅に低下させる。 本稿では,インスタント拡散編集(instdiffedit,instdiffedit,instdiffedit)と呼ばれる,テキストから画像への拡散モデルのための新しい効率的な画像編集法を提案する。 特にinstdiffeditは、拡散ステップ中にインスタントマスクガイダンスを達成するために、既存の拡散モデルのクロスモーダル注意力を活用することを目指している。 注意マップのノイズを低減し、フルオートマチックを実現するため、自動的かつ正確なマスク生成のための注意分布を適応的に集約するトレーニングフリーな改善スキームをInstDiffEditに装備する。 一方,ダイの既存評価を補完するために,既存手法のマスク精度と局所編集能力を調べるためのediting-maskというベンチマークを提案する。 InstDiffEditを検証するために、ImageNetとImagenの広範な実験を行い、それを多くのSOTAメソッドと比較する。 実験結果によると、InstDiffEditは画像品質と編集結果の両方でSOTA法よりも優れており、推論速度もより高速である(+5から+6倍)。

Diffusion-based Image Editing (DIE) is an emerging research hot-spot, which often applies a semantic mask to control the target area for diffusion-based editing. However, most existing solutions obtain these masks via manual operations or off-line processing, greatly reducing their efficiency. In this paper, we propose a novel and efficient image editing method for Text-to-Image (T2I) diffusion models, termed Instant Diffusion Editing(InstDiffEdit). In particular, InstDiffEdit aims to employ the cross-modal attention ability of existing diffusion models to achieve instant mask guidance during the diffusion steps. To reduce the noise of attention maps and realize the full automatics, we equip InstDiffEdit with a training-free refinement scheme to adaptively aggregate the attention distributions for the automatic yet accurate mask generation. Meanwhile, to supplement the existing evaluations of DIE, we propose a new benchmark called Editing-Mask to examine the mask accuracy and local editing ability of existing methods. To validate InstDiffEdit, we also conduct extensive experiments on ImageNet and Imagen, and compare it with a bunch of the SOTA methods. The experimental results show that InstDiffEdit not only outperforms the SOTA methods in both image quality and editing results, but also has a much faster inference speed, i.e., +5 to +6 times.
翻訳日:2024-01-24 18:16:54 公開日:2024-01-23
# AdS/CFTにおける部分絡み合いネットワークとバルク形状再構成

Partial entanglement network and bulk geometry reconstruction in AdS/CFT ( http://arxiv.org/abs/2401.07471v2 )

ライセンス: Link先を確認
Jiong Lin, Yizhou Lu, Qiang Wen(参考訳) 反ド・ジッター/共形場理論(ads/cft)の文脈において、境界cft上の絡み合い構造、部分絡み合いエントロピー(pee)の特定の測度の観点から、バルク幾何量を再構成するための一般的なスキームを提案する。 任意の 2 つの点 $\mathcal{I}(\vec x, \vec y)$ の間の PEE は PEE 構造の基本的な構成要素である。 PEE スレッドと呼ばれる2つの境界点 $\vec x$ と $\vec y$ を繋ぐバルク測地線に幾何学化することができる。 このようにして、境界PEE構造 \cite{Lin:2023rbd} によって決定されるスレッドの密度で、バルク内のPEEスレッドのネットワークを作る。 任意の静的境界領域 $a$ に対して、ピースレッドが通過する最小磁束を持つホモログ曲面 $\sigma_{a}$ は、まさに ryu-takayanagi (rt) 表面が $a$ であることを示し、最小磁束が $a$ のホログラフィック絡み合いエントロピーと一致することを証明した。 さらに,任意の方向に沿った任意のバルク点におけるPEEフラックスの強度は1/4G$であることを示す。 この観測に基づいて、バルク内の任意の領域要素が、CFT上の2点PEEの集合に対応するPEEスレッドによって再構成可能であることを証明した。

In the context of Anti-de Sitter / Conformal Field Theory (AdS/CFT) correspondence, we present a general scheme to reconstruct bulk geometric quantities in terms of a specific measure of the entanglement structure on the boundary CFT, the partial entanglement entropy (PEE). The PEE between any two points $\mathcal{I}(\vec x, \vec y)$ is the fundamental building block of the PEE structure. It can be geometrized into a bulk geodesic connecting the two boundary points $\vec x$ and $\vec y$, which we refer to as the PEE thread. Thus, we ave a network of the PEE threads in the bulk with a density of the threads determined by the boundary PEE structure \cite{Lin:2023rbd}.We demonstrate that, for any static boundary region $A$, the homologous surface $\Sigma_{A}$ that has the minimal flux of the PEE threads passing through it is exactly the Ryu-Takayanagi (RT) surface of $A$, and the minimal flux coincides with the holographic entanglement entropy of $A$.Furthermore, we show that the strength of the PEE flux at any bulk point along any direction is $1/4G$. Based on this observation, we prove that any area element in the bulk can be reconstructed by the PEE threads passing through it, which corresponds to a set of two-point PEEs on the CFT.
翻訳日:2024-01-24 18:16:28 公開日:2024-01-23
# aple:マルチモーダルプロンプト学習のためのトークンアダプティブ

APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning ( http://arxiv.org/abs/2401.06827v2 )

ライセンス: Link先を確認
Guiming Cao, Kaize Shi, Hong Fu, Huaiwen Zhang and Guandong Xu(参考訳) 事前訓練されたビジョン言語(v-l)モデルは、注目すべき候補の中で下流タスクへの一般化のベンチマークを設定した。 V-Lモデルの多くの特徴は、テキスト入力に対する感度の課題やマルチモーダルプロンプト間のチューニングプロセスなど、既存の研究で研究されている。 CLIPのようなV-Lモデルの高度な利用により、最近のアプローチでは、手作業のプロンプトの代わりに学習可能なプロンプトがデプロイされ、一般化のパフォーマンスが向上し、上記の課題に対処している。 画像融合で多用される層間トレーニングに触発され,クリップの異なる分岐を適応させるための逐次訓練プロセスを用いることで,一般化の効率化が図れる。 本稿では,マルチモーダル・プロンプト・チャレンジの文脈において,モダリティ・プロンプトと視覚,言語の両方を逐次的なトークンとしてチューニングする,マルチモーダル・プロンプト・ラーニング(aple)のためのトークン・アダプティブを提案する。 APLeはV-Lモデルの課題に対処し、両モード間の迅速な学習を促進する。 顕著なことに、APLeはV-Lモデルを採用する上で絶対的な優位性を持つプロンプト長実験において、堅牢性と好ましい性能を示す。

Pre-trained Vision-Language (V-L) models set the benchmark for generalization to downstream tasks among the noteworthy contenders. Many characteristics of the V-L model have been explored in existing research including the challenge of the sensitivity to text input and the tuning process across multi-modal prompts. With the advanced utilization of the V-L model like CLIP, recent approaches deploy learnable prompts instead of hand-craft prompts to boost the generalization performance and address the aforementioned challenges. Inspired by layer-wise training, which is wildly used in image fusion, we note that using a sequential training process to adapt different modalities branches of CLIP efficiently facilitates the improvement of generalization. In the context of addressing the multi-modal prompting challenge, we propose Token-wise Adaptive for Multi-modal Prompt Learning (APLe) for tuning both modalities prompts, vision and language, as tokens in a sequential manner. APLe addresses the challenges in V-L models to promote prompt learning across both modalities, which indicates a competitive generalization performance in line with the state-of-the-art. Preeminently, APLe shows robustness and favourable performance in prompt-length experiments with an absolute advantage in adopting the V-L models.
翻訳日:2024-01-24 18:15:59 公開日:2024-01-23
# 視覚言語モデルの無視された尾

The Neglected Tails of Vision-Language Models ( http://arxiv.org/abs/2401.12425v1 )

ライセンス: Link先を確認
Shubham Parashar, Zhiqiu Lin, Tian Liu, Xiangjue Dong, Yanan Li, Deva Ramanan, James Caverlee, Shu Kong(参考訳) 視覚言語モデル(VLM)はゼロショット認識に優れるが、視覚的概念間での大幅な不均衡性能を示す。 例えば、imagenetでの平均ゼロショット精度(72.7%)は印象的だが、これらの概念はvlmsの不均衡な事前トレーニングデータに表示されないため、おそらく10の概念(ジャイロミトラやナイトスネークなど)で$<$10%になる。 しかし、VLMの大規模事前学習データの中で特定の概念の頻度を計算することは自明ではないため、この不均衡を評価することは困難である。 本研究は,事前学習テキストの分析により,概念の頻度を測定する最初の試みである。 既成言語モデルを用いて、与えられた概念の同義語を含む関連テキストを数え、言語的曖昧さを解決する。 LAIONのような一般的なVLMデータセットは、クラスごとの精度と強く相関する長い尾のコンセプト分布を示す。 さらに,現在のマルチモーダルシステム,例えば視覚チャットボットやテキストから画像への生成システムも,この手法で特定される稀な概念に苦しむ。 ゼロショット認識におけるVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning REALを提案する。 まず、元のクラス名を使ってVLMをプロンプトする代わりに、REALはVLMの事前訓練されたテキストで最も頻繁に見られる同義語を使用する。 これは、VLMが頻繁に使用される同義語に関連付けられたより多くの画像を見てきたためであろう。 第2に、REALはすべての概念シノニムを使用して、頑健な分類器を訓練するために、小さなクラスバランスのデータ集合を検索する。 reactは400倍のストレージと10,000倍のトレーニング時間を使っています!

Vision-language models (VLMs) excel in zero-shot recognition but exhibit drastically imbalanced performance across visual concepts. For example, CLIP, despite an impressive mean zero-shot accuracy on ImageNet (72.7%), yields $<$10% on ten concepts (e.g., gyromitra and night snake), presumably, because these concepts are under-represented in VLMs' imbalanced pretraining data. Yet, assessing this imbalance is challenging as it is non-trivial to calculate the frequency of specific concepts within VLMs' large-scale pretraining data. Our work makes the first attempt to measure the concept frequency by analyzing pretraining texts. We use off-the-shelf language models to help count relevant texts that contain synonyms of the given concepts and resolve linguistic ambiguity. We confirm that popular VLM datasets like LAION indeed exhibit long-tailed concept distributions, which strongly correlate with per-class accuracies. Further, contemporary multimodal systems, e.g., visual chatbots and text-to-image generators, also struggle with the rare concepts identified by our method. To mitigate VLMs' imbalanced performance in zero-shot recognition, we propose REtrieval-Augmented Learning REAL. First, instead of prompting VLMs using the original class names, REAL uses their most frequent synonyms found in VLMs' pretraining texts. This already outperforms human-engineered and LLM-generated prompts over nine benchmark datasets, likely because VLMs have seen more images associated with the frequently used synonyms. Second, REAL uses all the concept synonyms to retrieve a small, class-balanced set of pretraining data to train a robust classifier. REAL surpasses the recent retrieval-augmented solution REACT, using 400x less storage and 10,000x less training time!
翻訳日:2024-01-24 17:34:48 公開日:2024-01-23
# niv-ssd: 近接するiou-voting単段物体検出器

NIV-SSD: Neighbor IoU-Voting Single-Stage Object Detector From Point Cloud ( http://arxiv.org/abs/2401.12447v1 )

ライセンス: Link先を確認
Shuai Liu, Di Wang, Quan Wang, Kai Huang(参考訳) 従来の単段検出器は、通常、位置推定精度と分類信頼度の不一致に苦しむ。 そこで本研究では,近隣のIoU-voting(NIV)戦略という新たな補正手法を提案する。 通常、分類と回帰は別々の分岐として扱われ、それらの間の接続を確立することは困難である。 これにより、分類信頼度は回帰品質を正確に反映できない。 niv戦略は、回帰出力から2種類の統計データを計算して分類信頼度を補正することにより、分類と回帰分岐の橋渡しとなる。 さらに,密度の高い点(やさしい物体)とスパース点(拡散する物体)を持つ不完全物体に対する検出精度の不均衡を緩和するために,オブジェクト再サンプリングという新しいデータ拡張方式を提案する。 簡単なオブジェクトをサンプリングし、簡単なオブジェクトの一部をランダムに難しいオブジェクトに変換することで、難しいオブジェクトをオーバーサンプリングする。 最後に、NIV戦略とオブジェクト再サンプリング強化を組み合わせることで、NIV-SSDと呼ばれる効率的な単一ステージ検出器を設計する。 いくつかのデータセットに対する大規模な実験は、NIV戦略の有効性とNIV-SSD検出器の競合性能を示している。 コードはhttps://github.com/Say2L/NIV-SSDで入手できる。

Previous single-stage detectors typically suffer the misalignment between localization accuracy and classification confidence. To solve the misalignment problem, we introduce a novel rectification method named neighbor IoU-voting (NIV) strategy. Typically, classification and regression are treated as separate branches, making it challenging to establish a connection between them. Consequently, the classification confidence cannot accurately reflect the regression quality. NIV strategy can serve as a bridge between classification and regression branches by calculating two types of statistical data from the regression output to correct the classification confidence. Furthermore, to alleviate the imbalance of detection accuracy for complete objects with dense points (easy objects) and incomplete objects with sparse points (difficult objects), we propose a new data augmentation scheme named object resampling. It undersamples easy objects and oversamples difficult objects by randomly transforming part of easy objects into difficult objects. Finally, combining the NIV strategy and object resampling augmentation, we design an efficient single-stage detector termed NIV-SSD. Extensive experiments on several datasets indicate the effectiveness of the NIV strategy and the competitive performance of the NIV-SSD detector. The code will be available at https://github.com/Say2L/NIV-SSD.
翻訳日:2024-01-24 17:21:35 公開日:2024-01-23
# アンサンブルによる表面符号の効率的な近似復号

Efficient near-optimal decoding of the surface code through ensembling ( http://arxiv.org/abs/2401.12434v1 )

ライセンス: Link先を確認
Noah Shutty, Michael Newman, Benjamin Villalonga(参考訳) 我々は,複数のノイズの多いデコーダを組み合わせて高精度なデコード予測を生成するアンサンブル手法であるハーモニゼーションを導入する。 MWPMデコーダの高調波アンサンブルは、繰り返しおよび表面コードベンチマークにおいて個々のアンサンブルよりも低い論理誤差率を達成し、大きなアンサンブルサイズで最大値の精度に近づく。 我々は,アンサンブル間のコンセンサス度を階層化復号化スキームの信頼度尺度として用いることができ,小アンサンブルはより大きく,より正確なアンサンブルで高リスクケースをチェックできる。 この階層化方式は,計算オーバーヘッドの一定要素が比較的小さい大規模アンサンブルの精度向上を実現する。 我々は、調和は高度に正確なリアルタイムデコードへの有効な経路を提供すると結論付けた。

We introduce harmonization, an ensembling method that combines several "noisy" decoders to generate highly accurate decoding predictions. Harmonized ensembles of MWPM-based decoders achieve lower logical error rates than their individual counterparts on repetition and surface code benchmarks, approaching maximum-likelihood accuracy at large ensemble sizes. We can use the degree of consensus among the ensemble as a confidence measure for a layered decoding scheme, in which a small ensemble flags high-risk cases to be checked by a larger, more accurate ensemble. This layered scheme can realize the accuracy improvements of large ensembles with a relatively small constant factor of computational overhead. We conclude that harmonization provides a viable path towards highly accurate real-time decoding.
翻訳日:2024-01-24 17:21:13 公開日:2024-01-23
# 仮想試着モデルの蒸留知識に基づく新しい衣料移送法

A Novel Garment Transfer Method Supervised by Distilled Knowledge of Virtual Try-on Model ( http://arxiv.org/abs/2401.12433v1 )

ライセンス: Link先を確認
Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Kerui Hu, Jianrong Tan(参考訳) 買い物客がオンラインで衣料品を選択すると、その衣料品を模型画像から買い物客の画像に当てはめ、買い物客が着物に相応しいかどうかを判断する。 衣服の移動は、野生で安価な人物像を衣料条件として活用するので、コミュニティの注目を惹きつけ、大きな商業的可能性を秘めている。 しかし、衣料移転の根拠は現実ではほとんど利用できないため、従来の研究では、衣料移転をポーズ移動または衣服配置の不連続として扱っており、訓練された衣料移転は自己監督学習で行われているが、衣料移転の意図を完全にはカバーしていない。 したがって、衣料移転を監督する訓練は岩の難題である。 特に、仮想トライオン技術は、自己教師付き学習を用いて優れた性能を示した。 仮想試行による知識蒸留による衣服移動訓練を監督する。 具体的には,トランスファー解析推論モデルをマルチフェーズでトレーニングし,下流タスクの形状指導を行う。 伝達解析推論モデルは、トライオン解析推論モデルから応答と特徴知識を学習し、基礎真理からハード知識を吸収する。 仮想的な試行錯誤から知識のゆらぎを生かし,その形状と内容の対応を学習することにより,衣服を正確にワープするプログレッシブフローを推定する。 転写リアリズムを高めるために,露出した皮膚画素を推測する腕再成長タスクを提案する。 実験により,本手法は,他の仮想試着法や衣服の移動法と比較して,被服の移動における最先端性能を有することが示された。

When a shopper chooses garments online, garment transfer technology wears the garment from the model image onto the shopper's image, allowing the shopper to decide whether the garment is suitable for them. As garment transfer leverages wild and cheap person image as garment condition, it has attracted tremendous community attention and holds vast commercial potential. However, since the ground truth of garment transfer is almost unavailable in reality, previous studies have treated garment transfer as either pose transfer or garment-pose disentanglement, and trained garment transfer in self-supervised learning, yet do not cover garment transfer intentions completely. Therefore, the training supervising the garment transfer is a rock-hard issue. Notably, virtual try-on technology has exhibited superior performance using self-supervised learning. We supervise the garment transfer training via knowledge distillation from virtual try-on. Specifically, we first train the transfer parsing reasoning model at multi-phases to provide shape guidance for downstream tasks. The transfer parsing reasoning model learns the response and feature knowledge from the try-on parsing reasoning model and absorbs the hard knowledge from the ground truth. By leveraging the warping knowledge from virtual try-on, we estimate a progressive flow to precisely warp the garment by learning the shape and content correspondence. To enhance transfer realism, we propose a well-designed arm regrowth task to infer exposed skin pixel content. Experiments demonstrate that our method has state-of-the-art performance in transferring garments between person compared with other virtual try-on and garment transfer methods.
翻訳日:2024-01-24 17:21:00 公開日:2024-01-23
# cim-mlc: メモリ内アクセラレータのためのマルチレベルコンパイルスタック

CIM-MLC: A Multi-level Compilation Stack for Computing-In-Memory Accelerators ( http://arxiv.org/abs/2401.12428v1 )

ライセンス: Link先を確認
Songyun Qu, Shixin Zhao, Bing Li, Yintao He, Xuyi Cai, Lei Zhang, Ying Wang(参考訳) 近年,cim (compute-in-memory) プロセッサが登場し,従来のアーキテクチャよりも優れた性能を示している。 デバイス精度,クロスバーサイズ,クロスバー数などの各種CIMアーキテクチャの可能性を解き放つためには,CIMアーキテクチャの詳細や実装の多様性を十分に把握したコンパイルツールを開発する必要がある。 しかし、現在の一般的なオープンソースコンパイルスタックのアーキテクチャサポートが不足しているため、既存のCIM設計では、手動でネットワークをデプロイするか、独自のコンパイラを構築している。 特定のCIMデバイスプログラミングインタフェースをコンパイラに公開する研究もあるが、それらはしばしば固定されたCIMアーキテクチャに縛られ、異なる計算粒度のCIMアーキテクチャをサポートする柔軟性に欠ける。 一方、既存のコンパイル作業は通常、限られた操作タイプのスケジューリング(クロスバー境界行列-ベクトル乗算など)を考える。 従来のプロセッサとは異なり、CIMアクセラレータはアーキテクチャ、回路、デバイスによって特徴付けられており、CIMがもたらす利点を十分に探求しようとすると、単に1つのレベルで抽象化することはできない。 そこで本研究では,汎用CIMアーキテクチャのための汎用マルチレベルコンパイルフレームワークであるCIM-MLCを提案する。 まず,様々なCIMアクセラレータを表現するために,CIMアーキテクチャと計算モードの一般的なハードウェア抽象化を確立する。 提案された抽象化に基づいて、CIM-MLCはさまざまなデバイス、アーキテクチャ、プログラミングインターフェースを持つ幅広いCIMアクセラレーターにタスクをコンパイルすることができる。 さらに重要なことに、CIM-MLCは既存のコンパイル作業と比較して、複数のアーキテクチャ階層にわたるマッピングとスケジューリング戦略を探索することができる。

In recent years, various computing-in-memory (CIM) processors have been presented, showing superior performance over traditional architectures. To unleash the potential of various CIM architectures, such as device precision, crossbar size, and crossbar number, it is necessary to develop compilation tools that are fully aware of the CIM architectural details and implementation diversity. However, due to the lack of architectural support in current popular open-source compiling stacks, existing CIM designs either manually deploy networks or build their own compilers, which is time-consuming and labor-intensive. Although some works expose the specific CIM device programming interfaces to compilers, they are often bound to a fixed CIM architecture, lacking the flexibility to support the CIM architectures with different computing granularity. On the other hand, existing compilation works usually consider the scheduling of limited operation types (such as crossbar-bound matrix-vector multiplication). Unlike conventional processors, CIM accelerators are featured by their diverse architecture, circuit, and device, which cannot be simply abstracted by a single level if we seek to fully explore the advantages brought by CIM. Therefore, we propose CIM-MLC, a universal multi-level compilation framework for general CIM architectures. We first establish a general hardware abstraction for CIM architectures and computing modes to represent various CIM accelerators. Based on the proposed abstraction, CIM-MLC can compile tasks onto a wide range of CIM accelerators having different devices, architectures, and programming interfaces. More importantly, compared with existing compilation work, CIM-MLC can explore the mapping and scheduling strategies across multiple architectural tiers, which form a tractable yet effective design space, to achieve better scheduling and instruction generation results.
翻訳日:2024-01-24 17:20:32 公開日:2024-01-23
# DALex: 逆アグリゲーションによるレキシケース様選択

DALex: Lexicase-like Selection via Diverse Aggregation ( http://arxiv.org/abs/2401.12424v1 )

ライセンス: Link先を確認
Andrew Ni, Li Ding, Lee Spector(参考訳) 語彙選択は、進化計算と機械学習のいくつかの領域において、他の選択アルゴリズムよりも有利であることが示されている。 レキシケースの選択は、ランダムに順序づけられたトレーニングケースに基づいて、集団やその他のコレクションをフィルタリングする。 この反復フィルタリングプロセスは、特に多数のトレーニングケースのある環境では、時間を要する可能性がある。 本稿では,選択した個体の語彙選択とほぼ同等の手法を提案するが,より高速に行うことができる。 DALex(Diversely Aggregated Lexicase)と呼ばれる新しい手法は、トレーニングケースエラーの重み付けされた総和に対して最適な個人を選択し、重みをランダムにサンプリングする。 これにより、再帰的な比較ループの代わりに行列乗算として選択に必要なコア計算を定式化することができ、これにより、高速化のために行列乗算用に設計された最適化された並列アルゴリズムを活用できる。 さらに,各トレーニングケースに付与される重要度を表す1つのハイパーパラメータ"Particularity pressure"を調整することにより,レキシケース選択の挙動と,エプシロンやバッチレキシケース選択などの「緩和」変異とを補間できることを示す。 プログラム合成, 深層学習, 記号回帰, 学習分類器システムの結果から, DALexは, ほぼ同一の問題解決性能を維持しつつ, 語彙選択とその緩和された変種に対して, 大幅な高速化を実現していることが示された。 固定的な計算予算の下では、これらの貯蓄は人口増加や世代数に向けられる資源を解放し、より難しい問題を解決する可能性を秘めている。

Lexicase selection has been shown to provide advantages over other selection algorithms in several areas of evolutionary computation and machine learning. In its standard form, lexicase selection filters a population or other collection based on randomly ordered training cases that are considered one at a time. This iterated filtering process can be time-consuming, particularly in settings with large numbers of training cases. In this paper, we propose a new method that is nearly equivalent to lexicase selection in terms of the individuals that it selects, but which does so significantly more quickly. The new method, called DALex (for Diversely Aggregated Lexicase), selects the best individual with respect to a weighted sum of training case errors, where the weights are randomly sampled. This allows us to formulate the core computation required for selection as matrix multiplication instead of recursive loops of comparisons, which in turn allows us to take advantage of optimized and parallel algorithms designed for matrix multiplication for speedup. Furthermore, we show that we can interpolate between the behavior of lexicase selection and its "relaxed" variants, such as epsilon or batch lexicase selection, by adjusting a single hyperparameter, named "particularity pressure," which represents the importance granted to each individual training case. Results on program synthesis, deep learning, symbolic regression, and learning classifier systems demonstrate that DALex achieves significant speedups over lexicase selection and its relaxed variants while maintaining almost identical problem-solving performance. Under a fixed computational budget, these savings free up resources that can be directed towards increasing population size or the number of generations, enabling the potential for solving more difficult problems.
翻訳日:2024-01-24 17:20:06 公開日:2024-01-23
# ランク、パック、承認:参加予算編成における投票方法

Rank, Pack, or Approve: Voting Methods in Participatory Budgeting ( http://arxiv.org/abs/2401.12423v1 )

ライセンス: Link先を確認
Lodewijk Gelauff and Ashish Goel(参考訳) 参加予算は地方自治体による予算決定に住民を巻き込む一般的な方法である。 stanford participatory budgeting platformは、150以上の予算プロセスに居住者を参加させるためのオンラインプラットフォームである。 我々は,k-approval,k- ranking,knapsackプライマリ投票による匿名予算意見のデータセットを提案する。 有権者のサブセットには、同じプロセスで異なる勧誘方法によるペア投票が含まれる。 これは、有権者、プロジェクト、設定が、有権者が実際に興味を持っている実際の意思決定と関係しているため、ユニークなデータセットを示します。 予備投票のデータから、投票の複雑さ(選択するプロジェクト数、選択するプロジェクト数、投票の長さ)は有権者が費やした中央値の時間と相関するが、高い放棄率とは相関しないことがわかった。 異なる投票方法を持つ投票ペアを用いて,投票方法が選択したプロジェクトのコストに与える影響を,従来よりも包括的に分析した。 ほとんどの選挙において、有権者はk-approvalを使ってクナプサックを使うよりもかなり高価なプロジェクトを選んだが、反対方向に大きな効果を持つ少数の例も見いだした。 この効果は、個々の投票者だけでなく、集計レベルでも起こり、投票方法の暗黙の制約と投票インターフェースの明示的な制約の両方に影響される。 最後に、knapsack 投票のための紙代替手段として K 級の elicitation の使用を検証する。

Participatory budgeting is a popular method to engage residents in budgeting decisions by local governments. The Stanford Participatory Budgeting platform is an online platform that has been used to engage residents in more than 150 budgeting processes. We present a data set with anonymized budget opinions from these processes with K-approval, K-ranking or knapsack primary ballots. For a subset of the voters, it includes paired votes with a different elicitation method in the same process. This presents a unique data set, as the voters, projects and setting are all related to real-world decisions that the voters have an actual interest in. With data from primary ballots we find that while ballot complexity (number of projects to choose from, number of projects to select and ballot length) is correlated with a higher median time spent by voters, it is not correlated with a higher abandonment rate. We use vote pairs with different voting methods to analyze the effect of voting methods on the cost of selected projects, more comprehensively than was previously possible. In most elections, voters selected significantly more expensive projects using K-approval than using knapsack, although we also find a small number of examples with a significant effect in the opposite direction. This effect happens at the aggregate level as well as for individual voters, and is influenced both by the implicit constraints of the voting method and the explicit constraints of the voting interface. Finally, we validate the use of K-ranking elicitation to offer a paper alternative for knapsack voting.
翻訳日:2024-01-24 17:19:38 公開日:2024-01-23
# inversematrixvt3d:3次元占有予測のための効率的な投影行列に基づくアプローチ

InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction ( http://arxiv.org/abs/2401.12422v1 )

ライセンス: Link先を確認
Zhenxing Ming, Julie Stephany Berrio, Mao Shan, and Stewart Worrall(参考訳) 本稿では,多視点画像特徴量を3次元特徴量に変換する手法であるInverseMatrixVT3Dを提案する。 既存の3dボリュームの構築方法は、深度推定やデバイス固有の演算子、あるいはトランスフォーマークエリに依存することが多いため、3d占有モデルの普及を妨げている。 対照的に,本手法では2つの投影行列を用いて静的マッピング関係と行列乗算を保存し,グローバルバードアイビュー(BEV)機能と局所的な3次元特徴量を生成する。 具体的には、マルチビュー画像特徴写像と2つのスパース投影行列の行列乗算を行うことにより、これを実現する。 プロジェクション行列に対するスパース行列処理手法を導入し,GPUメモリ使用率を最適化する。 さらに、グローバルなBEV特徴量とローカルな3D特徴量を統合することで、最終3Dボリュームを得るため、グローバルなローカルアテンション融合モジュールを提案する。 また,性能向上のためのマルチスケール監視機構も採用している。 nuScenesデータセットの総合実験により,本手法の簡易性と有効性を示す。 コードは以下の通り。https://github.com/DanielMing123/InverseMatrixVT3D

This paper introduces InverseMatrixVT3D, an efficient method for transforming multi-view image features into 3D feature volumes for 3D semantic occupancy prediction. Existing methods for constructing 3D volumes often rely on depth estimation, device-specific operators, or transformer queries, which hinders the widespread adoption of 3D occupancy models. In contrast, our approach leverages two projection matrices to store the static mapping relationships and matrix multiplications to efficiently generate global Bird's Eye View (BEV) features and local 3D feature volumes. Specifically, we achieve this by performing matrix multiplications between multi-view image feature maps and two sparse projection matrices. We introduce a sparse matrix handling technique for the projection matrices to optimise GPU memory usage. Moreover, a global-local attention fusion module is proposed to integrate the global BEV features with the local 3D feature volumes to obtain the final 3D volume. We also employ a multi-scale supervision mechanism to further enhance performance. Comprehensive experiments on the nuScenes dataset demonstrate the simplicity and effectiveness of our method. The code will be made available at:https://github.com/DanielMing123/InverseMatrixVT3D
翻訳日:2024-01-24 17:19:15 公開日:2024-01-23
# AdaEmbed: 埋め込み空間における半教師付きドメイン適応

AdaEmbed: Semi-supervised Domain Adaptation in the Embedding Space ( http://arxiv.org/abs/2401.12421v1 )

ライセンス: Link先を確認
Ali Mottaghi, Mohammad Abdullah Jamal, Serena Yeung, Omid Mohareri(参考訳) 半教師付きドメイン適応(SSDA)は、特に実世界におけるラベル付きデータの頻繁な不足を考えると、コンピュータビジョンにおいて重要なハードルとなる。 この不足は、広範囲なデータセットでトレーニングされた基礎モデルが、新しいドメインに適用されると過小評価されることが多い。 新たに提案したSSDAの方法論であるAdaEmbedは、これらの課題に対する有望な解決策を提供します。 adaembedはラベルなしデータの可能性を活用し、共有埋め込み空間を学習することでラベル付きソースドメインからラベルなしターゲットドメインへの知識の転送を容易にする。 確立された埋め込み空間に基づいて高精度で均一な擬似ラベルを生成することにより、従来のSSDAの限界を克服し、性能を大幅に向上する。 提案手法の有効性は,DomainNet,Office-Home,VisDA-Cといったベンチマークデータセットによる広範な実験によって検証される。 adaembedは、実装が簡単でデータ効率が良いので、ラベル付きデータが少ない現実のシナリオのための堅牢で実用的なソリューションとして際立っている。 この領域におけるさらなる研究と応用を促進するために、我々は半教師ありドメイン適応のための統一フレームワークのコードベースを共有している。

Semi-supervised domain adaptation (SSDA) presents a critical hurdle in computer vision, especially given the frequent scarcity of labeled data in real-world settings. This scarcity often causes foundation models, trained on extensive datasets, to underperform when applied to new domains. AdaEmbed, our newly proposed methodology for SSDA, offers a promising solution to these challenges. Leveraging the potential of unlabeled data, AdaEmbed facilitates the transfer of knowledge from a labeled source domain to an unlabeled target domain by learning a shared embedding space. By generating accurate and uniform pseudo-labels based on the established embedding space, the model overcomes the limitations of conventional SSDA, thus enhancing performance significantly. Our method's effectiveness is validated through extensive experiments on benchmark datasets such as DomainNet, Office-Home, and VisDA-C, where AdaEmbed consistently outperforms all the baselines, setting a new state of the art for SSDA. With its straightforward implementation and high data efficiency, AdaEmbed stands out as a robust and pragmatic solution for real-world scenarios, where labeled data is scarce. To foster further research and application in this area, we are sharing the codebase of our unified framework for semi-supervised domain adaptation.
翻訳日:2024-01-24 17:18:54 公開日:2024-01-23
# 専門的ラベル付きビデオによるマルチモーダルニュース理解(reutersvilnews)

Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews) ( http://arxiv.org/abs/2401.12419v1 )

ライセンス: Link先を確認
Shih-Han Chou, Matthew Kowal, Yasmin Niknam, Diana Moyano, Shayaan Mehdi, Richard Pito, Cheng Zhang, Ian Knopke, Sedef Akinli Kocak, Leonid Sigal, Yalda Mohsenzadeh(参考訳) ビデオ言語理解の分野では進歩が進んでいるが、現在の最先端のアルゴリズムは、ニュース指向ビデオのような高レベルの抽象化でビデオを理解する能力に制限がある。 あるいは、人間はビデオや言語から情報を得るのが簡単で、ピクセルで視覚的に観測できるもの以上の情報を推測する。 この例では、イベントのコンテキストが、ストーリをイベント自体として理解する上で、大きな役割を果たすことができる、ニュースストーリーを見ている。 reuters video-language news (reutersvilnews)データセットと呼ばれるreuters news agencyが収集した社内のデータセットを大規模に分析し,長文ニュースを重視した高レベルビデオ言語理解に重点を置いた。 ReutersViLNews Datasetは、ニュース業界の専門家によって数年間にわたって収集され、ラベル付けされた長いニュースビデオで構成され、世界中の著名なニュースが報道されている。 それぞれのビデオには、1つのストーリーが含まれ、実際のイベントのアクションショット、イベントに関連する人々へのインタビュー、近隣地域の映像などが含まれている。 ReutersViLNewsのデータセットには、災害、金融、エンターテイメント、健康、政治、スポーツ、雑多な7つのカテゴリのビデオが含まれており、ハイレベルからローレベル、タイトルキャプション、ビジュアルビデオの説明、ハイレベルなストーリー説明、キーワード、ロケーションのアノテーションがある。 まず、ReutersViLNewsのデータセット統計を以前のデータセットと比較して分析する。 そして、4つの異なるビデオ言語タスクに対する最先端のアプローチをベンチマークする。 その結果,現在のビデオ言語理解アルゴリズムではニュース指向ビデオが大きな課題であることが示唆され,ReutersViLNewsデータセットの解法設計における今後の方向性が示唆された。

While progress has been made in the domain of video-language understanding, current state-of-the-art algorithms are still limited in their ability to understand videos at high levels of abstraction, such as news-oriented videos. Alternatively, humans easily amalgamate information from video and language to infer information beyond what is visually observable in the pixels. An example of this is watching a news story, where the context of the event can play as big of a role in understanding the story as the event itself. Towards a solution for designing this ability in algorithms, we present a large-scale analysis on an in-house dataset collected by the Reuters News Agency, called Reuters Video-Language News (ReutersViLNews) dataset which focuses on high-level video-language understanding with an emphasis on long-form news. The ReutersViLNews Dataset consists of long-form news videos collected and labeled by news industry professionals over several years and contains prominent news reporting from around the world. Each video involves a single story and contains action shots of the actual event, interviews with people associated with the event, footage from nearby areas, and more. ReutersViLNews dataset contains videos from seven subject categories: disaster, finance, entertainment, health, politics, sports, and miscellaneous with annotations from high-level to low-level, title caption, visual video description, high-level story description, keywords, and location. We first present an analysis of the dataset statistics of ReutersViLNews compared to previous datasets. Then we benchmark state-of-the-art approaches for four different video-language tasks. The results suggest that news-oriented videos are a substantial challenge for current video-language understanding algorithms and we conclude by providing future directions in designing approaches to solve the ReutersViLNews dataset.
翻訳日:2024-01-24 17:18:31 公開日:2024-01-23
# 深ベイズモデルの変分推論の改良に向けて

Towards Improved Variational Inference for Deep Bayesian Models ( http://arxiv.org/abs/2401.12418v1 )

ライセンス: Link先を確認
Sebastian W. Ober(参考訳) ディープラーニングは、コンピュータビジョン、自然言語処理、強化学習など、さまざまなタスクにおける並外れた進歩の最前線にあり、過去10年間に革命を起こしてきた。 しかしながら、最大確率推定によって訓練された深層モデルは、自信過剰であり、不十分な予測を与える傾向があることはよく知られている。 ベイズ深層学習は、モデルパラメータに事前を配置してこの問題に対処し、後部推論を行う可能性と組み合わせる。 残念ながら、深いモデルでは、真の後方は難解であり、ユーザーは近似に頼ることになる。 本論では,後部を同時に近似し,限界確率に下限を与えるという点で,変分推論(VI)を近似として用いることを検討する。 十分に厳密であれば、この下限はハイパーパラメータを最適化し、モデル選択を容易にするために使用できる。 しかし、この能力がベイズニューラルネットワークに十分使われることは滅多にない。なぜなら、一般的に使用される近似後縁は、限界の確率を効果的に制限する柔軟性を欠く可能性があるからである。 したがって、深層モデルに対するベイズ学習の3つの側面を探求する。 1) できるだけ多くのパラメータを推測する必要があるか, あるいはこれらの多くを最適化可能なハイパーパラメータとして扱うのが妥当かどうかを問う。 2)ベイズニューラルネットワークと深いガウス過程における推論の統一的なビューを提供する変分後部を提案する。 3) 奥深いガウス過程モデルにおいて, 後部から対称性を解析的に除去し, 特徴量ではなく文法行列で推論を行うことにより, VI をどのように改善できるかを示す。 私たちは、将来VIの約束を完全に実現するために、私たちの貢献が足掛かりになることを期待しています。

Deep learning has revolutionized the last decade, being at the forefront of extraordinary advances in a wide range of tasks including computer vision, natural language processing, and reinforcement learning, to name but a few. However, it is well-known that deep models trained via maximum likelihood estimation tend to be overconfident and give poorly-calibrated predictions. Bayesian deep learning attempts to address this by placing priors on the model parameters, which are then combined with a likelihood to perform posterior inference. Unfortunately, for deep models, the true posterior is intractable, forcing the user to resort to approximations. In this thesis, we explore the use of variational inference (VI) as an approximation, as it is unique in simultaneously approximating the posterior and providing a lower bound to the marginal likelihood. If tight enough, this lower bound can be used to optimize hyperparameters and to facilitate model selection. However, this capacity has rarely been used to its full extent for Bayesian neural networks, likely because the approximate posteriors typically used in practice can lack the flexibility to effectively bound the marginal likelihood. We therefore explore three aspects of Bayesian learning for deep models: 1) we ask whether it is necessary to perform inference over as many parameters as possible, or whether it is reasonable to treat many of them as optimizable hyperparameters; 2) we propose a variational posterior that provides a unified view of inference in Bayesian neural networks and deep Gaussian processes; 3) we demonstrate how VI can be improved in certain deep Gaussian process models by analytically removing symmetries from the posterior, and performing inference on Gram matrices instead of features. We hope that our contributions will provide a stepping stone to fully realize the promises of VI in the future.
翻訳日:2024-01-24 17:17:58 公開日:2024-01-23
# エッジにおけるニューラルネットワークの信頼性向上:確率アフィン変換を用いた逆正規化

Enhancing Reliability of Neural Networks at the Edge: Inverted Normalization with Stochastic Affine Transformations ( http://arxiv.org/abs/2401.12416v1 )

ライセンス: Link先を確認
Soyed Tuhin Ahmed, Kamal Danouchi, Guillaume Prenat, Lorena Anghel, Mehdi B. Tahoori(参考訳) Bayesian Neural Networks (BayNNs) はその予測に不確実性をもたらし、安全クリティカルなアプリケーションに適している。 さらに、memristor-based in-Memory computing (IMC)アーキテクチャを使って実現することで、リソース制約のあるエッジアプリケーションでも実現可能である。 しかしながら、予測の不確実性に加えて、計算におけるノイズに対して本質的に堅牢である能力は、機能的安全性を確保するためにも不可欠である。 特に、memristorベースのIMCは、製造や実行時の変動、ドリフト、失敗など、様々な非イデアルなソースに影響を受けやすいため、推論精度を著しく低下させることができる。 本稿では,IMCアーキテクチャに実装されたBayNNのロバスト性と推論精度を本質的に向上する手法を提案する。 そこで本研究では,確率的アフィン変換を組み合わせた新しい正規化層を提案する。 様々なベンチマークデータセットにおける経験的な結果は、推論精度の優雅な低下を示し、最大で58.11\%$である。

Bayesian Neural Networks (BayNNs) naturally provide uncertainty in their predictions, making them a suitable choice in safety-critical applications. Additionally, their realization using memristor-based in-memory computing (IMC) architectures enables them for resource-constrained edge applications. In addition to predictive uncertainty, however, the ability to be inherently robust to noise in computation is also essential to ensure functional safety. In particular, memristor-based IMCs are susceptible to various sources of non-idealities such as manufacturing and runtime variations, drift, and failure, which can significantly reduce inference accuracy. In this paper, we propose a method to inherently enhance the robustness and inference accuracy of BayNNs deployed in IMC architectures. To achieve this, we introduce a novel normalization layer combined with stochastic affine transformations. Empirical results in various benchmark datasets show a graceful degradation in inference accuracy, with an improvement of up to $58.11\%$.
翻訳日:2024-01-24 17:17:28 公開日:2024-01-23
# サンプリング自律性のための氷月面シミュレーションとステレオ深度推定

Icy Moon Surface Simulation and Stereo Depth Estimation for Sampling Autonomy ( http://arxiv.org/abs/2401.12414v1 )

ライセンス: Link先を確認
Ramchander Bhaskara, Georgios Georgakis, Jeremy Nash, Marissa Cameron, Joseph Bowkett, Adnan Ansar, Manoranjan Majji, Paul Backes(参考訳) 氷の月面着陸ミッションのためのサンプリング自律性は、サンプリング地形の地形と測光特性を理解する必要がある。 高解像度視覚データセット(バードアイビューまたはランダーからの視点)の有効性は、認識システムの選択、検証、開発のための障害である。 この問題を緩和しようと試みます 1)バルク測光特性のスペクトルにまたがる多用途ステレオデータセット生成のための氷月面シミュレーション(guiss)フレームワークのためのグラフィカルユーティリティの提案 2)ステレオベース視覚知覚システムに着目し,ステレオマッチングによる奥行き推定のための従来型および深層学習型アルゴリズムの評価を行う。 氷の月の地形(エンケラドゥスとエウロパ)の表面反射特性は、以前のミッションのマルチスペクトルデータセットから推定される。 手続き的な地形の生成と物理的に有効な照明源により、我々のフレームワークは氷の月の地形の視覚的表現に関して幅広い仮説に適合できる。 この後、異なる視覚仮説の下でのステレオマッチングアルゴリズムの性能に関する研究が行われる。 最後に、エンケラドゥスやエウロパのような氷の衛星の知覚データ資産をシミュレートするための立証課題について強調する。 コードは以下のとおり。 https://github.com/nasa-jpl/guiss。

Sampling autonomy for icy moon lander missions requires understanding of topographic and photometric properties of the sampling terrain. Unavailability of high resolution visual datasets (either bird-eye view or point-of-view from a lander) is an obstacle for selection, verification or development of perception systems. We attempt to alleviate this problem by: 1) proposing Graphical Utility for Icy moon Surface Simulations (GUISS) framework, for versatile stereo dataset generation that spans the spectrum of bulk photometric properties, and 2) focusing on a stereo-based visual perception system and evaluating both traditional and deep learning-based algorithms for depth estimation from stereo matching. The surface reflectance properties of icy moon terrains (Enceladus and Europa) are inferred from multispectral datasets of previous missions. With procedural terrain generation and physically valid illumination sources, our framework can fit a wide range of hypotheses with respect to visual representations of icy moon terrains. This is followed by a study over the performance of stereo matching algorithms under different visual hypotheses. Finally, we emphasize the standing challenges to be addressed for simulating perception data assets for icy moons such as Enceladus and Europa. Our code can be found here: https://github.com/nasa-jpl/guiss.
翻訳日:2024-01-24 17:17:10 公開日:2024-01-23
# テンソルネットワークは連続時間限界における関数に影響を及ぼす:量子埋め込み、浴の離散化、高次時間伝播への接続

Tensor network influence functionals in the continuous-time limit: connections to quantum embedding, bath discretization, and higher-order time propagation ( http://arxiv.org/abs/2401.12460v1 )

ライセンス: Link先を確認
Gunhee Park, Nathan Ng, David R. Reichman, Garnet Kin-Lic Chan(参考訳) 本稿では,アンダーソン不純物モデルのフェルミオン設定における量子不純物ダイナミクスに対するテンソルネットワーク影響汎関数(特にif-mps)の2つの発展について述べる。 1つ目は、関連する数学的対象、境界影響関数MPSを導入することでIF-MPSの連続時間への正しい拡張を提供する。 2つめは、圧縮if-mpsによって記述されたダイナミクスと量子埋め込み法とを、非ユニタリダイナミクスの時間依存効果浴と結びつけるものである。 これらの概念を用いて、境界IF-MPS形式論におけるアンダーソン不純物モデルのクエンチ力学に対する高次時間プロパゲータを実装した。 これらの計算は、標準の離散時間IF-MPS実装における時間ステップ誤差を効率よく除去し、状態ベクトル伝搬技術と相互作用する現在の定式化の能力を示している。 また、IF-MPSダイナミクスの利点も示しており、それに付随する高能率な浴槽力学は静的な浴槽離散化を伴う状態ベクトル伝播よりも優れている。

We describe two developments of tensor network influence functionals (in particular, influence functional matrix product states (IF-MPS)) for quantum impurity dynamics within the fermionic setting of the Anderson impurity model. The first provides the correct extension of the IF-MPS to continuous time by introducing a related mathematical object, the boundary influence functional MPS. The second connects the dynamics described by a compressed IF-MPS to that of a quantum embedding method with a time-dependent effective bath undergoing non-unitary dynamics. Using these concepts, we implement higher-order time propagators for the quench dynamics of the Anderson impurity model within the boundary IF-MPS formalism. The calculations illustrate the ability of the current formulation to efficiently remove the time-step error in standard discrete-time IF-MPS implementations as well as to interface with state-vector propagation techniques. They also show the advantages of IF-MPS dynamics, with its associated highly compact effective bath dynamics, over state-vector propagation with a static bath discretization.
翻訳日:2024-01-24 17:09:03 公開日:2024-01-23
# 社会的・道徳的なRLエージェントを目指して: LLMによるリワードデザイン

Towards Socially and Morally Aware RL agent: Reward Design With LLM ( http://arxiv.org/abs/2401.12459v1 )

ライセンス: Link先を確認
Zhaoyue Wang(参考訳) 強化学習エージェント(RL)を設計・展開する際、報酬関数は目的を達成するためにエージェントを動機付ける。 目的の不正確または不完全な仕様は、人間の価値観に合致しない行動をもたらす可能性がある - あいまいで文脈に依存しない社会的および道徳的規範に固執せず、ネガティブな副作用や安全でない探索のような望ましくない結果を引き起こす。 これまでの作業では、ネガティブな副作用を避けるために報酬関数を手動で定義したり、安全な探索に人間の監視を使ったり、計画ツールとして基礎モデルを使用したりしていました。 本研究は,大規模言語モデル(LLM)のモラルと社会的規範の理解を,安全なRL法探索に活用する能力について研究する。 この研究は、人間のフィードバックに対する言語モデルの結果を評価し、直接報酬信号として言語モデルの能力を示す。

When we design and deploy an Reinforcement Learning (RL) agent, reward functions motivates agents to achieve an objective. An incorrect or incomplete specification of the objective can result in behavior that does not align with human values - failing to adhere with social and moral norms that are ambiguous and context dependent, and cause undesired outcomes such as negative side effects and exploration that is unsafe. Previous work have manually defined reward functions to avoid negative side effects, use human oversight for safe exploration, or use foundation models as planning tools. This work studies the ability of leveraging Large Language Models (LLM)' understanding of morality and social norms on safe exploration augmented RL methods. This work evaluates language model's result against human feedbacks and demonstrates language model's capability as direct reward signals.
翻訳日:2024-01-24 17:08:42 公開日:2024-01-23
# 二重モード表面音響波空洞を用いた量子ジャイロスコープ

Quantum gyroscopes based on double-mode surface-acoustic-wave cavities ( http://arxiv.org/abs/2401.12457v1 )

ライセンス: Link先を確認
Yuting Zhu, Shibei Xue, Fangfang Ju, Haidong Yuan(参考訳) 近年の進歩は、表面音響波(SAW)キャビティが量子音響力学を誘発するだけでなく、オプトロメカティカル系を形成することも示している。 マイクロ波帯の動作周波数は周囲の環境の熱雑音に耐性を持ち、放射線と圧力のカップリングは弱い力に影響を受けやすい。 これらの利点に基づいてマイクロ波-SAW共振器からなるジャイロスコープを提案する。 本稿では,ジャイロスコープにおいて最も重要な範囲,信号対雑音比,感度を含む3つの指標を体系的に検討する。 さらに,量子入力が真空状態と圧縮真空状態にある場合の感度の基本的な限界を定式化する。 スクイージングは感度を向上し、標準量子限界を超えることができる。 しかし、この改善は、圧縮されたパラメータが無限大に近づいたとしても、$\sqrt{2}/2$にしか達しない。 最後に,協調性と絞り込みパラメータに対する解析的制約も提供する。 これらの制約は、実験における結合キャビティに基づくジャイロスコープの設計に利用できる。

Recent progress shows that a surface-acoustic-wave (SAW) cavity can not only induce quantum acoustic dynamics but also can form optomechanical-like systems. Its operating frequencies in the microwave band make it resistant to the thermal noise of surrounding environments, while its radiation-pressure couplings make it susceptible to weak forces. Based on these advantages, we propose a gyroscope comprising coupled microwave-SAW cavities. In this paper, we systematically consider the three indices including range, signal-to-noise ratio, and sensitivity, which are the most important to gyroscopes but only partially considered in existing works. Additionally, we establish the fundamental limits of sensitivity when the quantum input is in the vacuum state and the squeezed vacuum state. We find that squeezing improves sensitivity and can surpass the standard quantum limit. However, this improvement can only reach up to $\sqrt{2}/2$ even as the squeezed parameter approaches infinity, which is rarely noted in recent works. Finally, we also offer analytical constraints for cooperativity and squeezed parameters. These constraints can be utilized to design gyroscopes based on coupled cavities in experiments.
翻訳日:2024-01-24 17:08:28 公開日:2024-01-23
# Nerfを用いた3次元シーン編集技術の探索と改善

Exploration and Improvement of Nerf-based 3D Scene Editing Techniques ( http://arxiv.org/abs/2401.12456v1 )

ライセンス: Link先を確認
Shun Fang, Ming Cui, Xing Feng, Yanan Zhang(参考訳) nerfの高品質なシーン合成能力は提案された後すぐに研究者に受け入れられ、3dシーンの表現と合成において大きな進歩を遂げた。 しかし、高い計算コストはシーンの直感的で効率的な編集を制限し、シーン編集分野におけるNeRFの開発は多くの課題に直面した。 This paper reviews the preliminary explorations of scholars on NeRF in the scene or object editing field in recent years, mainly changing the shape and texture of scenes or objects in new synthesized scenes; through the combination of residual models such as GaN and Transformer with NeRF, the generalization ability of NeRF scene editing has been further expanded, including realizing real-time new perspective editing feedback, multimodal editing of text synthesized 3D scenes, 4D synthesis performance, and in-depth exploration in light and shadow editing, initially achieving optimization of indirect touch editing and detail representation in complex scenes. 現在、ほとんどのNeRF編集法は間接的な点のタッチポイントと材料に焦点を当てているが、より複雑な3Dシーンを扱う場合、精度、幅、効率、品質のバランスをとるのは難しい。 これらの課題を克服することは、将来のNeRF 3Dシーン編集技術の方向性となるかもしれない。

NeRF's high-quality scene synthesis capability was quickly accepted by scholars in the years after it was proposed, and significant progress has been made in 3D scene representation and synthesis. However, the high computational cost limits intuitive and efficient editing of scenes, making NeRF's development in the scene editing field facing many challenges. This paper reviews the preliminary explorations of scholars on NeRF in the scene or object editing field in recent years, mainly changing the shape and texture of scenes or objects in new synthesized scenes; through the combination of residual models such as GaN and Transformer with NeRF, the generalization ability of NeRF scene editing has been further expanded, including realizing real-time new perspective editing feedback, multimodal editing of text synthesized 3D scenes, 4D synthesis performance, and in-depth exploration in light and shadow editing, initially achieving optimization of indirect touch editing and detail representation in complex scenes. Currently, most NeRF editing methods focus on the touch points and materials of indirect points, but when dealing with more complex or larger 3D scenes, it is difficult to balance accuracy, breadth, efficiency, and quality. Overcoming these challenges may become the direction of future NeRF 3D scene editing technology.
翻訳日:2024-01-24 17:08:09 公開日:2024-01-23
# 交通インフラ管理のための集中訓練と分散実行による多エージェント深層強化学習

Multi-agent deep reinforcement learning with centralized training and decentralized execution for transportation infrastructure management ( http://arxiv.org/abs/2401.12455v1 )

ライセンス: Link先を確認
M. Saifullah, K.G. Papakonstantinou, C.P. Andriotis, S.M. Stoffels(参考訳) 本稿では,大規模交通インフラシステムをライフサイクル上で管理するための多エージェント深層強化学習(DRL)フレームワークを提案する。 このようなエンジニアリングシステムのライフサイクル管理は計算集約的な作業であり、高次元空間にあるさまざまな不確実性や制約に対処しながら、長期的リスクとコストを低減できる適切なシーケンシャルな検査とメンテナンスの決定を必要とする。 これまで、静的な年齢または条件に基づくメンテナンス手法とリスクベースまたは定期的な検査計画が、このタイプの最適化問題に主に対処してきた。 しかし、最適性、スケーラビリティ、不確実性の制限はしばしばそのようなアプローチの下で現れます。 本研究の最適化問題は制約付き部分観測可能マルコフ決定プロセス(POMDP)の枠組みに置かれており、確率的逐次決定設定において、不確実性、リスク考慮、限られた資源を含む包括的な数学的基礎を提供する。 DDMAC-CTDE(Deep Decentralized Multi-Adnt Actor-Critic, DDMAC) DRL法において, DDMAC-CTDE(Decentralized Execution, 分散訓練・分散実行)法が開発された。 DDMAC-CTDE法の性能特性は, アメリカ合衆国バージニア州における既存の輸送ネットワークの汎用的, 現実的な応用例として示す。 このネットワークには、非定常的な劣化、機関による制約、交通の遅延とリスクを考慮したいくつかの橋や舗装コンポーネントが含まれている。 DDMAC-CTDE法は,従来の交通網の管理方針に比べ,従来よりもはるかに優れていた。 全体として、提案するアルゴリズムフレームワークは、現実の制約と複雑さの下での交通インフラ管理にほぼ最適なソリューションを提供する。

We present a multi-agent Deep Reinforcement Learning (DRL) framework for managing large transportation infrastructure systems over their life-cycle. Life-cycle management of such engineering systems is a computationally intensive task, requiring appropriate sequential inspection and maintenance decisions able to reduce long-term risks and costs, while dealing with different uncertainties and constraints that lie in high-dimensional spaces. To date, static age- or condition-based maintenance methods and risk-based or periodic inspection plans have mostly addressed this class of optimization problems. However, optimality, scalability, and uncertainty limitations are often manifested under such approaches. The optimization problem in this work is cast in the framework of constrained Partially Observable Markov Decision Processes (POMDPs), which provides a comprehensive mathematical basis for stochastic sequential decision settings with observation uncertainties, risk considerations, and limited resources. To address significantly large state and action spaces, a Deep Decentralized Multi-agent Actor-Critic (DDMAC) DRL method with Centralized Training and Decentralized Execution (CTDE), termed as DDMAC-CTDE is developed. The performance strengths of the DDMAC-CTDE method are demonstrated in a generally representative and realistic example application of an existing transportation network in Virginia, USA. The network includes several bridge and pavement components with nonstationary degradation, agency-imposed constraints, and traffic delay and risk considerations. Compared to traditional management policies for transportation networks, the proposed DDMAC-CTDE method vastly outperforms its counterparts. Overall, the proposed algorithmic framework provides near optimal solutions for transportation infrastructure management under real-world constraints and complexities.
翻訳日:2024-01-24 17:07:52 公開日:2024-01-23
# 「先生も混乱している」--コンピュータ教育における大規模言語モデルに関するマルチテイクホルダー倫理論

"The teachers are confused as well": A Multiple-Stakeholder Ethics Discussion on Large Language Models in Computing Education ( http://arxiv.org/abs/2401.12453v1 )

ライセンス: Link先を確認
Kyrie Zhixuan Zhou, Zachary Kilhoffer, Madelyn Rose Sanfilippo, Ted Underwood, Ece Gumusel, Mengyi Wei, Abhinav Choudhry, Jinjun Xiong(参考訳) 大規模言語モデル(llm)は急速に進歩し、人々の生活に悪影響を与えている。 高等教育においては、学生のLDMの誤用や教育成果の低下といった懸念が浮かび上がっている。 高等教育におけるLCMの倫理的関心を解き放つため,高等教育コンピュータサイエンスにおける利害関係者インタビュー(n=20)によるケーススタディを行った。 我々は、学生が複数の異なるメンタルモデルを使用してLLMと対話することを発見した。 (a)筆記 (b)コーディング,及び (c)情報検索は倫理的考察において若干異なる。 学生や教師は、不正確なLSM反応、幻覚、偏見、プライバシー漏洩、学術的完全性問題など、彼らに直接的な影響を及ぼす倫理的な問題を提起した。 参加者は、デジタルリテラシーの教育、教育の再検討、慎重かつ文脈的な政策など、高等教育におけるllmの使用のための指導と規則の必要性を強調した。 倫理的課題を反映し、解決策を提案する。

Large Language Models (LLMs) are advancing quickly and impacting people's lives for better or worse. In higher education, concerns have emerged such as students' misuse of LLMs and degraded education outcomes. To unpack the ethical concerns of LLMs for higher education, we conducted a case study consisting of stakeholder interviews (n=20) in higher education computer science. We found that students use several distinct mental models to interact with LLMs - LLMs serve as a tool for (a) writing, (b) coding, and (c) information retrieval, which differ somewhat in ethical considerations. Students and teachers brought up ethical issues that directly impact them, such as inaccurate LLM responses, hallucinations, biases, privacy leakage, and academic integrity issues. Participants emphasized the necessity of guidance and rules for the use of LLMs in higher education, including teaching digital literacy, rethinking education, and having cautious and contextual policies. We reflect on the ethical challenges and propose solutions.
翻訳日:2024-01-24 17:07:25 公開日:2024-01-23
# 2D-3DニューラルキャリブレーションによるLiDAR3D点雲の自己教師学習

Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration ( http://arxiv.org/abs/2401.12452v1 )

ライセンス: Link先を確認
Yifan Zhang, Siyu Ren, Junhui Hou, Jinjian Wu, Guangming Shi(参考訳) 本稿では,自律運転場面における3次元知覚向上のための新しい自己教師付き学習フレームワークを提案する。 具体的には,2D-3Dニューラルキャリブレーション(2D-3Dニューラルキャリブレーション)に着目し,剛性変換整列カメラとLiDAR座標系を推定する。 まず、画像と点クラウドデータの領域ギャップを埋める学習可能な変換アライメントを提案し、効率的な比較とマッチングのために特徴を統一表現空間に変換する。 第2に、画像と点雲の間の重なり合う領域と、融合した特徴とを識別する。 第三に、剛性変換を推定するために密度の高い2D-3D対応を確立する。 このフレームワークは、点から画素までのきめ細かいマッチングを学習するだけでなく、画像と点雲を全体的レベルでアライメントし、相対的なポーズを理解する。 我々は,LDARに基づく3Dセマンティックセマンティックセグメンテーション,オブジェクト検出,パノプティックセグメンテーションなどの下流タスクに事前学習したバックボーンを適用することで,NCLRの有効性を示す。 様々なデータセットに関する総合的な実験は、既存の自己管理手法よりもNCLRの方が優れていることを示している。 その結果,異なるモダリティによる共同学習は,ネットワークの理解能力と学習表現の有効性を著しく向上させることがわかった。 コードは \url{https://github.com/Eaphan/NCLR} で入手できる。

This paper introduces a novel self-supervised learning framework for enhancing 3D perception in autonomous driving scenes. Specifically, our approach, named NCLR, focuses on 2D-3D neural calibration, a novel pretext task that estimates the rigid transformation aligning camera and LiDAR coordinate systems. First, we propose the learnable transformation alignment to bridge the domain gap between image and point cloud data, converting features into a unified representation space for effective comparison and matching. Second, we identify the overlapping area between the image and point cloud with the fused features. Third, we establish dense 2D-3D correspondences to estimate the rigid transformation. The framework not only learns fine-grained matching from points to pixels but also achieves alignment of the image and point cloud at a holistic level, understanding their relative pose. We demonstrate NCLR's efficacy by applying the pre-trained backbone to downstream tasks, such as LiDAR-based 3D semantic segmentation, object detection, and panoptic segmentation. Comprehensive experiments on various datasets illustrate the superiority of NCLR over existing self-supervised methods. The results confirm that joint learning from different modalities significantly enhances the network's understanding abilities and effectiveness of learned representation. Code will be available at \url{https://github.com/Eaphan/NCLR}.
翻訳日:2024-01-24 17:07:07 公開日:2024-01-23
# 神経放射場の新規な視線合成品質向上のための方法と戦略

Methods and strategies for improving the novel view synthesis quality of neural radiation field ( http://arxiv.org/abs/2401.12451v1 )

ライセンス: Link先を確認
Shun Fang, Ming Cui, Xing Feng, Yanna Lv(参考訳) ニューラル放射線場(NeRF)技術は、2次元画像からシーンの3次元暗黙モデルを学び、現実的な新しいビューイメージを合成することができる。 この技術は業界から広く注目を集めており、応用可能性も高い。 NeRF画像のレンダリング品質を改善する必要があるという問題に対して、多くの研究者が過去3年間のレンダリング品質を改善するための様々な方法を提案している。 最新の関連論文を分類・レビューし,品質改善の背景にある技術的原理を分析し,品質改善手法の将来進化方向について考察した。 この研究は、研究者がこの分野における技術の現状と進化の文脈を素早く理解し、より効率的なアルゴリズムの開発を促し、関連する分野におけるNeRF技術の適用を促進するのに役立つ。

Neural Radiation Field (NeRF) technology can learn a 3D implicit model of a scene from 2D images and synthesize realistic novel view images. This technology has received widespread attention from the industry and has good application prospects. In response to the problem that the rendering quality of NeRF images needs to be improved, many researchers have proposed various methods to improve the rendering quality in the past three years. The latest relevant papers are classified and reviewed, the technical principles behind quality improvement are analyzed, and the future evolution direction of quality improvement methods is discussed. This study can help researchers quickly understand the current state and evolutionary context of technology in this field, which is helpful in inspiring the development of more efficient algorithms and promoting the application of NeRF technology in related fields.
翻訳日:2024-01-24 17:06:43 公開日:2024-01-23
# Patch2QL: 自動生成された静的分析ルールによるオープンソースソフトウェアサプライチェーンのコグネート欠陥発見

Patch2QL: Discover Cognate Defects in Open Source Software Supply Chain With Auto-generated Static Analysis Rules ( http://arxiv.org/abs/2401.12443v1 )

ライセンス: Link先を確認
Fuwei Wang(参考訳) オープンソースソフトウェア(oss)エコシステムには複雑なソフトウェアサプライチェーンがあり、開発者は上流と下流に広くコードを借りて再利用する。 これにより、繰り返し発生する欠陥、修正の欠如、および伝播の問題が発生する。 これらは総じてコグネイト欠陥と呼ばれ、その規模と脅威は広範な注意と体系的な研究を受けていない。 ソフトウェア構成分析とコードクローン検出方法は、サプライチェーンのシナリオにおける様々なバリエーションの問題をカバーできないが、コード静的分析や静的アプリケーションセキュリティテスト(SAST)技術は、特定の欠陥を標的とするのに苦労している。 本稿では,sastルールの自動生成によりossのコグネイト欠陥を検出する新しい手法を提案する。 具体的には、構造的な比較と制御フローからデータフロー解析まで、パッチ後バージョンのコードからキー構文とセマンティック情報を抽出し、これらのキー要素にマッチするルールを生成する。 我々はPatch2QLというプロトタイプツールを実装し、それをC/C++の基本OSSに適用した。 実験では、最も人気のあるアップストリームソフトウェアにおいて、中~臨界重大性を備えた7つの新たな脆弱性と、潜在的なセキュリティ問題を発見しました。 サプライチェーンの下流プロジェクトを分析すると、かなりの数のコグネート欠陥が発見され、この問題による脅威を明らかにした。 さらに、汎用的なSASTやシグネチャベースのメカニズムと比較して、生成されたルールはコグネート欠陥のすべての変種を発見するのに優れている。

In the open source software (OSS) ecosystem, there exists a complex software supply chain, where developers upstream and downstream widely borrow and reuse code. This results in the widespread occurrence of recurring defects, missing fixes, and propagation issues. These are collectively referred to as cognate defects, and their scale and threats have not received extensive attention and systematic research. Software composition analysis and code clone detection methods are unable to cover the various variant issues in the supply chain scenario, while code static analysis, or static application security testing (SAST) techniques struggle to target specific defects. In this paper, we propose a novel technique for detecting cognate defects in OSS through the automatic generation of SAST rules. Specifically, it extracts key syntax and semantic information from pre- and post-patch versions of code through structural comparison and control flow to data flow analysis, and generates rules that matches these key elements. We have implemented a prototype tool called Patch2QL and applied it to fundamental OSS in C/C++. In experiments, we discovered 7 new vulnerabilities with medium to critical severity in the most popular upstream software, as well as numerous potential security issues. When analyzing downstream projects in the supply chain, we found a significant number of representative cognate defects, clarifying the threat posed by this issue. Additionally, compared to general-purpose SAST and signature-based mechanisms, the generated rules perform better at discover all variants of cognate defects.
翻訳日:2024-01-24 17:06:29 公開日:2024-01-23
# 学習後埋め込みアライメントを用いたデカップリング学習と実行時話者認識モデル

Post-Training Embedding Alignment for Decoupling Enrollment and Runtime Speaker Recognition Models ( http://arxiv.org/abs/2401.12440v1 )

ライセンス: Link先を確認
Chenyang Gao, Brecht Desplanques, Chelsea J.-T. Ju, Aman Chadha, Andreas Stolcke(参考訳) 自動話者識別(SID)は、幅広い音声対応サービスのパーソナライズのための重要なステップである。 典型的なSIDシステムは、単一のモデルを持つ対称的登録検証フレームワークを使用して、登録発話から抽出された音声プロファイルのオフラインと実行時発話からオンライン両方の埋め込みを導出する。 異なる計算やレイテンシの制約など、エンローメントとランタイムの異なる状況のため、いくつかのアプリケーションは、エンローメントとランタイム組み込み生成に異なるモデルを使用する非対称エンローメント検証フレームワークの恩恵を受けるだろう。 2つのモデルのそれぞれを独立して更新できるこの非対称sidをサポートするため、軽量ニューラルネットワークを用いて、2つの独立したモデルから共有話者埋め込み空間への埋め込みをマッピングする。 その結果,このアプローチは,多数の話者同一性を持つ大規模データセットのコントラスト損失を訓練したモデルにおいて,共有話者ロジット空間におけるコサインスコアを有意に上回っていることがわかった。 この提案したNeural Embedding Speaker Space Alignment (NESSA)は、標準対称SIDアプローチで両方のモデルを更新することで達成された性能の少なくとも60%を、モデルの1つの非対称な更新と組み合わせたものである。

Automated speaker identification (SID) is a crucial step for the personalization of a wide range of speech-enabled services. Typical SID systems use a symmetric enrollment-verification framework with a single model to derive embeddings both offline for voice profiles extracted from enrollment utterances, and online from runtime utterances. Due to the distinct circumstances of enrollment and runtime, such as different computation and latency constraints, several applications would benefit from an asymmetric enrollment-verification framework that uses different models for enrollment and runtime embedding generation. To support this asymmetric SID where each of the two models can be updated independently, we propose using a lightweight neural network to map the embeddings from the two independent models to a shared speaker embedding space. Our results show that this approach significantly outperforms cosine scoring in a shared speaker logit space for models that were trained with a contrastive loss on large datasets with many speaker identities. This proposed Neural Embedding Speaker Space Alignment (NESSA) combined with an asymmetric update of only one of the models delivers at least 60% of the performance gain achieved by updating both models in the standard symmetric SID approach.
翻訳日:2024-01-24 17:06:01 公開日:2024-01-23
# MAST:Mixture-Attention Siamese Transformerを用いたビデオポリプセグメンテーション

MAST: Video Polyp Segmentation with a Mixture-Attention Siamese Transformer ( http://arxiv.org/abs/2401.12439v1 )

ライセンス: Link先を確認
Geng Chen, Junqing Yang, Xiaozhou Pu, Ge-Peng Ji, Huan Xiong, Yongsheng Pan, Hengfei Cui, Yong Xia(参考訳) 大腸内視鏡検査におけるポリープの正確な分画は,ポリープ治療や早期大腸癌予防に重要である。 しかし,大腸内視鏡映像内の長期時空間関係のモデル化が困難であることから困難である。 本稿では,この課題に対して,高精度ポリプセグメンテーションのための混合アテンション機構と長距離時空間関係を明示的にモデル化する新しい混合アテンションシアーム変圧器(mast)を提案する。 具体的には,まず一対の映像フレームを相互にエンコードして特徴表現を行うsiamese変換器アーキテクチャを構築した。 次に、フレーム内およびフレーム間相関を利用して混合アテンションモジュールを設計し、豊富な時空間関係を持つ特徴を増強する。 最後に、拡張された特徴を2つの並列デコーダに供給し、セグメンテーションマップを予測する。 私たちの知る限りでは、MASTはビデオポリープセグメンテーションに特化した最初のトランスフォーマーモデルです。 大規模SUN-SEGベンチマークの大規模な実験は、最先端の競合と比較してMASTの優れた性能を示している。 私たちのコードはhttps://github.com/Junqing-Yang/MAST.comで公開されています。

Accurate segmentation of polyps from colonoscopy videos is of great significance to polyp treatment and early prevention of colorectal cancer. However, it is challenging due to the difficulties associated with modelling long-range spatio-temporal relationships within a colonoscopy video. In this paper, we address this challenging task with a novel Mixture-Attention Siamese Transformer (MAST), which explicitly models the long-range spatio-temporal relationships with a mixture-attention mechanism for accurate polyp segmentation. Specifically, we first construct a Siamese transformer architecture to jointly encode paired video frames for their feature representations. We then design a mixture-attention module to exploit the intra-frame and inter-frame correlations, enhancing the features with rich spatio-temporal relationships. Finally, the enhanced features are fed to two parallel decoders for predicting the segmentation maps. To the best of our knowledge, our MAST is the first transformer model dedicated to video polyp segmentation. Extensive experiments on the large-scale SUN-SEG benchmark demonstrate the superior performance of MAST in comparison with the cutting-edge competitors. Our code is publicly available at https://github.com/Junqing-Yang/MAST.
翻訳日:2024-01-24 17:05:40 公開日:2024-01-23
# 安全な連合学習によるcovid-19診断

Secure Federated Learning Approaches to Diagnosing COVID-19 ( http://arxiv.org/abs/2401.12438v1 )

ライセンス: Link先を確認
Rittika Adhikari, Christopher Settles(参考訳) 最近のパンデミックは、病院でcovid-19を正確に診断することの重要性を強調している。 この点で大きな課題は、患者X線の比較を制限するHIPAAコンプライアンスの制限により、他の呼吸器疾患と、胸部X線に基づいて区別することである。 本稿では,フェデレートラーニングを活用したHIPAA対応モデルを導入し,新型コロナウイルスの診断に役立てる。 フェデレーション学習(federated learning)は、分散機械学習アプローチであり、ローカルデータサンプルを使用して、データ共有を必要とせずに、複数の分散デバイス間でアルゴリズムトレーニングを可能にする。 我々のモデルは胸部x線診断モデルの先行研究を進歩させる。 この領域で確立されたコンペから先行するモデルを検証し,特定の病院データに適合する独自のモデルを開発した。 フェデレーション学習コンテキストにおけるモデルの動作を考慮し,偏りのあるデータ更新がモデルの性能に与える影響について検討した。 病院における意思決定プロセスの理解を深め,無関係な特徴に焦点を合わせていないことを確認するため,私たちは,新型コロナウイルスの陽性診断を示す胸部X線の特徴を強調する可視化技術を採用した。

The recent pandemic has underscored the importance of accurately diagnosing COVID-19 in hospital settings. A major challenge in this regard is differentiating COVID-19 from other respiratory illnesses based on chest X-rays, compounded by the restrictions of HIPAA compliance which limit the comparison of patient X-rays. This paper introduces a HIPAA-compliant model to aid in the diagnosis of COVID-19, utilizing federated learning. Federated learning is a distributed machine learning approach that allows for algorithm training across multiple decentralized devices using local data samples, without the need for data sharing. Our model advances previous efforts in chest X-ray diagnostic models. We examined leading models from established competitions in this domain and developed our own models tailored to be effective with specific hospital data. Considering the model's operation in a federated learning context, we explored the potential impact of biased data updates on the model's performance. To enhance hospital understanding of the model's decision-making process and to verify that the model is not focusing on irrelevant features, we employed a visualization technique that highlights key features in chest X-rays indicative of a positive COVID-19 diagnosis.
翻訳日:2024-01-24 17:05:19 公開日:2024-01-23
# wasserstein差分プライバシー

Wasserstein Differential Privacy ( http://arxiv.org/abs/2401.12436v1 )

ライセンス: Link先を確認
Chengyi Yang, Jiayin Qi and Aimin Zhou(参考訳) 差分プライバシー(DP)は、プライバシ保存機械学習分野において顕著な成果を上げている。 しかし、既存のDPフレームワークはメトリクス化の条件を全て満たしていないため、より基本的なプライベートプロパティの派生を防ぎ、プライバシー予算の誇張された価値をもたらす。 本稿では,対称性と三角不等式の性質を満たすプライバシリークのリスクを測定するための代替dpフレームワークであるwasserstein differential privacy (wdp)を提案する。 WDPには13の優れた特性があり、他のDPフレームワークよりもWDPの性能向上を理論的に支援できることを示す。 さらに,wdpをサブサンプリングを含む確率的勾配降下(sgd)シナリオに適用可能な,wasserstein accountantと呼ばれる一般的なプライバシー会計手法を導出する。 基本的なメカニズム、構成、深層学習の実験は、ワッサースタイン会計士が取得したプライバシー予算が比較的安定しており、秩序の影響を受けていないことを示している。 さらに、プライバシー予算の過大評価を効果的に緩和することができる。 コードはhttps://github.com/Hifipsysta/WDPで入手できる。

Differential privacy (DP) has achieved remarkable results in the field of privacy-preserving machine learning. However, existing DP frameworks do not satisfy all the conditions for becoming metrics, which prevents them from deriving better basic private properties and leads to exaggerated values on privacy budgets. We propose Wasserstein differential privacy (WDP), an alternative DP framework to measure the risk of privacy leakage, which satisfies the properties of symmetry and triangle inequality. We show and prove that WDP has 13 excellent properties, which can be theoretical supports for the better performance of WDP than other DP frameworks. In addition, we derive a general privacy accounting method called Wasserstein accountant, which enables WDP to be applied in stochastic gradient descent (SGD) scenarios containing sub-sampling. Experiments on basic mechanisms, compositions and deep learning show that the privacy budgets obtained by Wasserstein accountant are relatively stable and less influenced by order. Moreover, the overestimation on privacy budgets can be effectively alleviated. The code is available at https://github.com/Hifipsysta/WDP.
翻訳日:2024-01-24 17:04:59 公開日:2024-01-23
# 物理インフォームドニューラルネットワークを用いた細胞外空間における分子輸送の定量的解析

Quantitative Analysis of Molecular Transport in the Extracellular Space Using Physics-Informed Neural Network ( http://arxiv.org/abs/2401.12435v1 )

ライセンス: Link先を確認
Jiayi Xie, Hongfeng Li, Yu Jiang, Jin Cheng, Qingrui Cai, Hanbo Tan, Lingyun Zu, Xiaobo Qu, and Hongbin Han(参考訳) 脳外細胞間空間(ECS)は、細胞間、または細胞と血管の間に位置する不規則で非常に頑丈なナノスケール空間であり、神経細胞の生存に不可欠である。 記憶、感情、感覚などの高レベルの脳機能において重要な役割を果たす。 しかし、ECS内の分子輸送の特定の形態は依然として解明されていない。 そこで本研究では,物理インフォームドニューラルネットワーク(PINN)を用いて,吸着拡散方程式(ADE)から導かれる逆問題を解くことにより,ECS内の分子輸送を定量的に解析する手法を提案する。 PINNは複雑な数学的定式化やグリッド設定を必要とせずにADEに合理化されたソリューションを提供する。 さらに, pinnの最適化により, 長期分子輸送を規定する拡散係数と, 吸着によって駆動される分子の速度の自動計算が容易になる。 提案手法はペクレット数を計算することにより,ECS内の分子輸送の特異パターンを定量的に解析し,同定することができる。 磁気共鳴画像(mri)の2つのデータセットの異なる時点における実験的検証は,提案手法の有効性を示すものである。 特にシミュレーションでは、同じ脳領域にトレーサを注入したラットのデータセット間で同じ分子輸送パターンが示されている。 これらの知見は、ECS内の分子輸送を包括的に探索するための有望なツールとしてのPINNの可能性を示している。

The brain extracellular space (ECS), an irregular, extremely tortuous nanoscale space located between cells or between cells and blood vessels, is crucial for nerve cell survival. It plays a pivotal role in high-level brain functions such as memory, emotion, and sensation. However, the specific form of molecular transport within the ECS remain elusive. To address this challenge, this paper proposes a novel approach to quantitatively analyze the molecular transport within the ECS by solving an inverse problem derived from the advection-diffusion equation (ADE) using a physics-informed neural network (PINN). PINN provides a streamlined solution to the ADE without the need for intricate mathematical formulations or grid settings. Additionally, the optimization of PINN facilitates the automatic computation of the diffusion coefficient governing long-term molecule transport and the velocity of molecules driven by advection. Consequently, the proposed method allows for the quantitative analysis and identification of the specific pattern of molecular transport within the ECS through the calculation of the Peclet number. Experimental validation on two datasets of magnetic resonance images (MRIs) captured at different time points showcases the effectiveness of the proposed method. Notably, our simulations reveal identical molecular transport patterns between datasets representing rats with tracer injected into the same brain region. These findings highlight the potential of PINN as a promising tool for comprehensively exploring molecular transport within the ECS.
翻訳日:2024-01-24 17:04:42 公開日:2024-01-23
# 差分残差損失に基づく波動方程式の教師なし学習法

Unsupervised Learning Method for the Wave Equation Based on Finite Difference Residual Constraints Loss ( http://arxiv.org/abs/2401.12489v1 )

ライセンス: Link先を確認
Xin Feng, Yi Jiang, Jia-Xian Qin, Lai-Ping Zhang, Xiao-Gang Deng(参考訳) 波動方程式は重要な物理偏微分方程式であり、近年では深層学習が従来の数値解法を加速または置き換える可能性を示している。 しかし、既存のディープラーニング手法は、高いデータ取得コスト、低いトレーニング効率、境界条件の一般化能力不足に苦しむ。 これらの問題に対処するために,有限差分残差制約に基づく波動方程式の教師なし学習法を提案する。 本研究では,構造化格子と有限差分法に基づく新しい有限差分残差制約と教師なし学習戦略を構築し,畳み込みニューラルネットワークをデータ無しで訓練し,波の前方伝播過程を予測する。 実験結果から, 有限差分残差制約は, 物理インフォームドニューラルネットワーク(PINN)タイプの物理情報制約に対して, 適合性の容易さ, 計算コストの低減, ソース項の一般化能力の強化といった利点があることがわかった。

The wave equation is an important physical partial differential equation, and in recent years, deep learning has shown promise in accelerating or replacing traditional numerical methods for solving it. However, existing deep learning methods suffer from high data acquisition costs, low training efficiency, and insufficient generalization capability for boundary conditions. To address these issues, this paper proposes an unsupervised learning method for the wave equation based on finite difference residual constraints. We construct a novel finite difference residual constraint based on structured grids and finite difference methods, as well as an unsupervised training strategy, enabling convolutional neural networks to train without data and predict the forward propagation process of waves. Experimental results show that finite difference residual constraints have advantages over physics-informed neural networks (PINNs) type physical information constraints, such as easier fitting, lower computational costs, and stronger source term generalization capability, making our method more efficient in training and potent in application.
翻訳日:2024-01-24 16:58:57 公開日:2024-01-23
# 深層学習ネットワークを用いたフルオロスコープ画像と映像の画像処理と分割のためのリアルタイム自動手法

An Automated Real-Time Approach for Image Processing and Segmentation of Fluoroscopic Images and Videos Using a Single Deep Learning Network ( http://arxiv.org/abs/2401.12488v1 )

ライセンス: Link先を確認
Viet Dung Nguyen, Michael T. LaCour, Richard D. Komistek(参考訳) 人工膝関節全置換術のイメージセグメンテーションは, 正確な術前計画とインプラント位置決めに不可欠であり, 手術成績と患者満足度の改善につながる。 人工膝関節置換術におけるイメージセグメンテーションの最大の課題は、複雑な解剖学的構造を正確に記述すること、画像アーティファクトとノイズを扱うこと、そして患者でよく見られる解剖学的変化と病理を処理できる堅牢なアルゴリズムを開発することである。 人工膝関節置換術における画像分割のための機械学習の利用の可能性は、セグメンテーション精度の向上、プロセスの自動化、外科医へのリアルタイム支援、そして手術計画、インプラント配置、患者の予後の向上につながる。 本稿では,ロバストでリアルタイムな人工膝関節置換術画像分割のための深層学習手法を提案する。 大規模なデータセットに基づいてトレーニングされたディープラーニングモデルは、インプラントされた大腿骨とティアビアの両方を正確にセグメント化し、地上の真実と比較して88.83の平均精度(mAP)を印象的に達成し、同時に毎秒20フレームのリアルタイムセグメント化速度(fps)を達成した。 人工膝関節鏡またはX線画像のセグメント化のための新しい手法を導入し, 精度と速度の顕著なレベルを示し, 様々な応用の道を開いた。

Image segmentation in total knee arthroplasty is crucial for precise preoperative planning and accurate implant positioning, leading to improved surgical outcomes and patient satisfaction. The biggest challenges of image segmentation in total knee arthroplasty include accurately delineating complex anatomical structures, dealing with image artifacts and noise, and developing robust algorithms that can handle anatomical variations and pathologies commonly encountered in patients. The potential of using machine learning for image segmentation in total knee arthroplasty lies in its ability to improve segmentation accuracy, automate the process, and provide real-time assistance to surgeons, leading to enhanced surgical planning, implant placement, and patient outcomes. This paper proposes a methodology to use deep learning for robust and real-time total knee arthroplasty image segmentation. The deep learning model, trained on a large dataset, demonstrates outstanding performance in accurately segmenting both the implanted femur and tibia, achieving an impressive mean-Average-Precision (mAP) of 88.83 when compared to the ground truth while also achieving a real-time segmented speed of 20 frames per second (fps). We have introduced a novel methodology for segmenting implanted knee fluoroscopic or x-ray images that showcases remarkable levels of accuracy and speed, paving the way for various potential extended applications.
翻訳日:2024-01-24 16:58:25 公開日:2024-01-23
# 断熱型量子支援ベクトルマシン

Adiabatic Quantum Support Vector Machines ( http://arxiv.org/abs/2401.12485v1 )

ライセンス: Link先を確認
Prasanna Date, Dong Jun Woun, Kathleen Hamilton, Eduardo A. Coello Perez, Mayanka Chandra Shekhar, Francisco Rios, John Gounley, In-Saeng Suh, Travis Humble, Georgia Tourassi(参考訳) 断熱量子コンピュータは難解な最適化問題(例えば、二分最適化の二次問題)を解くことができ、機械学習モデルのトレーニングに適しているように見える。 本稿では,学習支援ベクトルマシンのための断熱量子アプローチについて述べる。 量子的アプローチの時間的複雑さは、古典的アプローチよりも桁違いに優れていることを示す。 次に,5つのベンチマークデータセット(Iris, Wisconsin Breast Cancer (WBC), Wine, Digits, Lambeq)でPythonのScikit-learnライブラリを使用する古典的アプローチと比較した。 量子的アプローチは古典的アプローチと同等の精度が得られることを示す。 最後に、量子的アプローチと古典的アプローチの合計トレーニング時間を、トレーニングデータセットにおける特徴数やデータポイント数の増加とともに計算するスケーラビリティ調査を実行する。 我々の拡張性は、量子アプローチが古典的手法よりも3.5-4.5倍の速さで多くの特徴を持つデータセットを得ることを示す。

Adiabatic quantum computers can solve difficult optimization problems (e.g., the quadratic unconstrained binary optimization problem), and they seem well suited to train machine learning models. In this paper, we describe an adiabatic quantum approach for training support vector machines. We show that the time complexity of our quantum approach is an order of magnitude better than the classical approach. Next, we compare the test accuracy of our quantum approach against a classical approach that uses the Scikit-learn library in Python across five benchmark datasets (Iris, Wisconsin Breast Cancer (WBC), Wine, Digits, and Lambeq). We show that our quantum approach obtains accuracies on par with the classical approach. Finally, we perform a scalability study in which we compute the total training times of the quantum approach and the classical approach with increasing number of features and number of data points in the training dataset. Our scalability results show that the quantum approach obtains a 3.5--4.5 times speedup over the classical approach on datasets with many (millions of) features.
翻訳日:2024-01-24 16:57:04 公開日:2024-01-23
# ディープラーニングを用いた非パラメトリックロジスティック回帰

Nonparametric logistic regression with deep learning ( http://arxiv.org/abs/2401.12482v1 )

ライセンス: Link先を確認
Atsutomo Yara and Yoshikazu Terada(参考訳) 非パラメトリックロジスティック回帰問題を考える。 ロジスティック回帰では、通常、最大極大推定器を考慮し、過剰リスクは、真の条件クラス確率と推定された条件クラス確率の間のクルバック・リーブラー(KL)偏差を期待する。 しかし、非パラメトリックロジスティック回帰では、klの発散は容易に分岐し、過剰なリスクの収束は証明しにくいか、持続しない。 いくつかの既存の研究は、強い仮定の下でのKL分散の収束を示している。 ほとんどの場合、我々の目標は真の条件付きクラス確率を推定することである。 したがって、過剰なリスク自体を分析する代わりに、適切なメトリックで最大確率推定器の一貫性を示すのに十分である。 本稿では,NPMLE(Nonparametric maximum max estimator)を解析するための単純な統一的手法を用いて,Helinger距離におけるNPMLEの収束率を直接導出する。 我々の結果は既存の研究の結果と似ているが、これらの結果に対するより単純で直接的な証明を提供する。 重要な応用として、深層ニューラルネットワークによるNPMLEの収束率を導出し、導出速度が最小値の最適速度にほぼ近いことを示す。

Consider the nonparametric logistic regression problem. In the logistic regression, we usually consider the maximum likelihood estimator, and the excess risk is the expectation of the Kullback-Leibler (KL) divergence between the true and estimated conditional class probabilities. However, in the nonparametric logistic regression, the KL divergence could diverge easily, and thus, the convergence of the excess risk is difficult to prove or does not hold. Several existing studies show the convergence of the KL divergence under strong assumptions. In most cases, our goal is to estimate the true conditional class probabilities. Thus, instead of analyzing the excess risk itself, it suffices to show the consistency of the maximum likelihood estimator in some suitable metric. In this paper, using a simple unified approach for analyzing the nonparametric maximum likelihood estimator (NPMLE), we directly derive the convergence rates of the NPMLE in the Hellinger distance under mild assumptions. Although our results are similar to the results in some existing studies, we provide simple and more direct proofs for these results. As an important application, we derive the convergence rates of the NPMLE with deep neural networks and show that the derived rate nearly achieves the minimax optimal rate.
翻訳日:2024-01-24 16:56:17 公開日:2024-01-23
# 対話型ビデオオブジェクトセグメンテーションのためのフレーム間の相乗的相互作用の探索

Explore Synergistic Interaction Across Frames for Interactive Video Object Segmentation ( http://arxiv.org/abs/2401.12480v1 )

ライセンス: Link先を確認
Kexin Li, Tao Jiang, Zongxin Yang, Yi Yang, Yueting Zhuang, Jun Xiao(参考訳) インタラクティブビデオオブジェクトセグメンテーション(iVOS)は、リアルタイムの人間とコンピュータのインタラクションを必要とする課題である。 ユーザエクスペリエンスを向上させるためには,ユーザの入力習慣,セグメンテーション品質,実行時間,メモリ消費などを検討することが重要である。 具体的には,複数のフレームを同時に受け入れ,フレーム間の相乗的インタラクション(siaf)を探索できるフレームワークを提案する。 具体的には,異なるオブジェクトを複数フレームで自由にアノテートできるAcross-Frame Interaction Moduleを設計した。 AFIモジュールは複数のインタラクティブフレーム間でスクリブル情報を移行し、マルチフレームマスクを生成する。 さらに,idクエリ機構を用いて複数のオブジェクトをバッチで処理する。 さらに,より効率的な伝播と軽量化のために,従来のマルチラウンド・フュージョン・モジュールの代替として,重要なインタラクション情報を格納する全ラウンドメモリを用いた再伝播戦略を考案した。 私たちのSwinB-SIAFは、DAVIS 2017(89.6%、J&F@60)で最先端のパフォーマンスを実現しています。 さらに、当社のr50-siafは、マルチオブジェクトシナリオにおいて最先端の競合製品よりも3倍以上高速です。

Interactive Video Object Segmentation (iVOS) is a challenging task that requires real-time human-computer interaction. To improve the user experience, it is important to consider the user's input habits, segmentation quality, running time and memory consumption.However, existing methods compromise user experience with single input mode and slow running speed. Specifically, these methods only allow the user to interact with one single frame, which limits the expression of the user's intent.To overcome these limitations and better align with people's usage habits, we propose a framework that can accept multiple frames simultaneously and explore synergistic interaction across frames (SIAF). Concretely, we designed the Across-Frame Interaction Module that enables users to annotate different objects freely on multiple frames. The AFI module will migrate scribble information among multiple interactive frames and generate multi-frame masks. Additionally, we employ the id-queried mechanism to process multiple objects in batches. Furthermore, for a more efficient propagation and lightweight model, we design a truncated re-propagation strategy to replace the previous multi-round fusion module, which employs an across-round memory that stores important interaction information. Our SwinB-SIAF achieves new state-of-the-art performance on DAVIS 2017 (89.6%, J&F@60). Moreover, our R50-SIAF is more than 3 faster than the state-of-the-art competitor under challenging multi-object scenarios.
翻訳日:2024-01-24 16:55:43 公開日:2024-01-23
# TD^2-Net:動的シーングラフ生成のためのデノイズ化とデバイアス化に向けて

TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph Generation ( http://arxiv.org/abs/2401.12479v1 )

ライセンス: Link先を確認
Xin Lin, Chong Shi, Yibing Zhan, Zuopeng Yang, Yaqi Wu, Dacheng Tao(参考訳) 動的シーングラフ生成(SGG)は、ビデオ中のオブジェクトを検出し、それらのペア関係を決定することに焦点を当てる。 既存の動的SGGメソッドは通常、いくつかの問題に悩まされる。 1)コンテキストノイズは、一部のフレームがオクルードやぼやけたオブジェクトを含む可能性があるためである。 2) ラベルバイアスは, 少数の正の関係試料と多数の負の関係試料との高不均衡に起因する。 さらに、関係の分布は長い尾のパターンを示す。 上記の問題に対処するため,本稿では動的sggのデニューズとデバイアスを目的としたtd$^2$-netというネットワークを紹介する。 具体的には,まず,ロバストなコンテクスト情報を用いてオブジェクト表現を強化する,時空間トランスフォーマーモジュールを提案する。 これは、各オブジェクトの関連する近傍を選択するためにgumbel-softmaxサンプリング戦略を利用する微分可能なtop-kオブジェクトセレクタを設計することによって達成される。 次に,ラベルバイアスの問題を緩和するために,非対称再加重損失を導入する。 この損失関数は、非対称性の焦点因子とサンプルの体積を統合して、個々のサンプルに割り当てられた重みを調整する。 系統的実験により,提案するtd$^2$-netが,行動ゲノムデータベースにおける既存の最先端手法よりも優れていることが示された。 より詳しくは、td$^2$-net は述語分類の mean-recall@10 において2番目に高い競争相手を 12.7 %上回っている。

Dynamic scene graph generation (SGG) focuses on detecting objects in a video and determining their pairwise relationships. Existing dynamic SGG methods usually suffer from several issues, including 1) Contextual noise, as some frames might contain occluded and blurred objects. 2) Label bias, primarily due to the high imbalance between a few positive relationship samples and numerous negative ones. Additionally, the distribution of relationships exhibits a long-tailed pattern. To address the above problems, in this paper, we introduce a network named TD$^2$-Net that aims at denoising and debiasing for dynamic SGG. Specifically, we first propose a denoising spatio-temporal transformer module that enhances object representation with robust contextual information. This is achieved by designing a differentiable Top-K object selector that utilizes the gumbel-softmax sampling strategy to select the relevant neighborhood for each object. Second, we introduce an asymmetrical reweighting loss to relieve the issue of label bias. This loss function integrates asymmetry focusing factors and the volume of samples to adjust the weights assigned to individual samples. Systematic experimental results demonstrate the superiority of our proposed TD$^2$-Net over existing state-of-the-art approaches on Action Genome databases. In more detail, TD$^2$-Net outperforms the second-best competitors by 12.7 \% on mean-Recall@10 for predicate classification.
翻訳日:2024-01-24 16:55:21 公開日:2024-01-23
# ミニバッチサブモジュラー最大化

Mini-batch Submodular Maximization ( http://arxiv.org/abs/2401.12478v1 )

ライセンス: Link先を確認
Gregory Schwartzman(参考訳) 本稿では,非負単調分解可能な部分モジュラ関数 $f=\sum_{i=1}^n f^i$ を最大化する最初のミニバッチアルゴリズムを提案する。 我々は、理論と実際の両方において、スパリファイアベースのアプローチよりも改善する。 提案アルゴリズムは,スペーサーに基づく手法により生成される解よりもはるかに優れた解を生成する。

We present the first mini-batch algorithm for maximizing a non-negative monotone decomposable submodular function, $F=\sum_{i=1}^N f^i$, under a set of constraints. We improve over the sparsifier based approach both in theory and in practice. We experimentally observe that our algorithm generates solutions that are far superior to those generated by the sparsifier based approach.
翻訳日:2024-01-24 16:54:59 公開日:2024-01-23
# 深層学習と低次モデルを用いた乗法雑音を持つ非分離ハミルトニアンのベイズ同定

Bayesian identification of nonseparable Hamiltonians with multiplicative noise using deep learning and reduced-order modeling ( http://arxiv.org/abs/2401.12476v1 )

ライセンス: Link先を確認
Nicholas Galioto, Harsh Sharma, Boris Kramer, Alex Arkady Gorodetsky(参考訳) 本稿では,統計依存性,ベクトル値付加物および乗算計測ノイズを許容する確率動的モデルを用いて,分離不能なハミルトン系を学習するための構造保存ベイズ法を提案する。 アプローチは3つの主要なファセットで構成されている。 まず,ベイズ後部の確率を評価するために必要となる,統計的に依存したベクトル値,加法的および乗法的雑音モデルに対するガウスフィルタを導出する。 第二に,ベイズ系同定を高次元システムに適用するコスト効率の高い新しいアルゴリズムを開発した。 第3に, 非分離ハミルトニアンを例示的システムクラスとして使用することにより, 構造保存手法を提案フレームワークに組み込む方法を示す。 ベイジアン法を、標準的非分離型ハミルトンモデルと、小さな雑音の多い訓練データセットを持つカオス的二重振り子モデルを用いて、最先端の機械学習手法と比較する。 その結果、ベイズ後方を訓練目的として用いると、標準訓練目標と比較して最大10%の乗算ノイズを持つ訓練データを用いて、ハミルトン平均二乗誤差の724倍の改善が得られることがわかった。 最後に,最大20%の乗法ノイズで劣化したデータを含む空間分散非線形シュリンガー方程式の64次元モデルのパラメータ推定に対する新しいアルゴリズムの有用性を実証する。

This paper presents a structure-preserving Bayesian approach for learning nonseparable Hamiltonian systems using stochastic dynamic models allowing for statistically-dependent, vector-valued additive and multiplicative measurement noise. The approach is comprised of three main facets. First, we derive a Gaussian filter for a statistically-dependent, vector-valued, additive and multiplicative noise model that is needed to evaluate the likelihood within the Bayesian posterior. Second, we develop a novel algorithm for cost-effective application of Bayesian system identification to high-dimensional systems. Third, we demonstrate how structure-preserving methods can be incorporated into the proposed framework, using nonseparable Hamiltonians as an illustrative system class. We compare the Bayesian method to a state-of-the-art machine learning method on a canonical nonseparable Hamiltonian model and a chaotic double pendulum model with small, noisy training datasets. The results show that using the Bayesian posterior as a training objective can yield upwards of 724 times improvement in Hamiltonian mean squared error using training data with up to 10% multiplicative noise compared to a standard training objective. Lastly, we demonstrate the utility of the novel algorithm for parameter estimation of a 64-dimensional model of the spatially-discretized nonlinear Schr\"odinger equation with data corrupted by up to 20% multiplicative noise.
翻訳日:2024-01-24 16:54:51 公開日:2024-01-23
# 大言語モデルは全ての文字の重ね合わせである:自己アライメントによる任意ロールプレイの実現

Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment ( http://arxiv.org/abs/2401.12474v1 )

ライセンス: Link先を確認
Keming Lu, Bowen Yu, Chang Zhou, Jingren Zhou(参考訳) オープンソースの大規模言語モデル(LLM)のロールプレイング能力を高めるために、プロプライエタリな言語をエミュレートする努力が注がれている。 それにもかかわらず、llmは本質的にロールプレイ能力を有しており、キャラクターの豊富な知識と膨大なトレーニングコーパスに埋もれた潜在的な対話がある。 そこで本研究では,ロールプレイのための自己アライメント手法であるDittoを紹介する。 ディットは文字知識を活かし、読み理解の亜種としてロールプレイの対話をシミュレートする命令追従 LLM を奨励する。 この方法は4000文字からなるロールプレイトレーニングセットを作成し、現在利用可能なデータセットのスケールを10倍に越える。 その後、この自己生成データセットを用いてLLMを微調整し、ロールプレイング能力を増強する。 MT-Benchの再現可能なロールプレイベンチマークと,MT-Benchのロールプレイサブセットをパラメータスケールで評価すると,Dittoは一貫して一貫したロールアイデンティティを保持し,マルチターンロールプレイ会話において正確なロール固有知識を提供する。 特に、オープンソースのロールプレイベースラインをすべて上回り、高度なプロプライエタリなチャットボットに匹敵するパフォーマンスレベルを示している。 さらに,ロールプレイ領域における初の包括的クロススーパービジョンアライメント実験を行い,ロールプレイ領域におけるllmの本質的能力が知識を限定することを明らかにする。 一方、ロールプレイスタイルはより小さなモデルのガイダンスによって容易に取得できる。 関連リソースはhttps://github.com/OFA-Sys/Ditto.comで公開しています。

Considerable efforts have been invested in augmenting the role-playing proficiency of open-source large language models (LLMs) by emulating proprietary counterparts. Nevertheless, we posit that LLMs inherently harbor role-play capabilities, owing to the extensive knowledge of characters and potential dialogues ingrained in their vast training corpora. Thus, in this study, we introduce Ditto, a self-alignment method for role-play. Ditto capitalizes on character knowledge, encouraging an instruction-following LLM to simulate role-play dialogues as a variant of reading comprehension. This method creates a role-play training set comprising 4,000 characters, surpassing the scale of currently available datasets by tenfold regarding the number of roles. Subsequently, we fine-tune the LLM using this self-generated dataset to augment its role-playing capabilities. Upon evaluating our meticulously constructed and reproducible role-play benchmark and the roleplay subset of MT-Bench, Ditto, in various parameter scales, consistently maintains a consistent role identity and provides accurate role-specific knowledge in multi-turn role-play conversations. Notably, it outperforms all open-source role-play baselines, showcasing performance levels comparable to advanced proprietary chatbots. Furthermore, we present the first comprehensive cross-supervision alignment experiment in the role-play domain, revealing that the intrinsic capabilities of LLMs confine the knowledge within role-play. Meanwhile, the role-play styles can be easily acquired with the guidance of smaller models. We open-source related resources at https://github.com/OFA-Sys/Ditto.
翻訳日:2024-01-24 16:54:31 公開日:2024-01-23
# 蒸留モデルにおけるコントラスト学習

Contrastive Learning in Distilled Models ( http://arxiv.org/abs/2401.12472v1 )

ライセンス: Link先を確認
Valerie Lim, Kai Wen Ng, Kenneth Lim(参考訳) BERTのような自然言語処理モデルは、下流のNLPタスクに最先端のワード埋め込みを提供することができる。 しかし、これらのモデルはSemantic Textual similarityではまだうまく機能せず、軽量エッジアプリケーションとしてデプロイするには大きすぎる可能性がある。 我々は,この2つの問題に対処するために,知識蒸留モデルであるDistilBERTを応用したモデルアーキテクチャに対して,SimCSE論文に基づく適切なコントラスト学習手法を提案する。 最後の軽量モデルであるDistilFaceは、STSタスクにおけるSpearmanの相関で平均72.1に達し、BERTベースよりも34.2%改善した。

Natural Language Processing models like BERT can provide state-of-the-art word embeddings for downstream NLP tasks. However, these models yet to perform well on Semantic Textual Similarity, and may be too large to be deployed as lightweight edge applications. We seek to apply a suitable contrastive learning method based on the SimCSE paper, to a model architecture adapted from a knowledge distillation based model, DistilBERT, to address these two issues. Our final lightweight model DistilFace achieves an average of 72.1 in Spearman's correlation on STS tasks, a 34.2 percent improvement over BERT base.
翻訳日:2024-01-24 16:54:01 公開日:2024-01-23
# Zero Shotオープンエンドビデオ推論

Zero Shot Open-ended Video Inference ( http://arxiv.org/abs/2401.12471v1 )

ライセンス: Link先を確認
Ee Yeo Keat, Zhang Hao, Alexander Matyasko, Basura Fernando(参考訳) 未トリミングビデオにおけるゼロショットのオープンエンド推論は、特に推論方向をナビゲートするために注釈付きデータが使用されていない場合、大きな課題となる。 本研究では,凍結視覚言語モデル (VL) と既製の大規模言語モデル (LLM) を効率的に組み合わせて,追加のトレーニングや微調整を必要とせず,ゼロショットのオープンエンド推論タスクを実行する,適応可能なフレームワークを導入することを目的としている。 総合的な実験は、ゴール推論とアクション認識タスクのための様々なビデオアクションデータセットにまたがる。 その結果、オープンエンドおよびクローズエンドシナリオにおける従来の視覚言語モデルと比較して、ゴール推論におけるフレームワークの性能が優れていることが示された。 特に,提案フレームワークは,アクション認識タスクを効果的に一般化する能力を示し,映像に基づくゼロショット理解の促進にその汎用性と潜在的貢献を強調する。

Zero-shot open-ended inference on untrimmed videos poses a significant challenge, especially when no annotated data is utilized to navigate the inference direction. In this work, we aim to address this underexplored domain by introducing an adaptable framework that efficiently combines both the frozen vision-language (VL) model and off-the-shelf large language model (LLM) for conducting zero-shot open-ended inference tasks without requiring any additional training or fine-tuning. Our comprehensive experiments span various video action datasets for goal inference and action recognition tasks. The results demonstrate the framework's superior performance in goal inference compared to conventional vision-language models in open-ended and close-ended scenarios. Notably, the proposed framework exhibits the capability to generalize effectively to action recognition tasks, underscoring its versatility and potential contributions to advancing the video-based zero-shot understanding.
翻訳日:2024-01-24 16:53:50 公開日:2024-01-23
# グラフ彩色のための強化学習:非ラベル不変表現のパワーと限界を理解する

Reinforcement Learning for Graph Coloring: Understanding the Power and Limits of Non-Label Invariant Representations ( http://arxiv.org/abs/2401.12470v1 )

ライセンス: Link先を確認
Chase Cummins and Richard Veras(参考訳) レジスタ割り当ては、現代のコンパイラにとって最も重要な問題の1つです。 事実上無制限のユーザ変数と少数のCPUレジスタを持つため、競合のないレジスタに変数を割り当てるのは複雑な作業である。 本稿では,グラフカラー化問題としてレジスタ割り当て問題を用いる方法を示す。 PyTorch や OpenAI Gymnasium Environments のような技術を用いて、近似ポリシー最適化モデルがグラフの着色問題を解決することができることを示す。 また、グラフの行列表現を取り込み、それを置換することにより、グラフのラベル付けがモデルの性能に重要であることを示す。 次に、各置換に対してモデルの有効性を検証し、同じグラフのレバーベリングを与えられると効果がないことを示す。 我々の主な貢献は、一貫したパフォーマンスを達成するために、機械学習モデルのためのグラフの不変表現をラベルで並べ替える必要性を示すことである。

Register allocation is one of the most important problems for modern compilers. With a practically unlimited number of user variables and a small number of CPU registers, assigning variables to registers without conflicts is a complex task. This work demonstrates the use of casting the register allocation problem as a graph coloring problem. Using technologies such as PyTorch and OpenAI Gymnasium Environments we will show that a Proximal Policy Optimization model can learn to solve the graph coloring problem. We will also show that the labeling of a graph is critical to the performance of the model by taking the matrix representation of a graph and permuting it. We then test the model's effectiveness on each of these permutations and show that it is not effective when given a relabeling of the same graph. Our main contribution lies in showing the need for label reordering invariant representations of graphs for machine learning models to achieve consistent performance.
翻訳日:2024-01-24 16:53:32 公開日:2024-01-23
# oracle bone characterの進化のためのオープンデータセット:evobc

An open dataset for the evolution of oracle bone characters: EVOBC ( http://arxiv.org/abs/2401.12467v1 )

ライセンス: Link先を確認
Haisu Guan, Jinpeng Wan, Yuliang Liu, Pengjie Wang, Kaile Zhang, Zhebin Kuang, Xinyu Wang, Xiang Bai, Lianwen Jin(参考訳) 現存する最古の漢字は、他の東アジアの言語と密接に関連する神託の骨碑文に由来する。 これらの碑文は人類学や考古学に多大な価値がある。 しかし、oracle bone scriptの解読は依然として大きな課題であり、現存する4,500以上の文字のうち、約1,600文字しか解明されていない。 この古筆体系を包括的に理解するには、さらなる学術調査が必要である。 人工知能技術は、特にその進化に関して、オラクルの骨の文字を解読するための有望な道である。 しかしながら、課題のひとつは、これらの文字の進化を時間とともにマッピングするデータセットがないことだ。 本研究では,Oracle Bone Characters - OBC (紀元前15世紀), Bronze Inscriptions - BI (紀元前13世紀~紀元前221年), Seal Script - SS (11世紀~紀元前8世紀), Spring and Autumn period Characters - SAC (紀元前770年~紀元前476年), Warring States period Characters - WSC (紀元前475年~紀元前221年), Clerical Script - CS (紀元前221年~紀元前220年)の6つの歴史的段階にまたがる古代文字を体系的に収集した。 その後、13,714の異なる文字カテゴリを表す229,170の画像からなるEVOBC(EVolution Oracle Bone Characters)という広範なデータセットを構築した。 構築したデータセット上で検証とシミュレートを行い,oracle bone scriptの研究を支援するための高い有効性を示した。 このオープンアクセス可能なデータセットは、複数の時代にわたる古代中国のスクリプトのデジタル化を目的としており、glyphフォームの進化を調べることで、oracle bone scriptの解読を容易にする。

The earliest extant Chinese characters originate from oracle bone inscriptions, which are closely related to other East Asian languages. These inscriptions hold immense value for anthropology and archaeology. However, deciphering oracle bone script remains a formidable challenge, with only approximately 1,600 of the over 4,500 extant characters elucidated to date. Further scholarly investigation is required to comprehensively understand this ancient writing system. Artificial Intelligence technology is a promising avenue for deciphering oracle bone characters, particularly concerning their evolution. However, one of the challenges is the lack of datasets mapping the evolution of these characters over time. In this study, we systematically collected ancient characters from authoritative texts and websites spanning six historical stages: Oracle Bone Characters - OBC (15th century B.C.), Bronze Inscriptions - BI (13th to 221 B.C.), Seal Script - SS (11th to 8th centuries B.C.), Spring and Autumn period Characters - SAC (770 to 476 B.C.), Warring States period Characters - WSC (475 B.C. to 221 B.C.), and Clerical Script - CS (221 B.C. to 220 A.D.). Subsequently, we constructed an extensive dataset, namely EVolution Oracle Bone Characters (EVOBC), consisting of 229,170 images representing 13,714 distinct character categories. We conducted validation and simulated deciphering on the constructed dataset, and the results demonstrate its high efficacy in aiding the study of oracle bone script. This openly accessible dataset aims to digitalize ancient Chinese scripts across multiple eras, facilitating the decipherment of oracle bone script by examining the evolution of glyph forms.
翻訳日:2024-01-24 16:53:15 公開日:2024-01-23
# 最初の応答ネットワーク設計問題に対する量子インスパイア二レベル最適化アルゴリズム

A Quantum Inspired Bi-level Optimization Algorithm for the First Responder Network Design Problem ( http://arxiv.org/abs/2401.12463v1 )

ライセンス: Link先を確認
Anthony Karahalios, Sridhar Tayur, Ananth Tenneti, Amirreza Pashapour, F. Sibel Salman, Bar{\i}\c{s} Y{\i}ld{\i}z(参考訳) 突然の大惨事の後、ファースト・レスポンダーズ(FR)は即刻、不動の犠牲者を救助しようと試みた。 同時に、他の移動体は道路を利用して被災地や避難所を避難する。 交通渋滞の増大は、同じ道路を共有している場合、重要なFRの運行を著しく妨げる。 実施のために議論されているトルコ交通インフラ省からの提案は、FRが使用する道路セグメントのサブセットを割り当て、それらを明確にマークし、それらを市民に事前通信することである。 検討中のFRパスについて (i)指定エントリポイントからネットワーク内の各需要ポイントまでのFRパスが存在しなければならない。 (ii)避難者は、特定のセグメントが利用可能でないことを知っていれば、できるだけ短時間で(利己的なルーティング原則に従って、いくつかの出口ポイントを通して)ネットワークを離れようとします。 本稿では、この第一応答型ネットワーク設計問題(FRNDP)に対する混合整数非線形計画法を開発した。 我々は,Graver Augmented Multi-Seed Algorithm (GAMA) を用いた新しい量子古典的ヒューリスティック・ビルディングを用いてFRNDPを解く。 FRと避難経路のフローバランス制約を用いて、FRNDPの実現可能な解の間を移動する部分的なグラバーベースを得るために、擬似非拘束バイナリ最適化(QUBO)モデルを用いる。 高品質なソリューションのための解空間を効率的に探索するために,GAMA: GAGA内に2レベルネスト付きGAMAを新たに開発する。 Istanbul地震に関連する様々な大きさのランダムグラフのインスタンスについてGAGAを検証した。 GAGAを従来の定式化のための最先端の正確なアルゴリズムと比較すると,GAGAは有望な代替手法であることがわかった。 私たちの研究は、他のアプリケーションドメインから複雑な最適化モデルに取り組むために、量子(インスパイアされた)アルゴリズムのさらなる研究を促進することを願っています。

In the aftermath of a sudden catastrophe, First Responders (FR) strive to promptly reach and rescue immobile victims. Simultaneously, other mobile individuals take roads to evacuate the affected region, or access shelters. The escalated traffic congestion significantly hinders critical FR operations if they share some of the same roads. A proposal from the Turkish Ministry of Transportation and Infrastructure being discussed for implementation is to allocate a subset of road segments for use by FRs only, mark them clearly, and pre-communicate them to the citizens. For the FR paths under consideration: (i) there should exist an FR path from designated entry points to each demand point in the network, and (ii) evacuees try to leave the network (through some exit points following the selfish routing principle) in the shortest time possible when they know that certain segments are not available to them. We develop a mixed integer non-linear programming formulation for this First Responder Network Design Problem (FRNDP). We solve FRNDP using a novel hybrid quantum-classical heuristic building on the Graver Augmented Multi-Seed Algorithm (GAMA). Using the flow-balance constraints for the FR and evacuee paths, we use a Quadratic Unconstrained Binary Optimization (QUBO) model to obtain a partial Graver Bases to move between the feasible solutions of FRNDP. To efficiently explore the solution space for high-quality solutions, we develop a novel bi-level nested GAMA within GAMA: GAGA. We test GAGA on random graph instances of various sizes and instances related to an expected Istanbul earthquake. Comparing GAGA against a state-of-the-art exact algorithm for traditional formulations, we find that GAGA offers a promising alternative approach. We hope our work encourages further study of quantum (inspired) algorithms to tackle complex optimization models from other application domains.
翻訳日:2024-01-24 16:52:39 公開日:2024-01-23
# テキスト・アタックに対する高速対人訓練

Fast Adversarial Training against Textual Adversarial Attacks ( http://arxiv.org/abs/2401.12461v1 )

ライセンス: Link先を確認
Yichen Yang, Xin Liu, Kun He(参考訳) 自然言語処理モデルの敵対的ロバスト性を高めるために、多くの敵対的防御手法が提案されている。 しかし、それらの多くは追加の事前設定された言語知識を導入し、攻撃者が使用する同義語候補がアクセス可能であると仮定する。 埋め込み空間における敵の訓練を探求し,単一ステップの摂動生成と摂動初期化の観点から,同義のシナリオにおけるモデルロバスト性を改善するためのFAT(Fast Adversarial Training)手法を提案する。 単段勾配上昇と多段勾配上昇による逆摂動は類似しているという観測に基づいて、fatは単段勾配上昇を用いて埋め込み空間内の逆行例を製作し、トレーニングプロセスを迅速化する。 連続したエポックにおける同一のトレーニングサンプルに発生する摂動が類似しているという観測に基づいて、FATは摂動を初期化する際の履歴情報を完全に活用する。 大規模な実験により、FATは同義性のないシナリオにおいてBERTモデルのロバスト性を著しく向上させ、文字レベルや単語レベルの修正による様々な攻撃において防御ベースラインを上回っていることが示された。

Many adversarial defense methods have been proposed to enhance the adversarial robustness of natural language processing models. However, most of them introduce additional pre-set linguistic knowledge and assume that the synonym candidates used by attackers are accessible, which is an ideal assumption. We delve into adversarial training in the embedding space and propose a Fast Adversarial Training (FAT) method to improve the model robustness in the synonym-unaware scenario from the perspective of single-step perturbation generation and perturbation initialization. Based on the observation that the adversarial perturbations crafted by single-step and multi-step gradient ascent are similar, FAT uses single-step gradient ascent to craft adversarial examples in the embedding space to expedite the training process. Based on the observation that the perturbations generated on the identical training sample in successive epochs are similar, FAT fully utilizes historical information when initializing the perturbation. Extensive experiments demonstrate that FAT significantly boosts the robustness of BERT models in the synonym-unaware scenario, and outperforms the defense baselines under various attacks with character-level and word-level modifications.
翻訳日:2024-01-24 16:52:10 公開日:2024-01-23
# レギュレットマッチングを用いたセルフプレイトレーニングにおけるAI力のバランス

Balancing the AI Strength of Roles in Self-Play Training with Regret Matching+ ( http://arxiv.org/abs/2401.12557v1 )

ライセンス: Link先を確認
Xiaoxi Wang(参考訳) 複数の役割を含むゲームの人工知能を訓練する場合、ゲーム内の任意のキャラクタを制御できる一般化モデルの開発は実行可能な選択肢となる。 この戦略は、トレーニングフェーズ中の計算リソースと時間を保存するだけでなく、デプロイメント時のリソース要求も低減します。 このような一般化されたモデルのトレーニングは、異なる役割を制御する場合、しばしば不均一な能力に関連する課題に直面する。 Regret Matching+をベースとした簡易な手法が提案され、様々な役割を制御する際のモデルによる強度のバランスのとれたパフォーマンスが促進される。

When training artificial intelligence for games encompassing multiple roles, the development of a generalized model capable of controlling any character within the game presents a viable option. This strategy not only conserves computational resources and time during the training phase but also reduces resource requirements during deployment. training such a generalized model often encounters challenges related to uneven capabilities when controlling different roles. A simple method is introduced based on Regret Matching+, which facilitates a more balanced performance of strength by the model when controlling various roles.
翻訳日:2024-01-24 16:45:38 公開日:2024-01-23
# DDMI:高品質含意神経表現の合成のためのドメインに依存しない潜在拡散モデル

DDMI: Domain-Agnostic Latent Diffusion Models for Synthesizing High-Quality Implicit Neural Representations ( http://arxiv.org/abs/2401.12517v1 )

ライセンス: Link先を確認
Dogyun Park, Sihyeon Kim, Sojin Lee, Hyunwoo J. Kim(参考訳) 近年の研究では、様々な領域で任意の連続信号をキャプチャする暗黙的神経表現(inrs)を合成するための新しいタイプの生成モデルが導入された。 これらのモデルはドメインに依存しない生成モデルの扉を開いたが、しばしば高品質な生成を達成できなかった。 InRのパラメータ化と固定位置埋め込み(PE)によるネットワーク評価のために,既存の手法がニューラルネットワークの重みを生成することがわかった。 おそらく、このアーキテクチャは生成モデルの表現力を制限し、低品質のINR生成をもたらす。 この制限に対処するために,ニューラルネットワークの重みの代わりに適応的な位置埋め込みを生成するinrs (ddmi) のドメインに依存しない潜在拡散モデルを提案する。 具体的には、離散データと共有潜在空間内の連続信号関数をシームレスに接続する離散連続空間変分自動エンコーダ(D2C-VAE)を開発する。 さらに,INRを階層的に分解したPEを用いて評価し,表現力を高めるための新しい条件付け機構を導入する。 2d画像、3d形状、神経放射野、ビデオの4つのモードにわたる広範囲な実験で、7つのベンチマークデータセットがddmiの汎用性と、既存のinr生成モデルよりも優れた性能を示している。

Recent studies have introduced a new class of generative models for synthesizing implicit neural representations (INRs) that capture arbitrary continuous signals in various domains. These models opened the door for domain-agnostic generative models, but they often fail to achieve high-quality generation. We observed that the existing methods generate the weights of neural networks to parameterize INRs and evaluate the network with fixed positional embeddings (PEs). Arguably, this architecture limits the expressive power of generative models and results in low-quality INR generation. To address this limitation, we propose Domain-agnostic Latent Diffusion Model for INRs (DDMI) that generates adaptive positional embeddings instead of neural networks' weights. Specifically, we develop a Discrete-to-continuous space Variational AutoEncoder (D2C-VAE), which seamlessly connects discrete data and the continuous signal functions in the shared latent space. Additionally, we introduce a novel conditioning mechanism for evaluating INRs with the hierarchically decomposed PEs to further enhance expressive power. Extensive experiments across four modalities, e.g., 2D images, 3D shapes, Neural Radiance Fields, and videos, with seven benchmark datasets, demonstrate the versatility of DDMI and its superior performance compared to the existing INR generative models.
翻訳日:2024-01-24 16:45:28 公開日:2024-01-23
# YOLOv8, DeiT, SimCLRによるギリシア語パピルス文字の検出と認識

Detecting and recognizing characters in Greek papyri with YOLOv8, DeiT and SimCLR ( http://arxiv.org/abs/2401.12513v1 )

ライセンス: Link先を確認
Robert Turnbull and Evelyn Mannix(参考訳) パピルス写本のファクシミリ画像から個々の文字を分離し認識する能力は、デジタル分析に豊富な機会をもたらす。 このため、第17回国際文書分析・認識会議(international conference on document analysis and recognition)において「パピリに関するギリシア文字の検出と認識に関するicdar 2023コンペティション」が開催された。 本稿では,コンペへの応募について論じる。 個々のキャラクタの検出と分類にはyolov8モデルのアンサンブルを用い,トランスフォーマベースのdeitアプローチと,自己教師付き学習手法であるsimclrを用いてラベルなしデータの大規模コーパスで学習したresnet-50モデルを含む,キャラクタ予測の洗練に2つのアプローチを採用した。 平均精度(mAP)は51.4%であり,mAPは42.2%,検出精度(mAP)は51.4%であった。 ユニオンしきい値0.5のより緩やかな交差点において,検出と分類の両方において,平均平均精度と平均平均リコール結果が最高であった。 我々は、Oxyrhynchus Papyriから4,500枚以上の画像で予測パイプラインを実行し、アプローチの有用性を説明し、結果を複数のフォーマットで公開しました。

The capacity to isolate and recognize individual characters from facsimile images of papyrus manuscripts yields rich opportunities for digital analysis. For this reason the `ICDAR 2023 Competition on Detection and Recognition of Greek Letters on Papyri' was held as part of the 17th International Conference on Document Analysis and Recognition. This paper discusses our submission to the competition. We used an ensemble of YOLOv8 models to detect and classify individual characters and employed two different approaches for refining the character predictions, including a transformer based DeiT approach and a ResNet-50 model trained on a large corpus of unlabelled data using SimCLR, a self-supervised learning method. Our submission won the recognition challenge with a mAP of 42.2%, and was runner-up in the detection challenge with a mean average precision (mAP) of 51.4%. At the more relaxed intersection over union threshold of 0.5, we achieved the highest mean average precision and mean average recall results for both detection and classification. We ran our prediction pipeline on more than 4,500 images from the Oxyrhynchus Papyri to illustrate the utility of our approach, and we release the results publicly in multiple formats.
翻訳日:2024-01-24 16:45:03 公開日:2024-01-23
# データ効率の良い視覚変換器の畳み込み初期化

Convolutional Initialization for Data-Efficient Vision Transformers ( http://arxiv.org/abs/2401.12511v1 )

ライセンス: Link先を確認
Jianqiao Zheng, Xueqian Li, Simon Lucey(参考訳) 小さなデータセット上のビジョントランスフォーマーネットワークのトレーニングには課題がある。 対照的に、畳み込みニューラルネットワーク(CNN)は、アーキテクチャの帰納バイアスを利用して最先端のパフォーマンスを達成することができる。 本稿では,この帰納バイアスを視覚トランスネットワークにおける初期化バイアスとして再解釈できるかどうかを検討する。 提案手法は, ランダムインパルスフィルタがCNNの学習フィルタとほぼ同等の性能を達成できることを示す。 アーキテクチャの柔軟性を保ちながら、小さなデータセット上でCNNに匹敵する性能を達成できるトランスフォーマーネットワークの新たな初期化戦略を導入する。

Training vision transformer networks on small datasets poses challenges. In contrast, convolutional neural networks (CNNs) can achieve state-of-the-art performance by leveraging their architectural inductive bias. In this paper, we investigate whether this inductive bias can be reinterpreted as an initialization bias within a vision transformer network. Our approach is motivated by the finding that random impulse filters can achieve almost comparable performance to learned filters in CNNs. We introduce a novel initialization strategy for transformer networks that can achieve comparable performance to CNNs on small datasets while preserving its architectural flexibility.
翻訳日:2024-01-24 16:44:21 公開日:2024-01-23
# 言語感受性エージェントを用いた誤情報拡散モデリングのためのオンラインソーシャルネットワークのデジタルクローニング

Digital cloning of online social networks for language-sensitive agent-based modeling of misinformation spread ( http://arxiv.org/abs/2401.12509v1 )

ライセンス: Link先を確認
Prateek Puri, Gabriel Hassler, Anton Shenk, Sai Katragadda(参考訳) エージェントベースモデリングと自然言語処理を融合した,オンラインソーシャルネットワークにおける誤情報拡散のシミュレーションフレームワークを開発した。 他にもエージェントベースのシミュレーションが多数存在するが、既存のネットワークに対する忠実さと一般化性の欠如により、行動可能な洞察を提供する能力は限られている。 これらの懸念を部分的に解決するため,我々は,1万人を超えるユーザに対してソーシャルメディア履歴をダウンロードすることで,既知の誤情報共有ネットワークの「デジタルクローン」を作成する。 これらの履歴を解析してネットワークの構造を抽出し、メンバー間で情報を共有・拡散するニュアンスな方法をモデル化する。 この分野の他のエージェントベースの方法とは異なり、このフレームワークのユーザ間の情報共有は、議論のトピック、ユーザの好み、オンラインコミュニティのダイナミクスに敏感です。 提案手法の忠実性を評価するため,我々はクローンネットワークをベースネットワークに記録されたポストのセットに種まき,2つのネットワーク間の伝播ダイナミクスを比較し,ツインネットワーク間の妥当な合意を様々な指標で観察する。 最後に,クローンネットワークが,誤情報対策評価とレッド・チームリング分析のために,柔軟で低コストなテストベッドとして機能するかを検討する。 ここで検討されたツールは、この分野における既存の取り組みを強化し、誤情報対策評価の新たな機会を開放することを望んでいる。

We develop a simulation framework for studying misinformation spread within online social networks that blends agent-based modeling and natural language processing techniques. While many other agent-based simulations exist in this space, their ability to provide actionable insights in in part limited by their lack of fidelity and generalizability to existing networks. To partially address these concerns, we create a 'digital clone' of a known misinformation sharing network by downloading social media histories for over ten thousand of its users. We parse these histories to both extract the structure of the network and model the nuanced ways in which information is shared and spread among its members. Unlike many other agent-based methods in this space, information sharing between users in our framework is sensitive to topic of discussion, user preferences, and online community dynamics. To evaluate the fidelity of our method, we seed our cloned network with a set of posts recorded in the base network and compare propagation dynamics between the two, observing reasonable agreement across the twin networks over a variety of metrics. Lastly, we explore how the cloned network may serve as a flexible, low-cost testbed for misinformation countermeasure evaluation and red teaming analysis. We hope the tools explored here augment existing efforts in the space and unlock new opportunities for misinformation countermeasure evaluation, a field that may become increasingly important to consider with the anticipated rise of misinformation campaigns fueled by generative artificial intelligence.
翻訳日:2024-01-24 16:44:11 公開日:2024-01-23
# 正規化予測逆最適化のための確率的(可変再生)近似勾配法について

On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization ( http://arxiv.org/abs/2401.12508v1 )

ライセンス: Link先を確認
Ling Liang and Haizhao Yang(参考訳) 我々は、強化学習(RL)における既存の問題の多くをカバーする非公益的な設定において、正規化された期待報酬最適化問題を考える。 このような最適化問題を解決するために,古典確率近位勾配法を適用し,解析する。 特に、標準的な条件下では、この方法は$O(\epsilon^{-4})$サンプルの複雑さを$\epsilon$-定常点に含めることを示した。 古典的確率勾配推定器の分散は典型的には収束を遅くするほど大きいため、重要サンプリングに基づく確率勾配推定器(PAGE)を用いた効率的な確率勾配推定法も適用する。 我々の知る限り、この手法の適用は、一般的な正規化報酬最適化問題に対処する新しいアプローチを表している。 その結果,追加条件下では,サンプルの複雑さが$o(\epsilon^{-4})$から$o(\epsilon^{-3})$に改善できることがわかった。 確率的(分散縮小)近位勾配法の結果は,rl文献における類似した条件下で,最も競争の激しい相手のサンプル複雑性と一致した。

We consider a regularized expected reward optimization problem in the non-oblivious setting that covers many existing problems in reinforcement learning (RL). In order to solve such an optimization problem, we apply and analyze the classical stochastic proximal gradient method. In particular, the method has shown to admit an $O(\epsilon^{-4})$ sample complexity to an $\epsilon$-stationary point, under standard conditions. Since the variance of the classical stochastic gradient estimator is typically large which slows down the convergence, we also apply an efficient stochastic variance-reduce proximal gradient method with an importance sampling based ProbAbilistic Gradient Estimator (PAGE). To the best of our knowledge, the application of this method represents a novel approach in addressing the general regularized reward optimization problem. Our analysis shows that the sample complexity can be improved from $O(\epsilon^{-4})$ to $O(\epsilon^{-3})$ under additional conditions. Our results on the stochastic (variance-reduced) proximal gradient method match the sample complexity of their most competitive counterparts under similar settings in the RL literature.
翻訳日:2024-01-24 16:43:47 公開日:2024-01-23
# オープンセット表情認識

Open-Set Facial Expression Recognition ( http://arxiv.org/abs/2401.12507v1 )

ライセンス: Link先を確認
Yuhang Zhang, Yue Yao, Xuannan Liu, Lixiong Qin, Wenjing Wang, Weihong Deng(参考訳) 顔表情認識(FER)モデルは一般的に、7つの基本クラスの固定数のデータセットで訓練される。 しかし、最近の研究では、基本的なものよりも表現がはるかに多いことが指摘されている。 したがって、これらのモデルが現実世界にデプロイされると、既存の基本クラスに分類できない複合表現のような未知のクラスに遭遇する可能性がある。 この問題に対処するため,オープンセットFERタスクを初めて提案する。 既に多くのオープンセット認識手法が存在しているが、FERデータはクラス間距離が非常に小さい人間の顔であり、クローズセットサンプルと非常によく似ているため、オープンセットFERではうまく機能しない。 本稿では,小クラス間距離のデメリットを,オープンセットferの新たな方法を提案することにより,その利点に初めて変換する。 特に,クラス間距離が小さいことで,非対称なノイズラベルと見なすことが可能なオープンセットサンプルの分散擬似ラベルが可能となることがわかった。 この新たな観測に基づいて,オープンセットferを雑音ラベル検出問題に変換する。 さらに,アテンションマップの一貫性とサイクルトレーニングを取り入れたオープンセットサンプルの検出手法を提案する。 さまざまなFERデータセットに対する大規模な実験により、我々の手法は、最先端のオープンセット認識手法を大きなマージンで明らかに上回ることを示した。 コードはhttps://github.com/zyh-uaiaaaaで入手できる。

Facial expression recognition (FER) models are typically trained on datasets with a fixed number of seven basic classes. However, recent research works point out that there are far more expressions than the basic ones. Thus, when these models are deployed in the real world, they may encounter unknown classes, such as compound expressions that cannot be classified into existing basic classes. To address this issue, we propose the open-set FER task for the first time. Though there are many existing open-set recognition methods, we argue that they do not work well for open-set FER because FER data are all human faces with very small inter-class distances, which makes the open-set samples very similar to close-set samples. In this paper, we are the first to transform the disadvantage of small inter-class distance into an advantage by proposing a new way for open-set FER. Specifically, we find that small inter-class distance allows for sparsely distributed pseudo labels of open-set samples, which can be viewed as symmetric noisy labels. Based on this novel observation, we convert the open-set FER to a noisy label detection problem. We further propose a novel method that incorporates attention map consistency and cycle training to detect the open-set samples. Extensive experiments on various FER datasets demonstrate that our method clearly outperforms state-of-the-art open-set recognition methods by large margins. Code is available at https://github.com/zyh-uaiaaaa.
翻訳日:2024-01-24 16:43:24 公開日:2024-01-23
# 視覚語彙を強化した小言語モデル

Small Language Model Meets with Reinforced Vision Vocabulary ( http://arxiv.org/abs/2401.12503v1 )

ライセンス: Link先を確認
Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, En Yu, Jianjian Sun, Chunrui Han, Xiangyu Zhang(参考訳) 2023年にLVLM(Large Vision Language Models)をプレイすることは、AIコミュニティの間で流行している。 しかし、人気のあるLVLMの比較的多くのパラメータ(7B以上)は、コンシューマGPUのトレーニングとデプロイを困難にしており、限られたリソースを持つ多くの研究者を妨げている。 古いGTX1080ti(私たちの唯一のゲームカード)で、現在のLVLMのすべての機能を体験することがいかにクールか想像してみてほしい。 そこで,本稿では,Qwen-1.8Bとともに,小サイズのVaryであるVary-toyを言語モデルとして紹介する。 Vary-toyでは、改良された視覚語彙を導入し、モデルがVaryのすべての特徴を持つだけでなく、より一般性も得るようにした。 具体的には,視覚語彙の生成過程において,自然画像の負のサンプルを物体検出によって駆動される正のサンプルデータに置き換え,語彙ネットワークの容量を十分に活用し,自然物体に対応する視覚情報を効率的にエンコードできるようにする。 実験では、Vary-toyはDocVQAで65.6%、ChartQAで59.1%、RefCOCOで88.1%、MMVetで29%を達成できる。 コードはホームページで公開されている。

Playing Large Vision Language Models (LVLMs) in 2023 is trendy among the AI community. However, the relatively large number of parameters (more than 7B) of popular LVLMs makes it difficult to train and deploy on consumer GPUs, discouraging many researchers with limited resources. Imagine how cool it would be to experience all the features of current LVLMs on an old GTX1080ti (our only game card). Accordingly, we present Vary-toy in this report, a small-size Vary along with Qwen-1.8B as the base ``large'' language model. In Vary-toy, we introduce an improved vision vocabulary, allowing the model to not only possess all features of Vary but also gather more generality. Specifically, we replace negative samples of natural images with positive sample data driven by object detection in the procedure of generating vision vocabulary, more sufficiently utilizing the capacity of the vocabulary network and enabling it to efficiently encode visual information corresponding to natural objects. For experiments, Vary-toy can achieve 65.6% ANLS on DocVQA, 59.1% accuracy on ChartQA, 88.1% accuracy on RefCOCO, and 29% on MMVet. The code will be publicly available on the homepage.
翻訳日:2024-01-24 16:43:00 公開日:2024-01-23
# Leggett-Garg不等式による量子ドット中の電子輸送の量子性

Quantumness of electron transport in quantum dots through Leggett-Garg inequalities ( http://arxiv.org/abs/2401.12502v1 )

ライセンス: Link先を確認
Thingujam Yaiphalemba Meitei, Saikumar Krithivasan, Arijit Sen, and Md. Manirul Ali(参考訳) 電子状態のコヒーレントなダイナミクスが果たすので、ナノエレクトロニクスデバイスの非古典的または量子的性質は量子技術の新興世界で最も重要な役割である。 電子状態のコヒーレントな操作は、ナノファブリケーションツールを用いて量子ドット(QD)デバイスで実現できるが、そのようなデバイスが量子力学的にどのように振る舞うかは明確ではない。 この文脈では、Lggett-Garg不等式(LGI)の枠組みを利用して、2時間相関関数を用いてナノ構造を通して古典的および量子的輸送を区別する。 そこで, 2つの異なる時間における局所電荷検出を用いて, マルコビアンおよび非マルコビアンダイナミクスの下で, 元のlgiの量子違反が存在するかどうかを理論的に検討する。 LGI内の2時間相関子は、量子ランゲヴィン方程式を正確に解くことによって、非平衡グリーン関数(NEGF)によって導出される。 最後に、非古典的電子輸送は、有限バイアスと温度でqdsが電子貯水池と(弱く、強く)結合している状況下で検討される。

Witnessing nonclassical or quantum nature of nanoelectronic devices are of paramount importance in the emerging world of quantum technologies since the coherent dynamics of electronic states plays therein a crucial role. Although coherent manipulation of electronic states can be achieved in quantum dot (QD) devices by harnessing nanofabrication tools, it is often not clear as to what extent such devices could behave quantum-mechanically. In this context, we resort to the framework of Leggett-Garg inequalities (LGI) as it allows for distinguishing classical and quantum transport through nanostructures by way of two-time correlation functions. Using local charge detection at two different time, we investigate here theoretically whether any quantum violation of the original LGI exists with varying device configurations and parameters under Markovian as well as non-Markovian dynamics. Two-time correlators within LGI are derived in terms of nonequilibrium Green's functions (NEGFs) by exactly solving the quantum Langevin equation. Finally, nonclassical electronic transport is examined under situations when QDs are coupled (either weakly or strongly) to electronic reservoirs at finite bias and temperature.
翻訳日:2024-01-24 16:42:37 公開日:2024-01-23
# 拡張スピン1/2xx鎖における量子コヒーレンス、スピンスクイージングおよび絡み合いの探索

Exploring quantum coherence, spin squeezing and entanglement in an extended spin-1/2 XX Chain ( http://arxiv.org/abs/2401.12500v1 )

ライセンス: Link先を確認
S. Mahdavifar, F. Khastehdel Fumani, B. Haghdoost, and M. R. Soltani(参考訳) 本研究では,スピン-1/2 XX鎖モデルの基底状態相図について検討し,XZY-YZX$型3スピン相互作用(TSI)を特徴とする。 このモデルは一見単純なように見えるが、量子挙動の豊富なタペストリーを明らかにする。 私たちの分析はいくつかの重要な指標に依存しています。 この'$l_1$-norm of coherence'は、重ね合わせと干渉の可能な状態を表す位相図内のコヒーレントな状態を特定するのに役立つ。 我々は、全ての方向における等方性雑音を特徴とするユニークなコヒーレント状態のピンポイントに「スピンスクイーズパラメータ」を用いる。 さらに、この「絡み合いエントロピー」を用いて、これらのコヒーレント状態のどの状態が絡み合いを示すかを決定し、局所変数で完全に記述できない状態を示す。 我々の研究は、相図内の様々な領域を明らかにし、それぞれがコヒーレント、圧縮、あるいは絡み合った状態によって特徴づけられ、これらのシステムを構成する量子現象に関する洞察を提供する。 また、上記の量に対して、クリティカルスケーリングとシステムサイズについても検討する。

In this study, we explore the ground state phase diagram of the spin-1/2 XX chain model, which features $XZY-YZX$ type three-spin interactions (TSI). This model, while seemingly simple, reveals a rich tapestry of quantum behaviors. Our analysis relies on several key metrics. The '$l_1$-norm of coherence' helps us identify coherent states within the phase diagram, which represent states capable of superposition and interference. We employ the 'spin squeezing parameter' to pinpoint unique coherent states characterized by isotropic noise in all directions, making them invaluable for quantum metrology. Additionally, we utilize the 'entanglement entropy' to determine which of these coherent states exhibit entanglement, indicating states that cannot be fully described by local variables. Our research unveils diverse regions within the phase diagram, each characterized by coherent, squeezed, or entangled states, offering insights into the quantum phenomena underling these systems. We also study the critical scaling versus the system size for the mentioned quantities.
翻訳日:2024-01-24 16:42:16 公開日:2024-01-23
# 強化学習のための最小かつ再利用可能な因果状態抽象化の構築

Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning ( http://arxiv.org/abs/2401.12497v1 )

ライセンス: Link先を確認
Zizhao Wang, Caroline Wang, Xuesu Xiao, Yuke Zhu, Peter Stone(参考訳) 強化学習(rl)アルゴリズムの2つのデシデラタは、比較的少ない経験から学ぶ能力と、様々な問題仕様に一般化したポリシーを学ぶ能力である。 因子化された状態空間では、両方の目標を達成するための1つのアプローチは状態抽象化を学ぶことである。 本稿では,各タスクの因果関係と報酬関数を学習し,最小限のタスク固有の抽象化を導出する手法であるCausal Bisimulation Modeling (CBM)を紹介する。 CBMは暗黙のモデリングを活用して、同じ環境で全てのタスクに再利用可能な高忠実度因果ダイナミクスモデルをトレーニングする。 操作環境とdeepmindコントロールスイートに関する経験的検証により、cbmが学習した暗黙のダイナミクスモデルは、明示的なものよりも基礎となる因果関係と状態抽象化をより正確に識別する。 さらに、引き起こされた状態抽象化により、タスク学習者は、サンプル効率のほぼ全レベルを達成でき、全てのタスクのベースラインを上回る。

Two desiderata of reinforcement learning (RL) algorithms are the ability to learn from relatively little experience and the ability to learn policies that generalize to a range of problem specifications. In factored state spaces, one approach towards achieving both goals is to learn state abstractions, which only keep the necessary variables for learning the tasks at hand. This paper introduces Causal Bisimulation Modeling (CBM), a method that learns the causal relationships in the dynamics and reward functions for each task to derive a minimal, task-specific abstraction. CBM leverages and improves implicit modeling to train a high-fidelity causal dynamics model that can be reused for all tasks in the same environment. Empirical validation on manipulation environments and Deepmind Control Suite reveals that CBM's learned implicit dynamics models identify the underlying causal relationships and state abstractions more accurately than explicit ones. Furthermore, the derived state abstractions allow a task learner to achieve near-oracle levels of sample efficiency and outperform baselines on all tasks.
翻訳日:2024-01-24 16:41:56 公開日:2024-01-23
# DexTouch: 触覚によるオブジェクトの検索と操作を学ぶ

DexTouch: Learning to Seek and Manipulate Objects with Tactile Dexterity ( http://arxiv.org/abs/2401.12496v1 )

ライセンス: Link先を確認
Kang-Won Lee, Yuzhe Qin, Xiaolong Wang and Soo-Chul Lim(参考訳) 触覚は様々なタスクを巧みに実行し、視覚情報に頼らずにオブジェクトを検索・操作する能力を提供する上で不可欠な能力である。 これらの人間の触覚能力をロボットに適用するための大規模な研究が時間をかけて行われている。 本稿では,視覚情報に頼ることなく触覚を用いて物体を探索・操作する多指ロボットシステムを提案する。 ランダムに位置付けられた対象物を触覚センサーで探索し、日常を模倣するタスクのために操作する。 この研究の目的は、ロボットに人間のような触覚能力を与えることだ。 これを実現するために、ロボットハンドの片側に二元触覚センサを実装し、Sim2Realギャップを最小限に抑える。 シミュレーションによる強化学習と訓練されたポリシーを実環境に伝達することにより,視覚情報のない環境でも触覚センサを用いた物体探索と操作が可能であることを実証する。 さらに,触覚情報が操作課題に及ぼす影響を分析するためのアブレーション研究を行った。 私たちのプロジェクトページはhttps://lee-kangwon.github.io/dextouch/で閲覧できます。

The sense of touch is an essential ability for skillfully performing a variety of tasks, providing the capacity to search and manipulate objects without relying on visual information. Extensive research has been conducted over time to apply these human tactile abilities to robots. In this paper, we introduce a multi-finger robot system designed to search for and manipulate objects using the sense of touch without relying on visual information. Randomly located target objects are searched using tactile sensors, and the objects are manipulated for tasks that mimic daily-life. The objective of the study is to endow robots with human-like tactile capabilities. To achieve this, binary tactile sensors are implemented on one side of the robot hand to minimize the Sim2Real gap. Training the policy through reinforcement learning in simulation and transferring the trained policy to the real environment, we demonstrate that object search and manipulation using tactile sensors is possible even in an environment without vision information. In addition, an ablation study was conducted to analyze the effect of tactile information on manipulative tasks. Our project page is available at https://lee-kangwon.github.io/dextouch/
翻訳日:2024-01-24 16:41:35 公開日:2024-01-23
# ノイズアウェアフォールディング法による量子ゲート誤り緩和のためのゼロノイズ補間の改善

Improving Zero-noise Extrapolation for Quantum-gate Error Mitigation using a Noise-aware Folding Method ( http://arxiv.org/abs/2401.12495v1 )

ライセンス: Link先を確認
Leanghok Hour, Sovanmonynuth Heng, Myeongseong Go, Youngsun Han(参考訳) 現在の1000量子ビットプロセッサはハードウェアの大幅な進歩を示している。 しかし、ハードウェアの制限は量子エラー補正(QEC)を防ぎ、量子エラー軽減(QEM)に依存する必要がある。 そこで本論文では,ノイズのない値からノイズを推定することにより,ゼロノイズ外挿法(ZNE)を改良する。 均一な誤差分布を仮定する従来のZNE法とは異なり、ハードウェアノイズモデルに基づく校正データを用いてノイズを再分配する。 雑音適応型コンパイルと量子ビットマッピングの最適化により、我々は様々な量子コンピューティングモデルのZNE精度を向上させる。 ノイズ増幅を補正して固有の誤差の変動に対処し、量子計算において高い精度と信頼性を約束する。 本稿では,本手法の特異性を強調し,雑音の蓄積を要約し,スケーリングアルゴリズムを示し,線形フィット外挿法を用いて既存のモデルと比較する。 従来の折りたたみ法と比較して,提案手法は量子コンピュータシミュレータの35%の改善と,既存の折りたたみ法と比較して実量子コンピュータの26%の改善を実現し,提案手法の有効性を示した。

The current thousand-qubit processors mark a substantial advance in hardware. Yet, hardware limitations prevent quantum error correction (QEC), necessitating reliance on quantum error mitigation (QEM). Our paper presents a noise-aware folding method that improves Zero-Noise Extrapolation (ZNE) by estimating noiseless values from noisy results. Unlike traditional ZNE methods, which assume a uniform error distribution, our method redistributes the noise using calibration data based on hardware noise models. By employing noise-adaptive compilation and optimizing the qubit mappings, our approach enhances the ZNE accuracy of various quantum computing models. Recalibrating the noise amplification to address the inherent error variations, promises higher precision and reliability in quantum computations. This paper highlights the uniqueness of our method, summarizes noise accumulation, presents the scaling algorithm, and compares the reliability of our method with those of existing models using linear fit extrapolation. Relative to the existing folding methods, our method achieved a 35% improvement on quantum computer simulators and a 26% improvement on real quantum computers compared to existing folding methods, demonstrating the effectiveness of our proposed approach.
翻訳日:2024-01-24 16:41:18 公開日:2024-01-23
# 人中心言語モデリングの比較: モデルグループ、個人特性、どちらが良いか?

Comparing Human-Centered Language Modeling: Is it Better to Model Groups, Individual Traits, or Both? ( http://arxiv.org/abs/2401.12492v1 )

ライセンス: Link先を確認
Nikita Soni, Niranjan Balasubramanian, H. Andrew Schwartz, and Dirk Hovy(参考訳) 自然言語処理は、人間のコンテキストをモデルに組み込むことで進歩してきたが、集団的属性(例えば45歳以上)を使うことが効果的であるかどうか、モデル個人は依然としてオープンである。 グループ属性は技術的には簡単だが粗い – 45歳のすべての人が同じように書くわけではない。 対照的に、モデリング個人は個人のアイデンティティの複雑さを捉える。 よりパーソナライズされた表現を可能にしますが、無限数のユーザをモデル化し、入手不可能なデータを必要とするかもしれません。 グループ属性,個人ユーザ,複合的アプローチによるヒューマンコンテキストのモデリングを比較した。 グループと個々の機能を組み合わせることで、ユーザのドキュメントから年齢推定やパーソナリティ評価といった、ユーザレベルのレグレッションタスクが大幅に向上する。 個々のユーザをモデリングすることで、スタンスやトピック検出といった単一のドキュメントレベルの分類タスクのパフォーマンスが大幅に向上する。 また、個々のユーザモデリングは、ユーザーの履歴データなしでもうまく機能する。

Natural language processing has made progress in incorporating human context into its models, but whether it is more effective to use group-wise attributes (e.g., over-45-year-olds) or model individuals remains open. Group attributes are technically easier but coarse: not all 45-year-olds write the same way. In contrast, modeling individuals captures the complexity of each person's identity. It allows for a more personalized representation, but we may have to model an infinite number of users and require data that may be impossible to get. We compare modeling human context via group attributes, individual users, and combined approaches. Combining group and individual features significantly benefits user-level regression tasks like age estimation or personality assessment from a user's documents. Modeling individual users significantly improves the performance of single document-level classification tasks like stance and topic detection. We also find that individual-user modeling does well even without user's historical data.
翻訳日:2024-01-24 16:40:59 公開日:2024-01-23
# 大規模言語モデルにおける創造性の評価と理解

Assessing and Understanding Creativity in Large Language Models ( http://arxiv.org/abs/2401.12491v1 )

ライセンス: Link先を確認
Yunpu Zhao, Rui Zhang, Wenyi Li, Di Huang, Jiaming Guo, Shaohui Peng, Yifan Hao, Yuanbo Wen, Xing Hu, Zidong Du, Qi Guo, Ling Li and Yunji Chen(参考訳) 自然言語処理の分野では,大規模言語モデル(LLM)の急速な発展が注目されている。 LLMは様々なタスクにおいて高い創造性を示してきたが、そのような創造性を評価する方法は不十分である。 LLMの創造性の評価は人間との違いを考慮し、精度と効率のバランスを保ちながら多次元計測を必要とする。 本稿では,LLMの創造性を評価するための効率的な枠組みを確立することを目的とする。 修正された創造的思考のTorrance Testsを適用することで、7つのタスクにまたがる様々なLLMの創造的パフォーマンスを評価し、Fluency、Flexibility、Originality、Elaborationの4つの基準を強調した。 そこで本研究では,700質問の総合的データセットとLCMに基づく評価手法を開発した。 さらに, 多様なプロンプトやロールプレイ状況に対するLSMsの反応について, 新たな分析を行った。 LLMの創造性は、主に独創性に欠けるが、エラボレートには優れていた。 さらに、プロンプトの使用とモデルのロールプレイ設定はクリエイティビティに大きな影響を与えます。 さらに, 実験結果から, 複数のLDM間の協調により, 独創性が向上することが示唆された。 特に, 創造性に影響を及ぼす性格特性について, 人間の評価とLCMのコンセンサスを明らかにした。 この発見は、LLMの設計が創造性に重大な影響を与え、人工知能と人間の創造性を橋渡しし、LLMの創造性と潜在的な応用に関する洞察を提供する。

In the field of natural language processing, the rapid development of large language model (LLM) has attracted more and more attention. LLMs have shown a high level of creativity in various tasks, but the methods for assessing such creativity are inadequate. The assessment of LLM creativity needs to consider differences from humans, requiring multi-dimensional measurement while balancing accuracy and efficiency. This paper aims to establish an efficient framework for assessing the level of creativity in LLMs. By adapting the modified Torrance Tests of Creative Thinking, the research evaluates the creative performance of various LLMs across 7 tasks, emphasizing 4 criteria including Fluency, Flexibility, Originality, and Elaboration. In this context, we develop a comprehensive dataset of 700 questions for testing and an LLM-based evaluation method. In addition, this study presents a novel analysis of LLMs' responses to diverse prompts and role-play situations. We found that the creativity of LLMs primarily falls short in originality, while excelling in elaboration. Besides, the use of prompts and the role-play settings of the model significantly influence creativity. Additionally, the experimental results also indicate that collaboration among multiple LLMs can enhance originality. Notably, our findings reveal a consensus between human evaluations and LLMs regarding the personality traits that influence creativity. The findings underscore the significant impact of LLM design on creativity and bridges artificial intelligence and human creativity, offering insights into LLMs' creativity and potential applications.
翻訳日:2024-01-24 16:40:43 公開日:2024-01-23
# NeRF-AD: 発話顔合成のための意図に基づく絡み合いを持つニューラルラジアンス場

NeRF-AD: Neural Radiance Field with Attention-based Disentanglement for Talking Face Synthesis ( http://arxiv.org/abs/2401.12568v1 )

ライセンス: Link先を確認
Chongke Bi, Xiaoxing Liu, Zhilei Liu(参考訳) 音声による音声合成は、多次元信号処理とマルチメディアの分野で現在研究されているホットスポットの1つである。 ニューラル・ラジアンス・フィールド(NeRF)は近年,生成した顔のリアリズムと3次元効果を高めるために,この分野に導入されている。 しかし、既存のNeRFベースのほとんどの手法は、教師付きマルチモーダル特徴融合法を欠いている一方で、複雑な学習タスクでNeRFを負担するか、音声を音声の動きに関連する顔面領域に正確にマッピングできないかのいずれかである。 これらの理由により、既存の方法が不正確な唇の形を作り出す結果となった。 本稿では,NeRF学習タスクの一部を先進的に進めるとともに,注意に基づく絡み込み(NeRF-AD)を用いた音声合成手法を提案する。 特に、音声関連顔アクションユニット(AU)情報を用いて、顔を音声顔とアイデンティティ顔に切り離すために、アテンションベースのディスタングルメントモジュールを導入する。 音声が音声にどう影響するかを正確に調節するために、私たちはオーディオ機能でAudio-faceを融合するだけです。 さらに、これらの2つのモードの融合を監督するために、AU情報も利用される。 我々のNeRF-ADは、画像の品質や唇の同期など、現実的な会話ビデオを生成する上で、最先端の手法よりも優れています。 ビデオ結果を見るには、https://xiaoxingliu02.github.io/NeRF-ADを参照してください。

Talking face synthesis driven by audio is one of the current research hotspots in the fields of multidimensional signal processing and multimedia. Neural Radiance Field (NeRF) has recently been brought to this research field in order to enhance the realism and 3D effect of the generated faces. However, most existing NeRF-based methods either burden NeRF with complex learning tasks while lacking methods for supervised multimodal feature fusion, or cannot precisely map audio to the facial region related to speech movements. These reasons ultimately result in existing methods generating inaccurate lip shapes. This paper moves a portion of NeRF learning tasks ahead and proposes a talking face synthesis method via NeRF with attention-based disentanglement (NeRF-AD). In particular, an Attention-based Disentanglement module is introduced to disentangle the face into Audio-face and Identity-face using speech-related facial action unit (AU) information. To precisely regulate how audio affects the talking face, we only fuse the Audio-face with audio feature. In addition, AU information is also utilized to supervise the fusion of these two modalities. Extensive qualitative and quantitative experiments demonstrate that our NeRF-AD outperforms state-of-the-art methods in generating realistic talking face videos, including image quality and lip synchronization. To view video results, please refer to https://xiaoxingliu02.github.io/NeRF-AD.
翻訳日:2024-01-24 16:35:08 公開日:2024-01-23
# 大規模言語モデルによる気候変動クレームの自動事実チェック

Automated Fact-Checking of Climate Change Claims with Large Language Models ( http://arxiv.org/abs/2401.12566v1 )

ライセンス: Link先を確認
Markus Leippold and Saeid Ashraf Vaghefi and Dominik Stammbach and Veruska Muccione and Julia Bingler and Jingwei Ni and Chiara Colesanti-Senni and Tobias Wekhof and Tobias Schimanski and Glen Gostlow and Tingyu Yu and Juerg Luterbacher and Christian Huggel(参考訳) 本稿では,気候変動クレームの事実チェックを自動化するaiベースの新しいツールcliminatorを提案する。 IPCCレポートや査読された科学文献などの権威ある情報源から情報を得た大規模言語モデル(LLM)の配列を利用して、Climinatorは革新的なMediator-Advocateフレームワークを採用している。 この設計により、クリミネーターは様々な科学的視点を効果的に合成することができ、堅牢で証拠に基づく評価につながる。 本モデルは,気候フィードバックと懐疑的科学から収集したクレームをテストした結果,顕著な精度を示す。 特に、我々の枠組みで気候科学の否定的な視点とアドボケートを統合すると、クリミネーターの反復的議論プロセスは科学的コンセンサスに確実に収束し、様々な視点を科学に基づく事実的結論に調和させることに長けている。 我々の研究には一定の限界があり、慎重に解釈する必要があるが、我々のアプローチは大きな可能性を秘めている。 我々は、さらなる研究を刺激し、政治的事実確認や法的ドメインなど、他の文脈における適用可能性を探ることを望んでいる。

This paper presents Climinator, a novel AI-based tool designed to automate the fact-checking of climate change claims. Utilizing an array of Large Language Models (LLMs) informed by authoritative sources like the IPCC reports and peer-reviewed scientific literature, Climinator employs an innovative Mediator-Advocate framework. This design allows Climinator to effectively synthesize varying scientific perspectives, leading to robust, evidence-based evaluations. Our model demonstrates remarkable accuracy when testing claims collected from Climate Feedback and Skeptical Science. Notably, when integrating an advocate with a climate science denial perspective in our framework, Climinator's iterative debate process reliably converges towards scientific consensus, underscoring its adeptness at reconciling diverse viewpoints into science-based, factual conclusions. While our research is subject to certain limitations and necessitates careful interpretation, our approach holds significant potential. We hope to stimulate further research and encourage exploring its applicability in other contexts, including political fact-checking and legal domains.
翻訳日:2024-01-24 16:34:42 公開日:2024-01-23
# 因果的観点からのグラフコントラスト不変学習

Graph Contrastive Invariant Learning from the Causal Perspective ( http://arxiv.org/abs/2401.12564v1 )

ライセンス: Link先を確認
Yanhu Mo, Xiao Wang, Shaohua Fan, Chuan Shi(参考訳) グラフコントラスト学習(GCL)は、2つの拡張グラフを自己教師付きで対比することでノード表現を学習し、注目されている。 GCLは通常、不変表現を学ぶと考えられている。 しかし、この理解は常に実践的に成り立つだろうか? 本稿ではまず,因果性の観点からGCLについて考察する。 構造因果モデル(SCM)を用いてGCLを解析することにより、従来のGCLはグラフに含まれる非因果情報により不変表現を十分に学習できないことが分かる。 どのように修正し、現在のgclにより良い不変表現を学ぶよう促すか? scmには2つの要件と新しいgcl法を提案する動機がある。 特に,非因果因子の介入をシミュレートするために,スペクトルグラフ拡張を導入する。 そして、因果要因をよりよく捉えるために、不変目的と独立目標を設計する。 具体的には (i)不変目的は、因果変数に含まれる不変情報を取り込むようエンコーダに促すものである。 (ii)独立の目的は、共同設立者の因果変数への影響を減らすことである。 実験の結果,ノード分類におけるアプローチの有効性が示された。

Graph contrastive learning (GCL), learning the node representation by contrasting two augmented graphs in a self-supervised way, has attracted considerable attention. GCL is usually believed to learn the invariant representation. However, does this understanding always hold in practice? In this paper, we first study GCL from the perspective of causality. By analyzing GCL with the structural causal model (SCM), we discover that traditional GCL may not well learn the invariant representations due to the non-causal information contained in the graph. How can we fix it and encourage the current GCL to learn better invariant representations? The SCM offers two requirements and motives us to propose a novel GCL method. Particularly, we introduce the spectral graph augmentation to simulate the intervention upon non-causal factors. Then we design the invariance objective and independence objective to better capture the causal factors. Specifically, (i) the invariance objective encourages the encoder to capture the invariant information contained in causal variables, and (ii) the independence objective aims to reduce the influence of confounders on the causal variables. Experimental results demonstrate the effectiveness of our approach on node classification tasks.
翻訳日:2024-01-24 16:34:22 公開日:2024-01-23
# EndoGaussian: 変形性手術シーン再建のためのGaussian Splatting

EndoGaussian: Gaussian Splatting for Deformable Surgical Scene Reconstruction ( http://arxiv.org/abs/2401.12561v1 )

ライセンス: Link先を確認
Yifan Liu, Chenxin Li, Chen Yang, Yixuan Yuan(参考訳) 内視鏡的ステレオ映像から変形可能な組織を再構成することは,多くの下流手術において不可欠である。 しかし、既存の手法では推論速度が遅く、実用性を大幅に制限している。 本稿では,3次元ガウススプラッティングに基づくリアルタイム手術シーン再構築フレームワークであるEndoGaussianを紹介する。 本手法は,新しいタイムスタンプでガウス変形を予測できる標準ガウス変形場と時間依存変形場として動的手術場面を表現する。 効率的なガウス表現と並列レンダリングパイプラインにより,従来の手法に比べてレンダリング速度が大幅に向上した。 さらに, 軽量符号化ボクセルと極端に小型なmlpの組み合わせとして変形場を設計し, 少ないレンダリング負荷で効率的なガウス追跡を可能にした。 さらに,入力画像列から情報点を探索することで得られる表面分布を十分に活用する,全体論的ガウス初期化法を設計する。 公開内視鏡データセットを用いた実験により,術中手術におけるリアルタイムレンダリング速度 (195 FPS, 100$\times$ gain) を実現するとともに, 最先端の再建品質 (35.925 PSNR) と最速トレーニング速度 (2min/scene) を維持でき, 術中手術応用に有意な期待が得られた。 コードは \url{https://yifliu3.github.io/endogaussian/} で入手できる。

Reconstructing deformable tissues from endoscopic stereo videos is essential in many downstream surgical applications. However, existing methods suffer from slow inference speed, which greatly limits their practical use. In this paper, we introduce EndoGaussian, a real-time surgical scene reconstruction framework that builds on 3D Gaussian Splatting. Our framework represents dynamic surgical scenes as canonical Gaussians and a time-dependent deformation field, which predicts Gaussian deformations at novel timestamps. Due to the efficient Gaussian representation and parallel rendering pipeline, our framework significantly accelerates the rendering speed compared to previous methods. In addition, we design the deformation field as the combination of a lightweight encoding voxel and an extremely tiny MLP, allowing for efficient Gaussian tracking with a minor rendering burden. Furthermore, we design a holistic Gaussian initialization method to fully leverage the surface distribution prior, achieved by searching informative points from across the input image sequence. Experiments on public endoscope datasets demonstrate that our method can achieve real-time rendering speed (195 FPS real-time, 100$\times$ gain) while maintaining the state-of-the-art reconstruction quality (35.925 PSNR) and the fastest training speed (within 2 min/scene), showing significant promise for intraoperative surgery applications. Code is available at: \url{https://yifliu3.github.io/EndoGaussian/}.
翻訳日:2024-01-24 16:34:04 公開日:2024-01-23
# 非定常コヒーレント光波の幾何位相:動的位相に調和した非線形進化

Geometric phase for a nonstatic coherent light-wave: nonlinear evolution harmonized with the dynamical phase ( http://arxiv.org/abs/2401.12560v1 )

ライセンス: Link先を確認
Jeong Ryeol Choi(参考訳) 静的環境下で発生する非定常コヒーレント光波の幾何位相の特性を様々な角度から解析した。 幾何学的位相は正則非線形の方法で変化し、その変化の中心は時間とともに常に増加する。 この結果は、周期波の崩壊と膨張が幾何学的位相の進化に及ぼす影響によるものである。 このような幾何学的位相進化と動的位相の調和は、非定常性の程度に依存するユニークなパターンで全位相を進化させる。 全体相は、波の非定常性に対する幾何学的位相の強い反応により、その進化において周期的に沈殿する、極端に非静的な場合の特異な挙動を示す。 コヒーレント状態の幾何学的位相がフォック状態の位相よりも顕著であることが確認された。 波の非定常性が消える単純な場合、幾何相の記述は、もはや周期的変化を起こさないよく知られた従来のものへと回復する。 慣れ親しんだ力学位相はハミルトニアンの期待値とちょうど関係しているが、我々が管理した幾何学的位相は量子状態の進化における微妙な非静的差を反映している。

Properties of the geometric phase for a nonstatic coherent light-wave arisen in a static environment are analyzed from various angles. The geometric phase varies in a regular nonlinear way, where the center of its variation increases constantly with time. This consequence is due to the effects of the periodic wave collapse and expansion on the evolution of the geometric phase. Harmonization of such a geometric-phase evolution with the dynamical phase makes the total phase evolve with a unique pattern that depends on the degree of nonstaticity. The total phase exhibits a peculiar behavior for the case of extreme nonstaticity, which is that it precipitates periodically in its evolution, owing to a strong response of the geometric phase to the wave nonstaticity. It is confirmed that the geometric phase in the coherent state is mostly more prominent compared to that in the Fock states. For a simple case where the wave nonstaticity disappears, our description of the geometric phase recovers to the well-known conventional one which no longer undergoes periodical change. While the familiar dynamical phase is just related to the expectation value of the Hamiltonian, the geometric phase that we have managed reflects a delicate nonstaticity difference in the evolution of quantum states.
翻訳日:2024-01-24 16:33:40 公開日:2024-01-23
# 大規模言語モデルは並列コードを書くことができるか?

Can Large Language Models Write Parallel Code? ( http://arxiv.org/abs/2401.12554v1 )

ライセンス: Link先を確認
Daniel Nichols, Joshua H. Davis, Zhaojun Xie, Arjun Rajaram, Abhinav Bhatele(参考訳) 大規模言語モデルは、ソフトウェア開発の人気のツールになりつつある。 ソースコードをモデル化して生成する能力は、コード補完、要約、翻訳、ルックアップなど、さまざまなコンテキストで実証されている。 しかし、より複雑なタスクのためにコードを生成するのに苦労することが多い。 本稿では,最先端言語モデルによる並列コード生成能力について検討する。 我々は,並列コードを生成する言語モデルの能力を評価するための420タスクからなるベンチマーク pcgbench を提案し,これらのタスクにおける最先端のオープンソースおよびクローズドソース言語モデルの性能評価を行った。 並列コード生成性能を比較するための新しいメトリクスを導入し、それぞれのLLMが様々な並列プログラミングモデルや計算問題タイプでどのように機能するかを検討する。

Large Language Models are becoming an increasingly popular tool for software development. Their ability to model and generate source code has been demonstrated in a variety of contexts, including code completion, summarization, translation, and lookup. However, they often struggle to generate code for more complex tasks. In this paper, we explore the ability of state-of-the-art language models to generate parallel code. We propose a benchmark, PCGBench, consisting of a set of 420 tasks for evaluating the ability of language models to generate parallel code, and we evaluate the performance of several state-of-the-art open- and closed-source language models on these tasks. We introduce novel metrics for comparing parallel code generation performance and use them to explore how well each LLM performs on various parallel programming models and computational problem types.
翻訳日:2024-01-24 16:33:20 公開日:2024-01-23
# UR4NNV: ニューラルネットワークの検証、アンダー近似の到達性!

UR4NNV: Neural Network Verification, Under-approximation Reachability Works! ( http://arxiv.org/abs/2401.12550v1 )

ライセンス: Link先を確認
Zhen Liang, Taoran Wu, Ran Zhao, Bai Xue, Ji Wang, Wenjing Yang, Shaojun Deng and Wanwei Liu(参考訳) 近年,ディープニューラルネットワーク (DNN) の形式的検証が注目され,その有効性と効率性から過剰近似に基づく手法が普及している。 しかし、これらの戦略は、正確な出力領域や導入した近似誤差が問題となる性質に反するかどうかに関して「未知のジレンマ」に対処する際の課題に直面している。 そこで本研究では,DNN検証において,近似下到達可能性解析を初めて利用するUR4NNV検証フレームワークを提案する。 UR4NNVは、Rectified Linear Unit (ReLU) アクティベートによるDNNに焦点を当て、バイナリツリーブランチに基づくアンダー近似アルゴリズムを採用している。 それぞれのエポックにおいて、UR4NNVはリーチブル集合のサブポリトープをアンダーアロキシメートし、与えられた性質に対してこのポリトープを検証する。 UR4NNVは、試行錯誤アプローチにより、有効にDNN特性をファルシフィケートし、検証エポック境界に達し、ファルシフィケーション特性に失敗する際の信頼性レベルを提供する。 既存の検証手法と比較して、UR4NNVの有効性と効率が示され、「未知のジレンマ」の影響を著しく低減した。

Recently, formal verification of deep neural networks (DNNs) has garnered considerable attention, and over-approximation based methods have become popular due to their effectiveness and efficiency. However, these strategies face challenges in addressing the "unknown dilemma" concerning whether the exact output region or the introduced approximation error violates the property in question. To address this, this paper introduces the UR4NNV verification framework, which utilizes under-approximation reachability analysis for DNN verification for the first time. UR4NNV focuses on DNNs with Rectified Linear Unit (ReLU) activations and employs a binary tree branch-based under-approximation algorithm. In each epoch, UR4NNV under-approximates a sub-polytope of the reachable set and verifies this polytope against the given property. Through a trial-and-error approach, UR4NNV effectively falsifies DNN properties while providing confidence levels when reaching verification epoch bounds and failing falsifying properties. Experimental comparisons with existing verification methods demonstrate the effectiveness and efficiency of UR4NNV, significantly reducing the impact of the "unknown dilemma".
翻訳日:2024-01-24 16:33:07 公開日:2024-01-23
# 教師付き学習を用いたMyopic MPC政策の構築について

On Building Myopic MPC Policies using Supervised Learning ( http://arxiv.org/abs/2401.12546v1 )

ライセンス: Link先を確認
Christopher A. Orrico, Bokan Yang, Dinesh Krishnamoorthy(参考訳) モデル予測制御(MPC)と組み合わせた教師付き学習技術の適用は、特に近似的明示的なMPC領域において、オフラインで生成される最適な状態-作用ペアを通じて、深層ニューラルネットワークのような関数近似器を用いてMPCポリシーを学習する分野で、近年大きな関心を集めている。 ほぼ明示的なMPCの目的は、トレーニングされたニューラルネットワークでオンライン最適化に代えて、MPCポリシーを忠実に再現することであるが、オンライン最適化問題の解決に伴うパフォーマンス保証は通常失われている。 本稿では,最適方針を学習する代わりに,最適価値関数をオフラインで学習するために教師付き学習を用いる方法を提案する。 すると、これは非常に短い予測地平線を持つミオピックMPCにおけるコスト・ツー・ゴー機能として利用でき、オンライン計算の負担が制御性能に影響を与えることなく大幅に低減される。 このアプローチは、クローズドループのパフォーマンスデータではなく、オフラインで収集された状態値ペアを使用してコスト・ツー・ゴー関数を学ぶという意味で、既存の値関数近似の作業とは異なる。 トレーニングに使用する状態値ペアを生成するコストは、感度ベースのデータ拡張スキームを用いて対処する。

The application of supervised learning techniques in combination with model predictive control (MPC) has recently generated significant interest, particularly in the area of approximate explicit MPC, where function approximators like deep neural networks are used to learn the MPC policy via optimal state-action pairs generated offline. While the aim of approximate explicit MPC is to closely replicate the MPC policy, substituting online optimization with a trained neural network, the performance guarantees that come with solving the online optimization problem are typically lost. This paper considers an alternative strategy, where supervised learning is used to learn the optimal value function offline instead of learning the optimal policy. This can then be used as the cost-to-go function in a myopic MPC with a very short prediction horizon, such that the online computation burden reduces significantly without affecting the controller performance. This approach differs from existing work on value function approximations in the sense that it learns the cost-to-go function by using offline-collected state-value pairs, rather than closed-loop performance data. The cost of generating the state-value pairs used for training is addressed using a sensitivity-based data augmentation scheme.
翻訳日:2024-01-24 16:32:29 公開日:2024-01-23
# DREditor:ドメイン固有度検索モデル構築のための時間効率なアプローチ

DREditor: An Time-efficient Approach for Building a Domain-specific Dense Retrieval Model ( http://arxiv.org/abs/2401.12540v1 )

ライセンス: Link先を確認
Chen Huang, Duanyu Feng, Wenqiang Lei, Jiancheng Lv(参考訳) 高密度検索モデルの効率的な展開は,様々な産業においてますます重要になっている。 これは、異なるドメインの異なる企業の時間需要を満たすために検索エンジンをカスタマイズする企業検索サービスにとって特に当てはまります。 そこで我々はDREditorと呼ばれる時間効率な手法を開発し、既成の高密度検索モデルのマッチングルールを特定のドメインに適合させる。 これは、効率的かつ効率的な線形写像を用いて、モデルの出力埋め込みを直接調整することで達成される。 このマッピングは、特別に構築された最小二乗問題を解くことで得られる編集演算子によって実現される。 長時間の微調整による暗黙のルール変更と比較すると,dreditorは異なるドメイン固有データセット,データセットソース,検索モデル,コンピューティングデバイスにおいて大きな利点をもたらす。 時間効率は100~300倍向上し、検索性能は同等かそれ以上に向上する。 より広い文脈において,我々は,新しい組込みキャリブレーション手法を導入するための第一歩として,組込みキャリブレーションの現在の分野における技術空白を埋める。 このアプローチは、ドメイン固有の高密度検索モデルを効率的かつ安価に構築する方法でもある。

Deploying dense retrieval models efficiently is becoming increasingly important across various industries. This is especially true for enterprise search services, where customizing search engines to meet the time demands of different enterprises in different domains is crucial. Motivated by this, we develop a time-efficient approach called DREditor to edit the matching rule of an off-the-shelf dense retrieval model to suit a specific domain. This is achieved by directly calibrating the output embeddings of the model using an efficient and effective linear mapping. This mapping is powered by an edit operator that is obtained by solving a specially constructed least squares problem. Compared to implicit rule modification via long-time finetuning, our experimental results show that DREditor provides significant advantages on different domain-specific datasets, dataset sources, retrieval models, and computing devices. It consistently enhances time efficiency by 100-300 times while maintaining comparable or even superior retrieval performance. In a broader context, we take the first step to introduce a novel embedding calibration approach for the retrieval task, filling the technical blank in the current field of embedding calibration. This approach also paves the way for building domain-specific dense retrieval models efficiently and inexpensively.
翻訳日:2024-01-24 16:31:51 公開日:2024-01-23
# 自己教師付き視覚トランスフォーマーは不完全ラベルのための効率的なセグメンテーション学習者である

Self-Supervised Vision Transformers Are Efficient Segmentation Learners for Imperfect Labels ( http://arxiv.org/abs/2401.12535v1 )

ライセンス: Link先を確認
Seungho Lee, Seoungyoon Kang, Hyunjung Shim(参考訳) 本研究では,自己教師付き視覚変換器(SSVT)を用いたセマンティックセグメンテーションの費用対効果を示す。 SSVTバックボーンを凍結し,軽量セグメンテーションヘッドを訓練することにより,不完全ラベルを効果的に活用し,不完全ラベルの堅牢性を向上させる。 経験的な実験では、scribble、point-level、image-level labelなど、さまざまなアノテーションタイプに対する既存のメソッドのパフォーマンスが大幅に向上している。 本研究は,非完全ラベル処理における自己教師型視覚変換器の有効性を強調し,アノテーションコストを低減しつつセマンティックセグメンテーションの実践的で効率的なソリューションを提供する。 実験により,提案手法は全ての不完全ラベルのベースラインモデルよりも優れていることを確認した。 特にゼロショットビジョン言語モデルに基づくラベルでは,ベースラインと比較して11.5\%pの性能向上を示す。

This study demonstrates a cost-effective approach to semantic segmentation using self-supervised vision transformers (SSVT). By freezing the SSVT backbone and training a lightweight segmentation head, our approach effectively utilizes imperfect labels, thereby improving robustness to label imperfections. Empirical experiments show significant performance improvements over existing methods for various annotation types, including scribble, point-level, and image-level labels. The research highlights the effectiveness of self-supervised vision transformers in dealing with imperfect labels, providing a practical and efficient solution for semantic segmentation while reducing annotation costs. Through extensive experiments, we confirm that our method outperforms baseline models for all types of imperfect labels. Especially under the zero-shot vision-language-model-based label, our model exhibits 11.5\%p performance gain compared to the baseline.
翻訳日:2024-01-24 16:31:14 公開日:2024-01-23
# バックグラウンド知識を用いた効率的な制約付き$k$-Centerクラスタリング

Efficient Constrained $k$-Center Clustering with Background Knowledge ( http://arxiv.org/abs/2401.12533v1 )

ライセンス: Link先を確認
Longkun Guo, Chaoqi Jia, Kewen Liao, Zhigang Lu and Minhui Xue(参考訳) センターベースのクラスタリングは理論と実践の両方から大きな研究関心を集めている。 多くの実用的なアプリケーションでは、入力データは、しばしばクラスタリング結果を改善するのに使用できる背景知識を含んでいる。 本研究は、広く採用されている$k$-centerクラスタリングに基づいて、入力背景知識を must-link (ML) および cannot-link (CL) 制約セットとしてモデル化する。 しかし、$k$-centerを含むクラスタリング問題は本質的に$\mathcal{NP}$-hardであるのに対し、より複雑な制約のある変種は、それらの適用性を著しく制限する厳しい近似と計算障壁に悩まされることが知られている。 逆支配集合、線形計画法(lp)積分多面体、lp双対性を含む一連の手法を用いることにより、最大比率2の制約付きk$中心に対する最初の効率的な近似アルゴリズムに到達した。 また、競合ベースラインアルゴリズムを構築し、様々な実データセット上で近似アルゴリズムを実証的に評価する。 その結果, クラスタリングコスト, クラスタリング品質, 実行時間の観点から, 提案アルゴリズムの優れた利点を実証した。

Center-based clustering has attracted significant research interest from both theory and practice. In many practical applications, input data often contain background knowledge that can be used to improve clustering results. In this work, we build on widely adopted $k$-center clustering and model its input background knowledge as must-link (ML) and cannot-link (CL) constraint sets. However, most clustering problems including $k$-center are inherently $\mathcal{NP}$-hard, while the more complex constrained variants are known to suffer severer approximation and computation barriers that significantly limit their applicability. By employing a suite of techniques including reverse dominating sets, linear programming (LP) integral polyhedron, and LP duality, we arrive at the first efficient approximation algorithm for constrained $k$-center with the best possible ratio of 2. We also construct competitive baseline algorithms and empirically evaluate our approximation algorithm against them on a variety of real datasets. The results validate our theoretical findings and demonstrate the great advantages of our algorithm in terms of clustering cost, clustering quality, and running time.
翻訳日:2024-01-24 16:30:19 公開日:2024-01-23
# DAFA:遠隔の公正な対人訓練

DAFA: Distance-Aware Fair Adversarial Training ( http://arxiv.org/abs/2401.12532v1 )

ライセンス: Link先を確認
Hyungyu Lee, Saehyung Lee, Hyemi Jang, Junsung Park, Ho Bae, Sungroh Yoon(参考訳) 標準訓練におけるクラス間の精度の相違は、正当性問題と呼ばれる対人訓練において増幅される。 既存の手法は、より簡単なクラスにモデルの性能を犠牲にして、より難しいクラスのパフォーマンスを改善することによって、堅牢な公正性を高めることを目的としていた。 しかし,敵の攻撃下では,最悪のクラスからのサンプルに対するモデルの予測の大部分は,簡単なクラスではなく,最悪のクラスに似たクラスに偏っているのが観察される。 理論および実証分析により,クラス間の距離が減少するにつれてロバストな公平性が低下することを示した。 これらの知見に触発され,クラス間の類似性を考慮し,頑健な公正性に対処するDAFA(Distance-Aware Fair Adversarial Training)手法を導入した。 具体的には,各クラスに異なる損失重みと対向マージンを割り当て,それらを調整することで,類似クラス間の堅牢性のトレードオフを促進する。 実験結果から,本手法は平均ロバストな精度を維持するだけでなく,最悪のロバストな精度を著しく向上し,従来の手法と比較してロバストな公平性が著しく向上したことを示す。

The disparity in accuracy between classes in standard training is amplified during adversarial training, a phenomenon termed the robust fairness problem. Existing methodologies aimed to enhance robust fairness by sacrificing the model's performance on easier classes in order to improve its performance on harder ones. However, we observe that under adversarial attacks, the majority of the model's predictions for samples from the worst class are biased towards classes similar to the worst class, rather than towards the easy classes. Through theoretical and empirical analysis, we demonstrate that robust fairness deteriorates as the distance between classes decreases. Motivated by these insights, we introduce the Distance-Aware Fair Adversarial training (DAFA) methodology, which addresses robust fairness by taking into account the similarities between classes. Specifically, our method assigns distinct loss weights and adversarial margins to each class and adjusts them to encourage a trade-off in robustness among similar classes. Experimental results across various datasets demonstrate that our method not only maintains average robust accuracy but also significantly improves the worst robust accuracy, indicating a marked improvement in robust fairness compared to existing methods.
翻訳日:2024-01-24 16:29:30 公開日:2024-01-23
# BiTA: 大規模言語モデルにおけるロスレスアクセラレーションのための双方向チューニング

BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models ( http://arxiv.org/abs/2401.12522v1 )

ライセンス: Link先を確認
Feng Lin, Hanling Yi, Hongbin Li, Yifan Yang, Xiaotian Yu, Guangming Lu, Rong Xiao(参考訳) 大規模言語モデル(LLM)は推論中に自己回帰生成を使用することが多いため、メモリ帯域幅の要求が高くなり、結果として遅延が延長される。 この非効率性を軽減するために、半自己回帰生成とドラフト検証によるLCMの高速化手法であるBiTA(Bi-directional Tuning for Losless Acceleration)を提案する。 プロンプトチューニングの概念に触発され、半自己回帰生成の能力に対する双方向チューニングと呼ばれるパラメータ効率のよい設計でllmを強化する。 効率的なツリーベースのデコードを利用することで、モデルはドラフト候補の生成と検証を並行して実行し、グレディサンプリングの下で自己回帰的な出力と同一の出力を保証する。 BiTAは軽量なプラグインモジュールとして機能し、追加の補助モデルを必要とせずに既存のLLMの推論効率をシームレスに向上する。 提案された BiTA を適用した LLaMA-2-70B-Chat は MT-Bench ベンチマークで 2.7$\times$ のスピードアップを達成した。 広範囲な実験により,本手法が最先端の加速技術を上回ることが確認された。

Large language models (LLMs) commonly employ autoregressive generation during inference, leading to high memory bandwidth demand and consequently extended latency. To mitigate this inefficiency, we present Bi-directional Tuning for lossless Acceleration (BiTA), an innovative method expediting LLMs via streamlined semi-autoregressive generation and draft verification. Inspired by the concept of prompt tuning, we enhance LLMs with a parameter-efficient design called bi-directional tuning for the capability in semi-autoregressive generation. Employing efficient tree-based decoding, the models perform draft candidate generation and verification in parallel, ensuring outputs identical to their autoregressive counterparts under greedy sampling. BiTA serves as a lightweight plug-in module, seamlessly boosting the inference efficiency of existing LLMs without requiring additional assistance models or incurring significant extra memory costs. Applying the proposed BiTA, LLaMA-2-70B-Chat achieves a 2.7$\times$ speedup on the MT-Bench benchmark. Extensive experiments confirm our method surpasses state-of-the-art acceleration techniques.
翻訳日:2024-01-24 16:29:08 公開日:2024-01-23
# 優先貿易協定の非構造化データ内容の分類に関する重要情報検索

Key Information Retrieval to Classify the Unstructured Data Content of Preferential Trade Agreements ( http://arxiv.org/abs/2401.12520v1 )

ライセンス: Link先を確認
Jiahui Zhao, Ziyi Meng, Stepan Gordeev, Zijie Pan, Dongjin Song, Sandro Steinbach, Caiwen Ding(参考訳) テキストデータの急速な普及に伴い、自然言語処理の分野において、長文の予測が重要な課題となっている。 従来のテキスト予測手法は、テキストから重要な洞察をとらえるモデルの能力を妨げる冗長で無関係な情報が存在するため、長いテキストを扱い合う際にかなりの困難に直面する。 この問題に対処するために,長文分類と予測の新しいアプローチを提案する。 まず, 埋め込み技術を用いて長文を凝縮させ, 冗長性を減らそうとする。 その後、変換器(BERT)埋め込み方式による双方向エンコーダ表現をテキスト分類訓練に活用する。 実験結果から, 本手法は優先貿易協定の長文分類において, 大幅な性能向上を実現することが示唆された。 さらに, テキストの埋め込みによる凝縮は, 予測精度を増大させるだけでなく, 計算複雑性を大幅に低減させる。 本稿では,自然言語処理分野の研究者や技術者に有用な情報を提供するとともに,長文予測のための戦略を提案する。

With the rapid proliferation of textual data, predicting long texts has emerged as a significant challenge in the domain of natural language processing. Traditional text prediction methods encounter substantial difficulties when grappling with long texts, primarily due to the presence of redundant and irrelevant information, which impedes the model's capacity to capture pivotal insights from the text. To address this issue, we introduce a novel approach to long-text classification and prediction. Initially, we employ embedding techniques to condense the long texts, aiming to diminish the redundancy therein. Subsequently,the Bidirectional Encoder Representations from Transformers (BERT) embedding method is utilized for text classification training. Experimental outcomes indicate that our method realizes considerable performance enhancements in classifying long texts of Preferential Trade Agreements. Furthermore, the condensation of text through embedding methods not only augments prediction accuracy but also substantially reduces computational complexity. Overall, this paper presents a strategy for long-text prediction, offering a valuable reference for researchers and engineers in the natural language processing sphere.
翻訳日:2024-01-24 16:28:49 公開日:2024-01-23
# frenkel-kontorova鎖における量子解離のダイナミクス

Dynamics of quantum discommensurations in the Frenkel-Kontorova chain ( http://arxiv.org/abs/2401.12614v1 )

ライセンス: Link先を確認
Oksana Chelpanova, Shane P. Kelly, Ferdinand Schmidt-Kaler, Giovanna Morigi and Jamir Marino(参考訳) 位相欠陥をリアルタイムに制御する能力は、固体のマクロな性質を動的に操作する可能性を開く。 これらの欠陥のサブカテゴリは、周期格子ポテンシャルにおけるこれらの粒子の力学を特徴づけるフレンケル・コントロワ鎖を用いて効果的に記述することができる。 このモデルは、系のトポロジカルな欠陥であるソリトンをホストすることが知られ、鎖の構造的遷移と関連している。 この研究は3つの重要な問題に対処する: まず、モデルの具体的実装に存在する欠陥がトポロジ的欠陥の性質にどのように影響するかを検討する。 次に,格子ポテンシャルの急変や量子揺らぎによる核生成後のソリトンの注入について検討する。 最後に、ソリトンの伝播と散乱を分析し、これらの過程に影響を与える量子ゆらぎと不完全性の役割を調べる。 さらに,frenkel-kontorovaモデルの実験的実装について述べる。 閉じ込められたイオン量子シミュレータに焦点をあてて,位相励起の制御可能なダイナミクスとその観測のステージを設定した。

The ability for real-time control of topological defects can open up prospects for dynamical manipulation of macroscopic properties of solids. A sub-category of these defects, formed by particle dislocations, can be effectively described using the Frenkel-Kontorova chain, which characterizes the dynamics of these particles in a periodic lattice potential. This model is known to host solitons, which are the topological defects of the system and are linked to structural transitions in the chain. This work addresses three key questions: Firstly, we investigate how imperfections present in concrete implementations of the model affect the properties of topological defects. Secondly, we explore how solitons can be injected after the rapid change in lattice potential or nucleated due to quantum fluctuations. Finally, we analyze the propagation and scattering of solitons, examining the role of quantum fluctuations and imperfections in influencing these processes. Furthermore, we address the experimental implementation of the Frenkel-Kontorova model. Focusing on the trapped ion quantum simulator, we set the stage for controllable dynamics of topological excitations and their observation in this platform.
翻訳日:2024-01-24 16:21:53 公開日:2024-01-23
# prompt smells: 望ましくない生成的なai出力のためのomen

Prompt Smells: An Omen for Undesirable Generative AI Outputs ( http://arxiv.org/abs/2401.12611v1 )

ライセンス: Link先を確認
Krishna Ronanki, Beatriz Cabrero-Daniel, Christian Berger(参考訳) 最近のGenerative Artificial Intelligence(GenAI)トレンドは、ストーリー、イラスト、詩、記事、コンピュータコード、作曲、ビデオなど、さまざまなアプリケーションに焦点を当てている。 外部幻覚は、そのようなGenAIの限界であり、GenAIの信頼性の達成と維持に重大な課題をもたらす可能性がある。 本稿では,GenAIモデルの適用に関する制約に対処する上で,研究コミュニティに有効な2つの新しい概念を提案する。 まず、GenAI出力の「望ましさ」の定義と、それに影響を与える3つの要因について述べる。 第2に、Martin Fowler氏のコードの臭いからインスピレーションを得た上で、我々は「急激な臭い」の概念と、それらがGenAI出力の嫌悪性に与える影響について提案する。 我々は、GenAI出力の望ましさに関する継続的な議論に貢献し、有意義な方法で分野を前進させることを期待する。

Recent Generative Artificial Intelligence (GenAI) trends focus on various applications, including creating stories, illustrations, poems, articles, computer code, music compositions, and videos. Extrinsic hallucinations are a critical limitation of such GenAI, which can lead to significant challenges in achieving and maintaining the trustworthiness of GenAI. In this paper, we propose two new concepts that we believe will aid the research community in addressing limitations associated with the application of GenAI models. First, we propose a definition for the "desirability" of GenAI outputs and three factors which are observed to influence it. Second, drawing inspiration from Martin Fowler's code smells, we propose the concept of "prompt smells" and the adverse effects they are observed to have on the desirability of GenAI outputs. We expect our work will contribute to the ongoing conversation about the desirability of GenAI outputs and help advance the field in a meaningful way.
翻訳日:2024-01-24 16:21:33 公開日:2024-01-23
# 学習ニューラルネットワークの2つのピーク

The twin peaks of learning neural networks ( http://arxiv.org/abs/2401.12610v1 )

ライセンス: Link先を確認
Elizaveta Demyanenko, Christoph Feinauer, Enrico M. Malatesta, Luca Saglietti(参考訳) 近年の研究では、高過パラメータモデルが過剰フィッティングを逃れ、優れたテスト性能を達成するニューラルネットワークの一般化誤差に対して、統計的学習理論で記述された標準バイアス分散トレードオフと相反する二重日光現象の存在が示されている。 本研究では,この現象と,ニューラルネットワークで表される関数の複雑さと感度の増大との関係について検討する。 特にブール平均次元(boolean mean dimension, bmd)はブール関数解析の文脈で開発された計量である。 ランダムな特徴モデルに対する簡単な教師学生設定に着目し,データ点数,特徴数,入力サイズが無限大となる高次元状態において,BMDの解釈可能な表現を生成するレプリカ法に基づく理論的解析を導出する。 ネットワークの過度パラメータ化の度合いが大きくなるにつれて、BMDは一般化誤差ピークに対応して補間しきい値で明らかなピークに達し、その後徐々に低漸近値に近づいた。 同じ現象論は、異なるモデルクラスとトレーニング設定を持つ数値実験で追跡される。 さらに, 逆初期化モデルは高いBMD値を示す傾向があり, また, 敵攻撃に強いモデルは低いBMDを示すことが実証された。

Recent works demonstrated the existence of a double-descent phenomenon for the generalization error of neural networks, where highly overparameterized models escape overfitting and achieve good test performance, at odds with the standard bias-variance trade-off described by statistical learning theory. In the present work, we explore a link between this phenomenon and the increase of complexity and sensitivity of the function represented by neural networks. In particular, we study the Boolean mean dimension (BMD), a metric developed in the context of Boolean function analysis. Focusing on a simple teacher-student setting for the random feature model, we derive a theoretical analysis based on the replica method that yields an interpretable expression for the BMD, in the high dimensional regime where the number of data points, the number of features, and the input size grow to infinity. We find that, as the degree of overparameterization of the network is increased, the BMD reaches an evident peak at the interpolation threshold, in correspondence with the generalization error peak, and then slowly approaches a low asymptotic value. The same phenomenology is then traced in numerical experiments with different model classes and training setups. Moreover, we find empirically that adversarially initialized models tend to show higher BMD values, and that models that are more robust to adversarial attacks exhibit a lower BMD.
翻訳日:2024-01-24 16:21:15 公開日:2024-01-23
# 非凸最適化を用いた高速半教師付きunmixing

Fast Semi-supervised Unmixing using Non-convex Optimization ( http://arxiv.org/abs/2401.12609v1 )

ライセンス: Link先を確認
Behnood Rasti, Alexandre Zouaoui, Julien Mairal, Jocelyn Chanussot(参考訳) 本稿では,半教師付き/ライブラリベースのunmixingのための新しい線形モデルを提案する。 本モデルでは,図書館ミスマッチに対する考察を取り入れつつ,ASC(Abundance sum-to-one constraint)の実施を可能にする。 従来のスパースアンミックス法とは異なり、このモデルは非凸最適化を伴い、重要な計算課題を提示する。 本稿では,これらの複雑な問題を循環的に解決する上で,ALMM(Alternating Methods of Multipliers)の有効性を示す。 我々は,ascに加えて,新しいモデルに適用される異なる事前条件に依存する,半教師付き非混合アプローチを提案する。 実験の結果,convexity制約がendmemberライブラリのsparsityよりも優れていることを確認した。 これらの結果は3つのシミュレーションデータセット(スペクトル変動とピクセル純度レベルの変化)とcupriteデータセットで裏付けられている。 さらに,従来のスパース・アンミックス法との比較により,非凸最適化を伴うモデルの有効性が示された。 特に,提案するアルゴリズム-fast semisupervised unmixing (fasun) と soft-shrinkage (suns) を用いたsparse unmixingの実装は,従来のsparse unmixing法よりもかなり効率的である。 SUnSとFaSUnはPyTorchを使って実装され、Fast Semisupervised Unmixing (FUnmix)と呼ばれる専用のPythonパッケージで提供されている。

In this paper, we introduce a novel linear model tailored for semisupervised/library-based unmixing. Our model incorporates considerations for library mismatch while enabling the enforcement of the abundance sum-to-one constraint (ASC). Unlike conventional sparse unmixing methods, this model involves nonconvex optimization, presenting significant computational challenges. We demonstrate the efficacy of Alternating Methods of Multipliers (ADMM) in cyclically solving these intricate problems. We propose two semisupervised unmixing approaches, each relying on distinct priors applied to the new model in addition to the ASC: sparsity prior and convexity constraint. Our experimental results validate that enforcing the convexity constraint outperforms the sparsity prior for the endmember library. These results are corroborated across three simulated datasets (accounting for spectral variability and varying pixel purity levels) and the Cuprite dataset. Additionally, our comparison with conventional sparse unmixing methods showcases considerable advantages of our proposed model, which entails nonconvex optimization. Notably, our implementations of the proposed algorithms-fast semisupervised unmixing (FaSUn) and sparse unmixing using soft-shrinkage (SUnS)-prove considerably more efficient than traditional sparse unmixing methods. SUnS and FaSUn were implemented using PyTorch and provided in a dedicated Python package called Fast Semisupervised Unmixing (FUnmix), which is open-source and available at https://github.com/BehnoodRasti/FUnmix
翻訳日:2024-01-24 16:20:52 公開日:2024-01-23
# asap (automatic software for asl processing):動脈スピンラベリング画像を処理するためのツールボックス

ASAP (Automatic Software for ASL Processing): A toolbox for processing Arterial Spin Labeling images ( http://arxiv.org/abs/2401.12603v1 )

ライセンス: Link先を確認
Virginia Mato Abad, Pablo Garcia-Polo, Owen ODaly, Juan Antonio Hernandez-Tamames, Fernando Zelaya(参考訳) ASL(Arterial Spin Labeling)法は、非侵襲的な血液灌流を計測できる唯一の技術であるため、機能的イメージングへの応用において顕著な上昇を経験している。 現在、ASLデータを処理する商用パッケージは存在せず、ASLデータを参照の共通フレームに標準化するための標準規格も存在していない。 この作業では、複数のASLデータセットを自動処理できる新しいASL処理用ソフトウェア(ASAP)について説明する。 ASAPには、定量化、頭蓋骨切断、共同登録、部分体積補正、正規化など、画像前処理のすべての段階の機能が含まれている。 本研究は,アルツハイマー病に進行する危険のある健常者のサンプルにおける低灌流研究において,ツールボックスの適用性と妥当性を評価するため,その応用例を示す。 ASAPは、限られたユーザーの介入を必要とし、ランダムで体系的なエラーの可能性を最小限に抑え、統計学的グループ分析の準備が整った脳血流マップを生成する。 このソフトウェアは操作が容易で、空間正規化の優れた品質をもたらす。 この評価研究で得られた結果は、灌流量が減少する以前の研究と一致している。

The method of Arterial Spin Labeling (ASL) has experienced a significant rise in its application to functional imaging, since it is the only technique capable of measuring blood perfusion in a truly non-invasive manner. Currently, there are no commercial packages for processing ASL data and there is no recognised standard for normalising ASL data to a common frame of reference. This work describes a new Automated Software for ASL Processing (ASAP) that can automatically process several ASL datasets. ASAP includes functions for all stages of image pre-processing: quantification, skull-stripping, co-registration, partial volume correction and normalization. To assess the applicability and validity of the toolbox, this work shows its application in the study of hypoperfusion in a sample of healthy subjects at risk of progressing to Alzheimer's Disease. ASAP requires limited user intervention, minimising the possibility of random and systematic errors, and produces cerebral blood flow maps that are ready for statistical group analysis. The software is easy to operate and results in excellent quality of spatial normalisation. The results found in this evaluation study are consistent with previous studies that find decreased perfusion
翻訳日:2024-01-24 16:20:25 公開日:2024-01-23
# PDF構造認識の強化による検索機能強化

Revolutionizing Retrieval-Augmented Generation with Enhanced PDF Structure Recognition ( http://arxiv.org/abs/2401.12599v1 )

ライセンス: Link先を確認
Demiao Lin (chatdoc.com)(参考訳) 大規模言語モデル(llms)の急速な発展に伴い、検索型生成(rag)は専門知識に基づく質問応答の分野において主流となっている。 現在、主要な基盤モデル企業が Embedding と Chat API インターフェースをオープンしており、LangChain のようなフレームワークはすでに RAG プロセスを統合している。 ragの重要なモデルとステップが解決されたように思える。 プロフェッショナルな知識qaシステムは、今、完璧に近づいているのだろうか? 本稿では, 高品質テキストコーパスにアクセスする前提に依存している。 しかし、専門文書は主にPDFに格納されているため、PDF解析の精度が低いことは専門知識に基づくQAの有効性に大きな影響を及ぼす。 我々は実世界のプロフェッショナル文書から数百の質問に対して実験的なRAG実験を行った。 その結果, panoptic と pinpoint の pdf パーサを備えた rag システムである chatdoc が,より正確かつ完全なセグメントを検索し,よりよい回答を得ることができた。 実証実験によれば、chatdocは質問の47%でベースラインよりも優れており、ケースの38%が関連しており、ケースの15%が不足している。 PDF構造認識の強化によりRAGに革命をもたらす可能性が示唆された。

With the rapid development of Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) has become a predominant method in the field of professional knowledge-based question answering. Presently, major foundation model companies have opened up Embedding and Chat API interfaces, and frameworks like LangChain have already integrated the RAG process. It appears that the key models and steps in RAG have been resolved, leading to the question: are professional knowledge QA systems now approaching perfection? This article discovers that current primary methods depend on the premise of accessing high-quality text corpora. However, since professional documents are mainly stored in PDFs, the low accuracy of PDF parsing significantly impacts the effectiveness of professional knowledge-based QA. We conducted an empirical RAG experiment across hundreds of questions from the corresponding real-world professional documents. The results show that, ChatDOC, a RAG system equipped with a panoptic and pinpoint PDF parser, retrieves more accurate and complete segments, and thus better answers. Empirical experiments show that ChatDOC is superior to baseline on nearly 47% of questions, ties for 38% of cases, and falls short on only 15% of cases. It shows that we may revolutionize RAG with enhanced PDF structure recognition.
翻訳日:2024-01-24 16:20:05 公開日:2024-01-23
# UniHDA:イメージジェネレータのユニバーサルハイブリッドドメイン適応を目指して

UniHDA: Towards Universal Hybrid Domain Adaptation of Image Generators ( http://arxiv.org/abs/2401.12596v1 )

ライセンス: Link先を確認
Hengjia Li, Yang Liu, Yuqi Lin, Zhanwei Zhang, Yibo Zhao, weihang Pan, Tu Zheng, Zheng Yang, Yuchun Jiang, Boxi Wu, Deng Cai(参考訳) 生成領域適応は著しく進歩し、事前訓練されたジェネレータを新しいターゲットドメインに適応できるようになりました。 しかし、既存のメソッドはジェネレータを単一のターゲットドメインに適応させるだけで、テキスト駆動または画像駆動のいずれかの単一のモダリティに制限される。 さらにそれらは、必然的にドメイン間の一貫性を損なうドメイン固有の属性をオーバーフィットしがちである。 本稿では,複数領域からのマルチモーダル参照を持つ生成的ハイブリッドドメイン適応のための統一的で汎用的なフレームワーク unihda を提案する。 クリップエンコーダを用いて,マルチモーダル参照を統一埋め込み空間に投影し,複数の対象領域から方向ベクトルを線形補間し,ハイブリッド領域適応を実現する。 クロスドメインの整合性を確保するため、ソースとターゲットジェネレータ間の詳細な空間構造情報を保持する新しいクロスドメイン空間構造(CSS)損失を提案する。 実験により、適応型生成器は様々な属性構成の現実的な画像を合成できることが示されている。 さらに、我々のフレームワークは、複数のジェネレータ、 \eg、 StyleGAN2、 Diffusion Modelsに対して汎用的です。

Generative domain adaptation has achieved remarkable progress, enabling us to adapt a pre-trained generator to a new target domain. However, existing methods simply adapt the generator to a single target domain and are limited to a single modality, either text-driven or image-driven. Moreover, they are prone to overfitting domain-specific attributes, which inevitably compromises cross-domain consistency. In this paper, we propose UniHDA, a unified and versatile framework for generative hybrid domain adaptation with multi-modal references from multiple domains. We use CLIP encoder to project multi-modal references into a unified embedding space and then linear interpolate the direction vectors from multiple target domains to achieve hybrid domain adaptation. To ensure the cross-domain consistency, we propose a novel cross-domain spatial structure (CSS) loss that maintains detailed spatial structure information between source and target generator. Experiments show that the adapted generator can synthesise realistic images with various attribute compositions. Additionally, our framework is versatile to multiple generators, \eg, StyleGAN2 and Diffusion Models.
翻訳日:2024-01-24 16:19:43 公開日:2024-01-23
# SCORPION Cyber Range: サイバーセキュリティ能力のトレーニングのための、完全にカスタマイズ可能なサイバーエクササイズ、ゲーミフィケーション、学習分析

SCORPION Cyber Range: Fully Customizable Cyberexercises, Gamification and Learning Analytics to Train Cybersecurity Competencies ( http://arxiv.org/abs/2401.12594v1 )

ライセンス: Link先を確認
Pantaleone Nespoli, Mariano Albaladejo-Gonz\'alez, Jos\'e Antonio Pastor Valera, Jos\'e A. Ruip\'erez-Valiente, Joaquin Garcia-Alfaro, F\'elix G\'omez M\'armol(参考訳) 我々は前例のないデジタル革命を目撃しているのは間違いない。 しかし近年はサイバー攻撃の爆発で特徴づけられ、サイバー犯罪は世界で最も収益性の高い企業の一つとなっている。 そのため、サイバースペースの資産を保護するためにサイバーセキュリティのトレーニングがますます不可欠になっている。 サイバーセキュリティ能力を訓練する上でもっとも重要なツールの1つは、現実的なネットワークをシミュレートする仮想環境であるCyber Rangeだ。 論文では、シナリオのオーサリングと自動デプロイを管理する、完全に機能的で仮想化されたCyber RangeであるSCORPIONを紹介している。 また、SCORPIONには、メダル、ポイント、ランキングを含むゲーミフィケーションシステムなど、学生のモチベーションを改善するための要素がいくつか含まれている。 このようなゲーム化システムは、ユーザのパフォーマンスに基づいてサイバーエクセルシズを適応させることができる適応学習モジュールを含む。 さらにscorpionは、スマートウォッチを通じて心拍数を含む、テレメトリックおよびバイオメトリックなユーザデータを収集し、処理する学習アナリティクスを活用している。 最後に,スコーピオンが使用感82.10\%,有用性4.57を学生とインストラクターの視点から獲得したケーススタディを開発した。 ポジティブな評価結果は有望であり、SCORPIONがこの状況における現在のギャップを埋めるために効果的な、モチベーションと高度なサイバーセキュリティトレーニングツールになる可能性があることを示している。

It is undeniable that we are witnessing an unprecedented digital revolution. However, recent years have been characterized by the explosion of cyberattacks, making cybercrime one of the most profitable businesses on the planet. That is why training in cybersecurity is increasingly essential to protect the assets of cyberspace. One of the most vital tools to train cybersecurity competencies is the Cyber Range, a virtualized environment that simulates realistic networks. The paper at hand introduces SCORPION, a fully functional and virtualized Cyber Range, which manages the authoring and automated deployment of scenarios. In addition, SCORPION includes several elements to improve student motivation, such as a gamification system with medals, points, or rankings, among other elements. Such a gamification system includes an adaptive learning module that is able to adapt the cyberexercise based on the users' performance. Moreover, SCORPION leverages learning analytics that collects and processes telemetric and biometric user data, including heart rate through a smartwatch, which is available through a dashboard for instructors. Finally, we developed a case study where SCORPION obtained 82.10\% in usability and 4.57 out of 5 in usefulness from the viewpoint of a student and an instructor. The positive evaluation results are promising, indicating that SCORPION can become an effective, motivating, and advanced cybersecurity training tool to help fill current gaps in this context.
翻訳日:2024-01-24 16:19:27 公開日:2024-01-23
# moregin: グローバルおよび個人レベルでの多目的レコメンデーション

MOReGIn: Multi-Objective Recommendation at the Global and Individual Levels ( http://arxiv.org/abs/2401.12593v1 )

ライセンス: Link先を確認
Elizabeth G\'omez, David Contreras, Ludovico Boratto, Maria Salam\'o(参考訳) マルチオブジェクトレコメンダシステム(MORS)は、複数の(しばしば矛盾する)目標を保証するパラダイムとして登場した。 正確性に加えて、MORSはグローバルレベルで運用でき、システム全体または個々のレベルで追加の精度以上の目標が満たされる。 最先端のMORSは、2つの視点の共存を仮定することなく、グローバルまたは個別のレベルで運用される。 本研究では,グローバル目標と個別目標が共存している場合,モースが両方の目標を満たせないことを示す。 この問題を克服するために,提案するレコメンデーションリストを規制し,その有効性を保ちながら,グローバル視点と個人視点の両方を保証するアプローチを提案する。 具体的には、個々の視点として、ジャンルのキャリブレーションに取り組み、グローバルな視点として、プロバイダフェアネスに取り組みます。 本論文で公表した2つの実世界のデータセットに対するアプローチを検証する。

Multi-Objective Recommender Systems (MORSs) emerged as a paradigm to guarantee multiple (often conflicting) goals. Besides accuracy, a MORS can operate at the global level, where additional beyond-accuracy goals are met for the system as a whole, or at the individual level, meaning that the recommendations are tailored to the needs of each user. The state-of-the-art MORSs either operate at the global or individual level, without assuming the co-existence of the two perspectives. In this study, we show that when global and individual objectives co-exist, MORSs are not able to meet both types of goals. To overcome this issue, we present an approach that regulates the recommendation lists so as to guarantee both global and individual perspectives, while preserving its effectiveness. Specifically, as individual perspective, we tackle genre calibration and, as global perspective, provider fairness. We validate our approach on two real-world datasets, publicly released with this paper.
翻訳日:2024-01-24 16:19:03 公開日:2024-01-23
# 野生のRGBDオブジェクト:RGB-Dビデオによる実世界の3Dオブジェクト学習のスケーリング

RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos ( http://arxiv.org/abs/2401.12592v1 )

ライセンス: Link先を確認
Hongchi Xia, Yang Fu, Sifei Liu, Xiaolong Wang(参考訳) 野生ではWildRGB-Dと呼ばれる新しいRGB-Dオブジェクトデータセットを導入する。 rgbキャプチャのみの既存の現実世界のオブジェクト中心データセットとは異なり、深度チャネルを直接キャプチャすることで、3dアノテーションとより広範な下流アプリケーションが可能になる。 WildRGB-Dは、大規模なカテゴリレベルのRGB-Dオブジェクトビデオで構成されており、iPhoneを使って360度回転させる。 約8500の録音オブジェクトと、46の共通オブジェクトカテゴリにわたる20000 RGB-Dビデオが含まれている。 これらのビデオは、さまざまな背景が散らばっていて、3つの設定でできるだけ多くの現実のシナリオをカバーしています。 (i) 1つのビデオ中の1つのオブジェクト (ii)1つのビデオ中の複数のオブジェクト (iii)一本のビデオに静的な手が入った物。 データセットには、オブジェクトマスク、現実世界のカメラポーズ、RGBDビデオから集約されたポイントクラウドがアノテートされている。 wildrgb-dでは,新しいビュー合成,カメラポーズ推定,オブジェクト6dポーズ推定,オブジェクト表面再構成の4つのタスクをベンチマークした。 実験の結果,RGB-D物体の大規模捕獲は,3次元物体の学習を促進する大きな可能性を秘めていることがわかった。 プロジェクトページはhttps://wildrgbd.github.io/です。

We introduce a new RGB-D object dataset captured in the wild called WildRGB-D. Unlike most existing real-world object-centric datasets which only come with RGB capturing, the direct capture of the depth channel allows better 3D annotations and broader downstream applications. WildRGB-D comprises large-scale category-level RGB-D object videos, which are taken using an iPhone to go around the objects in 360 degrees. It contains around 8500 recorded objects and nearly 20000 RGB-D videos across 46 common object categories. These videos are taken with diverse cluttered backgrounds with three setups to cover as many real-world scenarios as possible: (i) a single object in one video; (ii) multiple objects in one video; and (iii) an object with a static hand in one video. The dataset is annotated with object masks, real-world scale camera poses, and reconstructed aggregated point clouds from RGBD videos. We benchmark four tasks with WildRGB-D including novel view synthesis, camera pose estimation, object 6d pose estimation, and object surface reconstruction. Our experiments show that the large-scale capture of RGB-D objects provides a large potential to advance 3D object learning. Our project page is https://wildrgbd.github.io/.
翻訳日:2024-01-24 16:18:47 公開日:2024-01-23
# 等変表現の解釈

Interpreting Equivariant Representations ( http://arxiv.org/abs/2401.12588v1 )

ライセンス: Link先を確認
Andreas Abildtrup Hansen, Anna Calissano, Aasa Feragen(参考訳) 潜在表現は、可視化、補間、ディープラーニングモデルの特徴抽出などの下流タスクに広く使用される。 不変および同変ニューラルネットワークは、誘導バイアスを強制するための強力で確立されたモデルである。 本稿では,同変モデルによって課される帰納的バイアスを,潜在表現を用いた場合にも考慮する必要があることを示す。 帰納的バイアスの計算が下流タスクのパフォーマンスを低下させる方法を示し,その逆もまた,潜在表現の不変射影を用いて帰納的バイアスの計算を効果的に行う方法を示す。 まず、分子グラフ生成のために訓練された置換同変変変変量オートエンコーダについて検討し、その結果の不変表現において情報の損失を生じさせないように不変射影を設計できることを示す。 次に,画像分類に用いる回転同変表現について検討する。 本稿では,高次に保持された情報を持つ不変表現を得るために,ランダムな不変射影を用いた方法を示す。 どちらの場合も、不変潜在表現の解析は同変表現よりも優れている。 最後に,同変ニューラルネットワークに記述された現象は,拡張によって不変性が促進される標準ニューラルネットワークに類似していることを示す。 したがって、これらのあいまいさは、経験豊富な同変モデルの開発者によって知られているかもしれないが、より広いコミュニティで利用できるあいまいさを扱うための知識と効果的なツールの両方を作る。

Latent representations are used extensively for downstream tasks, such as visualization, interpolation or feature extraction of deep learning models. Invariant and equivariant neural networks are powerful and well-established models for enforcing inductive biases. In this paper, we demonstrate that the inductive bias imposed on the by an equivariant model must also be taken into account when using latent representations. We show how not accounting for the inductive biases leads to decreased performance on downstream tasks, and vice versa, how accounting for inductive biases can be done effectively by using an invariant projection of the latent representations. We propose principles for how to choose such a projection, and show the impact of using these principles in two common examples: First, we study a permutation equivariant variational auto-encoder trained for molecule graph generation; here we show that invariant projections can be designed that incur no loss of information in the resulting invariant representation. Next, we study a rotation-equivariant representation used for image classification. Here, we illustrate how random invariant projections can be used to obtain an invariant representation with a high degree of retained information. In both cases, the analysis of invariant latent representations proves superior to their equivariant counterparts. Finally, we illustrate that the phenomena documented here for equivariant neural networks have counterparts in standard neural networks where invariance is encouraged via augmentation. Thus, while these ambiguities may be known by experienced developers of equivariant models, we make both the knowledge as well as effective tools to handle the ambiguities available to the broader community.
翻訳日:2024-01-24 16:18:26 公開日:2024-01-23
# 資源制限デバイスにおける高速暗黙的ニューラル表現画像コーデック

Fast Implicit Neural Representation Image Codec in Resource-limited Devices ( http://arxiv.org/abs/2401.12587v1 )

ライセンス: Link先を確認
Xiang Liu, Jiahong Chen, Bin Chen, Zimo Liu, Baoyi An, Shu-Tao Xia(参考訳) 拡張現実デバイスなどのエッジデバイスに高品質な画像を表示することは,ユーザエクスペリエンスの向上に不可欠である。 しかし、これらのデバイスは、しばしば消費電力やリソースの制限に直面するため、ディープラーニングベースの画像圧縮アルゴリズムをこの分野に適用するのは困難である。 画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。 また、多くの従来の、初期のニューラル圧縮手法よりも品質が優れている。 本研究では,現行のinrコーデックの復号時間を著しく短縮する新しい混合自己回帰モデル(marm)と,再構成品質を向上させる新しい合成ネットワークを提案する。 marmには,高度に計算効率の高いautoregressive upsampler (aru)ブロックと,デコード時間と復元品質のバランスをとるための以前の作業からのarmが含まれている。 また、チェッカーボード2段復号方式を用いてARUの性能向上も提案する。 さらに、異なるモジュールの比率を調整して、品質と速度のバランスを維持することができる。 本手法は画像品質を保ちながら計算効率を大幅に向上することを示した。 パラメータ設定の違いにより,本手法は他のINRコーデックと比較して,品質と復号時間の両方の制約のある環境において,一般的なAEコーデックよりも優れる。

Displaying high-quality images on edge devices, such as augmented reality devices, is essential for enhancing the user experience. However, these devices often face power consumption and computing resource limitations, making it challenging to apply many deep learning-based image compression algorithms in this field. Implicit Neural Representation (INR) for image compression is an emerging technology that offers two key benefits compared to cutting-edge autoencoder models: low computational complexity and parameter-free decoding. It also outperforms many traditional and early neural compression methods in terms of quality. In this study, we introduce a new Mixed Autoregressive Model (MARM) to significantly reduce the decoding time for the current INR codec, along with a new synthesis network to enhance reconstruction quality. MARM includes our proposed Autoregressive Upsampler (ARU) blocks, which are highly computationally efficient, and ARM from previous work to balance decoding time and reconstruction quality. We also propose enhancing ARU's performance using a checkerboard two-stage decoding strategy. Moreover, the ratio of different modules can be adjusted to maintain a balance between quality and speed. Comprehensive experiments demonstrate that our method significantly improves computational efficiency while preserving image quality. With different parameter settings, our method can outperform popular AE-based codecs in constrained environments in terms of both quality and decoding time, or achieve state-of-the-art reconstruction quality compared to other INR codecs.
翻訳日:2024-01-24 16:18:04 公開日:2024-01-23
# SLANG: 大規模言語モデルの新たな概念理解

SLANG: New Concept Comprehension of Large Language Models ( http://arxiv.org/abs/2401.12585v1 )

ライセンス: Link先を確認
Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Xueqi Chen(参考訳) 言語の動的な性質は、特にインターネット上のスラングやミームの領域において顕著であり、大規模言語モデル(llm)の適応性に深刻な課題をもたらす。 伝統的に静的データセットに固定されているこれらのモデルは、しばしばオンラインコミュニティの急速な言語進化の特徴に追従するのに苦労する。 本研究は,インターネット上での新たな概念の展開に対するLCMの理解を高めることを目的とした,このギャップを埋める重要な必要性に対処するものである。 この問題に対処するために,新しいベンチマーク $\textbf{SLANG}$ を提案し,新たな言語的傾向を理解する上で LLM の習熟度を評価するとともに,因果推論を用いて新しいフレーズや使用パターンを理解するためのベースラインアプローチ $\textbf{FOCUS}$ を提案する。 このアプローチでは、コンテキストビーコンとして機能する言語シフトの現実世界の事例を精査し、新たに出現した表現と意図した意味の間のより正確で文脈的に関連性のある関係を形成する。 実験分析により,我々の因果推論に基づくアプローチは,インターネットスラングとミームの解釈において,精度と関連性の観点から従来のモデルよりも優れていることが示された。

The dynamic nature of language, particularly evident in the realm of slang and memes on the Internet, poses serious challenges to the adaptability of large language models (LLMs). Traditionally anchored to static datasets, these models often struggle to keep up with the rapid linguistic evolution characteristic of online communities. This research addresses the critical need to bridge this gap, aiming to enhance LLMs' comprehension of evolving new concepts on the internet, without the high cost and impracticality of continual retraining. To address this issue, we propose a new benchmark $\textbf{SLANG}$ to assess LLMs' proficiency in comprehending emerging linguistic trends and a baseline approach $\textbf{FOCUS}$, which uses causal inference to enhance LLMs to understand new phrases and usage patterns. This approach involves scrutinizing real-world instances of linguistic shifts, serving as contextual beacons, to form more precise and contextually relevant connections between newly emerging expressions and their intended meanings. The empirical analysis shows that our causal inference-based approach outperforms the traditional models in terms of precision and relevance in the interpretation of Internet slang and memes.
翻訳日:2024-01-24 16:17:40 公開日:2024-01-23
# llmcheckup: 解釈ツールによる大規模言語モデルの会話的検証

LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools ( http://arxiv.org/abs/2401.12576v1 )

ライセンス: Link先を確認
Qianli Wang, Tatiana Anikina, Nils Feldhus, Josef van Genabith, Leonhard Hennig, Sebastian M\"oller(参考訳) 対話形式で説明を提供する解釈可能性ツールは、ユーザへの十分な情報提供において、一括説明が不足することがあるため、ユーザの理解を高める効果を示す。 しかし、現在の対話ベースの説明のソリューションは、多くの依存関係を必要とし、設計されていないタスクに簡単に移行できない。 LLMCheckupでは、ユーザが最新の大規模言語モデル(LLM)の振る舞いをチャットできる、容易にアクセスできるツールを提供する。 特徴属性や埋め込みに基づく類似性など,説明可能なAI(XAI)ツールの幅広い範囲を接続し,反実的かつ合理的な生成戦略を促すことで,LCMが自己ですべての説明を生成し,微調整なしで意図認識を行うことを可能にする。 LLM(self-)説明は、フォローアップ質問をサポートし、提案を生成する対話対話として提示される。 LLMCheckupは、XAIのさまざまなレベルの専門知識を持つ個人を対象に、システムで利用可能なオペレーションのチュートリアルを提供し、複数の入力モダリティをサポートする。 本稿では,LLMの構文解析精度を大幅に向上させるマルチプロンプト解析という新しい解析手法を提案する。 最後に,ファクトチェックとコモンセンスな質問応答の課題を紹介する。

Interpretability tools that offer explanations in the form of a dialogue have demonstrated their efficacy in enhancing users' understanding, as one-off explanations may occasionally fall short in providing sufficient information to the user. Current solutions for dialogue-based explanations, however, require many dependencies and are not easily transferable to tasks they were not designed for. With LLMCheckup, we present an easily accessible tool that allows users to chat with any state-of-the-art large language model (LLM) about its behavior. We enable LLMs to generate all explanations by themselves and take care of intent recognition without fine-tuning, by connecting them with a broad spectrum of Explainable AI (XAI) tools, e.g. feature attributions, embedding-based similarity, and prompting strategies for counterfactual and rationale generation. LLM (self-)explanations are presented as an interactive dialogue that supports follow-up questions and generates suggestions. LLMCheckup provides tutorials for operations available in the system, catering to individuals with varying levels of expertise in XAI and supports multiple input modalities. We introduce a new parsing strategy called multi-prompt parsing substantially enhancing the parsing accuracy of LLMs. Finally, we showcase the tasks of fact checking and commonsense question answering.
翻訳日:2024-01-24 16:17:18 公開日:2024-01-23
# DiffMoog:サウンドマッチングのためのモジュラー合成器

DiffMoog: a Differentiable Modular Synthesizer for Sound Matching ( http://arxiv.org/abs/2401.12570v1 )

ライセンス: Link先を確認
Noy Uzrad, Oren Barkan, Almog Elharar, Shlomi Shvartzman, Moshe Laufer, Lior Wolf, Noam Koenigstein(参考訳) 本稿では、商用機器で一般的に見られる包括的なモジュールセットを持つ微分可能なモジュラーシンセサイザdiffmoogを提案する。 差別化が可能であるため、ニューラルネットワークとの統合、自動サウンドマッチング、所定のオーディオ入力の複製が可能になる。 特に、DiffMoogは変調機能(FM/AM)、低周波発振器(LFO)、フィルタ、エンベロープシェイパー、ユーザがカスタムシグナルチェーンを作成できる機能を提供する。 我々はdiffmoogとエンド・ツー・エンドのサウンドマッチングフレームワークからなるオープンソースプラットフォームを紹介する。 このフレームワークは、新しい信号チェーン損失と、その出力を自己プログラムしてDiffMoogsパラメータをユーザ定義のモジュラアーキテクチャに基づいて予測するエンコーダネットワークを利用する。 さらに, 可微分合成を用いた音響マッチングについて, 知見と教訓を提供する。 強固な音響能力を総合的なプラットフォームと組み合わせることで、diffmoogは音声合成と機械学習の研究を迅速化するための重要な資産となっている。

This paper presents DiffMoog - a differentiable modular synthesizer with a comprehensive set of modules typically found in commercial instruments. Being differentiable, it allows integration into neural networks, enabling automated sound matching, to replicate a given audio input. Notably, DiffMoog facilitates modulation capabilities (FM/AM), low-frequency oscillators (LFOs), filters, envelope shapers, and the ability for users to create custom signal chains. We introduce an open-source platform that comprises DiffMoog and an end-to-end sound matching framework. This framework utilizes a novel signal-chain loss and an encoder network that self-programs its outputs to predict DiffMoogs parameters based on the user-defined modular architecture. Moreover, we provide insights and lessons learned towards sound matching using differentiable synthesis. Combining robust sound capabilities with a holistic platform, DiffMoog stands as a premier asset for expediting research in audio synthesis and machine learning.
翻訳日:2024-01-24 16:16:57 公開日:2024-01-23
# エネルギーベース自動モデル評価

Energy-based Automated Model Evaluation ( http://arxiv.org/abs/2401.12689v1 )

ライセンス: Link先を確認
Ru Peng, Heming Zou, Haobo Wang, Yawen Zeng, Zenan Huang, Junbo Zhao(参考訳) 機械学習モデルの従来の評価プロトコルは、ラベル付き、すなわち、実世界のアプリケーションではあまり使われないテストデータセットに大きく依存している。 Automated Model Evaluation (AutoEval)は、地平線ラベルなしでテストパフォーマンスの近位予測パイプラインを構築することで、この従来のワークフローに代わるものを示している。 最近の成功にもかかわらず、AutoEvalフレームワークはいまだに自信過剰な問題、かなりのストレージと計算コストに悩まされている。 そこで我々は,AutoEvalフレームワークをより効率的かつ効果的にするための新しい手段であるメタ・ディストリビューション・エナジー(MDE)を提案する。 mdeの中核は、個々のサンプルに関連する情報(エネルギー)に基づいてメタ分散統計を確立し、エネルギーベースの学習によってよりスムーズな表現を提供することである。 さらに,mdeと分類損失を結びつけることで,理論的知見を提供する。 我々は、mdeの妥当性を検証するために、モダリティ、データセット、異なるアーキテクチャバックボーンにまたがる広範な実験と、それ以前のアプローチよりも優れた実験を提供する。 また,大規模モデルとのシームレスな統合と,雑音や不均衡ラベルによる学習シナリオへの適応性を示すことで,MDEの汎用性を証明する。

The conventional evaluation protocols on machine learning models rely heavily on a labeled, i.i.d-assumed testing dataset, which is not often present in real world applications. The Automated Model Evaluation (AutoEval) shows an alternative to this traditional workflow, by forming a proximal prediction pipeline of the testing performance without the presence of ground-truth labels. Despite its recent successes, the AutoEval frameworks still suffer from an overconfidence issue, substantial storage and computational cost. In that regard, we propose a novel measure -- Meta-Distribution Energy (MDE) -- that allows the AutoEval framework to be both more efficient and effective. The core of the MDE is to establish a meta-distribution statistic, on the information (energy) associated with individual samples, then offer a smoother representation enabled by energy-based learning. We further provide our theoretical insights by connecting the MDE with the classification loss. We provide extensive experiments across modalities, datasets and different architectural backbones to validate MDE's validity, together with its superiority compared with prior approaches. We also prove MDE's versatility by showing its seamless integration with large-scale models, and easy adaption to learning scenarios with noisy- or imbalanced- labels.
翻訳日:2024-01-24 16:10:11 公開日:2024-01-23
# ClipSAM: ゼロショット異常セグメンテーションのためのCLIPとSAMコラボレーション

ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation ( http://arxiv.org/abs/2401.12665v1 )

ライセンス: Link先を確認
Shengze Li, Jianjian Cao, Peng Ye, Yuhan Ding, Chongjun Tu, Tao Chen(参考訳) 近年、CLIPやSAMといった基礎モデルでは、ZSAS(Zero-Shot Anomaly Segmentation)の課題に期待できる性能を示している。 しかし、CLIPベースのかSAMベースのZSASメソッドは、まだ無視できないキーの欠点に悩まされている。 1)CLIPは主に異なる入力を横断するグローバルな特徴アライメントに焦点を当てており、局所的な異常部分の不正確なセグメンテーションにつながる。 2)SAMは適切なプロンプト制約なしに多数の冗長マスクを生成する傾向にあり,複雑な後処理要件が生じる。 本研究では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。 ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに利用することである。 本稿では,CLIPの複数スケールで視覚的特徴を持つ言語と対話し,異常位置の推論を行うための,UMCI(Unified Multi-scale Cross-modal Interaction)モジュールを提案する。 次に,位置情報をマルチレベルプロンプトとして活用し,samが階層的なマスクレベルを取得してマージする,新たなマルチレベルマスクリファインメント(mmr)モジュールを設計する。 MVTec-ADおよびVisAデータセット上での最適セグメンテーション性能を達成し,本手法の有効性を検証する。

Recently, foundational models such as CLIP and SAM have shown promising performance for the task of Zero-Shot Anomaly Segmentation (ZSAS). However, either CLIP-based or SAM-based ZSAS methods still suffer from non-negligible key drawbacks: 1) CLIP primarily focuses on global feature alignment across different inputs, leading to imprecise segmentation of local anomalous parts; 2) SAM tends to generate numerous redundant masks without proper prompt constraints, resulting in complex post-processing requirements. In this work, we innovatively propose a CLIP and SAM collaboration framework called ClipSAM for ZSAS. The insight behind ClipSAM is to employ CLIP's semantic understanding capability for anomaly localization and rough segmentation, which is further used as the prompt constraints for SAM to refine the anomaly segmentation results. In details, we introduce a crucial Unified Multi-scale Cross-modal Interaction (UMCI) module for interacting language with visual features at multiple scales of CLIP to reason anomaly positions. Then, we design a novel Multi-level Mask Refinement (MMR) module, which utilizes the positional information as multi-level prompts for SAM to acquire hierarchical levels of masks and merges them. Extensive experiments validate the effectiveness of our approach, achieving the optimal segmentation performance on the MVTec-AD and VisA datasets.
翻訳日:2024-01-24 16:09:51 公開日:2024-01-23
# 人間の専門知識を連続空間に統合する: 嗜好性が期待できる新しい対話型ベイズ最適化フレームワーク

Integrating Human Expertise in Continuous Spaces: A Novel Interactive Bayesian Optimization Framework with Preference Expected Improvement ( http://arxiv.org/abs/2401.12662v1 )

ライセンス: Link先を確認
Nikolaus Feith, Elmar Rueckert(参考訳) Interactive Machine Learning (IML)は、人間の専門知識を機械学習プロセスに統合することを目指している。 しかし、ほとんどの既存のアルゴリズムは、状態空間やアクション空間が離散値に限定されているため、Realworld Scenariosには適用できない。 さらに、既存のすべてのメソッドの相互作用は、複数の提案間の決定に制限される。 そこで我々はベイズ最適化(BO)に基づく新しい枠組みを提案する。 Interactive Bayesian Optimization (IBO)は、機械学習アルゴリズムと人間とのコラボレーションを可能にする。 このフレームワークはユーザの好みを捉え、ユーザが手動で戦略を形作るためのインターフェースを提供する。 さらに,ユーザの嗜好の確率論的モデルを用いて,システムの効率を向上するために,新たな獲得機能であるPreference expected Improvement (PEI)を組み込んだ。 私たちのアプローチは、機械が人間の専門知識の恩恵を受けられるように、より整合的で効果的な学習プロセスを目指しています。 本研究の過程で,Franka Pandaロボットを用いたシミュレーションおよび実世界の課題に本手法を適用し,人間とロボットのコラボレーションを示す。

Interactive Machine Learning (IML) seeks to integrate human expertise into machine learning processes. However, most existing algorithms cannot be applied to Realworld Scenarios because their state spaces and/or action spaces are limited to discrete values. Furthermore, the interaction of all existing methods is restricted to deciding between multiple proposals. We therefore propose a novel framework based on Bayesian Optimization (BO). Interactive Bayesian Optimization (IBO) enables collaboration between machine learning algorithms and humans. This framework captures user preferences and provides an interface for users to shape the strategy by hand. Additionally, we've incorporated a new acquisition function, Preference Expected Improvement (PEI), to refine the system's efficiency using a probabilistic model of the user preferences. Our approach is geared towards ensuring that machines can benefit from human expertise, aiming for a more aligned and effective learning process. In the course of this work, we applied our method to simulations and in a real world task using a Franka Panda robot to show human-robot collaboration.
翻訳日:2024-01-24 16:09:23 公開日:2024-01-23
# コントラスト学習による一貫性強化に基づくディープマルチビュークラスタリング

Consistency Enhancement-Based Deep Multiview Clustering via Contrastive Learning ( http://arxiv.org/abs/2401.12648v1 )

ライセンス: Link先を確認
Hao Yang, Hua Mao, Wai Lok Woo, Jie Chen and Xi Peng(参考訳) マルチビュークラスタリング(mvc)は、複数のビューにまたがる情報を合成することで、データサンプルを有意義なクラスタに分離する。 さらに、ディープラーニングベースのメソッドは、MVCシナリオで強力な機能学習能力を実証しています。 しかし、一貫性を維持しながら機能表現を効果的に一般化することは依然として難題である。 さらに、コントラスト学習に基づく既存の深層クラスタリング手法の多くは、クラスタリングプロセス中のクラスタリング表現の一貫性を見落としている。 本稿では、上記の問題を克服し、コントラスト学習(CCEC)による一貫した拡張に基づく深層MVC法を提案する。 具体的には、複数のビュー間の一貫性のある情報を保持するために、セマンティック接続ブロックを特徴表現に組み込む。 さらに、スペクトルクラスタリングによりクラスタリングの表現プロセスが強化され、複数のビュー間の一貫性が向上する。 5つのデータセットで行った実験は、最先端(SOTA)手法と比較して、本手法の有効性と優位性を示した。 このメソッドのコードはhttps://anonymous.4open.science/r/CCEC-E84E/でアクセスできる。

Multiview clustering (MVC) segregates data samples into meaningful clusters by synthesizing information across multiple views. Moreover, deep learning-based methods have demonstrated their strong feature learning capabilities in MVC scenarios. However, effectively generalizing feature representations while maintaining consistency is still an intractable problem. In addition, most existing deep clustering methods based on contrastive learning overlook the consistency of the clustering representations during the clustering process. In this paper, we show how the above problems can be overcome and propose a consistent enhancement-based deep MVC method via contrastive learning (CCEC). Specifically, semantic connection blocks are incorporated into a feature representation to preserve the consistent information among multiple views. Furthermore, the representation process for clustering is enhanced through spectral clustering, and the consistency across multiple views is improved. Experiments conducted on five datasets demonstrate the effectiveness and superiority of our method in comparison with the state-of-the-art (SOTA) methods. The code for this method can be accessed at https://anonymous.4open.science/r/CCEC-E84E/.
翻訳日:2024-01-24 16:09:08 公開日:2024-01-23
# 不確かさによる創発的協調

Emergent Cooperation under Uncertain Incentive Alignment ( http://arxiv.org/abs/2401.12646v1 )

ライセンス: Link先を確認
Nicole Orzan, Erman Acar, Davide Grossi, Roxana R\u{a}dulescu(参考訳) 計算エージェントのシステムにおける協調の出現を理解することは、効果的な協調AIの開発に不可欠である。 現実の環境での個人間の相互作用はしばしばスパースであり、インセンティブの範囲内で起こるが、それは部分的にしか知られていない。 本研究では,不適切な出会いによって特徴づけられるシナリオにおいて,強化学習エージェント間の協調がいかに生じ得るか,また,エージェントがインセンティブと他人のインセンティブの連携について不確実性に直面するかを検討する。 そこで我々は,完全競争から完全協調,混合動機に至るまで,幅広い環境下でエージェントを訓練する。 このような不確実性の下では,混合モチベーション環境における協調を促進するために文献で提案されている評価や内在的な報酬などのメカニズムの効果について検討する。 以上の結果から,不確実性はエージェントの協調行動への関与能力を大幅に低下させることが明らかとなった。 このシナリオでは、効果的な評価機構と本質的な報酬の使用により、エージェントが協調環境でほぼ最適に行動する能力が向上し、混合モチベーション環境での協力も大幅に向上する。

Understanding the emergence of cooperation in systems of computational agents is crucial for the development of effective cooperative AI. Interaction among individuals in real-world settings are often sparse and occur within a broad spectrum of incentives, which often are only partially known. In this work, we explore how cooperation can arise among reinforcement learning agents in scenarios characterised by infrequent encounters, and where agents face uncertainty about the alignment of their incentives with those of others. To do so, we train the agents under a wide spectrum of environments ranging from fully competitive, to fully cooperative, to mixed-motives. Under this type of uncertainty we study the effects of mechanisms, such as reputation and intrinsic rewards, that have been proposed in the literature to foster cooperation in mixed-motives environments. Our findings show that uncertainty substantially lowers the agents' ability to engage in cooperative behaviour, when that would be the best course of action. In this scenario, the use of effective reputation mechanisms and intrinsic rewards boosts the agents' capability to act nearly-optimally in cooperative environments, while greatly enhancing cooperation in mixed-motive environments as well.
翻訳日:2024-01-24 16:08:53 公開日:2024-01-23
# 深層学習支援シンボル検出器の各種条件と不完全チャネル知識に対するロバスト性について

On the Robustness of Deep Learning-aided Symbol Detectors to Varying Conditions and Imperfect Channel Knowledge ( http://arxiv.org/abs/2401.12645v1 )

ライセンス: Link先を確認
Chin-Hung Chen, Boris Karanov, Wim van Houtum, Wu Yan, Alex Young, Alex Alvarado(参考訳) 近年,シンボル間干渉を考慮したデータ駆動型Bahl-Cocke-Jelinek-Raviv (BCJR)アルゴリズムが導入された。 BCJRNetと呼ばれるこのアルゴリズムは、ニューラルネットワークを使ってチャネル確率を計算する。 bcjrnetは、理想的な指数崩壊プロファイルを持つ時間不変チャネルに適用すると、不正確なチャネルタップ推定に対する回復性を示す。 しかし、受信機が誤ったチャネルパラメータにしかアクセスできない時間変化チャンネルの一般化機能は、ほとんど未探索のままである。 本論文の主な貢献は,既存の文献から,現実世界の伝送に現れる様々な不完全なチャネル知識事例を網羅する研究成果の拡大である。 以上の結果から,BCJRNetは,ノイズチャネルデータや不完全なチャネル崩壊プロファイルから学習する場合,従来のBCJRアルゴリズムよりも優れていた。 しかし、この利点は、動作チャネルの時間変化が急速に変化するときに減少することが示される。 また,従来のBCJRとBCJRNetのメモリ仮定の重要性も示した。 メモリの過小評価はBCJRとBCJRNetの両方のパフォーマンスを大きく低下させる。 実用的なシナリオに近い状況を模倣するために,チャネルタップの不確実性と不完全なチャネルメモリ知識を組み合わせる。 意外なことに,従来のBCJRを用いたメモリの過小評価では,性能が向上した。 一方、BCJRNetは、正確なメモリ知識のレベルが増加するにつれて、一貫した性能向上を示した。

Recently, a data-driven Bahl-Cocke-Jelinek-Raviv (BCJR) algorithm tailored to channels with intersymbol interference has been introduced. This so-called BCJRNet algorithm utilizes neural networks to calculate channel likelihoods. BCJRNet has demonstrated resilience against inaccurate channel tap estimations when applied to a time-invariant channel with ideal exponential decay profiles. However, its generalization capabilities for practically-relevant time-varying channels, where the receiver can only access incorrect channel parameters, remain largely unexplored. The primary contribution of this paper is to expand upon the results from existing literature to encompass a variety of imperfect channel knowledge cases that appear in real-world transmissions. Our findings demonstrate that BCJRNet significantly outperforms the conventional BCJR algorithm for stationary transmission scenarios when learning from noisy channel data and with imperfect channel decay profiles. However, this advantage is shown to diminish when the operating channel is also rapidly time-varying. Our results also show the importance of memory assumptions for conventional BCJR and BCJRNet. An underestimation of the memory largely degrades the performance of both BCJR and BCJRNet, especially in a slow-decaying channel. To mimic a situation closer to a practical scenario, we also combined channel tap uncertainty with imperfect channel memory knowledge. Somewhat surprisingly, our results revealed improved performance when employing the conventional BCJR with an underestimated memory assumption. BCJRNet, on the other hand, showed a consistent performance improvement as the level of accurate memory knowledge increased.
翻訳日:2024-01-24 16:08:30 公開日:2024-01-23
# 特徴選択のためのバイナリ特徴マスク最適化

Binary Feature Mask Optimization for Feature Selection ( http://arxiv.org/abs/2401.12644v1 )

ライセンス: Link先を確認
Mehmet E. Lorasdagi, Mehmet Y. Turali, Ali T. Koc, Suleyman S. Kozat(参考訳) 汎用機械学習(ML)モデルの特徴選択問題について検討する。 モデルの予測を考慮した特徴を選択する新しいフレームワークを提案する。 我々のフレームワークは、データセットから完全に削除するのではなく、新しい機能マスキングアプローチを使用して、選択プロセス中の機能を排除します。 これは、データセットが各イテレーションで異なる次元を持つため、MLモデルを再びトレーニングする必要がある他の機能選択方法とは異なり、機能選択中に同じMLモデルを使用することができます。 本研究では,MLモデルの予測値を用いてマスク演算子を取得し,モデルの予測性能に不可欠な特徴のサブセットを包括的に把握する。 特徴選択文学には様々なアプローチが存在する。 しかし、機能サブセット全体の重要性を考慮しつつ、個々の機能に焦点を絞るのではなく、機能を選択する汎用MLモデルのためのトレーニングフリーフレームワークを導入する研究はない。 MLモデルとしてLightGBMとMulti-Layer Perceptronを用いて,異なる設定下でのリアルタイムデータセットの性能向上を示す。 さらに,提案手法の実装コードをオープンに共有し,この分野の研究と貢献を促進する。

We investigate feature selection problem for generic machine learning (ML) models. We introduce a novel framework that selects features considering the predictions of the model. Our framework innovates by using a novel feature masking approach to eliminate the features during the selection process, instead of completely removing them from the dataset. This allows us to use the same ML model during feature selection, unlike other feature selection methods where we need to train the ML model again as the dataset has different dimensions on each iteration. We obtain the mask operator using the predictions of the ML model, which offers a comprehensive view on the subsets of the features essential for the predictive performance of the model. A variety of approaches exist in the feature selection literature. However, no study has introduced a training-free framework for a generic ML model to select features while considering the importance of the feature subsets as a whole, instead of focusing on the individual features. We demonstrate significant performance improvements on the real-life datasets under different settings using LightGBM and Multi-Layer Perceptron as our ML models. Additionally, we openly share the implementation code for our methods to encourage the research and the contributions in this area.
翻訳日:2024-01-24 16:08:04 公開日:2024-01-23
# ソフトウェア要件仕様の安定性予測

Stability prediction of the software requirements specification ( http://arxiv.org/abs/2401.12636v1 )

ライセンス: Link先を確認
J. del Sagrado, I.M. del \'Aguila(参考訳) 複雑な意思決定は要求工学の顕著な側面である。 本研究は,要求仕様書を改訂する必要があるかどうかを予測するベイズネットワーク要件を提示する。 大規模な複雑なソフトウェアプロジェクトから得られたメトリクスを用いて、Requisitesの検証方法を示す。 さらにこのベイズネットワークは,多層アーキテクチャ内の通信インターフェースを定義することで,新たな意思決定機能を追加することで,ソフトウェアツールに統合されている。 要件メトリクスとベイジアンネットワークによって推定される確率値を組み合わせることで、要件エンジニアにソフトウェア要件仕様を探索する方法を提供する。

Complex decision-making is a prominent aspect of Requirements Engineering. This work presents the Bayesian network Requisites that predicts whether the requirements specification documents have to be revised. We show how to validate Requisites by means of metrics obtained from a large complex software project. Besides, this Bayesian network has been integrated into a software tool by defining a communication interface inside a multilayer architecture to add this a new decision making functionality. It provides requirements engineers a way of exploring the software requirement specification by combining requirement metrics and the probability values estimated by the Bayesian network.
翻訳日:2024-01-24 16:07:47 公開日:2024-01-23
# クラスタリングによる要求選択支援

Assisted Requirements Selection by Clustering ( http://arxiv.org/abs/2401.12634v1 )

ライセンス: Link先を確認
Jos\'e del Sagrado, Isabel M del \'Aguila(参考訳) 要件の選択は、プロジェクトマネージャがプロジェクトの成果に最も価値をもたらす成果物に集中できるようにする意思決定プロセスである。 このタスクは次のリリースでどの機能や要件が開発されるかを定義するために実行される。 ビジネス利益と投資のバランスが必要とされるため、多くの研究成果に焦点が当てられた複雑なマルチ基準決定プロセスである。 優先順位付け手法のスペクトルは、最適化アルゴリズムのカテゴリに該当する単純で定性的から精巧な分析優先順位付けアプローチにまで及ぶ。 本研究は,要求選択のための定性的MoSCoW法とクラスタ分析の組み合わせについて検討する。 提案手法の有効性は,3つのケーススタディ(20,50,100の要件)で検証された。 それぞれの要件はクラスタ化され、クラスタの構成はクラスタのコンパクト性、接続性、分離性に関する内部検証尺度を用いて評価されている。 実験の結果,モスクワが要求優先順位付けと交渉の出発点として提案するカテゴリの数から,ソフトウェア製品に対する要求のコアセットを特定するためのクラスタリング戦略の有効性が示された。

Requirements selection is a decision-making process that enables project managers to focus on the deliverables that add most value to the project outcome. This task is performed to define which features or requirements will be developed in the next release. It is a complex multi-criteria decision process that has been focused by many research works because a balance between business profits and investment is needed. The spectrum of prioritization techniques spans from simple and qualitative to elaborated analytic prioritization approaches that fall into the category of optimization algorithms. This work studies the combination of the qualitative MoSCoW method and cluster analysis for requirements selection. The feasibility of our methodology has been tested on three case studies (with 20, 50 and 100 requirements). In each of them, the requirements have been clustered, then the clustering configurations found have been evaluated using internal validation measures for the compactness, connectivity and separability of the clusters. The experimental results show the validity of clustering strategies for the identification of the core set of requirements for the software product, being the number of categories proposed by MoSCoW a good starting point in requirements prioritization and negotiation.
翻訳日:2024-01-24 16:07:39 公開日:2024-01-23
# 協調型AIシステムのレジリエンスのモデリング

Modeling Resilience of Collaborative AI Systems ( http://arxiv.org/abs/2401.12632v1 )

ライセンス: Link先を確認
Diaeddin Rimawi, Antonio Liotta, Marco Todescato, Barbara Russo(参考訳) 協調人工知能システム(CAIS)は、共通の目標を達成するために、人間と協調して行動を行う。 caissはトレーニングされたaiモデルを使って人間とシステム間のインタラクションを制御することもできるし、人間のインタラクションを使ってオンラインの方法で人間から動的に学習することもできる。 人間のフィードバックによるオンライン学習では、AIモデルは、学習状態のシステムセンサーを通して人間のインタラクションを監視し、運用状態の学習に基づいてCAISの自律的なコンポーネントを動作させる。 したがって、これらのセンサーに影響を与える破壊的事象は、aiモデルの正確な決定とcais性能の低下に影響する可能性がある。 そのため、CAIS管理者はシステムのパフォーマンスを自動的に追跡し、そのような破壊的な出来事に対するCAISのレジリエンスを理解することが最重要となる。 本稿では,システムに破壊的なイベントが発生した場合に,CAISのパフォーマンスをモデル化するための新しいフレームワークを提供する。 当社のフレームワークでは,CAISの性能進化モデルを導入している。 モデルは、システムに必要なレジリエンスを達成するための決定プロセスにおいて、CAISマネージャを支援するための一連の手段を備えている。 私たちは、システムが破壊的なイベントを経験しているときに、オンラインで人間と協調するロボットの現実世界のケーススタディで、我々のフレームワークをテストした。 ケーススタディでは、我々のフレームワークをCAISに導入し、CAIS活動のオンライン実行に統合できることが示されている。

A Collaborative Artificial Intelligence System (CAIS) performs actions in collaboration with the human to achieve a common goal. CAISs can use a trained AI model to control human-system interaction, or they can use human interaction to dynamically learn from humans in an online fashion. In online learning with human feedback, the AI model evolves by monitoring human interaction through the system sensors in the learning state, and actuates the autonomous components of the CAIS based on the learning in the operational state. Therefore, any disruptive event affecting these sensors may affect the AI model's ability to make accurate decisions and degrade the CAIS performance. Consequently, it is of paramount importance for CAIS managers to be able to automatically track the system performance to understand the resilience of the CAIS upon such disruptive events. In this paper, we provide a new framework to model CAIS performance when the system experiences a disruptive event. With our framework, we introduce a model of performance evolution of CAIS. The model is equipped with a set of measures that aim to support CAIS managers in the decision process to achieve the required resilience of the system. We tested our framework on a real-world case study of a robot collaborating online with the human, when the system is experiencing a disruptive event. The case study shows that our framework can be adopted in CAIS and integrated into the online execution of the CAIS activities.
翻訳日:2024-01-24 16:07:22 公開日:2024-01-23
# Makelov et al. (2023)の「解釈可能性イリュージョン」論への回答

A Reply to Makelov et al. (2023)'s "Interpretability Illusion" Arguments ( http://arxiv.org/abs/2401.12631v1 )

ライセンス: Link先を確認
Zhengxuan Wu and Atticus Geiger and Jing Huang and Aryaman Arora and Thomas Icard and Christopher Potts and Noah D. Goodman(参考訳) 我々は、分散アライメント探索 (das; geiger et al. 2023) のような部分空間交換介入法をレビューしたmakelov et al. (2023) の最近の論文に応答し、これらの方法が「解釈可能性錯覚」を引き起こす可能性があると主張している。 我々はまず、Makelov et al. (2023) の技術的概念である「解釈可能性錯覚」を概観し、さらに直観的で望ましい説明でさえ、この意味での錯覚とみなすことができることを示した。 その結果、彼らの「幻想」を発見する方法は、彼らが「非幻想」と考える説明を拒絶することができる。 次に、Makelov et al. (2023) が実際に見る錯覚は、その訓練と評価のパラダイムの人工物であると主張する。 我々は、それらの中核的な特徴とは対照的に、Makelov et al. (2023) の例と議論は間違いなく解釈可能性の分野を前進させたことを強調した。

We respond to the recent paper by Makelov et al. (2023), which reviews subspace interchange intervention methods like distributed alignment search (DAS; Geiger et al. 2023) and claims that these methods potentially cause "interpretability illusions". We first review Makelov et al. (2023)'s technical notion of what an "interpretability illusion" is, and then we show that even intuitive and desirable explanations can qualify as illusions in this sense. As a result, their method of discovering "illusions" can reject explanations they consider "non-illusory". We then argue that the illusions Makelov et al. (2023) see in practice are artifacts of their training and evaluation paradigms. We close by emphasizing that, though we disagree with their core characterization, Makelov et al. (2023)'s examples and discussion have undoubtedly pushed the field of interpretability forward.
翻訳日:2024-01-24 16:06:59 公開日:2024-01-23
# CAM専用DNN推論のためのフルスタック最適化

Full-Stack Optimization for CAM-Only DNN Inference ( http://arxiv.org/abs/2401.12630v1 )

ライセンス: Link先を確認
Jo\~ao Paulo C. de Lima, Asif Ali Khan, Luigi Carro and Jeronimo Castrillon(参考訳) ニューラルネットワークの精度は過去数年間、さまざまな領域で大幅に改善されている。 しかし、これらの複雑さはフォン・ノイマン系のエネルギー需要と遅延を極端に高めている。 いくつかのCIM(Computer-in-Memory)システムがこの問題を克服するために提案されているが、大規模モデルの正確性、ハードウェアの信頼性、スケーラビリティに関するトレードオフは依然として課題である。 さらに、いくつかのCIM設計では、アクティベーション運動にはかなりの時間とエネルギーが必要である。 本稿では,3次重み付きニューラルネットワークのアルゴリズム最適化と,レーストラックメモリ(RTM)を用いた連想プロセッサ(AP)の組み合わせについて検討する。 演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。 RTMベースのAPの利点を活用することで、精度、エネルギー効率、信頼性に対処しながら、メモリ内のデータ転送を大幅に削減する。 具体的には,imagenetにおけるresnet-18推論のエネルギー効率を,ソフトウェア精度を維持しつつクロスバーインメモリアクセラレータと比較して7.5倍向上させる。

The accuracy of neural networks has greatly improved across various domains over the past years. Their ever-increasing complexity, however, leads to prohibitively high energy demands and latency in von Neumann systems. Several computing-in-memory (CIM) systems have recently been proposed to overcome this, but trade-offs involving accuracy, hardware reliability, and scalability for large models remain a challenge. Additionally, for some CIM designs, the activation movement still requires considerable time and energy. This paper explores the combination of algorithmic optimizations for ternary weight neural networks and associative processors (APs) implemented using racetrack memory (RTM). We propose a novel compilation flow to optimize convolutions on APs by reducing their arithmetic intensity. By leveraging the benefits of RTM-based APs, this approach substantially reduces data transfers within the memory while addressing accuracy, energy efficiency, and reliability concerns. Concretely, our solution improves the energy efficiency of ResNet-18 inference on ImageNet by 7.5x compared to crossbar in-memory accelerators while retaining software accuracy.
翻訳日:2024-01-24 16:06:39 公開日:2024-01-23
# データ駆動因子グラフを用いたブラインドチャネル推定と共同シンボル検出

Blind Channel Estimation and Joint Symbol Detection with Data-Driven Factor Graphs ( http://arxiv.org/abs/2401.12627v1 )

ライセンス: Link先を確認
Luca Schmid, Tomer Raviv, Nir Shlezinger, Laurent Schmalen(参考訳) 時間変動線形シンボル間干渉チャネルにおけるブラインドジョイントチャネル推定とシンボル検出のための因子グラフフレームワークの適用について検討する。 特に,各イテレーションにおいてシンボル回りの後方分布の計算を必要とするため,高い複雑性を被る最大推定量に対する期待最大化(em)アルゴリズムを考える。 本稿では,信念伝播法(BP)アルゴリズムを適切な因子グラフ上で効率よく後部を近似することでこの問題に対処する。 BPとEMの繰り返しを織り込むことで、検出の複雑さをさらに減らし、EMステップ毎に単一のBPイテレーションにすることができる。 さらに,BP更新のモーメントを導入し,適切なEMパラメータ更新スケジュールを学習するデータ駆動型アルゴリズムを提案する。 提案するブラインド検出器の性能を数値実験により実証し,高信号対雑音シナリオにおけるコヒーレントbp検出よりも優れることを示した。

We investigate the application of the factor graph framework for blind joint channel estimation and symbol detection on time-variant linear inter-symbol interference channels. In particular, we consider the expectation maximization (EM) algorithm for maximum likelihood estimation, which typically suffers from high complexity as it requires the computation of the symbol-wise posterior distributions in every iteration. We address this issue by efficiently approximating the posteriors using the belief propagation (BP) algorithm on a suitable factor graph. By interweaving the iterations of BP and EM, the detection complexity can be further reduced to a single BP iteration per EM step. In addition, we propose a data-driven version of our algorithm that introduces momentum in the BP updates and learns a suitable EM parameter update schedule, thereby significantly improving the performance-complexity tradeoff with a few offline training samples. Our numerical experiments demonstrate the excellent performance of the proposed blind detector and show that it even outperforms coherent BP detection in high signal-to-noise scenarios.
翻訳日:2024-01-24 16:06:21 公開日:2024-01-23
# マルチエージェント遠隔制御のための言語指向から創発的コミュニケーションへの知識蒸留

Knowledge Distillation from Language-Oriented to Emergent Communication for Multi-Agent Remote Control ( http://arxiv.org/abs/2401.12624v1 )

ライセンス: Link先を確認
Yongjun Kim, Sejin Seo, Jihong Park, Mehdi Bennis, Seong-Lyun Kim, Junil Choi(参考訳) 本研究では,マルチエージェント・ディープ・強化学習(MADRL)に基づく創発的コミュニケーション(EC)と,事前訓練された大規模言語モデル(LLM)によって強化された言語指向意味コミュニケーション(LSC)を比較した。 マルチエージェント・リモートナビゲーションタスクでは,複数モードの入力データに位置マップとチャネルマップが組み合わされ,ecは多モードデータを使用する際に高いトレーニングコストと苦労を生じさせるが,lccはllmのサイズが大きいため高い推論計算コストをもたらすことが示されている。 それぞれのボトルネックに対処するため,知識蒸留(KD)を用いたECトレーニングを指導し,言語誘導EC(LEC)の新たな枠組みを提案する。 シミュレーションでは、LECはチャネル条件の悪い地域を避けながら移動時間を短縮し、ECと比較してMADRLのトレーニングコンバージェンスを最大61.8%高速化する。

In this work, we compare emergent communication (EC) built upon multi-agent deep reinforcement learning (MADRL) and language-oriented semantic communication (LSC) empowered by a pre-trained large language model (LLM) using human language. In a multi-agent remote navigation task, with multimodal input data comprising location and channel maps, it is shown that EC incurs high training cost and struggles when using multimodal data, whereas LSC yields high inference computing cost due to the LLM's large size. To address their respective bottlenecks, we propose a novel framework of language-guided EC (LEC) by guiding the EC training using LSC via knowledge distillation (KD). Simulations corroborate that LEC achieves faster travel time while avoiding areas with poor channel conditions, as well as speeding up the MADRL training convergence by up to 61.8% compared to EC.
翻訳日:2024-01-24 16:05:52 公開日:2024-01-23
# タスク類似性と過パラメータ化の相乗効果 - 解析モデルによる検討-

The Joint Effect of Task Similarity and Overparameterization on Catastrophic Forgetting -- An Analytical Model ( http://arxiv.org/abs/2401.12617v1 )

ライセンス: Link先を確認
Itay Evron, Daniel Goldfarb, Nir Weinberger, Daniel Soudry, Paul Hand(参考訳) 継続的学習では、破滅的な忘れることはタスクのさまざまな側面に影響される。 以前の研究は、タスクの類似性や過剰パラメータ化によって忘れられる影響を別々に分析している。 対照的に,本研究では,タスクの類似性と過パラメータ化が,分析可能なモデルにおける記憶にどのように影響するかを検討する。 具体的には,2タスク連続線形回帰に着目し,第2タスクは任意の第1タスク(ランダムな置換タスクの抽象化)のランダム直交変換である。 我々は、期待される忘れを正確に分析し、ニュアンスパターンを明らかにする。 高過パラメータモデルでは、中間タスクの類似性が最も忘れられる。 しかし、補間しきい値付近では、期待されるタスク類似度と単調に減少する。 我々は、合成データに対する線形回帰と、確立された置換タスクベンチマークにおけるニューラルネットワークによる結果を検証する。

In continual learning, catastrophic forgetting is affected by multiple aspects of the tasks. Previous works have analyzed separately how forgetting is affected by either task similarity or overparameterization. In contrast, our paper examines how task similarity and overparameterization jointly affect forgetting in an analyzable model. Specifically, we focus on two-task continual linear regression, where the second task is a random orthogonal transformation of an arbitrary first task (an abstraction of random permutation tasks). We derive an exact analytical expression for the expected forgetting - and uncover a nuanced pattern. In highly overparameterized models, intermediate task similarity causes the most forgetting. However, near the interpolation threshold, forgetting decreases monotonically with the expected task similarity. We validate our findings with linear regression on synthetic data, and with neural networks on established permutation task benchmarks.
翻訳日:2024-01-24 16:05:21 公開日:2024-01-23
# 合成データ生成と比例クラスバランス手法による小型物体の物体検出性能の向上:産業シナリオにおける比較研究

Enhancing Object Detection Performance for Small Objects through Synthetic Data Generation and Proportional Class-Balancing Technique: A Comparative Study in Industrial Scenarios ( http://arxiv.org/abs/2401.12729v1 )

ライセンス: Link先を確認
Jibinraj Antony and Vinit Hegiste and Ali Nazeri and Hooman Tavakoli and Snehal Walunj and Christiane Plociennik and Martin Ruskowski(参考訳) オブジェクト検出(od)は、ローカライズされたクラス情報を抽出するための重要なコンピュータビジョン手法であり、業界に複数の応用がある。 多くのSOTA(State-of-the-art)ODモデルは中規模および大型のオブジェクトでよく機能するが、小さなオブジェクトでは動作しないようである。 ほとんどの産業用ユースケースでは、時間を要するためヒューマンエラーを起こしやすいため、小さなオブジェクトのデータを収集して注釈を付けることは困難である。 さらに、これらのデータセットは不均衡であり、しばしば非効率なモデル収束をもたらす。 この課題に取り組むため,本研究ではodモデルの性能を向上させるために追加のデータポイントを注入する新しい手法を提案する。 合成データ生成を用いることで、小さなオブジェクトのデータポイントに対するデータ収集とアノテーションの難しさを最小化し、バランスの取れた分布を持つデータセットを作成することができる。 本稿では,単純な比例クラスバランス手法がodモデルのアンカーマッチングを改善する効果について述べる。 sota odモデル(yolov5、yolov7、ssd)の性能比較を行い、産業用ユースケースにおける実データと合成データの組み合わせについて検討した。

Object Detection (OD) has proven to be a significant computer vision method in extracting localized class information and has multiple applications in the industry. Although many of the state-of-the-art (SOTA) OD models perform well on medium and large sized objects, they seem to under perform on small objects. In most of the industrial use cases, it is difficult to collect and annotate data for small objects, as it is time-consuming and prone to human errors. Additionally, those datasets are likely to be unbalanced and often result in an inefficient model convergence. To tackle this challenge, this study presents a novel approach that injects additional data points to improve the performance of the OD models. Using synthetic data generation, the difficulties in data collection and annotations for small object data points can be minimized and to create a dataset with balanced distribution. This paper discusses the effects of a simple proportional class-balancing technique, to enable better anchor matching of the OD models. A comparison was carried out on the performances of the SOTA OD models: YOLOv5, YOLOv7 and SSD, for combinations of real and synthetic datasets within an industrial use case.
翻訳日:2024-01-24 15:58:09 公開日:2024-01-23
# 選択分類のためのディープニューラルネットワークベンチマーク

Deep Neural Network Benchmarks for Selective Classification ( http://arxiv.org/abs/2401.12708v1 )

ライセンス: Link先を確認
Andrea Pugnana and Lorenzo Perini and Jesse Davis and Salvatore Ruggieri(参考訳) 多くの社会的に敏感なタスクにおける機械学習モデルの展開の増加に伴い、信頼性と信頼性のある予測に対する需要が高まっている。 これらの要件を達成する1つの方法は、モデルがエラーを起こすリスクが高い場合に予測を控えることを可能にすることである。 これはモデルに選択メカニズムを追加する必要があり、モデルが予測を提供するこれらの例を選択する。 選択的分類フレームワークは、拒絶された予測(すなわち、モデルが予測を行わない例の割合)と、選択された予測に対する予測性能の改善とをバランスさせるメカニズムを設計することを目的としている。 複数の選択的分類フレームワークが存在し、そのほとんどはディープニューラルネットワークアーキテクチャに依存している。 しかし、既存のアプローチの実証的な評価は、方法論と設定の部分的な比較に限られており、実践者は相対的なメリットについてほとんど洞察できない。 画像と表データの両方を含む44のデータセットのさまざまなセットに18のベースラインをベンチマークすることで、このギャップを埋めています。 さらに、バイナリとマルチクラスのタスクが混在している。 提案手法は,選択的エラー率,経験的カバレッジ,拒否されたインスタンスのクラス分布,分散インスタンスのパフォーマンスなど,いくつかの基準を用いて評価する。 その結果、調査対象のベースラインには明確な勝者が一人もおらず、最良の方法はユーザの目的次第であることがわかった。

With the increasing deployment of machine learning models in many socially-sensitive tasks, there is a growing demand for reliable and trustworthy predictions. One way to accomplish these requirements is to allow a model to abstain from making a prediction when there is a high risk of making an error. This requires adding a selection mechanism to the model, which selects those examples for which the model will provide a prediction. The selective classification framework aims to design a mechanism that balances the fraction of rejected predictions (i.e., the proportion of examples for which the model does not make a prediction) versus the improvement in predictive performance on the selected predictions. Multiple selective classification frameworks exist, most of which rely on deep neural network architectures. However, the empirical evaluation of the existing approaches is still limited to partial comparisons among methods and settings, providing practitioners with little insight into their relative merits. We fill this gap by benchmarking 18 baselines on a diverse set of 44 datasets that includes both image and tabular data. Moreover, there is a mix of binary and multiclass tasks. We evaluate these approaches using several criteria, including selective error rate, empirical coverage, distribution of rejected instance's classes, and performance on out-of-distribution instances. The results indicate that there is not a single clear winner among the surveyed baselines, and the best method depends on the users' objectives.
翻訳日:2024-01-24 15:57:46 公開日:2024-01-23
# 宇宙展開可能なストロンチウムイオン時計のイオントラップ設計

An ion trap design for a space-deployable strontium-ion optical clock ( http://arxiv.org/abs/2401.12706v1 )

ライセンス: Link先を確認
Alessio Spampinato, Jonathan Stacey, Sean Mulholland, Billy I. Robertson, Hugh A. Klein, Guilong Huang, Geoffrey P. Barwood, Patrick Gill(参考訳) 光原子時計は最高性能のマイクロ波原子時計よりも安定性が良く、系統的な不確実性が低い。 しかし、最も優れた光時計は実験室環境において大きな足跡を持ち、連続的な動作を維持するためには専門的な技術を必要とする。 いくつかのセクターにわたるニーズの増大と進化は、この能力レベルでコンパクトでポータブルなデバイスに対する需要を増加させている。 本稿では,小型レーザー冷却88sr+光時計のための物理パッケージの設計について述べる。 本システムを用いた10^18の低域における相対周波数不確かさを対象とする設計パラメータについて検討する。 次に, イオントラップと真空チャンバーの振動, 衝撃, 熱条件に対する応答をシミュレーションするために, 有限要素モデリングの結果を説明する。 さらに,イオントラップの耐幾何性とトラップ効率との関係を解明するために静電モデルを開発した。 これらの分析結果から,より頑丈な試作機の設計を実験的に行うことができた。

Optical atomic clocks demonstrate a better stability and lower systematic uncertainty than the highest performance microwave atomic clocks. However, the best performing optical clocks have a large footprint in a laboratory environment and require specialist skills to maintain continuous operation. Growing and evolving needs across several sectors are increasing the demand for compact robust and portable devices at this capability level. In this paper we discuss the design of a physics package for a compact laser-cooled 88Sr+ optical clock that would, with further development, be suitable for space deployment. We review the design parameters to target a relative frequency uncertainty at the low parts in 10^18 with this system. We then explain the results of finite element modelling to simulate the response of the ion trap and vacuum chamber to vibration, shock and thermal conditions expected during launch and space deployment. Additionally, an electrostatic model has been developed to investigate the relationship between the ion trap geometrical tolerances and the trapping efficiency. We present the results from these analyses that have led to the design of a more robust prototype ready for experimental testing.
翻訳日:2024-01-24 15:57:23 公開日:2024-01-23
# 協調訓練によるレコメンダシステムの確保

Securing Recommender System via Cooperative Training ( http://arxiv.org/abs/2401.12700v1 )

ライセンス: Link先を確認
Qingyang Wang, Chenwang Wu, Defu Lian, Enhong Chen(参考訳) レコメンダシステムはよく造られた偽のプロファイルに影響を受けやすく、偏りのあるレコメンデーションに繋がる。 既存の防御手法のうち、データ処理ベースのメソッドは必然的に通常のサンプルを除外するが、モデルベースのメソッドは一般化と堅牢性の両方を楽しむのに苦労している。 この目的のために,データ処理とロバストモデルを統合して,データの相互強化とレコメンデーションロバスト性の向上を図った3つの協調モデルであるトリプル協調防衛(TCD)を提案する。 さらに、既存の攻撃が二段階最適化と効率のバランスをとるのに苦労していることを考慮し、攻撃効率を維持しつつ二段階設定を考慮しつつ、攻撃最適化とモデルトレーニングを協調的に最適化するコトレーニングアタック(Co-Attack)という効果的な攻撃戦略を導入する。 さらに,既存のアタックの脅威が不十分な理由として,未定義のシナリオでアタックを最適化するという既定の前提を明らかにする。 この過度に楽観的な設定は攻撃の可能性を制限する。 そこで本研究では,提案するコータックとtcdをゲーム理論的なプロセスとして組み込んだゲームベース共同訓練攻撃(gcoattack)を行い,攻撃と防御の協調訓練においてコータックの攻撃可能性を徹底的に探究した。 3つの実際のデータセットに対する大規模な実験は、モデルロバスト性の向上におけるTCDの優位性を示している。 さらに、ゲームベースのGCoAttackは、CoAttackよりも大きな毒の脅威を呈し、既存の攻撃を著しく上回る2つの攻撃戦略が提案されていることを検証した。

Recommender systems are often susceptible to well-crafted fake profiles, leading to biased recommendations. Among existing defense methods, data-processing-based methods inevitably exclude normal samples, while model-based methods struggle to enjoy both generalization and robustness. To this end, we suggest integrating data processing and the robust model to propose a general framework, Triple Cooperative Defense (TCD), which employs three cooperative models that mutually enhance data and thereby improve recommendation robustness. Furthermore, Considering that existing attacks struggle to balance bi-level optimization and efficiency, we revisit poisoning attacks in recommender systems and introduce an efficient attack strategy, Co-training Attack (Co-Attack), which cooperatively optimizes the attack optimization and model training, considering the bi-level setting while maintaining attack efficiency. Moreover, we reveal a potential reason for the insufficient threat of existing attacks is their default assumption of optimizing attacks in undefended scenarios. This overly optimistic setting limits the potential of attacks. Consequently, we put forth a Game-based Co-training Attack (GCoAttack), which frames the proposed CoAttack and TCD as a game-theoretic process, thoroughly exploring CoAttack's attack potential in the cooperative training of attack and defense. Extensive experiments on three real datasets demonstrate TCD's superiority in enhancing model robustness. Additionally, we verify that the two proposed attack strategies significantly outperform existing attacks, with game-based GCoAttack posing a greater poisoning threat than CoAttack.
翻訳日:2024-01-24 15:57:08 公開日:2024-01-23
# マルチエージェント協調知覚における実用的コミュニケーション

Pragmatic Communication in Multi-Agent Collaborative Perception ( http://arxiv.org/abs/2401.12694v1 )

ライセンス: Link先を確認
Yue Hu, Xianghe Pang, Xiaoqi Qin, Yonina C. Eldar, Siheng Chen, Ping Zhang, Wenjun Zhang(参考訳) 協調的知覚により、各エージェントは他のエージェントとメッセージを交換することで知覚能力を高めることができる。 本質的には、知覚能力とコミュニケーションコストのトレードオフをもたらす。 従来の作業では、エージェント間で完全なフルフレームの高次元特徴マップが送信され、かなりの通信コストがかかる。 コミュニケーション効率を高めるために,協調作業者の下流作業に必要な情報のみを送信することを提案する。 この実用的コミュニケーション戦略は3つの重要な側面に焦点を当てている。 一 完全データからタスククリティカルな部分を選択して、空間的及び時間的に特徴ベクトルをスパースする実用的メッセージ選択 二 整数指標との通信を可能にするタスク適応辞書による高次元特徴ベクトルの実用的近似を実現する実用的メッセージ表現 三 有益な協力者を特定し、不要な通信リンクを刈り取る実用的協力者選択 この戦略に従えば,まず知覚・コミュニケーショントレードオフのための数学的最適化フレームワークを定式化し,次に2つの主成分を有するマルチエージェント協調知覚システム pragcomm を提案する。 一 単一エージェントの検出及び追跡及び追跡 ii)実践的なコラボレーション。 提案したPragCommは実用的コミュニケーションを促進し,幅広い通信条件に適応する。 実世界, V2V4Real, シミュレーションデータセット, OPV2V, V2X-SIM2.0におけるPragCommの協調的な3次元オブジェクト検出および追跡タスクについて評価を行った。 PragComm は OPV2V の32.7K 倍以上の通信容量を持つ従来の手法より一貫して優れていた。 コードはgithub.com/PhyllisH/PragCommで入手できる。

Collaborative perception allows each agent to enhance its perceptual abilities by exchanging messages with others. It inherently results in a trade-off between perception ability and communication costs. Previous works transmit complete full-frame high-dimensional feature maps among agents, resulting in substantial communication costs. To promote communication efficiency, we propose only transmitting the information needed for the collaborator's downstream task. This pragmatic communication strategy focuses on three key aspects: i) pragmatic message selection, which selects task-critical parts from the complete data, resulting in spatially and temporally sparse feature vectors; ii) pragmatic message representation, which achieves pragmatic approximation of high-dimensional feature vectors with a task-adaptive dictionary, enabling communicating with integer indices; iii) pragmatic collaborator selection, which identifies beneficial collaborators, pruning unnecessary communication links. Following this strategy, we first formulate a mathematical optimization framework for the perception-communication trade-off and then propose PragComm, a multi-agent collaborative perception system with two key components: i) single-agent detection and tracking and ii) pragmatic collaboration. The proposed PragComm promotes pragmatic communication and adapts to a wide range of communication conditions. We evaluate PragComm for both collaborative 3D object detection and tracking tasks in both real-world, V2V4Real, and simulation datasets, OPV2V and V2X-SIM2.0. PragComm consistently outperforms previous methods with more than 32.7K times lower communication volume on OPV2V. Code is available at github.com/PhyllisH/PragComm.
翻訳日:2024-01-24 15:56:39 公開日:2024-01-23
# データ駆動法によるDVL校正

DVL Calibration using Data-driven Methods ( http://arxiv.org/abs/2401.12687v1 )

ライセンス: Link先を確認
Zeev Yampolsky and Itzik Klein(参考訳) 自律型水中車両(AUV)は、海底マッピングから産業活動まで幅広い水中用途で使用されている。 水中では、AUVナビゲーションソリューションは慣性センサーとドップラー速度ログ(DVL)の融合に依存している。 正確なDVL測定を実現するには、ミッション開始前に校正手続きを行う必要がある。 モデルに基づくキャリブレーションアプローチには、グローバルナビゲーション衛星システム信号を利用したフィルタリングアプローチが含まれる。 本稿では,キャリブレーション手順のためのエンドツーエンドのディープラーニングフレームワークを提案する。 刺激データを用いて,提案手法がモデルベースアプローチを35%精度で,必要なキャリブレーション時間で80%上回ることを示す。

Autonomous underwater vehicles (AUVs) are used in a wide range of underwater applications, ranging from seafloor mapping to industrial operations. While underwater, the AUV navigation solution commonly relies on the fusion between inertial sensors and Doppler velocity logs (DVL). To achieve accurate DVL measurements a calibration procedure should be conducted before the mission begins. Model-based calibration approaches include filtering approaches utilizing global navigation satellite system signals. In this paper, we propose an end-to-end deep-learning framework for the calibration procedure. Using stimulative data, we show that our proposed approach outperforms model-based approaches by 35% in accuracy and 80% in the required calibration time.
翻訳日:2024-01-24 15:56:15 公開日:2024-01-23
# スパースグラフを用いた平均場ゲーム学習:ハイブリッドグラフexアプローチ

Learning Mean Field Games on Sparse Graphs: A Hybrid Graphex Approach ( http://arxiv.org/abs/2401.12686v1 )

ライセンス: Link先を確認
Christian Fabian, Kai Cui, Heinz Koeppl(参考訳) 大規模エージェント集団の行動学習は多くの研究分野において重要な課題である。 マルチエージェント強化学習(MARL)の分野はこれらのシステムを解くために大きな進歩を遂げてきたが、多くのエージェントに対する解はしばしば計算不可能であり、理論的な保証がない。 Mean Field Games (MFGs) はこれらの問題に対処し、エージェント間のネットワーク構造を含むようにGraphon MFGs (GMFGs) に拡張することができる。 これらの利点にもかかわらず、GMFGの現実の応用性は、グラフトンが高密度グラフのみをキャプチャするという事実によって制限されている。 多くの経験的観測ネットワークは、電力法則グラフのようなある程度の空間性を示すため、GMFGフレームワークはこれらのネットワークトポロジを捉えるには不十分である。 そこで我々は,グラフ理論のグラフ理論的概念に基づくグラフMFG(GXMFGs)の新たな概念を紹介した。 グラフは、小さな世界の性質のような他の望ましい特徴を持つスパースグラフシーケンスに制限されるオブジェクトである。 これらのゲームにおける学習均衡は、基礎となるグラフの豊かでスパースな構造のために困難である。 これらの課題に対処するため、GXMFGの設定に合わせて新しい学習アルゴリズムを設計する。 このハイブリッドgraphex学習手法は、システムが主に高結合コアとスパース周辺からなることを活用している。 システムを定義し,理論解析を行った後,我々は学習アプローチを述べ,その学習能力を合成グラフと実世界のネットワークの両方で実証する。 この比較から,本アルゴリズムはmfgを,現行のmarl法やmfg法では正しく対応できない難解で現実的な学習問題のクラスに拡張することに成功した。

Learning the behavior of large agent populations is an important task for numerous research areas. Although the field of multi-agent reinforcement learning (MARL) has made significant progress towards solving these systems, solutions for many agents often remain computationally infeasible and lack theoretical guarantees. Mean Field Games (MFGs) address both of these issues and can be extended to Graphon MFGs (GMFGs) to include network structures between agents. Despite their merits, the real world applicability of GMFGs is limited by the fact that graphons only capture dense graphs. Since most empirically observed networks show some degree of sparsity, such as power law graphs, the GMFG framework is insufficient for capturing these network topologies. Thus, we introduce the novel concept of Graphex MFGs (GXMFGs) which builds on the graph theoretical concept of graphexes. Graphexes are the limiting objects to sparse graph sequences that also have other desirable features such as the small world property. Learning equilibria in these games is challenging due to the rich and sparse structure of the underlying graphs. To tackle these challenges, we design a new learning algorithm tailored to the GXMFG setup. This hybrid graphex learning approach leverages that the system mainly consists of a highly connected core and a sparse periphery. After defining the system and providing a theoretical analysis, we state our learning approach and demonstrate its learning capabilities on both synthetic graphs and real-world networks. This comparison shows that our GXMFG learning algorithm successfully extends MFGs to a highly relevant class of hard, realistic learning problems that are not accurately addressed by current MARL and MFG methods.
翻訳日:2024-01-24 15:56:04 公開日:2024-01-23
# LLpowershap:ロジスティック損失に基づくシェープ値の自動特徴選択法

LLpowershap: Logistic Loss-based Automated Shapley Values Feature Selection Method ( http://arxiv.org/abs/2401.12683v1 )

ライセンス: Link先を確認
Iqbal Madakkatel and Elina Hypp\"onen(参考訳) shapleyの値は、ブラックボックスの機械学習モデルを説明するだけでなく、モデルデバッグ、感度、公平性分析の実行、堅牢なモデリングとさらなる追従分析のための重要な特徴の選択のためにも、機械学習で広く使われている。 shapleyの値は、複雑な機械学習モデルを採用する場合の非線形関係と相互作用を考慮すれば、予測やエラーの低減に対する特徴の分配における公平性を促進する、ある種の公理を満たす。 近年,Shapley値を利用した機能選択手法が数多く導入されている。 本稿では,選択された特徴セットのうち,最小ノイズの有意な特徴を識別するために,損失に基づくシェープリー値を用いた新しい特徴選択法であるllpowershapを提案する。 シミュレーションの結果,LLpowershapはより多くの情報特徴を識別するだけでなく,他の最先端特徴選択法と比較して,ノイズ特徴を出力する。 4つの実世界のデータセットのベンチマークの結果は、他のShapleyベースのラッパーメソッドやフィルタメソッドと比較して、LLpowershapのより高いまたは同等な予測性能を示している。

Shapley values have been used extensively in machine learning, not only to explain black box machine learning models, but among other tasks, also to conduct model debugging, sensitivity and fairness analyses and to select important features for robust modelling and for further follow-up analyses. Shapley values satisfy certain axioms that promote fairness in distributing contributions of features toward prediction or reducing error, after accounting for non-linear relationships and interactions when complex machine learning models are employed. Recently, a number of feature selection methods utilising Shapley values have been introduced. Here, we present a novel feature selection method, LLpowershap, which makes use of loss-based Shapley values to identify informative features with minimal noise among the selected sets of features. Our simulation results show that LLpowershap not only identifies higher number of informative features but outputs fewer noise features compared to other state-of-the-art feature selection methods. Benchmarking results on four real-world datasets demonstrate higher or at par predictive performance of LLpowershap compared to other Shapley based wrapper methods, or filter methods.
翻訳日:2024-01-24 15:55:34 公開日:2024-01-23
# 非隣人もまたクリグに重要:新しいコントラスト型学習

Non-Neighbors Also Matter to Kriging: A New Contrastive-Prototypical Learning ( http://arxiv.org/abs/2401.12681v1 )

ライセンス: Link先を確認
Zhishuai Li, Yunhao Nie, Ziyue Li, Lei Bai, Yisheng Lv, Rui Zhao(参考訳) Krigingは、空間近傍や物理的接続における観測から、サンプリングされていない位置の属性を推定することを目的としている。 既存の研究は、隣人の情報は非隣人を無視しながら、観測されていない対象の属性を推定する基礎を提供すると仮定している。 しかし、非隣人は建設的な情報も提供でき、隣人は誤解を招く可能性がある。 そこで本研究では,隣人からの貴重な情報を洗練し,非隣人からの情報を再利用するために,KCP(Contrastive-Prototypeal)による自己指導型学習を提案する。 事前訓練されたパラダイムとして、我々は、新しい表現の観点から、Krigingタスクを実行する: まず、堅牢で一般的な表現を学習し、それから表現から属性を回復することを目的としている。 隣接するコントラストモジュールは、非隣人を押し下げながら、ターゲットと隣人の間の表現距離を狭め、粗く表現を学習するように設計されている。 並行して、交換された予測を通じて類似表現を識別する原型的モジュールを導入し、誤解を招く隣人を精製し、隣り合うコントラストコンポーネントから有用な非隣接表現を再利用する。 結果として、隣人や非隣人のすべてが標的を推測するために使用されるわけではない。 以上の2つのモジュールが一般的な表現とロバスト表現を学習するために、時空間クリググラフデータに対するデータ駆動属性拡張と集中型トポロジ拡張を組み込んだ適応拡張モジュールを設計する。 実世界のデータセットに関する広範な実験は、6%の改善と例外的な転送可能性と堅牢性で、kcpの他と比べて優れたパフォーマンスを示している。 コードはhttps://github.com/bonaldli/kcpで入手できる。

Kriging aims at estimating the attributes of unsampled geo-locations from observations in the spatial vicinity or physical connections, which helps mitigate skewed monitoring caused by under-deployed sensors. Existing works assume that neighbors' information offers the basis for estimating the attributes of the unobserved target while ignoring non-neighbors. However, non-neighbors could also offer constructive information, and neighbors could also be misleading. To this end, we propose ``Contrastive-Prototypical'' self-supervised learning for Kriging (KCP) to refine valuable information from neighbors and recycle the one from non-neighbors. As a pre-trained paradigm, we conduct the Kriging task from a new perspective of representation: we aim to first learn robust and general representations and then recover attributes from representations. A neighboring contrastive module is designed that coarsely learns the representations by narrowing the representation distance between the target and its neighbors while pushing away the non-neighbors. In parallel, a prototypical module is introduced to identify similar representations via exchanged prediction, thus refining the misleading neighbors and recycling the useful non-neighbors from the neighboring contrast component. As a result, not all the neighbors and some of the non-neighbors will be used to infer the target. To encourage the two modules above to learn general and robust representations, we design an adaptive augmentation module that incorporates data-driven attribute augmentation and centrality-based topology augmentation over the spatiotemporal Kriging graph data. Extensive experiments on real-world datasets demonstrate the superior performance of KCP compared to its peers with 6% improvements and exceptional transferability and robustness. The code is available at https://github.com/bonaldli/KCP
翻訳日:2024-01-24 15:55:15 公開日:2024-01-23
# ChatGraph: グラフとのチャット

ChatGraph: Chat with Your Graphs ( http://arxiv.org/abs/2401.12672v1 )

ライセンス: Link先を確認
Yun Peng, Sen Lin, Qian Chen, Lyu Xu, Xiaojun Ren, Yafei Li, Jianliang Xu(参考訳) グラフ分析は現実世界のアプリケーションにおいて基本です。 従来のアプローチでは、グラフデータと対話するために、SPARQLのような言語やクリック&ドラッグのインターフェースに依存していた。 しかし、これらの手法では、高いプログラミングスキルを持つか、限られた範囲のグラフ解析機能しかサポートしない。 この制限に対処するため,我々はChatGraphと呼ばれる大規模言語モデル(LLM)ベースのフレームワークを提案する。 ChatGraphを使えば、ユーザは自然言語でグラフと対話できるので、従来のアプローチよりも使いやすく、柔軟になる。 ChatGraphの中核は、ユーザプロンプトで入力されたテキストとグラフの理解に基づいて、グラフ分析APIの連鎖を生成することである。 これを実現するため、ChatGraphは、関連するAPIを検索するAPI検索モジュール、LLMがグラフを理解できるようにするグラフ対応LCMモジュール、APIチェーンの生成をガイドするAPIチェーン指向の微調整モジュールの3つの主要なモジュールで構成される。

Graph analysis is fundamental in real-world applications. Traditional approaches rely on SPARQL-like languages or clicking-and-dragging interfaces to interact with graph data. However, these methods either require users to possess high programming skills or support only a limited range of graph analysis functionalities. To address the limitations, we propose a large language model (LLM)-based framework called ChatGraph. With ChatGraph, users can interact with graphs through natural language, making it easier to use and more flexible than traditional approaches. The core of ChatGraph lies in generating chains of graph analysis APIs based on the understanding of the texts and graphs inputted in the user prompts. To achieve this, ChatGraph consists of three main modules: an API retrieval module that searches for relevant APIs, a graph-aware LLM module that enables the LLM to comprehend graphs, and an API chain-oriented finetuning module that guides the LLM in generating API chains.
翻訳日:2024-01-24 15:54:43 公開日:2024-01-23
# コンテキスト: グラフ構造化知識コンテキストによるオープンエンディングアンサー生成の境界を押し上げる

Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context ( http://arxiv.org/abs/2401.12671v1 )

ライセンス: Link先を確認
Somnath Banerjee, Amruit Sahoo, Sayan Layek, Avik Dutta, Rima Hazra, Animesh Mukherjee(参考訳) 継続的に進行するAIの世界では、Large Language Models (LLMs)を通じてコンテキストリッチで意味のある応答を作成することが不可欠である。 研究者たちは、オープンエンドの質問に対して適切な回答を提供しようとすると、パラメータの少ないllmが遭遇する課題をより認識するようになった。 これらのハードルに対処するため、最先端戦略の統合、豊富な外部ドメイン知識のLLMへの拡張は、大幅な改善をもたらす。 本稿では,特にAskUbuntu,Unix,ServerFaultなどのドメイン固有のコミュニティ質問応答プラットフォームにおいて,知識グラフに基づく文脈検索とLLMの能力向上を併用した新しいフレームワークを提案する。 異なるパラメータサイズを持つ様々なllm実験を行い,知識を基礎づける能力を評価し,オープンエンド質問に対する回答の事実的正確さを判定する。 われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を示している。 この進歩は、LLMとのペアリングコンテキストリッチなデータ検索の重要性を強調し、AIシステムにおける知識ソーシングと生成に対する新たなアプローチを提供する。 また,コンテクストデータ検索の豊富さから,生成した回答と合わせて重要なエンティティが,実際にはゴールド回答と一貫性を保っていることを示す。

In the continuously advancing AI landscape, crafting context-rich and meaningful responses via Large Language Models (LLMs) is essential. Researchers are becoming more aware of the challenges that LLMs with fewer parameters encounter when trying to provide suitable answers to open-ended questions. To address these hurdles, the integration of cutting-edge strategies, augmentation of rich external domain knowledge to LLMs, offers significant improvements. This paper introduces a novel framework that combines graph-driven context retrieval in conjunction to knowledge graphs based enhancement, honing the proficiency of LLMs, especially in domain specific community question answering platforms like AskUbuntu, Unix, and ServerFault. We conduct experiments on various LLMs with different parameter sizes to evaluate their ability to ground knowledge and determine factual accuracy in answers to open-ended questions. Our methodology GraphContextGen consistently outperforms dominant text-based retrieval systems, demonstrating its robustness and adaptability to a larger number of use cases. This advancement highlights the importance of pairing context rich data retrieval with LLMs, offering a renewed approach to knowledge sourcing and generation in AI systems. We also show that, due to rich contextual data retrieval, the crucial entities, along with the generated answer, remain factually coherent with the gold answer.
翻訳日:2024-01-24 15:54:29 公開日:2024-01-23
# 窒素空隙中心電荷サイクルの波長依存性

Wavelength dependence of nitrogen-vacancy center charge cycling ( http://arxiv.org/abs/2401.12668v1 )

ライセンス: Link先を確認
A. A. Wood, A. Lozovoi, R. M. Goldblatt, C. A. Meriles and A. M. Martin(参考訳) 広帯域半導体における光活性スピン量子ビットはいくつかの電荷状態に存在するが、通常は特定の電荷状態のみが望ましいスピンまたはフォトニック特性を示す。 異なる電荷状態間の相互変換がどのように生じるかを理解することは、量子センシングや情報処理にそのような欠陥を使おうとするほとんどのアプリケーションにとって重要であり、また欠陥電子構造のモデルのテストと検証の手段としても機能する。 ここでは、窒素空孔(NV)中心、シリコン空孔(SiV)中心、置換窒素(N)を含むダイヤモンドの光キャリア生成の波長依存性を調べるために、電荷感受性共焦点イメージングを用いる。 我々は,405-633\,nm (1.96-3.06\,eV) の光を用いて,光発生型帯電体をフォトルミネッセンス欠陥によって捕捉する際に生じる特徴的な帯電パターンの生成について検討した。 1光子または2光子イオン化または再結合過程が支配する異なるレジームと、アンチストークによる再結合が弱いnv帯電サイクルを赤信号で駆動する第3のレジームを観察した。 次に,緑光と青光で駆動される単一nv中心間の高速帯電輸送と赤色帯電サイクルを比較した。 この研究は、NV中心の新たな光を介する電荷サイクリング過程を報告し、電荷移動を用いた非発光欠陥の同定と光電検出のスキームの結果として、光電流源の曖昧さが生じる。

Optically-active spin qubits in wide-bandgap semiconductors exist in several charge states, though typically only specific charge states exhibit desirable spin or photonic properties. An understanding of how interconversion between different charge states occurs is important for most applications seeking to employ such defects in quantum sensing and information processing, and additionally serves as a means of testing and verifying models of the defect electronic structure. Here, we use charge-sensitive confocal imaging to study the wavelength dependence of optical carrier generation in diamonds hosting nitrogen-vacancy (NV) centers, silicon vacancy (SiV) centers and substitutional nitrogen (N). We study the generation of distinctive charge-capture patterns formed when photogenerated charge carriers are captured by photoluminescent defects, using light spanning 405-633\,nm (1.96-3.06\,eV). We observe distinct regimes where one- or two-photon ionization or recombination processes dominate, and a third regime where anti-Stokes mediated recombination drives weak NV charge cycling with red light. We then compare red-induced charge cycling to fast charge carrier transport between isolated single NV centers driven with green and blue light. This work reports new optically-mediated charge cycling processes of the NV centers, and has consequences for schemes using charge transfer to identify non-luminescent defects and photoelectric detection, where ambiguity exists as to the source of photocurrent.
翻訳日:2024-01-24 15:54:04 公開日:2024-01-23
# 高次元2値クラス不均衡遺伝子発現データに対するロバスト重み付けスコアによる特徴選択

Feature Selection via Robust Weighted Score for High Dimensional Binary Class-Imbalanced Gene Expression Data ( http://arxiv.org/abs/2401.12667v1 )

ライセンス: Link先を確認
Zardad Khan, Amjad Ali, Saeed Aldahmani(参考訳) 本稿では, クラス不均衡問題を伴う高次元遺伝子発現二分分類の最も識別的な特徴を選択するために, ロバスト重み付けスコア(rowsu)を提案する。 この手法は、分類アルゴリズムの性能に悪影響を及ぼす遺伝子表現データセットにおいて、高度に歪んだクラス分布の最も難しい問題の一つに対処する。 まず、マイノリティクラス観測からデータポイントを合成して、トレーニングデータセットのバランスをとる。 次に、greedy searchアプローチを用いて、最小限の遺伝子サブセットを選択する。 第3に、支持ベクトルによって重みが計算される新しい重み付きロバストスコアを導入し、改良された遺伝子群を得る。 このアプローチに基づく最上位の遺伝子は、greedy searchアプローチによって選択された遺伝子の最小サブセットと組み合わせて、最終的な遺伝子セットを形成する。 この方法により、スキュードクラス分布が存在する場合でも、最も識別性の高い遺伝子の選択が保証され、分類器の性能が向上する。 提案するrowsu法の性能は6ドルの遺伝子発現データセットで評価される。 分類精度と感度は、提案したROWSUアルゴリズムといくつかの最先端手法を比較するために性能指標として用いられる。 ボックスプロットや安定性プロットも、結果の理解を深めるために構築されている。 その結果, 提案手法は, k 近辺 (kNN) とランダム森林 (RF) 分類器の分類性能に基づいて, 既存の特徴選択法よりも優れていた。

In this paper, a robust weighted score for unbalanced data (ROWSU) is proposed for selecting the most discriminative feature for high dimensional gene expression binary classification with class-imbalance problem. The method addresses one of the most challenging problems of highly skewed class distributions in gene expression datasets that adversely affect the performance of classification algorithms. First, the training dataset is balanced by synthetically generating data points from minority class observations. Second, a minimum subset of genes is selected using a greedy search approach. Third, a novel weighted robust score, where the weights are computed by support vectors, is introduced to obtain a refined set of genes. The highest-scoring genes based on this approach are combined with the minimum subset of genes selected by the greedy search approach to form the final set of genes. The novel method ensures the selection of the most discriminative genes, even in the presence of skewed class distribution, thus improving the performance of the classifiers. The performance of the proposed ROWSU method is evaluated on $6$ gene expression datasets. Classification accuracy and sensitivity are used as performance metrics to compare the proposed ROWSU algorithm with several other state-of-the-art methods. Boxplots and stability plots are also constructed for a better understanding of the results. The results show that the proposed method outperforms the existing feature selection procedures based on classification performance from k nearest neighbours (kNN) and random forest (RF) classifiers.
翻訳日:2024-01-24 15:53:37 公開日:2024-01-23
# EL-VIT:インタラクティブな可視化による視覚変換器の試作

EL-VIT: Probing Vision Transformer with Interactive Visualization ( http://arxiv.org/abs/2401.12666v1 )

ライセンス: Link先を確認
Hong Zhou, Rui Zhang, Peifeng Lai, Chaoran Guo, Yong Wang, Zhida Sun and Junjie Li(参考訳) 現在、ビジョントランスフォーマー(ViT)は様々なコンピュータビジョンタスクで広く利用されている。 しかし、vitのモデルアーキテクチャは複雑であり、しばしば理解が難しく、急な学習曲線をもたらす。 ViT開発者とユーザは、内部動作の解釈にしばしば苦労する。 そのため,vitユーザの機能理解を支援する可視化システムが必要である。 本稿では,視覚変換器を探索し,操作の理解を深めるための対話型視覚分析システムEL-VITを紹介する。 システムは可視化ビューの4層で構成されている。 最初の3つのレイヤには、モデル概要、知識背景グラフ、モデル詳細ビューが含まれる。 これら3つのレイヤは、モデルアーキテクチャ全体、詳細な説明、数学的操作という3つの視点からViTの運用プロセスを解明し、ユーザが基盤となる原則とレイヤ間の遷移プロセスを理解することを可能にする。 第4の解釈ビューは、ViTユーザと専門家がパッチ間のコサイン類似性を計算することによって、より深い理解を得るのに役立つ。 我々の2つの利用シナリオは、VTユーザがVTの動作メカニズムを理解するのに役立つEL-VITの有効性とユーザビリティを示している。

Nowadays, Vision Transformer (ViT) is widely utilized in various computer vision tasks, owing to its unique self-attention mechanism. However, the model architecture of ViT is complex and often challenging to comprehend, leading to a steep learning curve. ViT developers and users frequently encounter difficulties in interpreting its inner workings. Therefore, a visualization system is needed to assist ViT users in understanding its functionality. This paper introduces EL-VIT, an interactive visual analytics system designed to probe the Vision Transformer and facilitate a better understanding of its operations. The system consists of four layers of visualization views. The first three layers include model overview, knowledge background graph, and model detail view. These three layers elucidate the operation process of ViT from three perspectives: the overall model architecture, detailed explanation, and mathematical operations, enabling users to understand the underlying principles and the transition process between layers. The fourth interpretation view helps ViT users and experts gain a deeper understanding by calculating the cosine similarity between patches. Our two usage scenarios demonstrate the effectiveness and usability of EL-VIT in helping ViT users understand the working mechanism of ViT.
翻訳日:2024-01-24 15:53:13 公開日:2024-01-23
# 自己承認型技術的負債はセキュリティに何をもたらすのか? 混合手法の研究

What Can Self-Admitted Technical Debt Tell Us About Security? A Mixed-Methods Study ( http://arxiv.org/abs/2401.12768v1 )

ライセンス: Link先を確認
Nicol\'as E. D\'iaz Ferreyra, Mojtaba Shahin, Mansorreh Zahedi, Sodiq Quadri and Ricardo Scandariato(参考訳) SATD(Self-Admitted Technical Debt)は、ソフトウェアアーチファクト(例えば、コードコメントやコミットメッセージ)で報告される様々なサブ最適化設計と実装の選択を含む。 このような報告は、過去数十年間、ソフトウェアのメンテナンスと進化の研究の中心だった。 しかし、それらは潜在的に悪用可能な脆弱性やセキュリティ上の欠陥に関する恐ろしい情報源と見なすこともできる。 この研究は、技術と開発者中心の観点からsatdのセキュリティへの影響を調査します。 オープンソースソフトウェア(oss)のプロジェクトやリポジトリの脆弱性を特徴付けるために、satソース内で公開されているセキュリティポインタが使用できるかどうかを分析する。 一方で、このプラクティスの背景にあるモチベーション、その頻度、潜在的なネガティブな結果について、開発者の視点を掘り下げている。 我々は混合メソドのアプローチに従った。 一 94,455 SATDインスタンスを含む既存のデータセットの分析及び分析 (ii)OSS実践者222名によるオンライン調査。 データセット分析を通じて201のSATDインスタンスを収集し、それらをさまざまなCommon Weakness Enumeration(CWE)識別子にマッピングしました。 全体として、コミットメッセージ、プルリクエスト、コードコメント、イシューセクションで25種類のCWEが発見され、そのうち8つがMITREの最も危険なもののトップ25に含まれている。 この調査では、ソフトウェア実践者がsatの成果物にセキュリティポインタを配置することで、仲間間のセキュリティ文化を促進し、脆弱なコードセクションを見つけるのに役立つことが示されている。 しかし、脆弱性のエクスプロイトを促進する可能性があるため、そのようなプラクティスもリスクがあると考えている。 本研究は,SATDアーティファクトに散在するセキュリティポインタのコンテキスト整合性を維持することが,ゼロデイ攻撃に対する商用およびOSSソリューションの保護に重要であることを示唆している。

Self-Admitted Technical Debt (SATD) encompasses a wide array of sub-optimal design and implementation choices reported in software artefacts (e.g., code comments and commit messages) by developers themselves. Such reports have been central to the study of software maintenance and evolution over the last decades. However, they can also be deemed as dreadful sources of information on potentially exploitable vulnerabilities and security flaws. This work investigates the security implications of SATD from a technical and developer-centred perspective. On the one hand, it analyses whether security pointers disclosed inside SATD sources can be used to characterise vulnerabilities in Open-Source Software (OSS) projects and repositories. On the other hand, it delves into developers' perspectives regarding the motivations behind this practice, its prevalence, and its potential negative consequences. We followed a mixed-methods approach consisting of (i) the analysis of a preexisting dataset containing 94,455 SATD instances and (ii) an online survey with 222 OSS practitioners. We gathered 201 SATD instances through the dataset analysis and mapped them to different Common Weakness Enumeration (CWE) identifiers. Overall, 25 different types of CWEs were spotted across commit messages, pull requests, code comments, and issue sections, from which 8 appear among MITRE's Top-25 most dangerous ones. The survey shows that software practitioners often place security pointers across SATD artefacts to promote a security culture among their peers and help them spot flaky code sections, among other motives. However, they also consider such a practice risky as it may facilitate vulnerability exploits. Our findings suggest that preserving the contextual integrity of security pointers disseminated across SATD artefacts is critical to safeguard both commercial and OSS solutions against zero-day attacks.
翻訳日:2024-01-24 15:45:59 公開日:2024-01-23
# 相関埋め込み変換器追跡:単一ブランチフレームワーク

Correlation-Embedded Transformer Tracking: A Single-Branch Framework ( http://arxiv.org/abs/2401.12743v1 )

ライセンス: Link先を確認
Fei Xie, Wankou Yang, Chunyu Wang, Lei Chu, Yue Cao, Chao Ma, Wenjun Zeng(参考訳) 堅牢で識別可能な外観モデルの開発は、視覚オブジェクト追跡における長年の研究課題である。 一般的なシャム語に基づくパラダイムでは、シャム語のようなネットワークによって抽出された特徴はしばしば追跡された対象と気晴らし対象をモデル化するのに不十分であり、それによってそれらはロバストかつ差別的になるのを妨げている。 siameseトラッカの多くはロバストな相関操作の設計に重点を置いているが、トランスフォーマーに触発された新しいシングルブランチトラッキングフレームワークを提案する。 Siameseのような特徴抽出とは異なり、トラッカーは機能ネットワークの複数の層にクロスイメージ特徴相関を深く埋め込む。 複数のレイヤを通して2つのイメージの特徴を広範囲に一致させることで、ターゲットでない特徴を抑制し、ターゲットを認識できる特徴抽出を可能にする。 出力機能は、追加の相関ステップなしでターゲット位置を予測するために直接使用できる。 そこで我々は,概念的にシンプルで完全トランスフォーマーベースの単分岐追尾パイプラインsbtとして,二分岐シアーム追跡を再構成する。 SBTベースラインの詳細な解析を行い、多くの効率的な設計原則を要約し、SuperSBTと呼ばれる改良されたトラッカーを提案する。 SuperSBTは、浅層機能を強化するために、局所モデリング層を備えた階層アーキテクチャを採用する。 複雑な手作りのパターンパターンを除去する統合関係モデルを提案する。 supersbtはさらに、マスク画像モデリングの事前トレーニング、時間モデルの統合、専用の予測ヘッドの装備によって改善されている。 これにより、SuperSBTはSBTベースラインの4.7%、3.0%、AUCスコアの4.5%をLaSOT、TrackingNet、GOT-10Kで上回っている。 特にSuperSBTは、SBTの速度を37FPSから81FPSに大幅に向上させる。 広範な実験により8つのvotベンチマークにおいて優れた結果が得られた。

Developing robust and discriminative appearance models has been a long-standing research challenge in visual object tracking. In the prevalent Siamese-based paradigm, the features extracted by the Siamese-like networks are often insufficient to model the tracked targets and distractor objects, thereby hindering them from being robust and discriminative simultaneously. While most Siamese trackers focus on designing robust correlation operations, we propose a novel single-branch tracking framework inspired by the transformer. Unlike the Siamese-like feature extraction, our tracker deeply embeds cross-image feature correlation in multiple layers of the feature network. By extensively matching the features of the two images through multiple layers, it can suppress non-target features, resulting in target-aware feature extraction. The output features can be directly used for predicting target locations without additional correlation steps. Thus, we reformulate the two-branch Siamese tracking as a conceptually simple, fully transformer-based Single-Branch Tracking pipeline, dubbed SBT. After conducting an in-depth analysis of the SBT baseline, we summarize many effective design principles and propose an improved tracker dubbed SuperSBT. SuperSBT adopts a hierarchical architecture with a local modeling layer to enhance shallow-level features. A unified relation modeling is proposed to remove complex handcrafted layer pattern designs. SuperSBT is further improved by masked image modeling pre-training, integrating temporal modeling, and equipping with dedicated prediction heads. Thus, SuperSBT outperforms the SBT baseline by 4.7%,3.0%, and 4.5% AUC scores in LaSOT, TrackingNet, and GOT-10K. Notably, SuperSBT greatly raises the speed of SBT from 37 FPS to 81 FPS. Extensive experiments show that our method achieves superior results on eight VOT benchmarks.
翻訳日:2024-01-24 15:45:31 公開日:2024-01-23
# Shift-ConvNets: 大きなカーネル効果を持つ小さな畳み込みカーネル

Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects ( http://arxiv.org/abs/2401.12736v1 )

ライセンス: Link先を確認
Dachong Li, Li Li, Zhuangzhuang Chen, Jianqiang Li(参考訳) 近年の研究では、視覚変換器(ViT)の顕著な性能は、大きな受容場から得られることが示されている。 このため、大きな畳み込みカーネル設計は、畳み込みニューラルネットワーク(CNN)を再び素晴らしいものにするための理想的な解決策となる。 しかし、典型的な大規模畳み込みカーネルはハードウェア非フレンドリーなオペレータであることが判明し、様々なハードウェアプラットフォームとの互換性が低下した。 したがって、畳み込みカーネルのサイズを単純に拡大するのは賢明ではない。 本稿では,小さな畳み込みカーネルと畳み込み操作により,大きなカーネルサイズでの閉包効果を実現できることを示す。 そこで我々は,ハードウェアフレンドリなまま,スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。 実験の結果,我々のシフトワイド演算子は,計算要求を著しく低減しつつ,通常のCNNの精度を大幅に向上することがわかった。 ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。 コードとモデル: https://github.com/lidc54/shift-wiseconv。

Recent studies reveal that the remarkable performance of Vision transformers (ViTs) benefits from large receptive fields. For this reason, the large convolutional kernel design becomes an ideal solution to make Convolutional Neural Networks (CNNs) great again. However, the typical large convolutional kernels turn out to be hardware-unfriendly operators, resulting in discount compatibility of various hardware platforms. Thus, it is unwise to simply enlarge the convolutional kernel size. In this paper, we reveal that small convolutional kernels and convolution operations can achieve the closing effects of large kernel sizes. Then, we propose a shift-wise operator that ensures the CNNs capture long-range dependencies with the help of the sparse mechanism, while remaining hardware-friendly. Experimental results show that our shift-wise operator significantly improves the accuracy of a regular CNN while markedly reducing computational requirements. On the ImageNet-1k, our shift-wise enhanced CNN model outperforms the state-of-the-art models. Code & models at https://github.com/lidc54/shift-wiseConv.
翻訳日:2024-01-24 15:45:02 公開日:2024-01-23
# tnanet: 騒音生理データを用いた自殺イデオレーション予測のための時間雑音対応ニューラルネットワーク

TNANet: A Temporal-Noise-Aware Neural Network for Suicidal Ideation Prediction with Noisy Physiological Data ( http://arxiv.org/abs/2401.12733v1 )

ライセンス: Link先を確認
Niqi Liu, Fang Liu, Wenqi Ji, Xinxin Du, Xu Liu, Guozhen Zhao, Wenting Mu, Yong-Jin Liu(参考訳) 固有ノイズの存在下でのディープラーニングモデルの堅牢な一般化は、特にラベルが主観的であり、自然環境においてノイズが認識できない場合において、重要な課題である。 この問題は、多くの応用において特に顕著である。 本稿では,photoplethysmography (ppg) などの時系列データがこのような騒音に影響を受けやすいような,自殺防止イデオロギーを監視する特別かつ重要なシナリオについて述べる。 現在の手法では、画像やテキストのデータやアドレスがノイズを人工的に導入し、時系列分析における自然雑音の複雑さを無視する。 そこで本研究では,信頼性学習と高度な符号化技術を融合し,予測精度を向上する,ノイズの多い生理的時系列データを解析するためのニューラルネットワークモデルTNANetを提案する。 もう1つの研究の貢献は、自殺イデオレーション予測のための実環境から派生したppg信号の特殊なデータセットの収集です。 このデータセットを用いて、我々のTNANetは、バイナリ分類タスクにおいて63.33%の予測精度を達成し、最先端のモデルより優れている。 さらに、TNANetの能力を厳格にテストするために、人工的なノイズを導入した他の3つの有名な公開データセットに対して包括的な評価が行われた。 これらの試験は、ベースライン法と比較して10%以上の精度向上を達成し、TNANetの優れた性能を一貫して証明した。

The robust generalization of deep learning models in the presence of inherent noise remains a significant challenge, especially when labels are subjective and noise is indiscernible in natural settings. This problem is particularly pronounced in many practical applications. In this paper, we address a special and important scenario of monitoring suicidal ideation, where time-series data, such as photoplethysmography (PPG), is susceptible to such noise. Current methods predominantly focus on image and text data or address artificially introduced noise, neglecting the complexities of natural noise in time-series analysis. To tackle this, we introduce a novel neural network model tailored for analyzing noisy physiological time-series data, named TNANet, which merges advanced encoding techniques with confidence learning, enhancing prediction accuracy. Another contribution of our work is the collection of a specialized dataset of PPG signals derived from real-world environments for suicidal ideation prediction. Employing this dataset, our TNANet achieves the prediction accuracy of 63.33% in a binary classification task, outperforming state-of-the-art models. Furthermore, comprehensive evaluations were conducted on three other well-known public datasets with artificially introduced noise to rigorously test the TNANet's capabilities. These tests consistently demonstrated TNANet's superior performance by achieving an accuracy improvement of more than 10% compared to baseline methods.
翻訳日:2024-01-24 15:44:43 公開日:2024-01-23
# 説明可能な機械学習におけるSHAPスコアの分布不確かさ

The Distributional Uncertainty of the SHAP score in Explainable Machine Learning ( http://arxiv.org/abs/2401.12731v1 )

ライセンス: Link先を確認
Santiago Cifuentes and Leopoldo Bertossi and Nina Pardal and Sergio Abriola and Maria Vanina Martinez and Miguel Romero(参考訳) 属性スコアは、入力エンティティの機能値が機械学習モデルの出力にどれほど重要であるかを反映する。 最も人気のある属性スコアの1つはSHAPスコアであり、これは連立ゲーム理論で使われる一般的なシェープリー値のインスタンス化である。 このスコアの定義は、実体人口の確率分布に依存する。 正確な分布は一般に不明であるため、主観的に割り当てるか、データから推定する必要がある。 本稿では,未知の実体集団分布下でのSHAPスコアの推論の原理的枠組みを提案する。 本稿では,潜在的な分布を含む不確実性領域を考察し,特徴量のSHAPスコアをこの領域上で定義した関数とする。 この関数の最大値と最小値を求める基本的な問題について検討し、すべての特徴のSHAPスコアの厳密な範囲を決定する。 特に、これらの問題と他の関連する問題の複雑さを指摘し、NP完全であることを示す。 最後に,実世界のデータセットに関する実験を行い,我々のフレームワークがより堅牢な機能スコアリングに寄与することを示す。

Attribution scores reflect how important the feature values in an input entity are for the output of a machine learning model. One of the most popular attribution scores is the SHAP score, which is an instantiation of the general Shapley value used in coalition game theory. The definition of this score relies on a probability distribution on the entity population. Since the exact distribution is generally unknown, it needs to be assigned subjectively or be estimated from data, which may lead to misleading feature scores. In this paper, we propose a principled framework for reasoning on SHAP scores under unknown entity population distributions. In our framework, we consider an uncertainty region that contains the potential distributions, and the SHAP score of a feature becomes a function defined over this region. We study the basic problems of finding maxima and minima of this function, which allows us to determine tight ranges for the SHAP scores of all features. In particular, we pinpoint the complexity of these problems, and other related ones, showing them to be NP-complete. Finally, we present experiments on a real-world dataset, showing that our framework may contribute to a more robust feature scoring.
翻訳日:2024-01-24 15:44:20 公開日:2024-01-23
# 危険最小化のためのTopogram-based Anatomy-Guided CT 再構成

Two-View Topogram-Based Anatomy-Guided CT Reconstruction for Prospective Risk Minimization ( http://arxiv.org/abs/2401.12725v1 )

ライセンス: Link先を確認
Chang Liu, Laura Klein, Yixing Huang, Edith Baader, Michael Lell, Marc Kachelrie{\ss} and Andreas Maier(参考訳) CT有効量及びリスク最小化プロセスの予測的推定を容易にするため、将来的な空間線量推定と既知の解剖学的構造が期待される。 この目的のためには, できるだけ少数の投影からctボリュームを再構築するためにct再構成法が必要であり, 解剖学的構造を可能な限り正しく用いていくことが必要である。 本稿では,gan(generative adversarial network)に基づく最適化ct再構成モデルを提案する。 GANは3Dボリュームを前方と外側のCTプロジェクションから再構成するように訓練されている。 解剖学的構造を高めるために、トレーニングフェーズ中に、事前訓練された臓器分節ネットワークと3次元知覚損失を適用し、そのモデルが臓器拡張CTボリュームと臓器分節マスクの両方を生成する。 提案手法では,psnr26.49,rmse196.17,ssim0.64のctボリュームを,ベースライン法を用いて26.21,201.55,063に対して再構成できる。 解剖学的構造の観点からは,提案手法は臓器の形状と境界を効果的に拡張し,関連する解剖学的構造の直接的識別を可能にする。 従来の再建基準は解剖学的構造の向上を示すものではない。 これらの指標に加えて、臓器のセグメンテーション性能の評価により評価が拡大される。 提案法の平均臓器径は0.71であり, ベースラインモデルでは0.63であり, 解剖学的構造の増強が示唆された。

To facilitate a prospective estimation of CT effective dose and risk minimization process, a prospective spatial dose estimation and the known anatomical structures are expected. To this end, a CT reconstruction method is required to reconstruct CT volumes from as few projections as possible, i.e. by using the topograms, with anatomical structures as correct as possible. In this work, an optimized CT reconstruction model based on a generative adversarial network (GAN) is proposed. The GAN is trained to reconstruct 3D volumes from an anterior-posterior and a lateral CT projection. To enhance anatomical structures, a pre-trained organ segmentation network and the 3D perceptual loss are applied during the training phase, so that the model can then generate both organ-enhanced CT volume and the organ segmentation mask. The proposed method can reconstruct CT volumes with PSNR of 26.49, RMSE of 196.17, and SSIM of 0.64, compared to 26.21, 201.55 and 0.63 using the baseline method. In terms of the anatomical structure, the proposed method effectively enhances the organ shape and boundary and allows for a straight-forward identification of the relevant anatomical structures. We note that conventional reconstruction metrics fail to indicate the enhancement of anatomical structures. In addition to such metrics, the evaluation is expanded with assessing the organ segmentation performance. The average organ dice of the proposed method is 0.71 compared with 0.63 in baseline model, indicating the enhancement of anatomical structures.
翻訳日:2024-01-24 15:44:02 公開日:2024-01-23
# Falcon: マルチアームバンドによる優れたアクティブラーニング

Falcon: Fair Active Learning using Multi-armed Bandits ( http://arxiv.org/abs/2401.12722v1 )

ライセンス: Link先を確認
Ki Hyun Tae, Hantian Zhang, Jaeyoung Park, Kexin Rong, Steven Euijong Whang(参考訳) バイアスドデータは不公平な機械学習モデルにつながり、特にデータセットのキュレーションやラベル付けにおいて、データ分析の開始時に公正を埋め込むことの重要性を強調します。 そこで我々は,スケーラブルなフェアアクティブ学習フレームワークであるfalconを提案する。 falconは、戦略的サンプル選択による機械学習モデルの公平性を改善するデータ中心のアプローチを採用している。 ユーザーが特定したグループフェアネス尺度が与えられた場合、ファルコンはフェアネスを改善する上で最も有益な「ターゲットグループ」(例えば、属性=女性、ラベル=陽性)のサンプルを識別する。 しかし、これらの対象群はサンプル選択時に利用できない基底真理ラベルを用いて定義されるため、課題が生じる。 そこで本研究では,予測ラベルと期待ラベルが異なっていた場合にサンプルを用いて延期し,対象群外に落下させる新しい試行錯誤法を提案する。 また,より有益なサンプルを選択するとラベル予測が望ましくないため延期の確率が高くなり,データセット毎に最適なバランスが変化するというトレードオフも観察した。 我々は,情報伝達率とポストポンレートのトレードオフを政策として捉え,その計算効率と理論的保証を考慮し,敵対的多武装バンディット手法による最良の政策を自動選択することを提案する。 実験によると、falconは、公平性と正確性の観点から、既存のfair active learningアプローチを大きく上回っており、より効率的である。 特に、ファルコンだけが正確さと公平さの間の適切なトレードオフを支持しており、その最大フェアネススコアは2番目に良い結果よりも1.8-4.5倍高い。

Biased data can lead to unfair machine learning models, highlighting the importance of embedding fairness at the beginning of data analysis, particularly during dataset curation and labeling. In response, we propose Falcon, a scalable fair active learning framework. Falcon adopts a data-centric approach that improves machine learning model fairness via strategic sample selection. Given a user-specified group fairness measure, Falcon identifies samples from "target groups" (e.g., (attribute=female, label=positive)) that are the most informative for improving fairness. However, a challenge arises since these target groups are defined using ground truth labels that are not available during sample selection. To handle this, we propose a novel trial-and-error method, where we postpone using a sample if the predicted label is different from the expected one and falls outside the target group. We also observe the trade-off that selecting more informative samples results in higher likelihood of postponing due to undesired label prediction, and the optimal balance varies per dataset. We capture the trade-off between informativeness and postpone rate as policies and propose to automatically select the best policy using adversarial multi-armed bandit methods, given their computational efficiency and theoretical guarantees. Experiments show that Falcon significantly outperforms existing fair active learning approaches in terms of fairness and accuracy and is more efficient. In particular, only Falcon supports a proper trade-off between accuracy and fairness where its maximum fairness score is 1.8-4.5x higher than the second-best results.
翻訳日:2024-01-24 15:43:35 公開日:2024-01-23
# アフリカ系アメリカ人英語表現による発話に対する毒性バイアスと感情分析法の包括的見解

A Comprehensive View of the Biases of Toxicity and Sentiment Analysis Methods Towards Utterances with African American English Expressions ( http://arxiv.org/abs/2401.12720v1 )

ライセンス: Link先を確認
Guilherme H. Resende, Luiz F. Nery, Fabr\'icio Benevenuto, Savvas Zannettou, Flavio Figueiredo(参考訳) 言語は私たちの文化のダイナミックな側面であり、異なる技術やコミュニティで表現されると変わります。 オンラインソーシャルネットワークは、アフリカ系アメリカ人英語(aae)を含む様々な方言の拡散と進化を可能にした。 しかし、この増加は障壁がないわけではない。 特定の障壁の1つは、感情(Vader、TextBlob、Frair)と毒性(Googleのパースペクティブ、オープンソースのDetoxify)メソッドが、AE表現による発話に対するバイアスをいかに提示するかである。 バイアスを理解するためにgoogleの視点を考える。 ここで、『all n*ggers』のような発話は丁寧に死に値する。 警察は我々を殺害した 「アフリカ系アメリカ人が敬意を払って死ぬ価値がある」よりも高い毒性に達する。 警察は我々を殺害した ''. このスコアの違いは、ツールが ``n*gger''' という用語の再適用を理解できないためである。 このバイアスの1つの説明は、AIモデルは限られたデータセットでトレーニングされており、トレーニングデータでそのような用語を使用すると、有害な発話に現れる可能性が高いということだ。 これは可能かもしれないが、ツールが何であれ間違いを犯すだろう。 本稿では,2つのWebベース(YouTubeとTwitter)データセットと2つの英語データセットのバイアスについて検討する。 我々の分析は、ほとんどのモデルがほとんどの設定でAAEに対するバイアスを示すことを示している。 我々は,言語質問・単語数(LIWC)ソフトウェアからの言語制御機能によるAE表現利用の影響,自然言語処理(NLP)モデルからのPart-of-Speech(PoS)タグ付けによる文法制御機能,および近年の言語モデルからの文埋め込みの比較による発話の意味を分離した。 我々は,aae表現の多用が話者に有毒であると考えられる原因について,同一主題について話す場合においても一貫した結果を示す。 本研究は,小さなデータセットと1つのメソッドのみに焦点を当てた類似の分析を補完する。

Language is a dynamic aspect of our culture that changes when expressed in different technologies/communities. Online social networks have enabled the diffusion and evolution of different dialects, including African American English (AAE). However, this increased usage is not without barriers. One particular barrier is how sentiment (Vader, TextBlob, and Flair) and toxicity (Google's Perspective and the open-source Detoxify) methods present biases towards utterances with AAE expressions. Consider Google's Perspective to understand bias. Here, an utterance such as ``All n*ggers deserve to die respectfully. The police murder us.'' it reaches a higher toxicity than ``African-Americans deserve to die respectfully. The police murder us.''. This score difference likely arises because the tool cannot understand the re-appropriation of the term ``n*gger''. One explanation for this bias is that AI models are trained on limited datasets, and using such a term in training data is more likely to appear in a toxic utterance. While this may be plausible, the tool will make mistakes regardless. Here, we study bias on two Web-based (YouTube and Twitter) datasets and two spoken English datasets. Our analysis shows how most models present biases towards AAE in most settings. We isolate the impact of AAE expression usage via linguistic control features from the Linguistic Inquiry and Word Count (LIWC) software, grammatical control features extracted via Part-of-Speech (PoS) tagging from Natural Language Processing (NLP) models, and the semantic of utterances by comparing sentence embeddings from recent language models. We present consistent results on how a heavy usage of AAE expressions may cause the speaker to be considered substantially more toxic, even when speaking about nearly the same subject. Our study complements similar analyses focusing on small datasets and/or one method only.
翻訳日:2024-01-24 15:43:06 公開日:2024-01-23
# デバイス非依存な量子状態識別

Device-independent quantum state discrimination ( http://arxiv.org/abs/2401.12719v1 )

ライセンス: Link先を確認
Lin Chen and Xinyu Qiu(参考訳) 量子状態の識別は、量子システムから古典情報を抽出する一般的な進歩を表している。 自己テスト結果のツールを用いて,デバイスに依存しないシナリオで量子状態の識別を実現することができることを示す。 すなわち、状態は量子相関と状態の対応によって、信頼できない実験装置と確実に区別することができる。 細部では、2つの任意の状態が互いに共役していない場合、デバイス非依存的に識別できることを示し、他の状態は測定デバイス非依存で識別可能である。 デバイスに依存しない要件を満たすため、測定はPauliオブザーバブルに制限される。 この制限の影響は、最小誤差判別のための推定確率解析に基づいて許容される。

Quantum state discrimination depicts the general progress of extracting classical information from quantum systems. We show that quantum state discrimination can be realized in a device-independent scenario using tools of self-testing results. That is, the states can be discriminated credibly with the untrusted experiment devices by the correspondence between quantum correlations and states. In detail, we show that two arbitrary states can be discriminated in a device-independent manner when they are not conjugate with each other, while other states can be discriminated measurement-device-independently. To fulfill the device-independent requirement, the measurements are restricted on Pauli observables. The influence of this restriction is acceptable based on the guessing probability analysis for minimum error discrimination.
翻訳日:2024-01-24 15:42:32 公開日:2024-01-23
# 機械学習を用いた3次元地震探査データからのガストラップ予測

Gas trap prediction from 3D seismic and well test data using machine learning ( http://arxiv.org/abs/2401.12717v1 )

ライセンス: Link先を確認
Dmitry Ivlev(参考訳) 本研究の目的は,3次元地震データとガス井戸試験からガストラップを予測する手法を作成し,適用することである。 本論文は, 確立されたガス飽和度と濾過特性を有するボリュームを地震波場内で選択することによって, トレーニングデータセットを作成する手法を定式化する。 このように作成されたトレーニングデータセットは、データ処理方法とアンサンブル機械学習アルゴリズムの逐次適用のプロセススタックで使用される。 その結果, ガス貯留層に対する研究空間のキャリブレーション確率の立方体が得られた。 このアプローチの高効率性は、3つの井戸(盲井戸)の遅れた試験サンプルで示される。 ガス貯留層予測品質指標f1スコアの最終値は 0.893846 であった。

The aim of this work is to create and apply a methodological approach for predicting gas traps from 3D seismic data and gas well testing. The paper formalizes the approach to creating a training dataset by selecting volumes with established gas saturation and filtration properties within the seismic wavefield. The training dataset thus created is used in a process stack of sequential application of data processing methods and ensemble machine learning algorithms. As a result, a cube of calibrated probabilities of belonging of the study space to gas reservoirs was obtained. The high efficiency of this approach is shown on a delayed test sample of three wells (blind wells). The final value of the gas reservoir prediction quality metric f1 score was 0.893846.
翻訳日:2024-01-24 15:42:23 公開日:2024-01-23
# コード保守性評価のための大規模言語モデルの評価

Evaluation of large language models for assessing code maintainability ( http://arxiv.org/abs/2401.12714v1 )

ライセンス: Link先を確認
Marc Dillmann, Julien Siebert, Adam Trendowicz(参考訳) オープンソースソフトウェアリポジトリの可用性の向上と,大規模言語モデル(LLM)を使用したコード解析の最近の進歩は,これまで自動化が困難だったソフトウェアエンジニアリングタスクを自動化するための,新たな作業の波を引き起こしている。 本稿では,LLMが生成するコードの確率と,現在のコードが有する確率を比較することで,潜在的な品質問題を示すことができるという仮説を立てる。 我々は,10種類の異なるモデル(GPT2とLlama2)で生成されたコードのクロスエントロピーと,可読性,理解可能性,複雑性,モジュール化,およびベンチマークデータセットで評価された全体的な保守性との関係について検討する。 以上の結果から,LLMによって計算されるクロスエントロピーは,論理的符号数(LLOC)の制御において,クラスレベルでの保守性の予測因子であることが示唆された。 しかし、LLOCを制御していない場合(例えば、より長いクラスとの比較など)、この関係は逆になる。 さらに、LLMの複雑さはクロスエントロピーの範囲(より小さなモデルはより広い範囲のクロスエントロピーを持つ傾向がある)に影響を与えるが、これは保守性の観点からの予測において重要な役割を果たす。 本研究は,10種類の事前学習モデル(GPT2とLlama2)と,Schnappingerらによって収集された保守性に限定する。 論理的なコード行(LLOC)を制御する場合、クロスエントロピーは保守性の予測である。 しかしながら、関連する研究はトークンや短いシーケンスのレベルでのクロスエントロピーの有用性を示しているが、クラスレベルでは、この基準だけでは保守性を予測するには不十分であり、実際にこの情報を最大限に活用するにはさらなる研究が必要である。

Increased availability of open-source software repositories and recent advances in code analysis using large language models (LLMs) has triggered a wave of new work to automate software engineering tasks that were previously very difficult to automate. In this paper, we investigate a recent line of work that hypothesises that comparing the probability of code generated by LLMs with the probability the current code would have had can indicate potential quality problems. We investigate the association between the cross-entropy of code generated by ten different models (based on GPT2 and Llama2) and the following quality aspects: readability, understandability, complexity, modularisation, and overall maintainability assessed by experts and available in an benchmark dataset. Our results show that, controlling for the number of logical lines of codes (LLOC), cross-entropy computed by LLMs is indeed a predictor of maintainability on a class level (the higher the cross-entropy the lower the maintainability). However, this relation is reversed when one does not control for LLOC (e.g., comparing small classes with longer ones). Furthermore, while the complexity of LLMs affects the range of cross-entropy (smaller models tend to have a wider range of cross-entropy), this plays a significant role in predicting maintainability aspects. Our study limits itself on ten different pretrained models (based on GPT2 and Llama2) and on maintainability aspects collected by Schnappinger et al. When controlling for logical lines of code (LLOC), cross-entropy is a predictor of maintainability. However, while related work has shown the potential usefulness of cross-entropy at the level of tokens or short sequences, at the class level this criterion alone may prove insufficient to predict maintainability and further research is needed to make best use of this information in practice.
翻訳日:2024-01-24 15:42:12 公開日:2024-01-23
# ルール検証のための教師なし抽象的説明の生成

Generating Unsupervised Abstractive Explanations for Rumour Verification ( http://arxiv.org/abs/2401.12713v1 )

ライセンス: Link先を確認
Iman Munire Bilal, Preslav Nakov, Rob Procter, Maria Liakata(参考訳) ソーシャルメディアにおける噂検証の課題は、それに起因する会話スレッドに基づいてクレームの正確性を評価することである。 これまでの研究では、veracityラベルの予測に重点を置いてきたが、ここでは、モデル中心で、噂のveracityのフリーテキストな説明を生成するタスクを再構成する。 本稿では、まず、ポストホックな説明可能性法を用いてスレッド内で最も重要なポストをスコアし、次にテンプレート誘導要約を用いて情報的説明要約を生成する。 説明要約のインフォメーション性を評価するために,大規模言語モデル(llm)の少数学習能力を活用した。 実験の結果,LLMは要約評価において人間と類似の一致を示すことができた。 重要なことは、説明的抽象要約は、スレッドの上位のポストを使うよりも、予測された噂の正確さを反映していることを示している。

The task of rumour verification in social media concerns assessing the veracity of a claim on the basis of conversation threads that result from it. While previous work has focused on predicting a veracity label, here we reformulate the task to generate model-centric, free-text explanations of a rumour's veracity. We follow an unsupervised approach by first utilising post-hoc explainability methods to score the most important posts within a thread and then we use these posts to generate informative explanatory summaries by employing template-guided summarisation. To evaluate the informativeness of the explanatory summaries, we exploit the few-shot learning capabilities of a large language model (LLM). Our experiments show that LLMs can have similar agreement to humans in evaluating summaries. Importantly, we show that explanatory abstractive summaries are more informative and better reflect the predicted rumour veracity than just using the highest ranking posts in the thread.
翻訳日:2024-01-24 15:41:40 公開日:2024-01-23
# 冗長性の問題: 表現の機械的指導

When Redundancy Matters: Machine Teaching of Representations ( http://arxiv.org/abs/2401.12711v1 )

ライセンス: Link先を確認
C\`esar Ferri, Dario Garigliotti, Brigt Arve Toppe H{\aa}vardstun, Jos\`e Hern\'andez-Orallo, Jan Arne Telle(参考訳) 伝統的な機械教育において、教師は、有限個の例のセット、すなわち証人集合を用いて、学習者に概念を教えることを望んでいる。 しかし、概念には多くの等価な表現がある。 この冗長性は,教師や学習者が各表現の同値類を容易に決定できない程度に,探索空間に強く影響を及ぼす。 この一般的な状況では、概念を教えるのではなく、表現を教えるという考え方を探求する。 我々は,表現と証人の大きさ(eager,greedy,optimize)を活用し,いくつかの表現言語(dnf表現とチューリング完全p3プログラム)の指導効果の高まりを分析した。 理論および実験の結果から, 様々な冗長性が存在し, ここで導入した欲望スキーマよりも欲望スキーマの方が扱いが良いことがわかったが, 両者は任意に最適から遠く離れることができる。 p3プログラムでは、証人セットは通常、彼らが識別するプログラムよりも小さいことが分かりました。

In traditional machine teaching, a teacher wants to teach a concept to a learner, by means of a finite set of examples, the witness set. But concepts can have many equivalent representations. This redundancy strongly affects the search space, to the extent that teacher and learner may not be able to easily determine the equivalence class of each representation. In this common situation, instead of teaching concepts, we explore the idea of teaching representations. We work with several teaching schemas that exploit representation and witness size (Eager, Greedy and Optimal) and analyze the gains in teaching effectiveness for some representational languages (DNF expressions and Turing-complete P3 programs). Our theoretical and experimental results indicate that there are various types of redundancy, handled better by the Greedy schema introduced here than by the Eager schema, although both can be arbitrarily far away from the Optimal. For P3 programs we found that witness sets are usually smaller than the programs they identify, which is an illuminating justification of why machine teaching from examples makes sense at all.
翻訳日:2024-01-24 15:41:25 公開日:2024-01-23
# yang-baxter方程式の新しいスペクトルパラメータ依存解

New spectral-parameter dependent solutions of the Yang-Baxter equation ( http://arxiv.org/abs/2401.12710v1 )

ライセンス: Link先を確認
Alexander. S. Garkun, Suvendu K. Barik, Aleksey K. Fedorov, Vladimir Gritsev(参考訳) ヤン・バクスター方程式(YBE)は可積分多体量子系の研究において重要な役割を果たす。 多くの既知のYBE解は量子スピン鎖から超伝導系まで様々な例を提供する。 可解な統計力学とそのアバターのモデルも YBE に基づいている。 したがって、YBEの新しい解は、他の多くの遠距離応用を持つ新しい興味深い1D量子系や2D古典系を構築するのに使える。 本研究では、YBE に対する(ほぼ)徹底的な解の集合を 2 ビットの場合に対応する最低次元で見つけることを試みる。 我々は, ybe の新たな高次元解を生成するアルゴリズムを開発した。

The Yang-Baxter Equation (YBE) plays a crucial role for studying integrable many-body quantum systems. Many known YBE solutions provide various examples ranging from quantum spin chains to superconducting systems. Models of solvable statistical mechanics and their avatars are also based on YBE. Therefore, new solutions of the YBE could be used to construct new interesting 1D quantum or 2D classical systems with many other far-reaching applications. In this work, we attempt to find (almost) exhaustive set of solutions for the YBE in the lowest dimensions corresponding to a two-qubit case. We develop an algorithm, which can potentially be used for generating new higher-dimensional solutions of the YBE.
翻訳日:2024-01-24 15:41:06 公開日:2024-01-23
# 極端ティレルソン不等式

Extremal Tsirelson inequalities ( http://arxiv.org/abs/2401.12791v1 )

ライセンス: Link先を確認
Barizien Victor and Bancal Jean-Daniel(参考訳) ベル型実験で観測できる統計の集合が量子論によって制限されることはよく知られている。 残念ながら、このセットの正確な境界を特定するツールは欠けている。 本稿では,双対的な視点から量子統計の組を研究することを提案する。 与えられた実現によって飽和されるすべてのベル表現を考慮することで、CHSH表現は、我々が特定する極端ツィレルソン不等式で分解できることが示される。 これは (2,2,2) シナリオにおける量子集合の幾何学に対する新しい洞察をもたらす。 さらに、これはtsirelson実現を自己テストできるすべてのベル式を識別することを可能にする。

It is well-known that the set of statistics that can be observed in a Bell-type experiment is limited by quantum theory. Unfortunately, tools are missing to identify the precise boundary of this set. Here, we propose to study the set of quantum statistics from a dual perspective. By considering all Bell expressions saturated by a given realization, we show that the CHSH expression can be decomposed in terms of extremal Tsirelson inequalities that we identify. This brings novel insight into the geometry of the quantum set in the (2,2,2) scenario. Furthermore, this allows us to identify all the Bell expressions that are able to self-test the Tsirelson realization.
翻訳日:2024-01-24 15:34:00 公開日:2024-01-23
# MORPH:マルウェア検出のための自動コンセプトドリフト適応を目指して

MORPH: Towards Automated Concept Drift Adaptation for Malware Detection ( http://arxiv.org/abs/2401.12790v1 )

ライセンス: Link先を確認
Md Tanvirul Alam, Romy Fieblinger, Ashim Mahara, and Nidhi Rastogi(参考訳) トレーニングされた機械学習モデルのパフォーマンスが時間の経過とともに低下し、それらを非現実的なものにするからだ。 マルウェア概念のドリフト適応に関する以前の研究は、モデルを更新するための代表サンプルの選択を含むアクティブラーニングに重点を置いていたが、自己学習は概念ドリフトを軽減するための有望なアプローチとして現れてきた。 自己学習では、擬似ラベルを使用してモデルをトレーニングして、シフトするデータ分布に適応する。 本研究では,ニューラルネットワークに特化した効果的な擬似ラベルに基づくドリフト適応手法であるMORPHを提案する。 AndroidとWindowsのマルウェアデータセットの広範な実験分析を通じて,概念ドリフトの影響を緩和するためのアプローチの有効性を実証した。 本手法は,アクティブラーニングと組み合わせることでアノテーションの労力を減らすことができる。 さらに,本手法は,マルウェア検出のための自動ドリフト適応における既存の作業よりも大幅に改善されている。

Concept drift is a significant challenge for malware detection, as the performance of trained machine learning models degrades over time, rendering them impractical. While prior research in malware concept drift adaptation has primarily focused on active learning, which involves selecting representative samples to update the model, self-training has emerged as a promising approach to mitigate concept drift. Self-training involves retraining the model using pseudo labels to adapt to shifting data distributions. In this research, we propose MORPH -- an effective pseudo-label-based concept drift adaptation method specifically designed for neural networks. Through extensive experimental analysis of Android and Windows malware datasets, we demonstrate the efficacy of our approach in mitigating the impact of concept drift. Our method offers the advantage of reducing annotation efforts when combined with active learning. Furthermore, our method significantly improves over existing works in automated concept drift adaptation for malware detection.
翻訳日:2024-01-24 15:33:50 公開日:2024-01-23
# 大言語モデル融合を用いた多言語・完全自動回帰型ASRの総合的研究

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study ( http://arxiv.org/abs/2401.12789v1 )

ライセンス: Link先を確認
W. Ronny Huang, Cyril Allauzen, Tongzhou Chen, Kilol Gupta, Ke Hu, James Qin, Yu Zhang, Yongqiang Wang, Shuo-Yiin Chang, Tara N. Sainath(参考訳) 大規模モデルの時代には、デコーディングの自己回帰的な性質はしばしば遅延が重大なボトルネックとなる。 本稿では,アクセルハードウェアの並列化機能を活用した非自己回帰型LM融合ASRシステムを提案する。 提案手法では,usm (universal speech model) とpalm 2 言語モデルを統合し,全言語で10.8%,youtube キャプションで3.6%の相対 wer 改善を達成している。 さらに, LLM のサイズ, 文脈長, 語彙サイズ, 融合法などの重要なパラメータを網羅的に分析した。 例えば、128Mから340BパラメータのLLMサイズがASR性能に与える影響について検討する。 本研究は,大規模LM融合音声認識システムの有効性に影響を及ぼす要因について,貴重な知見を提供する。

In the era of large models, the autoregressive nature of decoding often results in latency serving as a significant bottleneck. We propose a non-autoregressive LM-fused ASR system that effectively leverages the parallelization capabilities of accelerator hardware. Our approach combines the Universal Speech Model (USM) and the PaLM 2 language model in per-segment scoring mode, achieving an average relative WER improvement across all languages of 10.8% on FLEURS and 3.6% on YouTube captioning. Furthermore, our comprehensive ablation study analyzes key parameters such as LLM size, context length, vocabulary size, fusion methodology. For instance, we explore the impact of LLM size ranging from 128M to 340B parameters on ASR performance. This study provides valuable insights into the factors influencing the effectiveness of practical large-scale LM-fused speech recognition systems.
翻訳日:2024-01-24 15:33:37 公開日:2024-01-23
# 一般非逆格子における拡大虚ゲージ変換

Extended imaginary gauge transformation in a general nonreciprocal lattice ( http://arxiv.org/abs/2401.12785v1 )

ライセンス: Link先を確認
Yunyao Qi, Jinghui Pi, Yuquan Wu, Heng Lin, Chao Zheng, Guilu Long(参考訳) イマジナリーゲージ変換(IGT)は、非エルミートハミルトニアンを実際のスペクトルでエルミート的なスペクトルに変換することによって、非エルミート的な皮膚効果を明確に理解する。 本研究では、このアプローチを一般非相反格子モデルにおいて複素スペクトルレジームへ拡張する。 擬エルミート対称性のクラスにおけるIGTヒンジの有効性を明らかにする。 ハミルトンの一般化されたブリルアンゾーンはそのような擬ハーミティティーを尊重し、連続体バンド、スキンモードの局在長および関連する位相数への容易にアクセスできる円であることが示される。 さらに, igtの適用可能性と, 最寄りのホッピング以上の疑似エルミティシティについて検討し, グラフィカルな解釈を提供する。 本理論は,非相互トリマーSu-Schrieffer-Heegerモデルにおけるバルクバウンダリ対応の確立と2次元波多野・ネルソンモデルにおけるスキンモードの局在挙動の解析に応用する。

Imaginary gauge transformation (IGT) provides a clear understanding of the non-Hermitian skin effect by transforming the non-Hermitian Hamiltonians with real spectra into Hermitian ones. In this work, we extend this approach to the complex spectrum regime in a general nonreciprocal lattice model. We unveil the validity of IGT hinges on a class of pseudo-Hermitian symmetry. The generalized Brillouin zone of Hamiltonian respect such pseudo-Hermiticity is demonstrated to be a circle, which enables easy access to the continuum bands, localization length of skin modes, and relevant topological numbers. Furthermore, we investigate the applicability of IGT and the underlying pseudo-Hermiticity beyond nearest-neighbour hopping, offering a graphical interpretation. Our theoretical framework is applied to establish bulk-boundary correspondence in the nonreciprocal trimer Su-Schrieffer-Heeger model and analyze the localization behaviors of skin modes in the two-dimensional Hatano-Nelson model.
翻訳日:2024-01-24 15:33:23 公開日:2024-01-23
# フォトプレチスモグラフィデータのための深層学習法の検討

A Review of Deep Learning Methods for Photoplethysmography Data ( http://arxiv.org/abs/2401.12783v1 )

ライセンス: Link先を確認
Guangkun Nie, Jiabao Zhu, Gongzheng Tang, Deyun Zhang, Shijia Geng, Qinghao Zhao, Shenda Hong(参考訳) photoplethysmography(ppg)は、ポータビリティ、ユーザフレンドリーな操作、非侵襲的な機能により、幅広い生理的情報を測定できるため、非常に有望なデバイスである。 近年の深層学習の進歩は、個人健康管理やその他の多面的応用に関わるタスクにPSG信号を活用することで顕著な成果を上げている。 本稿では,2017年1月1日から2023年7月31日まで,google scholar, pubmed, dimensionのppgデータ処理にディープラーニングモデルを適用した論文を体系的にレビューした。 各論文はタスク、モデル、データという3つの重要な視点から分析される。 PPG信号の処理に異なるディープラーニングフレームワークを使用した193の論文を抽出した。 これらの課題に基づき,医療関連群と非医療関連群に分類した。 さらに, 血圧, 心血管モニタリングおよび診断, 睡眠健康, メンタルヘルス, 呼吸モニタリングおよび分析, 血糖値分析の7つのサブグループに分類した。 非医療関連課題は, 信号処理, 生体認証, 心電図再建, 人間活動認識の4つのサブグループに分けられた。 結論として,近年,深層学習法を用いてppgデータを処理する分野において有意な進歩がみられた。 これにより、PG信号に含まれる情報のより徹底的な探索と利用が可能になる。 しかし、公開データベースの量と品質の制限、現実世界のシナリオにおける効果的な検証の欠如、ディープラーニングモデルの解釈可能性、スケーラビリティ、複雑さに関する懸念など、課題は残る。 さらに、さらなる調査を必要とする新たな研究分野もある。

Photoplethysmography (PPG) is a highly promising device due to its advantages in portability, user-friendly operation, and non-invasive capabilities to measure a wide range of physiological information. Recent advancements in deep learning have demonstrated remarkable outcomes by leveraging PPG signals for tasks related to personal health management and other multifaceted applications. In this review, we systematically reviewed papers that applied deep learning models to process PPG data between January 1st of 2017 and July 31st of 2023 from Google Scholar, PubMed and Dimensions. Each paper is analyzed from three key perspectives: tasks, models, and data. We finally extracted 193 papers where different deep learning frameworks were used to process PPG signals. Based on the tasks addressed in these papers, we categorized them into two major groups: medical-related, and non-medical-related. The medical-related tasks were further divided into seven subgroups, including blood pressure analysis, cardiovascular monitoring and diagnosis, sleep health, mental health, respiratory monitoring and analysis, blood glucose analysis, as well as others. The non-medical-related tasks were divided into four subgroups, which encompass signal processing, biometric identification, electrocardiogram reconstruction, and human activity recognition. In conclusion, significant progress has been made in the field of using deep learning methods to process PPG data recently. This allows for a more thorough exploration and utilization of the information contained in PPG signals. However, challenges remain, such as limited quantity and quality of publicly available databases, a lack of effective validation in real-world scenarios, and concerns about the interpretability, scalability, and complexity of deep learning models. Moreover, there are still emerging research areas that require further investigation.
翻訳日:2024-01-24 15:33:03 公開日:2024-01-23
# DeepRicci: 自己教師型グラフ構造-オーバースカッシングを軽減するための機能共精製

DeepRicci: Self-supervised Graph Structure-Feature Co-Refinement for Alleviating Over-squashing ( http://arxiv.org/abs/2401.12780v1 )

ライセンス: Link先を確認
Li Sun, Zhenhao Huang, Hua Wu, Junda Ye, Hao Peng, Zhengtao Yu, Philip S. Yu(参考訳) グラフニューラルネットワーク(GNN)は、グラフの学習とマイニングに大きな力を示しており、グラフ構造学習(GSL)は、洗練されたグラフでGNNを強化する上で重要な役割を果たす。 文献では、ほとんどのGSLソリューションは、主にタスク固有の監督(ノード分類)による構造改善に焦点を当てるか、GNN自体の固有の弱点(例えばオーバー・スクワッシング)を見落とし、洗練された設計にもかかわらず、最適でない性能をもたらす。 これらの制約を考慮し,典型的なGNNにおけるオーバー・スカッシングの問題を効果的に緩和する自己教師付きグラフ構造-機能共精製法を提案する。 本稿では,リーマン幾何学におけるリッチ曲率の原理的に異なる視点を取り,リッチ曲率のモデル化,利用,計算の課題に直面する。 これらの課題に取り組むために、自己教師付きリーマンモデルDeepRicciを提案する。 具体的には,様々なリッチ曲率をモデル化するために不均一曲率の潜在リーマン空間を導入し,典型的なgnnにリッチ曲率を利用するジャイロビクター特徴マッピングを提案する。 その後,異なる幾何学的視点間の幾何学的対比学習によりノードの特徴を洗練し,微分可能なリッチ曲率の新しい定式化に基づく後方リッチフローによるグラフ構造を同時に洗練する。 最後に、公開データセットに関する広範な実験は、DeepRicciの優位性と、後方リッチフローとオーバースカッシングの接続性を示している。 私たちの仕事のコードはhttps://github.com/riemangraph/で示されます。

Graph Neural Networks (GNNs) have shown great power for learning and mining on graphs, and Graph Structure Learning (GSL) plays an important role in boosting GNNs with a refined graph. In the literature, most GSL solutions either primarily focus on structure refinement with task-specific supervision (i.e., node classification), or overlook the inherent weakness of GNNs themselves (e.g., over-squashing), resulting in suboptimal performance despite sophisticated designs. In light of these limitations, we propose to study self-supervised graph structure-feature co-refinement for effectively alleviating the issue of over-squashing in typical GNNs. In this paper, we take a fundamentally different perspective of the Ricci curvature in Riemannian geometry, in which we encounter the challenges of modeling, utilizing and computing Ricci curvature. To tackle these challenges, we present a self-supervised Riemannian model, DeepRicci. Specifically, we introduce a latent Riemannian space of heterogeneous curvatures to model various Ricci curvatures, and propose a gyrovector feature mapping to utilize Ricci curvature for typical GNNs. Thereafter, we refine node features by geometric contrastive learning among different geometric views, and simultaneously refine graph structure by backward Ricci flow based on a novel formulation of differentiable Ricci curvature. Finally, extensive experiments on public datasets show the superiority of DeepRicci, and the connection between backward Ricci flow and over-squashing. Codes of our work are given in https://github.com/RiemanGraph/.
翻訳日:2024-01-24 15:32:35 公開日:2024-01-23
# 深層学習に基づく術中MRI画像再構成

Deep Learning-based Intraoperative MRI Reconstruction ( http://arxiv.org/abs/2401.12771v1 )

ライセンス: Link先を確認
Jon Andr\'e Ottesen, Tryggve Storas, Svein Are Sirirud Vatnehol, Grethe L{\o}vland, Einar O. Vik-Mo, Till Schellhorn, Karoline Skogen, Christopher Larsson, Atle Bj{\o}rnerud, Inge Rasmus Groote-Eindbaas, Matthan W.A. Caan(参考訳) 目的: 切除脳腫瘍手術における術中磁気共鳴画像(iMRI)の深部学習再建の質を評価すること。 材料と方法: 切除領域の周囲に2面コイルを配置し, 脳外科手術中に加速iMRIを行った。 深層学習(DL)モデルは,iMRIプロトコルのデータを模倣するために,高速MRIニューロデータセットを用いて訓練された。 腫瘍摘出術中に imri を施行した 01.11.2021 ~ 01.06.2023 の40 例から画像検査を行った。 従来の圧縮感覚法(cs法)と訓練されたdl再建法との比較分析を行った。 2名の作業神経放射線科医と1~5名の作業神経外科医(診断は1-non, 2=poor, 3=acceptable, 4=good, 5=excellent)により,複数の画像品質指標のブラインド評価を行った。 結果: 読影者1, 2, 3例のうち, 33/40例, 39/40例, 8/40例に対して, DL再建は好意的あるいは好意的であった。 3人の読者のうち2人は、dl再建に一貫して高い評価を与えており、dl再建は、それぞれ72%、72%、そして14%が読者1、2、3である。 それでも、DL再建では、ストリップアーティファクトや信号の低減といった欠点が見られた。 結語: DLは, 空間分解能, 信号-雑音比, 診断信頼性, 診断特異度, 空間分解能と同等か改善した, 術中MRIの高品質再構成を可能にすることを約束する。

Purpose: To evaluate the quality of deep learning reconstruction for prospectively accelerated intraoperative magnetic resonance imaging (iMRI) during resective brain tumor surgery. Materials and Methods: Accelerated iMRI was performed during brain surgery using dual surface coils positioned around the area of resection. A deep learning (DL) model was trained on the fastMRI neuro dataset to mimic the data from the iMRI protocol. Evaluation was performed on imaging material from 40 patients imaged between 01.11.2021 - 01.06.2023 that underwent iMRI during tumor resection surgery. A comparative analysis was conducted between the conventional compressed sense (CS) method and the trained DL reconstruction method. Blinded evaluation of multiple image quality metrics was performed by two working neuro-radiologists and a working neurosurgeon on a 1 to 5 Likert scale (1=non diagnostic, 2=poor, 3=acceptable, 4=good, 5=excellent), and the favored reconstruction variant. Results: The DL reconstruction was strongly favored or favored over the CS reconstruction for 33/40, 39/40, and 8/40 of cases for reader 1, 2, and 3, respectively. Two of three readers consistently assigned higher ratings for the DL reconstructions, and the DL reconstructions had a higher score than their respective CS counterparts for 72%, 72%, and 14% of the cases for reader 1, 2, and 3, respectively. Still, the DL reconstructions exhibited shortcomings such as a striping artifact and reduced signal. Conclusion: DL shows promise to allow for high-quality reconstructions of intraoperative MRI with equal to or improved perceived spatial resolution, signal-to-noise ratio, diagnostic confidence, diagnostic conspicuity, and spatial resolution compared to compressed sense.
翻訳日:2024-01-24 15:32:08 公開日:2024-01-23
# 高速非線形2時間スケール確率近似:$\mathcal{O}(1/k)$ Finite-Sample Complexity

Fast Nonlinear Two-Time-Scale Stochastic Approximation: Achieving $\mathcal{O}(1/k)$ Finite-Sample Complexity ( http://arxiv.org/abs/2401.12764v1 )

ライセンス: Link先を確認
Thinh T. Doan(参考訳) 本稿では,2つの結合した非線形作用素の根を探すために,2時間スケール確率近似の新しい変種を開発することを提案する。 私たちのキーとなるアイデアは、古典的なRuppert-Polyak平均化技術を利用して、サンプルを通して演算子を動的に推定することです。 これらの平均化ステップの推定値は、望ましい解を見つけるために二度スケールの確率近似更新で使用される。 我々の理論的な主な結果は、基礎となる非線形作用素の強い単調条件の下で、提案法によって生成されるイテレートの平均二乗誤差が最適速度$\mathcal{O}(1/k)$でゼロに収束することを示すことである。 この結果は、最もよく知られた有限時間収束速度が$\mathcal{O}(1/k^{2/3})$である2時間確率近似の既存の結果を著しく改善する。

This paper proposes to develop a new variant of the two-time-scale stochastic approximation to find the roots of two coupled nonlinear operators, assuming only noisy samples of these operators can be observed. Our key idea is to leverage the classic Ruppert-Polyak averaging technique to dynamically estimate the operators through their samples. The estimated values of these averaging steps will then be used in the two-time-scale stochastic approximation updates to find the desired solution. Our main theoretical result is to show that under the strongly monotone condition of the underlying nonlinear operators the mean-squared errors of the iterates generated by the proposed method converge to zero at an optimal rate $\mathcal{O}(1/k)$, where $k$ is the number of iterations. Our result significantly improves the existing result of two-time-scale stochastic approximation, where the best known finite-time convergence rate is $\mathcal{O}(1/k^{2/3})$.
翻訳日:2024-01-24 15:31:27 公開日:2024-01-23
# MUSES:不確実性下での運転のためのマルチセンサセマンティック知覚データセット

MUSES: The Multi-Sensor Semantic Perception Dataset for Driving under Uncertainty ( http://arxiv.org/abs/2401.12761v1 )

ライセンス: Link先を確認
Tim Br\"odermann and David Bruggemann and Christos Sakaridis and Kevin Ta and Odysseas Liagouris and Jason Corkill and Luc Van Gool(参考訳) 自動運転車のレベル5運転自動化を実現するには、さまざまな状況でさまざまなセンサーからデータを解析できるロバストなセマンティックビジュアル知覚システムが必要である。 しかしながら、既存のセマンティクス知覚データセットは、自動運転車で一般的に使用される重要な非カメラモダリティを欠いている場合が多い。 そこで本研究では,不確実性が増大する状況下での運転のためのマルチセンサ意味知覚データセットであるmusesを紹介する。 MUSESには、様々な天候と照明下で撮影された2500枚の画像のための2Dパノプティクスアノテーションを備えた同期マルチモーダル記録が含まれている。 データセットには、フレームカメラ、lidar、レーダー、イベントカメラ、im/gnssセンサーが組み込まれている。 新しい2段階のpanopticアノテーションプロトコルは、基底真理におけるクラスレベルとインスタンスレベルの不確実性の両方をキャプチャし、我々が導入する不確実性を認識したpanopticセグメンテーションの新たなタスクと、標準セマンティクスとpanopticセグメンテーションを可能にします。 MUSESは、様々な視覚条件下でモデルを評価するためのトレーニングと挑戦の両方に有効であることを証明し、マルチモーダルおよび不確実性を考慮した密接な意味知覚の研究のための新たな道を開く。 私たちのデータセットとベンチマークは公開されます。

Achieving level-5 driving automation in autonomous vehicles necessitates a robust semantic visual perception system capable of parsing data from different sensors across diverse conditions. However, existing semantic perception datasets often lack important non-camera modalities typically used in autonomous vehicles, or they do not exploit such modalities to aid and improve semantic annotations in challenging conditions. To address this, we introduce MUSES, the MUlti-SEnsor Semantic perception dataset for driving in adverse conditions under increased uncertainty. MUSES includes synchronized multimodal recordings with 2D panoptic annotations for 2500 images captured under diverse weather and illumination. The dataset integrates a frame camera, a lidar, a radar, an event camera, and an IMU/GNSS sensor. Our new two-stage panoptic annotation protocol captures both class-level and instance-level uncertainty in the ground truth and enables the novel task of uncertainty-aware panoptic segmentation we introduce, along with standard semantic and panoptic segmentation. MUSES proves both effective for training and challenging for evaluating models under diverse visual conditions, and it opens new avenues for research in multimodal and uncertainty-aware dense semantic perception. Our dataset and benchmark will be made publicly available.
翻訳日:2024-01-24 15:31:06 公開日:2024-01-23
# 体重って何? ゼロショット知識合成のための統一フレームワーク

What the Weight?! A Unified Framework for Zero-Shot Knowledge Composition ( http://arxiv.org/abs/2401.12756v1 )

ライセンス: Link先を確認
Carolin Holtermann, Markus Frohmann, Navid Rekabsaz, Anne Lauscher(参考訳) モデルにカプセル化された知識は、下流タスクにおける最終的なパフォーマンスを決定するコアファクタである。 nlpにおける多くの研究は、例えば特定のモジュール化された構造において、異なる種類の知識を格納し、適応するための効率的な方法や、追加のパラメータを学習することによってこれらを効果的に組み合わせる方法に焦点を当てている。 しかし、考えられる多くの選択肢を考えると、これらの構成にかかわるメカニズムの完全な理解が欠落しており、どの戦略を使うべきかは不明のままである。 この研究のギャップに対処するために,ゼロショットモジュール構成のための新しいフレームワークを提案し,単一の統一概念の下でパラメータモジュールの選択,重み付け,結合を行うための既存およびいくつかの新しいバリエーションを包含する。 ドメイン知識とアダプタ層のシナリオに注目して、我々のフレームワークは概念を体系的に統一し、様々なゼロショット知識合成戦略に関する最初の包括的なベンチマーク研究を行うことができます。 特に,2つのモジュールの組み合わせ法と5つの選択および重み付け戦略を実験的に検討した。 本研究は, センシングの有効性を強調すると同時に, 単純だがしばしば無視される重み付け手法のパワーを示唆する。 さらに詳細な分析により、重み付けとトップk選択の役割を理解し、ある程度は、アダプタ構成の性能を予測できることを示す。

The knowledge encapsulated in a model is the core factor determining its final performance on downstream tasks. Much research in NLP has focused on efficient methods for storing and adapting different types of knowledge, e.g., in dedicated modularized structures, and on how to effectively combine these, e.g., by learning additional parameters. However, given the many possible options, a thorough understanding of the mechanisms involved in these compositions is missing, and hence it remains unclear which strategies to utilize. To address this research gap, we propose a novel framework for zero-shot module composition, which encompasses existing and some novel variations for selecting, weighting, and combining parameter modules under a single unified notion. Focusing on the scenario of domain knowledge and adapter layers, our framework provides a systematic unification of concepts, allowing us to conduct the first comprehensive benchmarking study of various zero-shot knowledge composition strategies. In particular, we test two module combination methods and five selection and weighting strategies for their effectiveness and efficiency in an extensive experimental setup. Our results highlight the efficacy of ensembling but also hint at the power of simple though often-ignored weighting methods. Further in-depth analyses allow us to understand the role of weighting vs. top-k selection, and show that, to a certain extent, the performance of adapter composition can even be predicted.
翻訳日:2024-01-24 15:30:41 公開日:2024-01-23
# AIが生物の脅威景観に及ぼす影響のリスク分析に向けて

Towards Risk Analysis of the Impact of AI on the Deliberate Biological Threat Landscape ( http://arxiv.org/abs/2401.12755v1 )

ライセンス: Link先を確認
Matthew E. Walsh(参考訳) 近年,生物工学と人工知能(AI)の融合によって生物リスクが増大し,バイオテクノロジーと人工知能のガバナンスに注目が集まっている。 2023年の執行命令、安全で安全で信頼できる人工知能の開発と利用に関する執行命令は、人工知能がバイオリスクをいかに高めるかを評価する必要がある。 そこで本研究では,バイオリスクを簡易に評価するためのフレームワークを提案するとともに,バイオリスクマネージャの実行可能な成果を達成する上で,このフレームワークがいかに不足しているかを実証する。 そして、既存のリスク評価の成果を基盤として、エンジニアリング生物学のためのAI対応ツールのキャラクタリゼーションの取り組みがなぜ必要かを正当化する潜在的な道筋を提案する。

The perception that the convergence of biological engineering and artificial intelligence (AI) could enable increased biorisk has recently drawn attention to the governance of biotechnology and artificial intelligence. The 2023 Executive Order, Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence, requires an assessment of how artificial intelligence can increase biorisk. Within this perspective, we present a simplistic framework for evaluating biorisk and demonstrate how this framework falls short in achieving actionable outcomes for a biorisk manager. We then suggest a potential path forward that builds upon existing risk characterization work and justify why characterization efforts of AI-enabled tools for engineering biology is needed.
翻訳日:2024-01-24 15:30:19 公開日:2024-01-23
# PSDF:多視点再構成のための事前駆動型ニューラルインプシット表面学習

PSDF: Prior-Driven Neural Implicit Surface Learning for Multi-view Reconstruction ( http://arxiv.org/abs/2401.12751v1 )

ライセンス: Link先を確認
Wanjuan Su, Chen Zhang, Qingshan Xu, Wenbing Tao(参考訳) 表面再構成は伝統的にマルチビューステレオ(mvs)ベースのパイプラインに依存しており、ノイズや不完全な形状に苦しむことが多い。 これは、MVSがシーンの幾何を復元する有効な方法であることが証明されたためであり、特に局所的な詳細なテクスチャを持つ領域では、低テクスチャと光度整合性が信頼できない領域の照明に対処するのに苦労しているためである。 近年,neural implicit surface reconstruction (nisr) は表面レンダリングとボリュームレンダリング技術を組み合わせてmvsをバイパスし,従来のパイプラインの限界を克服するための代替手段として期待されている。 NISRは単純な場面で印象的な結果を示したが、制御されていない現実世界のシーンから微妙な幾何学を復元することは依然として困難である。 この目的のために,事前学習されたmvsネットワークからの外部幾何前処理と,nisrモデルに固有の内部幾何前処理を用いて,高品質な神経暗黙的表面学習を実現するフレームワークpsdfを提案する。 具体的には、視認性を考慮した特徴整合損失と、外部幾何学的先行値に基づく深度事前サンプリングを導入する。 これらの提案は、強力な幾何的整合性制約を提供し、表面交差点の配置を支援することにより、NISRの精度と微妙な再構成を大幅に改善する。 一方、内部の事前誘導強調表示は、NISRにおけるバイアスレンダリング問題を緩和することにより、再構成表面メッシュの忠実度を高めるために提示される。 Tanks and Templesデータセットの大規模な実験は、PSDFが複雑な制御されていないシーンで最先端のパフォーマンスを達成することを示している。

Surface reconstruction has traditionally relied on the Multi-View Stereo (MVS)-based pipeline, which often suffers from noisy and incomplete geometry. This is due to that although MVS has been proven to be an effective way to recover the geometry of the scenes, especially for locally detailed areas with rich textures, it struggles to deal with areas with low texture and large variations of illumination where the photometric consistency is unreliable. Recently, Neural Implicit Surface Reconstruction (NISR) combines surface rendering and volume rendering techniques and bypasses the MVS as an intermediate step, which has emerged as a promising alternative to overcome the limitations of traditional pipelines. While NISR has shown impressive results on simple scenes, it remains challenging to recover delicate geometry from uncontrolled real-world scenes which is caused by its underconstrained optimization. To this end, the framework PSDF is proposed which resorts to external geometric priors from a pretrained MVS network and internal geometric priors inherent in the NISR model to facilitate high-quality neural implicit surface learning. Specifically, the visibility-aware feature consistency loss and depth prior-assisted sampling based on external geometric priors are introduced. These proposals provide powerfully geometric consistency constraints and aid in locating surface intersection points, thereby significantly improving the accuracy and delicate reconstruction of NISR. Meanwhile, the internal prior-guided importance rendering is presented to enhance the fidelity of the reconstructed surface mesh by mitigating the biased rendering issue in NISR. Extensive experiments on the Tanks and Temples dataset show that PSDF achieves state-of-the-art performance on complex uncontrolled scenes.
翻訳日:2024-01-24 15:30:05 公開日:2024-01-23
# COOCKプロジェクトSmart Port 2025 D3.1: "To Twin or Not To Twin"

COOCK project Smart Port 2025 D3.1: "To Twin Or Not To Twin" ( http://arxiv.org/abs/2401.12747v1 )

ライセンス: Link先を確認
Randy Paredis, Hans Vangheluwe, Pamela Adelino Ramos Albertins(参考訳) この文書は、coockプロジェクトの"smart port 2025: improving and faster the operational efficiency of a harbor eco-system through the application of intelligent technologies"の結果である。 同社は、特にツインニングシステムを備えたモデリングとシミュレーションとAIベースの技術に対する企業のニーズを報告している。 この文書は、デジタルツインの使用に関する関心の目的と性質を分類する。 さらに双子の用法の一部が描かれており、双子のための潜在的な建築構成の一部に触れている。 この最後のトピックは、続報でさらに詳しく説明します。

This document is a result of the COOCK project "Smart Port 2025: improving and accelerating the operational efficiency of a harbour eco-system through the application of intelligent technologies". It reports on the needs of companies for modelling and simulation and AI-based techniques, with twinning systems in particular. This document categorizes the purposes and Properties of Interest for the use of Digital Twins. It further illustrates some of the twinning usages, and touches on some of the potential architectural compositions for twins. This last topic will be further elaborated in a followup report.
翻訳日:2024-01-24 15:29:28 公開日:2024-01-23
# アルゴリズム選択のための探索軌道の有用性について

On the Utility of Probing Trajectories for Algorithm-Selection ( http://arxiv.org/abs/2401.12745v1 )

ライセンス: Link先を確認
Quentin Renau and Emma Hart(参考訳) アルゴリズム選択に対する機械学習アプローチは、通常、インスタンスを入力として記述するデータを取る。 入力データは、インスタンス記述または適合性ランドスケープから派生した特徴の形式をとるか、インスタンス自体、すなわちイメージまたはテキスト記述を直接表現することができる。 入力の選択にかかわらず、類似したインスタンスがアルゴリズムから類似したパフォーマンスを引き出すという暗黙の仮定があり、モデルがこの関係を学習することができる。 インスタンスの観点から純粋にアルゴリズム選択を見ることは、アルゴリズムがインスタンス間の類似性をどのように‘ビュー’するかを説明できないため、誤解を招く可能性がある。 本稿では,アルゴリズム選択のためのモデルの学習に使用できるインスタンスを記述するための'algorithm-centric'法を提案する。 このアプローチは有望であり、計算コストの高いランドスケープベースの機能ベースのアプローチに匹敵する、あるいはよりよい結果を提供する。 さらに、軌跡を2次元空間に投影すると、アルゴリズムパースペクティブと類似した関数は、必ずしも人間の視点からこれらの関数の受け入れられた分類に対応しない。

Machine-learning approaches to algorithm-selection typically take data describing an instance as input. Input data can take the form of features derived from the instance description or fitness landscape, or can be a direct representation of the instance itself, i.e. an image or textual description. Regardless of the choice of input, there is an implicit assumption that instances that are similar will elicit similar performance from algorithm, and that a model is capable of learning this relationship. We argue that viewing algorithm-selection purely from an instance perspective can be misleading as it fails to account for how an algorithm `views' similarity between instances. We propose a novel `algorithm-centric' method for describing instances that can be used to train models for algorithm-selection: specifically, we use short probing trajectories calculated by applying a solver to an instance for a very short period of time. The approach is demonstrated to be promising, providing comparable or better results to computationally expensive landscape-based feature-based approaches. Furthermore, projecting the trajectories into a 2-dimensional space illustrates that functions that are similar from an algorithm-perspective do not necessarily correspond to the accepted categorisation of these functions from a human perspective.
翻訳日:2024-01-24 15:29:18 公開日:2024-01-23
# UAVハイパースペクトルイメージングによるブドウ品種の分類

Classification of grapevine varieties using UAV hyperspectral imaging ( http://arxiv.org/abs/2401.12851v1 )

ライセンス: Link先を確認
Alfonso L\'opez, Carlos Javier Ogayar, Francisco Ram\'on Feito, Joaquim Jo\~ao Sousa(参考訳) ブドウ品種の分類は、ワイン産業などにおける様々な品種専用のブドウ園の列の成長を推定できるため、精密ブドウ栽培において関連する表現型課題である。 このタスクは、研究室のデータ収集や分析を含む時間を要する破壊的な方法で実行することができる。 しかし、無人航空機(uav)は、noisierデータを取得したにもかかわらず、ハイパースペクトルデータを集めるためのより効率的で控えめなアプローチを提供する。 したがって、最初のタスクは、大量のデータを修正してダウンサンプルするこれらのデータの処理である。 また、ブドウ品種のハイパースペクトルのシグネチャも非常に似ている。 本研究では,17種類の赤と白のブドウ品種を分類するために,畳み込みニューラルネットワーク(CNN)を提案する。 単一のサンプルを分類するのではなく、これらのサンプルは近隣で処理される。 したがって、空間的特徴とスペクトル的特徴の抽出に対処する。 1)空間的注意層及び 2)開始ブロック。 パイプラインは処理からデータセットのエラボレーションへと進み、トレーニングフェーズで終了する。 適応モデルは応答時間,精度,データの分離性の観点から評価し,高スペクトルデータを分類するための他の最先端CNNと比較する。 我々のネットワークは、入力バンド数が減り、トレーニング可能な重量が減り、トレーニング時間が短縮されたことにより、はるかに軽量であることが証明された。 それにもかかわらず、評価された指標は、これまでの81%のOAをほとんど達成していなかったのに比べて、我々のネットワーク(全体の99%の精度)に対してはるかに良い結果を示した。

The classification of different grapevine varieties is a relevant phenotyping task in Precision Viticulture since it enables estimating the growth of vineyard rows dedicated to different varieties, among other applications concerning the wine industry. This task can be performed with destructive methods that require time-consuming tasks, including data collection and analysis in the laboratory. However, Unmanned Aerial Vehicles (UAV) provide a more efficient and less prohibitive approach to collecting hyperspectral data, despite acquiring noisier data. Therefore, the first task is the processing of these data to correct and downsample large amounts of data. In addition, the hyperspectral signatures of grape varieties are very similar. In this work, a Convolutional Neural Network (CNN) is proposed for classifying seventeen varieties of red and white grape variants. Rather than classifying single samples, these are processed together with their neighbourhood. Hence, the extraction of spatial and spectral features is addressed with 1) a spatial attention layer and 2) Inception blocks. The pipeline goes from processing to dataset elaboration, finishing with the training phase. The fitted model is evaluated in terms of response time, accuracy and data separability, and compared with other state-of-the-art CNNs for classifying hyperspectral data. Our network was proven to be much more lightweight with a reduced number of input bands, a lower number of trainable weights and therefore, reduced training time. Despite this, the evaluated metrics showed much better results for our network (~99% overall accuracy), in comparison with previous works barely achieving 81% OA.
翻訳日:2024-01-24 15:22:52 公開日:2024-01-23
# 話者ダイアリゼーションのためのオーバーラップ対応エンド・ツー・エンド教師付き階層グラフクラスタリング

Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization ( http://arxiv.org/abs/2401.12850v1 )

ライセンス: Link先を確認
Prachi Singh, Sriram Ganapathy(参考訳) 話者識別に基づく音声録音のセグメント化タスクである話者ダイアリゼーションは、下流アプリケーションにおいて重要な音声前処理ステップを構成する。 ダイアリゼーションへの従来のアプローチは、しばしば孤立した方法で最適化される、複数ステップの埋め込み抽出とクラスタリングを含む。 エンドツーエンドのダイアリゼーションシステムはタスクの単一モデルを学習しようとするが、トレーニングが面倒で、大規模な教師付きデータセットを必要とすることが多い。 本稿では,グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案し,その手法をE-SHARC(End-to-end Supervised HierARchical Clustering)と呼ぶ。 E-SHARCアプローチでは、入力としてフロントエンドのme-filterbank機能を使用し、埋め込み抽出器とGNNクラスタリングモジュールを共同で学習し、表現学習、メトリック学習、クラスタリングをエンドツーエンドの最適化で実行している。 さらに、外部重なり検出器からの追加入力により、E-SHARCアプローチは重なり合う音声領域の話者を予測することができる。 AMI, VoxConverse, DISPLACE などのベンチマークデータセットに対する実験的評価は,提案したE-SHARC フレームワークが最先端のダイアリゼーションシステムよりも大幅に改善されていることを示している。

Speaker diarization, the task of segmenting an audio recording based on speaker identity, constitutes an important speech pre-processing step for several downstream applications. The conventional approach to diarization involves multiple steps of embedding extraction and clustering, which are often optimized in an isolated fashion. While end-to-end diarization systems attempt to learn a single model for the task, they are often cumbersome to train and require large supervised datasets. In this paper, we propose an end-to-end supervised hierarchical clustering algorithm based on graph neural networks (GNN), called End-to-end Supervised HierARchical Clustering (E-SHARC). The E-SHARC approach uses front-end mel-filterbank features as input and jointly learns an embedding extractor and the GNN clustering module, performing representation learning, metric learning, and clustering with end-to-end optimization. Further, with additional inputs from an external overlap detector, the E-SHARC approach is capable of predicting the speakers in the overlapping speech regions. The experimental evaluation on several benchmark datasets like AMI, VoxConverse and DISPLACE, illustrates that the proposed E-SHARC framework improves significantly over the state-of-art diarization systems.
翻訳日:2024-01-24 15:22:28 公開日:2024-01-23
# 非収縮二元ベルマン演算子による安全評論家の学習

Learning safety critics via a non-contractive binary bellman operator ( http://arxiv.org/abs/2401.12849v1 )

ライセンス: Link先を確認
Agustin Castellano, Hancheng Min, Juan Andr\'es Bazerque, Enrique Mallada(参考訳) 強化学習(RL)の安全性を自然に強制できないことは、障害が限られており、現実世界のアプリケーションでの使用を妨げる中核的な課題である。 膨大な実用的関連性の安全性の1つの概念は、状態空間の(安全でない)領域を避ける能力である。 このような安全性ゴールは、アクション値のような関数、すなわち安全批判によって捉えることができるが、関連する演算子は、古典的なベルマン演算子が享受する所望の収縮と一意性特性を欠いている。 本研究では,安全性を二元性として活用することで,安全評論家の非請負性を克服する。 そこで本研究では,非安全領域への到達を回避しようとする決定論的力学系に関連する二元安全批判の性質について検討する。 ベルマン方程式(B2E)の安全性を定式化し,その性質について検討する。 結果として得られる演算子は、まだ非収縮的だが、その不動点を完全に特徴付ける:スプリアスな解--常に障害を避けることができる状態空間の最大安全領域-を除いて。 我々は,安全なデータの公理的知識を利用して,急激な固定点を避けるアルゴリズムを提案する。

The inability to naturally enforce safety in Reinforcement Learning (RL), with limited failures, is a core challenge impeding its use in real-world applications. One notion of safety of vast practical relevance is the ability to avoid (unsafe) regions of the state space. Though such a safety goal can be captured by an action-value-like function, a.k.a. safety critics, the associated operator lacks the desired contraction and uniqueness properties that the classical Bellman operator enjoys. In this work, we overcome the non-contractiveness of safety critic operators by leveraging that safety is a binary property. To that end, we study the properties of the binary safety critic associated with a deterministic dynamical system that seeks to avoid reaching an unsafe region. We formulate the corresponding binary Bellman equation (B2E) for safety and study its properties. While the resulting operator is still non-contractive, we fully characterize its fixed points representing--except for a spurious solution--maximal persistently safe regions of the state space that can always avoid failure. We provide an algorithm that, by design, leverages axiomatic knowledge of safe data to avoid spurious fixed points.
翻訳日:2024-01-24 15:21:53 公開日:2024-01-23
# 大規模言語モデルはビジネスプロセスをどの程度説明できるのか?

How well can large language models explain business processes? ( http://arxiv.org/abs/2401.12846v1 )

ライセンス: Link先を確認
Dirk Fahland, Fabian Fournier, Lior Limonad, Inna Skarbovsky, Ava J.E. Swevels(参考訳) 大規模言語モデル(LLMs)は、将来のAI強化ビジネスプロセス管理システム(ABPMSs)において、すべてのシステムライフサイクルステージにおける機能強化において、顕著な役割を果たす可能性が高い。 そのようなシステムの機能の一つは状況認識説明可能性(sax)であり、説明条件が生じたプロセスコンテキストを考慮した因果的健全な説明を生成することに関連している。 本稿では,SAXを説明するために開発されたSAX4BPMフレームワークについて述べる。 SAX4BPMスイートは、一連のサービスと中央知識リポジトリで構成されています。 これらのサービスの機能は、SAXの説明の根底にある様々な知識材料を引き出すことである。 これらの要素の中で重要な革新的要素は、因果プロセス実行ビューである。 本研究では,この枠組みをllmと統合し,そのパワーを活かし,サクソフォーン説明の改善のために様々な入力成分を合成する。 サクソフォーンに対するllmの使用には、サクソフォーンを適切に満たす能力に関するある程度の疑念と、幻覚の傾向、理性への固有の能力の欠如が伴うため、生成された説明の質に関する方法論的評価を追求した。 この目的のために,指定尺度を開発し,厳格なユーザ調査を行った。 以上の結果から, LLMに提示した入力は, その性能のガードレール化を助長し, 精度が良好なSAX説明が得られた。 この改善は信頼と好奇心の認識によって緩和される。 さらに、この改善は、説明の解釈可能性の認識のコストによってもたらされる。

Large Language Models (LLMs) are likely to play a prominent role in future AI-augmented business process management systems (ABPMSs) catering functionalities across all system lifecycle stages. One such system's functionality is Situation-Aware eXplainability (SAX), which relates to generating causally sound and yet human-interpretable explanations that take into account the process context in which the explained condition occurred. In this paper, we present the SAX4BPM framework developed to generate SAX explanations. The SAX4BPM suite consists of a set of services and a central knowledge repository. The functionality of these services is to elicit the various knowledge ingredients that underlie SAX explanations. A key innovative component among these ingredients is the causal process execution view. In this work, we integrate the framework with an LLM to leverage its power to synthesize the various input ingredients for the sake of improved SAX explanations. Since the use of LLMs for SAX is also accompanied by a certain degree of doubt related to its capacity to adequately fulfill SAX along with its tendency for hallucination and lack of inherent capacity to reason, we pursued a methodological evaluation of the quality of the generated explanations. To this aim, we developed a designated scale and conducted a rigorous user study. Our findings show that the input presented to the LLMs aided with the guard-railing of its performance, yielding SAX explanations having better-perceived fidelity. This improvement is moderated by the perception of trust and curiosity. More so, this improvement comes at the cost of the perceived interpretability of the explanation.
翻訳日:2024-01-24 15:21:33 公開日:2024-01-23
# 時間グラフの埋め込みに基づく距離

An embedding-based distance for temporal graphs ( http://arxiv.org/abs/2401.12843v1 )

ライセンス: Link先を確認
Lorenzo Dall'Amico, Alain Barrat, Ciro Cattuto(参考訳) 時間参照ランダムウォークを用いたグラフ埋め込みに基づく時間グラフ間の距離を定義する。 マッチンググラフの場合、ノード間に既知の関係が存在する場合と、そのような関係が利用できない場合と、グラフのサイズが異なる場合の両方について検討する。 構造的および時間的特性の異なるグラフ間を判別する能力を示すことにより、実時間的ネットワークデータと合成時間的ネットワークデータの両方を用いて、距離定義の関心を示す。 最先端の機械学習技術を活用し,大規模時間グラフに有効な距離計算の効率的な実装を提案する。

We define a distance between temporal graphs based on graph embeddings built using time-respecting random walks. We study both the case of matched graphs, when there exists a known relation between the nodes, and the unmatched case, when such a relation is unavailable and the graphs may be of different sizes. We illustrate the interest of our distance definition, using both real and synthetic temporal network data, by showing its ability to discriminate between graphs with different structural and temporal properties. Leveraging state-of-the-art machine learning techniques, we propose an efficient implementation of distance computation that is viable for large-scale temporal graphs.
翻訳日:2024-01-24 15:21:10 公開日:2024-01-23
# クラス識別部分空間の同定のための反復関連行列解析(IRMA)

Iterated Relevance Matrix Analysis (IRMA) for the identification of class-discriminative subspaces ( http://arxiv.org/abs/2401.12842v1 )

ライセンス: Link先を確認
Sofie L\"ovdal and Michael Biehl(参考訳) 本稿では,一般化行列学習ベクトルQuantizatonの分類問題における特徴関連性の解析およびクラス識別部分空間の構築における反復的応用について検討する。 提案した反復関係行列解析(IRMA)は、一般化行列学習ベクトル量子化(GMLVQ)を用いて、検討データセットの分類特化情報を表す線形部分空間を同定する。 以前同定された全ての部分空間を投影しながら、新しい識別部分空間を反復的に決定することにより、すべてのクラス固有の情報を含む結合部分空間を見つけることができる。 これにより、特徴関連性の詳細な解析が容易になり、ラベル付きデータセットの低次元表現と視覚化が向上する。 さらに、IRMAベースのクラス識別サブ空間は、次元の減少や、潜在的に性能が向上したロバストな分類器の訓練に利用できる。

We introduce and investigate the iterated application of Generalized Matrix Learning Vector Quantizaton for the analysis of feature relevances in classification problems, as well as for the construction of class-discriminative subspaces. The suggested Iterated Relevance Matrix Analysis (IRMA) identifies a linear subspace representing the classification specific information of the considered data sets using Generalized Matrix Learning Vector Quantization (GMLVQ). By iteratively determining a new discriminative subspace while projecting out all previously identified ones, a combined subspace carrying all class-specific information can be found. This facilitates a detailed analysis of feature relevances, and enables improved low-dimensional representations and visualizations of labeled data sets. Additionally, the IRMA-based class-discriminative subspace can be used for dimensionality reduction and the training of robust classifiers with potentially improved performance.
翻訳日:2024-01-24 15:20:59 公開日:2024-01-23
# SGTR+: Transformer を用いたエンドツーエンドのシーングラフ生成

SGTR+: End-to-end Scene Graph Generation with Transformer ( http://arxiv.org/abs/2401.12835v1 )

ライセンス: Link先を確認
Rongjie Li, Songyang Zhang, Xuming He(参考訳) シーングラフ生成(SGG)は、その構成特性のため、困難な視覚的理解課題である。 これまでのほとんどの作業ではボトムアップ、2段階またはポイントベースの1段階のアプローチを採用していた。 本稿では,上記の問題に対処するための新しいsgg法を提案し,タスクを2部グラフ構築問題として定式化する。 上記の問題に対処するために、エンティティとエンティティを認識した述語プロポーザルセットを生成するトランスフォーマティブベースのエンドツーエンドフレームワークを作成し、有向エッジを推論して関係三重項を形成する。 さらに,エンティティ認識構造に基づいて,二部的なシーングラフの接続を推測するグラフ合成モジュールを設計し,シーングラフをエンドツーエンドで生成できるようにした。 さらに,2成分グラフ合成パラダイムに基づき,エンティティ認識モデリングの有効性とグラフ組み立ての最適化安定性に対処した新しい技術設計を提案する。 改良されたエンティティ・アウェア・デザインにより,最適性能と時間複雑度を実現する。 広範な実験結果から,我々の設計は,3つの難解なベンチマークで最先端あるいは同等のパフォーマンスを達成でき,既存の手法の大部分を上回って,推論の効率を向上できることがわかった。 コードは https://github.com/Scarecrow0/SGTR

Scene Graph Generation (SGG) remains a challenging visual understanding task due to its compositional property. Most previous works adopt a bottom-up, two-stage or point-based, one-stage approach, which often suffers from high time complexity or suboptimal designs. In this work, we propose a novel SGG method to address the aforementioned issues, formulating the task as a bipartite graph construction problem. To address the issues above, we create a transformer-based end-to-end framework to generate the entity and entity-aware predicate proposal set, and infer directed edges to form relation triplets. Moreover, we design a graph assembling module to infer the connectivity of the bipartite scene graph based on our entity-aware structure, enabling us to generate the scene graph in an end-to-end manner. Based on bipartite graph assembling paradigm, we further propose a new technical design to address the efficacy of entity-aware modeling and optimization stability of graph assembling. Equipped with the enhanced entity-aware design, our method achieves optimal performance and time-complexity. Extensive experimental results show that our design is able to achieve the state-of-the-art or comparable performance on three challenging benchmarks, surpassing most of the existing approaches and enjoying higher efficiency in inference. Code is available: https://github.com/Scarecrow0/SGTR
翻訳日:2024-01-24 15:20:43 公開日:2024-01-23
# 次世代のデスティネーション予測の強化:実世界の航空データを用いた新しいLSTMアプローチ

Enhancing Next Destination Prediction: A Novel LSTM Approach Using Real-World Airline Data ( http://arxiv.org/abs/2401.12830v1 )

ライセンス: Link先を確認
Salih Salihoglu, Gulser Koksal, Orhan Abar(参考訳) 現代の交通業界では、旅行者の次の目的地を正確に予測することは、顧客満足やターゲットマーケティングといった企業に多くの利益をもたらす。 本研究は,旅行データの逐次パターンと依存関係を捉え,個々の旅行者の将来の目的地を正確に予測する精密モデルの開発に焦点をあてる。 そこで交通産業における目的地予測のために,long short-term memory (lstm) に基づくスライディングウインドウアプローチによる新しいモデルアーキテクチャを提案する。 実験結果は,データサイズや性能指標の異なるモデルによって達成された満足な性能と高いスコアを強調した。 本研究は、目的地予測手法の推進、企業へのパーソナライズされたレコメンデーションの提供、動的旅行環境における顧客エクスペリエンスの最適化に寄与する。

In the modern transportation industry, accurate prediction of travelers' next destinations brings multiple benefits to companies, such as customer satisfaction and targeted marketing. This study focuses on developing a precise model that captures the sequential patterns and dependencies in travel data, enabling accurate predictions of individual travelers' future destinations. To achieve this, a novel model architecture with a sliding window approach based on Long Short-Term Memory (LSTM) is proposed for destination prediction in the transportation industry. The experimental results highlight satisfactory performance and high scores achieved by the proposed model across different data sizes and performance metrics. This research contributes to advancing destination prediction methods, empowering companies to deliver personalized recommendations and optimize customer experiences in the dynamic travel landscape.
翻訳日:2024-01-24 15:20:20 公開日:2024-01-23
# MAPPING: 機密情報漏洩を限定した公正ノード分類のためのグラフニューラルネットワークの偏り

MAPPING: Debiasing Graph Neural Networks for Fair Node Classification with Limited Sensitive Information Leakage ( http://arxiv.org/abs/2401.12824v1 )

ライセンス: Link先を確認
Ying Song and Balaji Palanisamy(参考訳) 多様なWebベースアプリケーションで顕著な成功を収めたにもかかわらず、グラフニューラルネットワーク(GNN)は、歴史的差別や社会的ステレオタイプを継承し、さらに悪化させ、オンライン臨床診断や金融クレジットなどの高い領域への展開を著しく妨げている。 しかし、主にi.i.dデータに基づく現在の公正性の研究は、サンプル間の位相依存を持つ非i.d.グラフ構造に自明に複製することはできない。 既存の公正グラフ学習は、ペアワイズ制約を好んでフェアネスを達成するが、次元的制約をオフにして複数の機密属性に一般化することができない。また、ほとんどの研究は、フェアネスを強制し、校正するための内部処理技術に焦点を当て、下流の誤用を防止し、トレーニングの信頼性を向上させるために、前処理段階でモデルに依存しないGNNフレームワークを構築している。 さらに、GNNに関する以前の研究は、公平さとプライバシを個別に強化する傾向にあるが、それらの相互作用を調査する機会はほとんどない。 本稿では,距離共分散($dcov$)に基づくフェアネス制約を適用し,任意の次元における特徴とトポロジのバイアスを同時に低減し,属性推論攻撃のリスクを限定する,新たなモデル非依存デバイアスフレームワークである mapping (\underline{m}asking \underline{a}nd \underline{p}runing and message-\underline{p}assing train\underline{ing})を提案する。 GNNのバリエーションが異なる実世界のデータセットの実験は、MAPPingの有効性と柔軟性を示している。 以上の結果から,MAPPingは実用性と公正性のトレードオフを向上し,機密情報漏洩のプライバシーリスクを軽減できることが示唆された。

Despite remarkable success in diverse web-based applications, Graph Neural Networks(GNNs) inherit and further exacerbate historical discrimination and social stereotypes, which critically hinder their deployments in high-stake domains such as online clinical diagnosis, financial crediting, etc. However, current fairness research that primarily craft on i.i.d data, cannot be trivially replicated to non-i.i.d. graph structures with topological dependence among samples. Existing fair graph learning typically favors pairwise constraints to achieve fairness but fails to cast off dimensional limitations and generalize them into multiple sensitive attributes; besides, most studies focus on in-processing techniques to enforce and calibrate fairness, constructing a model-agnostic debiasing GNN framework at the pre-processing stage to prevent downstream misuses and improve training reliability is still largely under-explored. Furthermore, previous work on GNNs tend to enhance either fairness or privacy individually but few probe into their interplays. In this paper, we propose a novel model-agnostic debiasing framework named MAPPING (\underline{M}asking \underline{A}nd \underline{P}runing and Message-\underline{P}assing train\underline{ING}) for fair node classification, in which we adopt the distance covariance($dCov$)-based fairness constraints to simultaneously reduce feature and topology biases in arbitrary dimensions, and combine them with adversarial debiasing to confine the risks of attribute inference attacks. Experiments on real-world datasets with different GNN variants demonstrate the effectiveness and flexibility of MAPPING. Our results show that MAPPING can achieve better trade-offs between utility and fairness, and mitigate privacy risks of sensitive information leakage.
翻訳日:2024-01-24 15:20:03 公開日:2024-01-23
# 深層強化学習アルゴリズムを用いた下水処理におけるリン除去プロセス制御のための深層学習シミュレータ

Deep Learning Based Simulators for the Phosphorus Removal Process Control in Wastewater Treatment via Deep Reinforcement Learning Algorithms ( http://arxiv.org/abs/2401.12822v1 )

ライセンス: Link先を確認
Esmaeel Mohammadi, Mikkel Stokholm-Bjerregaard, Aviaja Anna Hansen, Per Halkj{\ae}r Nielsen, Daniel Ortiz-Arroyo, Petar Durdevic(参考訳) リン除去は、限られた資源への依存を減らすため、排水処理において不可欠である。 深層強化学習(Deep reinforcement learning, DRL)は、試行錯誤を通じて制御ポリシーを学習することにより、排水処理プラントのプロセスを含む複雑で非線形なシステムを最適化できる機械学習技術である。 しかし,drlを化学・生物プロセスに適用することは,正確なシミュレータの必要性から困難である。 本研究は6つのモデルを用いてリン除去プロセスを特定し、DRL環境のシミュレータを作成する。 モデルは高い精度(>97%)を達成したが、不確実性と不正確な予測動作はシミュレータとしての性能を長期にわたって制限した。 モデルの予測に複合的な誤りが問題の原因の1つとして同定された。 プロセス制御を改善するための手法はDRLアルゴリズムのシミュレーション環境を作成し、複雑なシステムモデリングやパラメータ推定を伴わずに、十分な履歴の地平線を持つ監視制御とデータ取得(SCADA)システムからのデータを使用する。

Phosphorus removal is vital in wastewater treatment to reduce reliance on limited resources. Deep reinforcement learning (DRL) is a machine learning technique that can optimize complex and nonlinear systems, including the processes in wastewater treatment plants, by learning control policies through trial and error. However, applying DRL to chemical and biological processes is challenging due to the need for accurate simulators. This study trained six models to identify the phosphorus removal process and used them to create a simulator for the DRL environment. Although the models achieved high accuracy (>97%), uncertainty and incorrect prediction behavior limited their performance as simulators over longer horizons. Compounding errors in the models' predictions were identified as one of the causes of this problem. This approach for improving process control involves creating simulation environments for DRL algorithms, using data from supervisory control and data acquisition (SCADA) systems with a sufficient historical horizon without complex system modeling or parameter estimation.
翻訳日:2024-01-24 15:19:21 公開日:2024-01-23
# DatUS^2: 事前学習型自己監督型視覚変換器を用いたデータ駆動型非教師なしセマンティックセマンティックセグメンテーション

DatUS^2: Data-driven Unsupervised Semantic Segmentation with Pre-trained Self-supervised Vision Transformer ( http://arxiv.org/abs/2401.12820v1 )

ライセンス: Link先を確認
Sonal Kumar, Arijit Sur and Rashmi Dutta Baruah(参考訳) いくつかの自己指導型トレーニングスキームの逐次的な提案が登場し続け、普遍的な基礎モデルの開発に一歩近づいた。 このプロセスでは、教師なし下流タスクを自己教師付きトレーニングスキームで学習した視覚的特徴の品質を評価する評価方法の1つとして認識する。 しかし,視覚トランスフォーマの自己教師付き訓練中にパッチレベルの特徴表現に導入された意味情報の質を活用し,評価できる下流タスクとして,教師なしの密集した意味セグメンテーションは検討されていない。 そこで本稿では,教師なしセマンティクスセグメンテーション(datus^2)を下流タスクとして,新しいデータ駆動アプローチを提案する。 DatUS^2は、視覚的優先データや同期データを用いることなく、ラベルのない画像データセットに対して意味的に一貫性があり、密度の高い擬似アノテーションセグメンテーションマスクを生成する。 これらの疑似注釈付きセグメンテーションマスクと地上の真理マスクを比較して、最近の自己指導型トレーニングスキームを評価し、パッチレベルでの共有セグメンテーション特性とセグメントレベルでの識別的セグメンテーション特性を学習する。 最後に,提案した下流タスク,すなわちDatUS^2を用いて,最先端の自己指導型トレーニング手法の評価を行った。 また、DatUS^2の最良のバージョンは、SUIMデータセット上で15.02%のMiOUと21.47%の精度で、教師なしの密接なセマンティックセグメンテーションタスクの既存の最先端手法よりも優れている。 また、大規模で複雑なデータセット、すなわちCOCOデータセットの競合レベルの精度も達成している。

Successive proposals of several self-supervised training schemes continue to emerge, taking one step closer to developing a universal foundation model. In this process, the unsupervised downstream tasks are recognized as one of the evaluation methods to validate the quality of visual features learned with a self-supervised training scheme. However, unsupervised dense semantic segmentation has not been explored as a downstream task, which can utilize and evaluate the quality of semantic information introduced in patch-level feature representations during self-supervised training of a vision transformer. Therefore, this paper proposes a novel data-driven approach for unsupervised semantic segmentation (DatUS^2) as a downstream task. DatUS^2 generates semantically consistent and dense pseudo annotate segmentation masks for the unlabeled image dataset without using any visual-prior or synchronized data. We compare these pseudo-annotated segmentation masks with ground truth masks for evaluating recent self-supervised training schemes to learn shared semantic properties at the patch level and discriminative semantic properties at the segment level. Finally, we evaluate existing state-of-the-art self-supervised training schemes with our proposed downstream task, i.e., DatUS^2. Also, the best version of DatUS^2 outperforms the existing state-of-the-art method for the unsupervised dense semantic segmentation task with 15.02% MiOU and 21.47% Pixel accuracy on the SUIM dataset. It also achieves a competitive level of accuracy for a large-scale and complex dataset, i.e., the COCO dataset.
翻訳日:2024-01-24 15:18:59 公開日:2024-01-23
# パラメータ効率のよい変圧器の動的層結合

Dynamic Layer Tying for Parameter-Efficient Transformers ( http://arxiv.org/abs/2401.12819v1 )

ライセンス: Link先を確認
Tamir David Hay, Lior Wolf(参考訳) ディープトランスネットワークにおけるトレーニング可能なパラメータの数を減らし,トレーニング中のレイヤを動的に選択し,それらを結びつけるためにReinforcement Learningを採用している。 数回のイテレーション毎に、RLエージェントは各レイヤを$i$独立にトレーニングするか、前のレイヤの$j<i$をコピーするかを尋ねられる。 これにより重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化手法としても機能する。 実験により,本モデルがパープレキシティに関してベースライン変圧器モデルより適度に優れ,トレーニング可能なパラメータの数が大幅に減少することを確認した。 特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。

In the pursuit of reducing the number of trainable parameters in deep transformer networks, we employ Reinforcement Learning to dynamically select layers during training and tie them together. Every few iterations, the RL agent is asked whether to train each layer $i$ independently or to copy the weights of a previous layer $j<i$. This facilitates weight sharing, reduces the number of trainable parameters, and also serves as an effective regularization technique. Experimental evaluations validate that our model modestly outperforms the baseline transformer model with regard to perplexity and drastically reduces the number of trainable parameters. In particular, the memory consumption during training is up to one order of magnitude less than the conventional training method.
翻訳日:2024-01-24 15:18:27 公開日:2024-01-23
# 急変する解を持つ方程式を解く二元構造物理学インフォームドニューラルネットワーク

Binary structured physics-informed neural networks for solving equations with rapidly changing solutions ( http://arxiv.org/abs/2401.12806v1 )

ライセンス: Link先を確認
Yanzhi Liu and Ruifan Wu and Ying Jiang(参考訳) ディープラーニングに根ざした物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)を解くための有望なアプローチとして登場した。 PDEによって記述された物理情報をフィードフォワードニューラルネットワークに埋め込むことで、PINNはラベルデータを必要としない近似解の代理モデルとして訓練される。 それでもPINNは顕著な性能を示したが、特に急速に変化する解を特徴とする方程式を扱う場合、困難に直面している。 これらの困難は緩やかに収束し、局所的なミニマに閉じ込められる可能性があり、解の精度が低下する。 これらの問題に対処するために、ニューラルネットワークコンポーネントとしてバイナリ構造化ニューラルネットワーク(BsNN)を用いるバイナリ構造化物理情報ニューラルネットワーク(BsPINN)フレームワークを提案する。 完全に接続されたニューラルネットワークと比較してニューロン間の接続を減らすバイナリ構造を利用することで、BsPINNはソリューションの局所的な特徴をより効果的に、効率的に捉えることができる。 これらの特徴は、ソリューションの性質が急速に変化することを学ぶために特に重要である。 バーガース方程式、オイラー方程式、ヘルムホルツ方程式、高次元ポアソン方程式を解く一連の数値実験において、BsPINNはPINNよりも優れた収束速度と高い精度を示す。 これらの実験から,BsPINNはPINNの隠蔽層の増加に起因する問題を解消し,PDEの非平滑性による精度低下を防止する。

Physics-informed neural networks (PINNs), rooted in deep learning, have emerged as a promising approach for solving partial differential equations (PDEs). By embedding the physical information described by PDEs into feedforward neural networks, PINNs are trained as surrogate models to approximate solutions without the need for label data. Nevertheless, even though PINNs have shown remarkable performance, they can face difficulties, especially when dealing with equations featuring rapidly changing solutions. These difficulties encompass slow convergence, susceptibility to becoming trapped in local minima, and reduced solution accuracy. To address these issues, we propose a binary structured physics-informed neural network (BsPINN) framework, which employs binary structured neural network (BsNN) as the neural network component. By leveraging a binary structure that reduces inter-neuron connections compared to fully connected neural networks, BsPINNs excel in capturing the local features of solutions more effectively and efficiently. These features are particularly crucial for learning the rapidly changing in the nature of solutions. In a series of numerical experiments solving Burgers equation, Euler equation, Helmholtz equation, and high-dimension Poisson equation, BsPINNs exhibit superior convergence speed and heightened accuracy compared to PINNs. From these experiments, we discover that BsPINNs resolve the issues caused by increased hidden layers in PINNs resulting in over-smoothing, and prevent the decline in accuracy due to non-smoothness of PDEs solutions.
翻訳日:2024-01-24 15:18:13 公開日:2024-01-23
# エネルギーの勾配流:エンティティアライメント復号のための汎用的かつ効率的なアプローチ

Gradient Flow of Energy: A General and Efficient Approach for Entity Alignment Decoding ( http://arxiv.org/abs/2401.12798v1 )

ライセンス: Link先を確認
Yuanyi Wang, Haifeng Sun, Jingyu Wang, Qi Qi, Shaoling Sun and Jianxin Liao(参考訳) マルチソース知識グラフ(KG)を統合する上で重要なプロセスであるエンティティアライメント(EA)は、これらのグラフにまたがる同等のエンティティペアを識別することを目指している。 既存のアプローチの多くは、EAをグラフ表現学習タスクとみなし、グラフエンコーダの拡張に集中している。 しかし、EAにおけるデコーディングプロセス(効果的な操作とアライメントの正確性に不可欠なもの)は、限定的な注目を集めており、特定のデータセットやモデルアーキテクチャに合わせて、エンティティと追加の明示的な関係埋め込みが必要である。 この特異性は、特にGNNベースのモデルにおける適用性を制限する。 このギャップに対処するために、私たちはエンティティの埋め込みのみに依存する、新しい、一般化され、効率的なEAデコーディングアプローチを導入します。 本手法はディリクレエネルギーを最小化してデコード処理を最適化し,グラフ内の勾配流を導出し,グラフのホモフィリー化を促進する。 勾配流の離散化は、Triple Feature Propagation (TFP)と呼ばれる高速でスケーラブルなアプローチを生み出す。 tfpは革新的に、entity-to-entity、entity-to-relation、relation-to-entityの3つのビューを通して勾配フローを流れる。 この一般的な勾配流れにより、tfpはkgsの多視点構造情報を活用することができる。 多様な実世界のデータセットに対する厳密な実験は、我々のアプローチが様々なEA手法を著しく強化することを示す。 特に、このアプローチは6秒未満の計算時間でこれらの進歩を達成し、将来のEA手法の効率性と適応性の新しいベンチマークを確立する。

Entity alignment (EA), a pivotal process in integrating multi-source Knowledge Graphs (KGs), seeks to identify equivalent entity pairs across these graphs. Most existing approaches regard EA as a graph representation learning task, concentrating on enhancing graph encoders. However, the decoding process in EA - essential for effective operation and alignment accuracy - has received limited attention and remains tailored to specific datasets and model architectures, necessitating both entity and additional explicit relation embeddings. This specificity limits its applicability, particularly in GNN-based models. To address this gap, we introduce a novel, generalized, and efficient decoding approach for EA, relying solely on entity embeddings. Our method optimizes the decoding process by minimizing Dirichlet energy, leading to the gradient flow within the graph, to promote graph homophily. The discretization of the gradient flow produces a fast and scalable approach, termed Triple Feature Propagation (TFP). TFP innovatively channels gradient flow through three views: entity-to-entity, entity-to-relation, and relation-to-entity. This generalized gradient flow enables TFP to harness the multi-view structural information of KGs. Rigorous experimentation on diverse real-world datasets demonstrates that our approach significantly enhances various EA methods. Notably, the approach achieves these advancements with less than 6 seconds of additional computational time, establishing a new benchmark in efficiency and adaptability for future EA methods.
翻訳日:2024-01-24 15:17:42 公開日:2024-01-23
# 不確実性定量化によるLCMのベンチマーク

Benchmarking LLMs via Uncertainty Quantification ( http://arxiv.org/abs/2401.12794v1 )

ライセンス: Link先を確認
Fanghua Ye, Mingming Yang, Jianhui Pang, Longyue Wang, Derek F. Wong, Emine Yilmaz, Shuming Shi, Zhaopeng Tu(参考訳) 各種機関からのオープンソースのLarge Language Models(LLM)の普及は,包括的評価手法の必要性を浮き彫りにした。 しかし、広く認知されているhuggingface open llm leaderboardのような現在の評価プラットフォームは、重要な側面である不確実性を無視している。 このギャップを埋めるために,不確実性定量化を統合したllmsのベンチマーク手法を提案する。 本研究は,5つの自然言語処理タスクにまたがる8つのLLM(LLMシリーズ)について検討した。 さらに,予測精度と予測の不確実性を考慮した不確実性認識評価指標であるuaccを導入する。 以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。 不確実性を考慮することで、我々の新しいUAcc測定基準は、1つのLSMの相対的な改善を他のLSMよりも増幅または減少させることができる。 これらの結果はLLMの評価に不確かさを取り入れることの重要性を浮き彫りにした。

The proliferation of open-source Large Language Models (LLMs) from various institutions has highlighted the urgent need for comprehensive evaluation methods. However, current evaluation platforms, such as the widely recognized HuggingFace open LLM leaderboard, neglect a crucial aspect -- uncertainty, which is vital for thoroughly assessing LLMs. To bridge this gap, we introduce a new benchmarking approach for LLMs that integrates uncertainty quantification. Our examination involves eight LLMs (LLM series) spanning five representative natural language processing tasks. Additionally, we introduce an uncertainty-aware evaluation metric, UAcc, which takes into account both prediction accuracy and prediction uncertainty. Our findings reveal that: I) LLMs with higher accuracy may exhibit lower certainty; II) Larger-scale LLMs may display greater uncertainty compared to their smaller counterparts; and III) Instruction-finetuning tends to increase the uncertainty of LLMs. By taking uncertainty into account, our new UAcc metric can either amplify or diminish the relative improvement of one LLM over another and may even change the relative ranking of two LLMs. These results underscore the significance of incorporating uncertainty in the evaluation of LLMs.
翻訳日:2024-01-24 15:17:16 公開日:2024-01-23
# 部屋のエレファントに挑戦する:ビジュアル・プロンプト・チューニングかフル・ファインタニングか?

Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning? ( http://arxiv.org/abs/2401.12902v1 )

ライセンス: Link先を確認
Cheng Han, Qifan Wang, Yiming Cui, Wenguan Wang, Lifu Huang, Siyuan Qi, Dongfang Liu(参考訳) 視覚モデルの規模が拡大するにつれて、パラメータ効率のよい伝達学習技術としての視覚プロンプトチューニング(VPT)の出現は、従来のフルファインタニングに比べて優れた性能で注目されている。 しかし、VPT(『when』)と根本的根拠(『why』)を支持する条件はいまだ不明である。 本稿では,19の異なるデータセットとタスクにまたがって包括的な分析を行う。 の側面を理解するために、我々はVPTが2つの次元(タスク目標とデータ分散)で有利であることを示すシナリオを特定します。 私たちは、VPTが好ましいことを発見した。 1)原案と下流課題目標(例えば、分類から数え方への遷移)の実質的な相違 2) 2つのタスク間のデータ分布の類似性(例えば、どちらも自然画像を含む)。 この「なぜ」次元の探索において、我々はVPTの成功は過度な適合と最適化の考慮だけでは説明できないことを示した。 vptがオリジナルの機能を保存し、パラメータを追加するユニークな方法は、重要な要因のようだ。 本稿ではVPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。

As the scale of vision models continues to grow, the emergence of Visual Prompt Tuning (VPT) as a parameter-efficient transfer learning technique has gained attention due to its superior performance compared to traditional full-finetuning. However, the conditions favoring VPT (the ``when") and the underlying rationale (the ``why") remain unclear. In this paper, we conduct a comprehensive analysis across 19 distinct datasets and tasks. To understand the ``when" aspect, we identify the scenarios where VPT proves favorable by two dimensions: task objectives and data distributions. We find that VPT is preferrable when there is 1) a substantial disparity between the original and the downstream task objectives (e.g., transitioning from classification to counting), or 2) a similarity in data distributions between the two tasks (e.g., both involve natural images). In exploring the ``why" dimension, our results indicate VPT's success cannot be attributed solely to overfitting and optimization considerations. The unique way VPT preserves original features and adds parameters appears to be a pivotal factor. Our study provides insights into VPT's mechanisms, and offers guidance for its optimal utilization.
翻訳日:2024-01-24 15:12:17 公開日:2024-01-23
# PSAvatar:3次元ガウス平板を用いたリアルタイム頭部アバター作成のためのポイントベース形状モデル

PSAvatar: A Point-based Morphable Shape Model for Real-Time Head Avatar Creation with 3D Gaussian Splatting ( http://arxiv.org/abs/2401.12900v1 )

ライセンス: Link先を確認
Zhongyuan Zhao and Zhenyu Bao and Qing Li and Guoping Qiu and Kanglin Liu(参考訳) 多くの進歩にもかかわらず、リアルタイムの高忠実度頭部アバターの作成は依然として困難であり、既存の手法ではスピードと品質のトレードオフが必要となる。 3DMMに基づく手法は、眼鏡やヘアスタイルのような非界面構造をモデル化するのに失敗することが多い。 3d gaussian は幾何学表現と放射場再構成に有望な能力を持つことが証明されているが、3d gaussian はポーズや表現の変化によって生じる頭部形状の変化をモデル化することが困難であるため、頭部アバター作成に3d gaussian を適用することは依然として大きな課題である。 本稿では,離散幾何学的プリミティブを用いてパラメトリックなモーファブル形状モデルを作成し,精細なディテール表現と高忠実度レンダリングに3dガウシアンを用いる,アニメーション可能な頭部アバター作成のための新しいフレームワークpsavatarを提案する。 パラメトリック形状モデル(Parametric morphable shape model)は、3次元表現のメッシュの代わりに点を用いて表現の柔軟性を向上するポイントベース形状モデル(PMSM)である。 PMSMは、最初にFLAMEメッシュを、表面のサンプリングとメッシュのオフによってポイントに変換し、表面のような構造だけでなく、眼鏡やヘアスタイルのような複雑な地形の再構築を可能にする。 これらの点を分析・合成方式で頭部形状と整合させることにより、pmsmは3次元ガウシアンを詳細な表現と外観のモデリングに活用し、高忠実なアバターを作成することができる。 psavatarは多種多様な被写体の高精細な頭部アバターを再現でき、アバターはリアルタイムで(512×512の解像度で25fpsで)アニメーションできる。

Despite much progress, creating real-time high-fidelity head avatar is still difficult and existing methods have to trade-off between speed and quality. 3DMM based methods often fail to model non-facial structures such as eyeglasses and hairstyles, while neural implicit models suffer from deformation inflexibility and rendering inefficiency. Although 3D Gaussian has been demonstrated to possess promising capability for geometry representation and radiance field reconstruction, applying 3D Gaussian in head avatar creation remains a major challenge since it is difficult for 3D Gaussian to model the head shape variations caused by changing poses and expressions. In this paper, we introduce PSAvatar, a novel framework for animatable head avatar creation that utilizes discrete geometric primitive to create a parametric morphable shape model and employs 3D Gaussian for fine detail representation and high fidelity rendering. The parametric morphable shape model is a Point-based Morphable Shape Model (PMSM) which uses points instead of meshes for 3D representation to achieve enhanced representation flexibility. The PMSM first converts the FLAME mesh to points by sampling on the surfaces as well as off the meshes to enable the reconstruction of not only surface-like structures but also complex geometries such as eyeglasses and hairstyles. By aligning these points with the head shape in an analysis-by-synthesis manner, the PMSM makes it possible to utilize 3D Gaussian for fine detail representation and appearance modeling, thus enabling the creation of high-fidelity avatars. We show that PSAvatar can reconstruct high-fidelity head avatars of a variety of subjects and the avatars can be animated in real-time ($\ge$ 25 fps at a resolution of 512 x 512 )
翻訳日:2024-01-24 15:11:46 公開日:2024-01-23
# エルミート行列によって引き起こされる力学はいかにカオス的か?

How Chaotic is the Dynamics Induced by a Hermitian Matrix? ( http://arxiv.org/abs/2401.12898v1 )

ライセンス: Link先を確認
Sven Gnutzmann and Uzy Smilansky(参考訳) 有限離散量子ハミルトニアンと見なされる任意の \(v \times v\) エルミート行列が与えられると、グラフとエルゴード理論からの手法を使って適切な離散位相空間上の対応する確率的古典力学を構築する。 これは、(v\) 頂点を持つグラフの有向辺と、(h\) の非有界なオフ対角元との1対1対応からなる。 古典力学は、エネルギー \(E\) におけるポアンカー写像の確率的変種であり、古典的極限 \(\hbar \to 0\) に基づいた標準量子古典対応の代替である。 最も重要なことは、そのような制限が存在しない場合に構築できることである。 エルゴード理論の標準的な方法を用いて、古典写像のリャプノフ指数 \(\Lambda(E)\) の式を定義する。 位相空間における確率的古典的軌道の分離率を測定する。 我々は、このリアプノフ指数を用いて有限量子系におけるカオスの量を定量化することを提案する。

Given an arbitrary \(V \times V\) Hermitian matrix, considered as a finite discrete quantum Hamiltonian, we use methods from graph and ergodic theories to construct a corresponding stochastic classical dynamics on an appropriate discrete phase space. It consists of the directed edges of a graph with \(V\) vertices that are in one-to-one correspondence with the non-vanishing off-diagonal elements of \(H\). The classical dynamics is a stochastic variant of a Poincar\'e map at an energy \(E\) and an alternative to standard quantum-classical correspondence based on a classical limit \(\hbar \to 0\). Most importantly it can be constructed where no such limit exists. Using standard methods from ergodic theory we then proceed to define an expression for the Lyapunov exponent \(\Lambda(E)\) of the classical map. It measures the rate of separation of stochastic classical trajectories in phase space. We suggest to use this Lyapunov exponent to quantify the amount of chaos in a finite quantum system.
翻訳日:2024-01-24 15:10:50 公開日:2024-01-23
# 自動運転におけるデータ中心の進化:ビッグデータシステム、データマイニング、クローズドループ技術の包括的調査

Data-Centric Evolution in Autonomous Driving: A Comprehensive Survey of Big Data System, Data Mining, and Closed-Loop Technologies ( http://arxiv.org/abs/2401.12888v1 )

ライセンス: Link先を確認
Lincan Li, Wei Shao, Wei Dong, Yijun Tian, Kaixiang Yang, Wenjie Zhang(参考訳) 次世代の自動運転(AD)技術への期待は、知的知覚、予測、計画、低レベル制御の専門的な統合と相互作用に依存している。 自動運転アルゴリズムのパフォーマンスの上限に関して、大きなボトルネックがあった。このボトルネックを克服する鍵はデータ中心の自動運転技術にある、とアカデミアと業界は考えている。 ADシミュレーション、クローズドループモデルトレーニング、ADビッグデータエンジンの最近の進歩は、貴重な経験を得た。 しかし、ADアルゴリズムの自己進化とより優れたADビッグデータ蓄積のための効率的なデータ中心AD技術を構築する方法について、体系的な知識と深い理解が欠如している。 特定された研究ギャップを埋めるため、この記事では、マイルストーン世代、キー機能、データ取得設定を特徴とする自動運転データセットの包括的分類に重点を置いた、最先端のデータ駆動型自動運転技術のレビューに焦点を当てます。 さらに,既存のクローズドループADビッグデータパイプラインについて,クローズドループフレームワークのプロシージャ,キー技術,実証研究を含む,業界フロンティアからの体系的なレビューを行った。 最後に, 将来的な方向性, 潜在的な応用, 限界, 懸念事項について考察し, 自律運転のさらなる発展を促進するための学術・産業双方の努力を喚起する。

The aspiration of the next generation's autonomous driving (AD) technology relies on the dedicated integration and interaction among intelligent perception, prediction, planning, and low-level control. There has been a huge bottleneck regarding the upper bound of autonomous driving algorithm performance, a consensus from academia and industry believes that the key to surmount the bottleneck lies in data-centric autonomous driving technology. Recent advancement in AD simulation, closed-loop model training, and AD big data engine have gained some valuable experience. However, there is a lack of systematic knowledge and deep understanding regarding how to build efficient data-centric AD technology for AD algorithm self-evolution and better AD big data accumulation. To fill in the identified research gaps, this article will closely focus on reviewing the state-of-the-art data-driven autonomous driving technologies, with an emphasis on the comprehensive taxonomy of autonomous driving datasets characterized by milestone generations, key features, data acquisition settings, etc. Furthermore, we provide a systematic review of the existing benchmark closed-loop AD big data pipelines from the industrial frontier, including the procedure of closed-loop frameworks, key technologies, and empirical studies. Finally, the future directions, potential applications, limitations and concerns are discussed to arouse efforts from both academia and industry for promoting the further development of autonomous driving.
翻訳日:2024-01-24 15:10:20 公開日:2024-01-23
# 非線形連続時間H$\infty$追跡制御のためのダンプニュートン法に基づくモデルフリー$\delta$-Policy反復

Model-Free $\delta$-Policy Iteration Based on Damped Newton Method for Nonlinear Continuous-Time H$\infty$ Tracking Control ( http://arxiv.org/abs/2401.12882v1 )

ライセンス: Link先を確認
Qi Wang(参考訳) 本稿では,未知の連続時間非線形系のh{\infty}追従制御問題に対する減衰ニュートン法に基づく {\delta}-piアルゴリズムを提案する。 ハミルトン・ヤコビ・イザック(HJI)方程式の追跡には、割引性能関数と拡張システムを用いる。 追跡HJI方程式は非線形偏微分方程式であり、追跡HJI方程式を解く従来の強化学習法は主にニュートン法に基づいている。 減衰ニュートン反復作用素方程式に基づいて、一般化された追跡ベルマン方程式を導出する。 delta}-piアルゴリズムは一般化された追跡ベルマン方程式を反復的に解いて追跡hji方程式の最適解を求めることができる。 オン・ポリシー学習とオフ・ポリシー学習 {\delta}-pi強化学習方法がそれぞれ提供される。 Off-policy version {\delta}-PI algorithmは、システム力学の事前知識を使わずに実行できるモデルフリーのアルゴリズムである。 オフポリシー {\delta}-piアルゴリズムのnnベースの実装方式を示す。 モデルフリーな {\delta}-PIアルゴリズムの適合性は非線形システムシミュレーションで示される。

This paper presents a {\delta}-PI algorithm which is based on damped Newton method for the H{\infty} tracking control problem of unknown continuous-time nonlinear system. A discounted performance function and an augmented system are used to get the tracking Hamilton-Jacobi-Isaac (HJI) equation. Tracking HJI equation is a nonlinear partial differential equation, traditional reinforcement learning methods for solving the tracking HJI equation are mostly based on the Newton method, which usually only satisfies local convergence and needs a good initial guess. Based upon the damped Newton iteration operator equation, a generalized tracking Bellman equation is derived firstly. The {\delta}-PI algorithm can seek the optimal solution of the tracking HJI equation by iteratively solving the generalized tracking Bellman equation. On-policy learning and off-policy learning {\delta}-PI reinforcement learning methods are provided, respectively. Off-policy version {\delta}-PI algorithm is a model-free algorithm which can be performed without making use of a priori knowledge of the system dynamics. NN-based implementation scheme for the off-policy {\delta}-PI algorithms is shown. The suitability of the model-free {\delta}-PI algorithm is illustrated with a nonlinear system simulation.
翻訳日:2024-01-24 15:08:57 公開日:2024-01-23
# パラメータ量子回路の最適コンパイル

Optimal compilation of parametrised quantum circuits ( http://arxiv.org/abs/2401.12877v1 )

ライセンス: Link先を確認
John van de Wetering, Richie Yeung, Tuomas Laakkonen, Aleks Kissinger(参考訳) パラメトリス量子回路は、量子デバイス上で回路を実行する前に古典アルゴリズムによって位相が決定される位相ゲートを含む。 このような回路はQAOAやVQEのような変分アルゴリズムで使用される。 これらのアルゴリズムが可能な限り効率的になるためには、最少のパラメータを使用することが重要です。 パラメータ数を最小化する一般的な問題はNPハードであるが、パラメトリッド位相ゲートとは別個の回路に制限されている場合、各パラメータが一度だけ使用される場合、最適パラメータカウントを効率的に見つけることができる。 パラメータ変換が必要となると、パラメータを減少させる唯一の書き換えが単純な「融合」に対応することを示す。 これを用いて、いくつかの著者による以前の回路最適化戦略(Kissinger, van de Wetering. PRA (2019))は、パラメータの最適数を求める。 我々の証明はZX計算を用いる。 また、ZX-計算の標準的な書き換え規則は、パラメトリッドクリフォード回路間の等式を証明するのに十分であることを示す。

Parametrised quantum circuits contain phase gates whose phase is determined by a classical algorithm prior to running the circuit on a quantum device. Such circuits are used in variational algorithms like QAOA and VQE. In order for these algorithms to be as efficient as possible it is important that we use the fewest number of parameters. We show that, while the general problem of minimising the number of parameters is NP-hard, when we restrict to circuits that are Clifford apart from parametrised phase gates and where each parameter is used just once, we can efficiently find the optimal parameter count. We show that when parameter transformations are required to be sufficiently well-behaved that the only rewrites that reduce parameters correspond to simple 'fusions'. Using this we find that a previous circuit optimisation strategy by some of the authors [Kissinger, van de Wetering. PRA (2019)] finds the optimal number of parameters. Our proof uses the ZX-calculus. We also prove that the standard rewrite rules of the ZX-calculus suffice to prove any equality between parametrised Clifford circuits.
翻訳日:2024-01-24 15:08:21 公開日:2024-01-23
# 理解から利用へ:大規模言語モデルの説明可能性に関する調査

From Understanding to Utilization: A Survey on Explainability for Large Language Models ( http://arxiv.org/abs/2401.12874v1 )

ライセンス: Link先を確認
Haoyan Luo, Lucia Specia(参考訳) 本稿では,自然言語処理の批判的かつ挑戦的な側面である大規模言語モデル(llms)の解説可能性の急成長分野について考察する。 LLMは様々なアプリケーションにおいて重要な役割を担っているため、それらの「ブラックボックス」の性質は透明性と倫理的利用に対する関心を高めている。 本稿では, LLMにおける説明可能性の向上の必要性を強調し, 一般市民の信頼と技術コミュニティの両立の必要性に対処する。 我々は、LLaMAのような事前学習されたトランスフォーマーベースのLLMに焦点を合わせ、そのスケールと複雑さにより、独特な解釈可能性の課題を提示する。 本稿では、既存の説明可能性手法を分類し、モデルの透明性と信頼性を改善するための応用について論じる。 また,代表的評価手法についても議論し,その強みと限界を強調した。 本調査の目的は,理論的理解と実践的応用のギャップを埋めることであり,LLM説明可能性の分野における今後の研究・開発への洞察を提供することである。

This survey paper delves into the burgeoning field of explainability for Large Language Models (LLMs), a critical yet challenging aspect of natural language processing. With LLMs playing a pivotal role in various applications, their "black-box" nature raises concerns about transparency and ethical use. This paper emphasizes the necessity for enhanced explainability in LLMs, addressing both the general public's trust and the technical community's need for a deeper understanding of these models. We concentrate on pre-trained Transformer-based LLMs, such as LLaMA, which present unique interpretability challenges due to their scale and complexity. Our review categorizes existing explainability methods and discusses their application in improving model transparency and reliability. We also discuss representative evaluation methods, highlighting their strengths and limitations. The goal of this survey is to bridge the gap between theoretical understanding and practical application, offering insights for future research and development in the field of LLM explainability.
翻訳日:2024-01-24 15:08:02 公開日:2024-01-23
# 人間のフィードバックによる機械翻訳の改善:報酬モデルとしての質推定の検討

Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model ( http://arxiv.org/abs/2401.12873v1 )

ライセンス: Link先を確認
Zhiwei He, Xing Wang, Wenxiang Jiao, Zhuosheng Zhang, Rui Wang, Shuming Shi, Zhaopeng Tu(参考訳) 報酬モデルにおける人間の嗜好の不十分なモデリングは、人間のフィードバックを活用して翻訳品質を向上させる上で大きな障害となる。 幸いなことに、ある翻訳の品質を基準なしに予測する品質評価(QE)は、過去2年間に人間の評価と顕著に一致している。 本研究では,QEモデルを報酬モデル(QEに基づく報酬モデル)として活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性を検討する。 まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で報酬の増加が示す過度な最適化問題を同定した。 この問題を検証し,QEモデルの脆弱性は誤訳に対して高い報奨を与える可能性があり,過度な最適化と誤りの伝播をもたらすと論じる。 この問題に対処するために,ヒューリスティックなルールを用いて誤訳を検出し,検出された誤訳に対するQEに基づく報酬にペナルティ項を割り当てる,単純で効果的な手法を採用する。 実験結果から,提案するqeに基づくフィードバック訓練は,様々な設定において一貫した有意な改善が得られ,さらに人間の選好研究によって検証された。 その後の研究では,QEに基づくフィードバックトレーニングの高効率性を示す。少数の単言語データを用いた提案手法は,より大きな並列コーパスを用いたシステムよりも優れた性能を示す。

Insufficient modeling of human preferences within the reward model is a major obstacle for leveraging human feedback to improve translation quality. Fortunately, quality estimation (QE), which predicts the quality of a given translation without reference, has achieved impressive alignment with human evaluations in the last two years. In this work, we investigate the potential of employing the QE model as the reward model (the QE-based reward model) to predict human preferences for feedback training. We first identify the overoptimization problem during QE-based feedback training, manifested as an increase in reward while translation quality declines. We examine the problem and argue that the vulnerability of the QE model might lead to high rewards for incorrect translations, resulting in overoptimization and error propagation. To address the problem, we adopt a simple yet effective method that uses heuristic rules to detect the incorrect translations and assigns a penalty term to the QE-based rewards for the detected incorrect translations. Experimental results show that the proposed QE-based feedback training achieves consistent and significant improvements across various settings, further verified through human preference studies. Our subsequent analysis demonstrates the high data efficiency of the proposed QE-based feedback training: the proposed approach using a small amount of monolingual data can outperform systems using larger parallel corpora.
翻訳日:2024-01-24 15:07:46 公開日:2024-01-23
# ポテンシャルの解き放つ:多タスク深層学習による宇宙空間でのメタン塔の定量的モニタリング

Unlocking the Potential: Multi-task Deep Learning for Spaceborne Quantitative Monitoring of Fugitive Methane Plumes ( http://arxiv.org/abs/2401.12870v1 )

ライセンス: Link先を確認
Guoxin Si, Shiliang Fu and Wei Yao(参考訳) 地球温暖化の増大に伴い、メタン排出量のモニタリングや埋立地からのガス配管の検出がますます注目されている。 我々はメタン濃度インバージョン, プルームセグメンテーション, および排出率推定の3つのサブタスクにメタン排出モニタリングを分解する。 メタン濃度インバージョンは通常マッチングフィルタを使用し、これは大域的なスペクトル分布に敏感であり、大量のノイズを含む。 プルームセグメンテーションに関する研究は限られており、多くの研究は主観的である可能性が高い手動セグメンテーションに依拠している。 メタン放出率の推定は、気象観測データを取得することに依存するIMEアルゴリズムを利用することが多い。 香港のgon埋立処分場とprismaハイパースペクトル衛星画像を用いて,物理シミュレーションに基づくリモートセンシング画像からのメタン排出量の定量的モニタリングのための深層学習に基づく枠組みを提案する。 我々は,大渦シミュレーション (LES) と放射移動方程式 (RTE) を用いた拡散放出の異なる濃度マップを用いて, メタンプラムを模擬し, 拡張技術を組み合わせて擬似PRISMAデータセットを作成する。 メタン濃度インバージョンのためのU-Netネットワーク,メタン配管セグメンテーションのためのMask R-CNNネットワーク,メタン排出率推定のためのResNet-50ネットワークを訓練する。 3つのディープネットワークは、従来のアルゴリズムよりも高い検証精度を実現する。 さらに,最初の2つのサブタスクと最後の2つのサブタスクを組み合わせて,マルチタスク学習モデルであるMTL-01とMTL-02を設計する。 本研究は,メタンの定量モニタリングにマルチタスク深層学習を応用し,広範囲のメタンモニタリングタスクに拡張できることを示す。

With the intensification of global warming, the monitoring of methane emission and detection of gas plumes from landfills have increasingly received attention. We decompose methane emission monitoring into three sub-tasks: methane concentration inversion, plume segmentation, and emission rate estimation. Conventional algorithms have limitations: methane concentration inversion usually uses the matched filter, which is sensitive to global spectrum distribution and contains a large amount of noises. There is limited research on plume segmentation, with many studies resorting to manual segmentation that is likely to be subjective. The estimation of methane emission rate often utilizes IME algorithm, which relies on obtaining meteorological measurement data. Using the WENT landfill site in Hong Kong and PRISMA hyperspectral satellite imagery, we propose a new deep learning-based framework for quantitative monitoring of methane emissions from remote sensing images based on physical simulation. We generate simulated methane plumes using large eddy simulation (LES) and different concentration maps of fugitive emission using the radiative transfer equation (RTE), while combining augmentation techniques to create a simulated PRISMA dataset. We train a U-Net network for methane concentration inversion, a Mask R-CNN network for methane plume segmentation, and a ResNet-50 network for methane emission rate estimation. All three deep networks achieve higher validation accuracy compared to conventional algorithms. We further respectively combine the first two sub-tasks and the last two sub-tasks to design the multi-task learning models - MTL-01 and MTL-02, both of which achieve higher accuracy than single-task models. Our research serves as a demonstration of applying multi-task deep learning to quantitative methane monitoring and can be extended to a broad range of methane monitoring tasks.
翻訳日:2024-01-24 15:07:21 公開日:2024-01-23
# TroVE: プログラムタスクの解決に有効なツールボックス

TroVE: Inducing Verifiable and Efficient Toolboxes for Solving Programmatic Tasks ( http://arxiv.org/abs/2401.12869v1 )

ライセンス: Link先を確認
Zhiruo Wang, Daniel Fried, Graham Neubig(参考訳) 言語モデル(LM)は、プログラムを書くことで、テーブルや画像に関する質問に答えるタスクを解くことができる。 しかし、プリミティブ関数の使用はしばしば冗長でエラーやすいプログラムにつながり、より高いレベルの関数はエキスパート設計を必要とする。 人的労力なしでより良いソリューションを実現するために、我々はコードlmsに再利用可能な高レベル関数のキュレーションを依頼し、それらをソリューションを書くために使用します。 本稿では,ツールボックスの使用,成長,定期的なトリミングにより,検証可能かつ効率的な機能のツールボックスを誘導するトレーニングフリーな方法であるtroveを提案する。 数学、テーブル質問応答、画像推論タスクの11のデータセットにおいて、TROVEは、CODELLAMAやGPTを使った従来の手法に比べて、より単純なソリューションを一貫して生成し、79~98%小さいツールボックスを使用する。 troveは、ベースラインよりも31%高速で13%正確な人間の検証を可能にする。 同じパイプラインで、さまざまなタスクやデータセットに対してさまざまな関数を生成し、個々の特性に関する洞察を提供する。

Language models (LMs) can solve tasks such as answering questions about tables or images by writing programs. However, using primitive functions often leads to verbose and error-prone programs, and higher-level functions require expert design. To enable better solutions without human labor, we ask code LMs to curate reusable high-level functions, and use them to write solutions. We present TROVE, a training-free method of inducing a verifiable and efficient toolbox of functions, by generating via using, growing, and periodically trimming the toolbox. On 11 datasets from math, table question answering, and image reasoning tasks, TROVE consistently yields simpler solutions with higher accuracy than baselines using CODELLAMA and previous methods using GPT, while using 79-98% smaller toolboxes. TROVE further enables 31% faster and 13% more accurate human verification than baselines. With the same pipeline, it creates diverse functions for varied tasks and datasets, providing insights into their individual characteristics.
翻訳日:2024-01-24 15:06:52 公開日:2024-01-23
# データストリーム対応型モバイルクラウドソーシングにおける協調的・自律的エージェントの評価

Evaluating Collaborative and Autonomous Agents in Data-Stream-Supported Coordination of Mobile Crowdsourcing ( http://arxiv.org/abs/2401.12866v1 )

ライセンス: Link先を確認
Ralf Bruns, Jeremias D\"otterl, J\"urgen Dunkel, Sascha Ossowski(参考訳) モバイルクラウドソーシング(mobile crowdsourcing)とは、タスクの完了が必要に応じてオンデマンド労働力でクラウドワーカーの物理的移動を必要とするシステムのことである。 そのようなシステムでは、タスクを成功させるのに苦労しているクラウドワーカーにタスクが割り当てられることが少なく、結果として高い障害率と低いサービス品質がもたらされる。 高い品質のサービスを確保するための有望な解決策は、異なるルートや車両を使用するより適した労働者にタスクを転送することで、割り当てを継続的に適応させ、障害発生イベントに対応することだ。 しかし、モバイルクラウドソーシングにおけるタスク転送の実装は、労働者が自律的であり、転送要求を拒否する可能性があるため困難である。 さらに、タスクの結果は不確実であり、予測する必要がある。 本稿では,モバイルクラウドソーシングにおける成果予測とタスクコーディネートを実現するための異なるメカニズムを提案する。 まず、さまざまなデータストリーム学習アプローチを分析し、タスク結果の予測を行う。 第2に,提案した予測モデルに基づいて,共同作業者によるクラウドスリップのための機会論的アプローチと,クラウドセンシングのための自律作業者による市場ベースモデルという,自律的なタスクコーディネートのための2つの異なるアプローチを提案し,評価する。

Mobile crowdsourcing refers to systems where the completion of tasks necessarily requires physical movement of crowdworkers in an on-demand workforce. Evidence suggests that in such systems, tasks often get assigned to crowdworkers who struggle to complete those tasks successfully, resulting in high failure rates and low service quality. A promising solution to ensure higher quality of service is to continuously adapt the assignment and respond to failure-causing events by transferring tasks to better-suited workers who use different routes or vehicles. However, implementing task transfers in mobile crowdsourcing is difficult because workers are autonomous and may reject transfer requests. Moreover, task outcomes are uncertain and need to be predicted. In this paper, we propose different mechanisms to achieve outcome prediction and task coordination in mobile crowdsourcing. First, we analyze different data stream learning approaches for the prediction of task outcomes. Second, based on the suggested prediction model, we propose and evaluate two different approaches for task coordination with different degrees of autonomy: an opportunistic approach for crowdshipping with collaborative, but non-autonomous workers, and a market-based model with autonomous workers for crowdsensing.
翻訳日:2024-01-24 15:06:33 公開日:2024-01-23
# 閾値量子状態トモグラフィ

Threshold Quantum State Tomography ( http://arxiv.org/abs/2401.12864v1 )

ライセンス: Link先を確認
Daniele Binosi, Giovanni Garberoglio, Diego Maragnano, Maurizio Dapor, and Marco Liscidini(参考訳) 量子状態トモグラフィ(QST)は、量子システムの状態を再構築することを目的としている。 しかし、従来のqstでは、測定値は量子ビット数に指数関数的にスケールする。 本稿では,しきい値の導入により,結果の精度を損なうことなく,状態密度行列の再構成に必要な測定回数を劇的に削減できるqstプロトコルを提案する。 さらに、利用可能なリソースに応じて近似密度行列を再構成するために同じアプローチを使うこともできる。 我々は7キュービットまでの状態のトモグラフィーを行うことで,このプロトコルを実験的に実証する。 提案手法は,測定回数を2桁以上削減しても,QSTの精度が同じであることを示す。

Quantum state tomography (QST) aims at reconstructing the state of a quantum system. However in conventional QST the number of measurements scales exponentially with the number of qubits. Here we propose a QST protocol, in which the introduction of a threshold allows one to drastically reduce the number of measurements required for the reconstruction of the state density matrix without compromising the result accuracy. In addition, one can also use the same approach to reconstruct an approximated density matrix depending on the available resources. We experimentally demonstrate this protocol by performing the tomography of states up to 7 qubits. We show that our approach can lead to the same accuracy of QST even when the number of measurements is reduced by more than two orders of magnitudes.
翻訳日:2024-01-24 15:06:09 公開日:2024-01-23
# KAM-CoT:知識を付加したマルチモーダルチェーンの推論

KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning ( http://arxiv.org/abs/2401.12863v1 )

ライセンス: Link先を確認
Debjyoti Mondal, Suraj Modi, Subhadarshi Panda, Rituraj Singh, Godawari Sudhakar Rao(参考訳) 大規模言語モデル(LLM)は,段階的思考を可能にする思考の連鎖(CoT)を活用することで,自然言語処理タスクにおいて顕著な性能を示した。 マルチモーダル機能によるLLMの拡張は近年の関心事であるが、計算コストがかかり、ハードウェアリソースがかなり必要である。 これらの課題に対処するため,我々は,マルチモーダルタスクの包括的理解のために,CoT推論,知識グラフ(KG),複数モーダルを統合したフレームワークKAM-CoTを提案する。 KAM-CoTは、効果的な合理性と答えを生成するために、KGグラウンドを用いた2段階のトレーニングプロセスを採用している。 推論中にKGから外部知識を取り入れることで、モデルは幻覚の軽減と回答の質の向上をより深く理解する。 この知識強化されたCoT推論は、モデルに外部コンテキストを必要とする質問を処理する権限を与え、より詳しい回答を提供する。 実験の結果,KAM-CoTは最先端の手法よりも優れていた。 ScienceQAデータセットの平均精度は93.87%で、GPT-3.5(75.17%)が18%、GPT-4(83.99%)が10%を超えている。 驚くべきことに、kam-cotは一度に280mのトレーニング可能なパラメータでこれらの結果を達成し、そのコスト効率と有効性を示している。

Large Language Models (LLMs) have demonstrated impressive performance in natural language processing tasks by leveraging chain of thought (CoT) that enables step-by-step thinking. Extending LLMs with multimodal capabilities is the recent interest, but incurs computational cost and requires substantial hardware resources. To address these challenges, we propose KAM-CoT a framework that integrates CoT reasoning, Knowledge Graphs (KGs), and multiple modalities for a comprehensive understanding of multimodal tasks. KAM-CoT adopts a two-stage training process with KG grounding to generate effective rationales and answers. By incorporating external knowledge from KGs during reasoning, the model gains a deeper contextual understanding reducing hallucinations and enhancing the quality of answers. This knowledge-augmented CoT reasoning empowers the model to handle questions requiring external context, providing more informed answers. Experimental findings show KAM-CoT outperforms the state-of-the-art methods. On the ScienceQA dataset, we achieve an average accuracy of 93.87%, surpassing GPT-3.5 (75.17%) by 18% and GPT-4 (83.99%) by 10%. Remarkably, KAM-CoT achieves these results with only 280M trainable parameters at a time, demonstrating its cost-efficiency and effectiveness.
翻訳日:2024-01-24 15:05:59 公開日:2024-01-23
# FedRSU: 道路ユニットのシーンフロー推定のためのフェデレーションラーニング

FedRSU: Federated Learning for Scene Flow Estimation on Roadside Units ( http://arxiv.org/abs/2401.12862v1 )

ライセンス: Link先を確認
Shaoheng Fang, Rui Ye, Wenhao Wang, Zuhong Liu, Yuxiao Wang, Yafei Wang, Siheng Chen, Yanfeng Wang(参考訳) ロードサイドユニット(RSU)は、V2X通信を通じて、自動運転車の安全性と堅牢性を大幅に向上させることができる。 現在、単一のRSUの使用は主にリアルタイム推論とV2Xコラボレーションに焦点を当てているが、RSUセンサが収集した高品質データの潜在的な価値は無視されている。 多数のRSUから大量のデータを統合することで、モデルトレーニングのための豊富なデータソースを提供することができます。 しかし、根拠となる真理のアノテーションの欠如と膨大な量のデータを送信することの難しさは、この隠れた価値を完全に活用するための避けられない2つの障壁である。 本稿では,自己教師付きシーンフロー推定のための革新的なフェデレーション学習フレームワークfedersuを提案する。 fedrsuでは,各rsuにおいて,各タイムスタンプにおけるポイントのシーンフロー予測を,今後のマルチモダリティ観測によって監視できる,再帰的な自己スーパービジョン訓練パラダイムを提案する。 FedRSUのもうひとつの重要なコンポーネントはフェデレーション学習である。複数のデバイスが、トレーニングデータをローカルとプライベートに保ちながら、共同でMLモデルをトレーニングする。 再帰的な自己教師付き学習パラダイムの力により、FLはRASから無数の未使用データを活用できる。 FedRSU フレームワークを検証するため,大規模なマルチモーダルデータセット RSU-SF を構築した。 データセットは17のrsuクライアントで構成され、さまざまなシナリオ、モダリティ、センサーの設定をカバーする。 RSU-SFに基づいて、FedRSUはITSのモデル性能を大幅に改善でき、多様なFLシナリオ下で包括的なベンチマークを提供する。 我々の知る限りでは、FLコミュニティのための最初の実世界のLiDARカメラマルチモーダルデータセットとベンチマークを提供する。

Roadside unit (RSU) can significantly improve the safety and robustness of autonomous vehicles through Vehicle-to-Everything (V2X) communication. Currently, the usage of a single RSU mainly focuses on real-time inference and V2X collaboration, while neglecting the potential value of the high-quality data collected by RSU sensors. Integrating the vast amounts of data from numerous RSUs can provide a rich source of data for model training. However, the absence of ground truth annotations and the difficulty of transmitting enormous volumes of data are two inevitable barriers to fully exploiting this hidden value. In this paper, we introduce FedRSU, an innovative federated learning framework for self-supervised scene flow estimation. In FedRSU, we present a recurrent self-supervision training paradigm, where for each RSU, the scene flow prediction of points at every timestamp can be supervised by its subsequent future multi-modality observation. Another key component of FedRSU is federated learning, where multiple devices collaboratively train an ML model while keeping the training data local and private. With the power of the recurrent self-supervised learning paradigm, FL is able to leverage innumerable underutilized data from RSU. To verify the FedRSU framework, we construct a large-scale multi-modality dataset RSU-SF. The dataset consists of 17 RSU clients, covering various scenarios, modalities, and sensor settings. Based on RSU-SF, we show that FedRSU can greatly improve model performance in ITS and provide a comprehensive benchmark under diverse FL scenarios. To the best of our knowledge, we provide the first real-world LiDAR-camera multi-modal dataset and benchmark for the FL community.
翻訳日:2024-01-24 15:05:34 公開日:2024-01-23
# 信頼できない絡み合い支援によるセキュア通信

Secure Communication with Unreliable Entanglement Assistance ( http://arxiv.org/abs/2401.12861v1 )

ライセンス: Link先を確認
Meir Lederman and Uzi Pereg(参考訳) セキュアな通信は信頼できない絡み合いの支援で考慮され、敵は通信が行われる前に正統な受信者の絡み合いリソースを傍受することができる。 セキュリティ面のない信頼できない支援の通信設定は、元々は実用的な通信システムにおける極端な光子損失が動機だった。 運用原則は、フィードバックや繰り返しに頼ることなく、エンタングルメント支援の可用性に伝達率を適用することである。 ここには秘密も必要です 一般的な量子ワイヤタップチャネルに対して達成可能な秘密化速度領域と、劣化したチャネルの特殊クラスに対するマルチレター秘密化容量公式とを導出する。

Secure communication is considered with unreliable entanglement assistance, where the adversary may intercept the legitimate receiver's entanglement resource before communication takes place. The communication setting of unreliable assistance, without security aspects, was originally motivated by the extreme photon loss in practical communication systems. The operational principle is to adapt the transmission rate to the availability of entanglement assistance, without resorting to feedback and repetition. Here, we require secrecy as well. An achievable secrecy rate region is derived for general quantum wiretap channels, and a multi-letter secrecy capacity formula for the special class of degraded channels.
翻訳日:2024-01-24 15:05:08 公開日:2024-01-23
# Coverage Axis++: 3次元形状骨格化のための効率的な内点選択

Coverage Axis++: Efficient Inner Point Selection for 3D Shape Skeletonization ( http://arxiv.org/abs/2401.12946v1 )

ライセンス: Link先を確認
Zimeng Wang, Zhiyang Dou, Rui Xu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Shiqing Xin, Lingjie Liu, Taku Komura, Xiaoming Yuan, Wenping Wang(参考訳) 本稿では,3次元形状スケルトン化の新規かつ効率的なアプローチであるカバレッジaxis++を紹介する。 このタスクの現在の最先端のアプローチは、しばしば入力の防水性に依存するか、あるいはかなりの計算コストに悩まされるため、実用性が制限される。 この課題に対処するために、coverture axis++は、様々な形状表現の計算強度を著しく軽減しながら、内側軸変換(mat)の高精度近似を提供する、骨格点を選択するヒューリスティックなアルゴリズムを提案する。 形状被覆と一様性の両方を考慮し, 単純かつ効果的な方略を導入し, 骨格点を導出する。 選択手順は、支配的な中間球を選好しながら形状構造との整合性を強制し、MATの観点からはコンパクトな基底形状表現を導入する。 その結果、Coverage Axis++は、様々な形状表現(例えば、水密メッシュ、三角形のスープ、点雲)のスケルトン化、骨格点数の指定、ハイパーパラメータの少ない、再現精度の向上による高効率な計算を可能にした。 幅広い3d形状の広範囲な実験は、カバレッジaxis++の効率と有効性を検証する。 論文が公開されたら、コードは公開される予定だ。

We introduce Coverage Axis++, a novel and efficient approach to 3D shape skeletonization. The current state-of-the-art approaches for this task often rely on the watertightness of the input or suffer from substantial computational costs, thereby limiting their practicality. To address this challenge, Coverage Axis++ proposes a heuristic algorithm to select skeletal points, offering a high-accuracy approximation of the Medial Axis Transform (MAT) while significantly mitigating computational intensity for various shape representations. We introduce a simple yet effective strategy that considers both shape coverage and uniformity to derive skeletal points. The selection procedure enforces consistency with the shape structure while favoring the dominant medial balls, which thus introduces a compact underlying shape representation in terms of MAT. As a result, Coverage Axis++ allows for skeletonization for various shape representations (e.g., water-tight meshes, triangle soups, point clouds), specification of the number of skeletal points, few hyperparameters, and highly efficient computation with improved reconstruction accuracy. Extensive experiments across a wide range of 3D shapes validate the efficiency and effectiveness of Coverage Axis++. The code will be publicly available once the paper is published.
翻訳日:2024-01-24 14:58:38 公開日:2024-01-23
# Lumiere:ビデオ生成のための時空間拡散モデル

Lumiere: A Space-Time Diffusion Model for Video Generation ( http://arxiv.org/abs/2401.12945v1 )

ライセンス: Link先を確認
Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri(参考訳) Lumiereは、ビデオ合成において重要な課題である、リアルで多様なコヒーレントな動きを表現するビデオの合成用に設計された、テキストからビデオへの拡散モデルである。 この目的のために、我々は、一度に1回のパスでビデオの全時間を生成するSpace-Time U-Netアーキテクチャを導入する。 これは、遠方のキーフレームを合成した既存のビデオモデルと対照的に、時間的超解像は本質的にグローバルな時間的一貫性を達成しにくくするアプローチである。 空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイし、事前訓練されたテキスト・ツー・イメージ拡散モデルを活用することにより、複数の時空間スケールで処理することで、フルフレームレートの低解像度映像を直接生成することを学ぶ。 我々は最先端のテキスト対ビデオ生成結果を示し,画像から映像への変換,スタイリッシュな生成など,幅広いコンテンツ作成タスクやビデオ編集アプリケーションを容易に行うことができることを示す。

We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
翻訳日:2024-01-24 14:58:16 公開日:2024-01-23
# 未発見名に対する多文化名認識

Multicultural Name Recognition For Previously Unseen Names ( http://arxiv.org/abs/2401.12941v1 )

ライセンス: Link先を確認
Alexandra Loessberg-Zahl(参考訳) state of the art named entity recognition(ner)モデルは、場所、組織、時間、人といったラベルに属するテキストから共通のフレーズを抽出する素晴らしい能力を達成しました。 しかしながら、特定のエンティティをトレーニングデータで見ることに依存する典型的なNERシステムは、希少または未確認のエンティティ ta に対して粗悪なパフォーマンスを行い、希少または未確認のエンティティに対して粗悪なパフォーマンスを行う(Derczynski et al., 2017)。 本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。 下流のタスクが文化的背景に基づいてバイアスを示さないようにするために、モデルは様々なバックグラウンドの名前でうまく振る舞う必要がある。 本稿では,英語Bi-LSTM名前認識モデルのトレーニングデータと入力構造について実験する。 103か国の名前を見て、異なる文化、特に抽出された名前がファイルの情報とマッチする下流タスクのコンテキストで、モデルがいかにうまく機能するかを比較します。 文字入力と単語入力を組み合わせたモデルでは単語のみのモデルよりも優れており,未知のエンティティ値の同定を目的としない古典的NERモデルと比較して精度の向上が期待できる。

State of the art Named Entity Recognition (NER) models have achieved an impressive ability to extract common phrases from text that belong to labels such as location, organization, time, and person. However, typical NER systems that rely on having seen a specific entity in their training data in order to label an entity perform poorly on rare or unseen entities ta in order to label an entity perform poorly on rare or unseen entities (Derczynski et al., 2017). This paper attempts to improve recognition of person names, a diverse category that can grow any time someone is born or changes their name. In order for downstream tasks to not exhibit bias based on cultural background, a model should perform well on names from a variety of backgrounds. In this paper I experiment with the training data and input structure of an English Bi-LSTM name recognition model. I look at names from 103 countries to compare how well the model performs on names from different cultures, specifically in the context of a downstream task where extracted names will be matched to information on file. I find that a model with combined character and word input outperforms word-only models and may improve on accuracy compared to classical NER models that are not geared toward identifying unseen entity values.
翻訳日:2024-01-24 14:57:58 公開日:2024-01-23
# MRIによる皮質表面のテンプレートによる再構成のための神経変形場

Neural deformation fields for template-based reconstruction of cortical surfaces from MRI ( http://arxiv.org/abs/2401.12938v1 )

ライセンス: Link先を確認
Fabian Bongratz, Anne-Marie Rickmann, Christian Wachinger(参考訳) 脳皮質表面の再構成はMRI(MRI)における大脳皮質の定量的解析の前提条件である。 既存のセグメンテーションに基づく手法では、表面の登録と表面抽出を分離する。 本稿では,脳テンプレートからMRIスキャンの皮質表面への変形場を学習するディープメッシュ変形技術であるVox2Cortex-Flowを紹介する。 この目的のために、変形記述常微分方程式を連続的にモデル化する幾何ニューラルネットワークを提案する。 ネットワークアーキテクチャは畳み込み層とグラフ畳み込み層で構成されており、画像とメッシュを同時に扱うことができる。 V2C-Flowは非常に高速で、4つの皮質表面全てを推測するのに2秒もかからない。 さらに、V2C-Flowは、白質と真珠の表面を共同でモデル化し、それらの交叉を避ける最初のアプローチである。 内部および外部試験データに関する総合的な実験により、V2C-Flowは精度の点で最先端の皮質表面をもたらすことが示された。 さらに, 確立された対応はFreeSurferよりも一貫性が高く, 大脳皮質のパーセレーションや大脳皮質の厚みの集団解析に直接利用できることを示す。

The reconstruction of cortical surfaces is a prerequisite for quantitative analyses of the cerebral cortex in magnetic resonance imaging (MRI). Existing segmentation-based methods separate the surface registration from the surface extraction, which is computationally inefficient and prone to distortions. We introduce Vox2Cortex-Flow (V2C-Flow), a deep mesh-deformation technique that learns a deformation field from a brain template to the cortical surfaces of an MRI scan. To this end, we present a geometric neural network that models the deformation-describing ordinary differential equation in a continuous manner. The network architecture comprises convolutional and graph-convolutional layers, which allows it to work with images and meshes at the same time. V2C-Flow is not only very fast, requiring less than two seconds to infer all four cortical surfaces, but also establishes vertex-wise correspondences to the template during reconstruction. In addition, V2C-Flow is the first approach for cortex reconstruction that models white matter and pial surfaces jointly, therefore avoiding intersections between them. Our comprehensive experiments on internal and external test data demonstrate that V2C-Flow results in cortical surfaces that are state-of-the-art in terms of accuracy. Moreover, we show that the established correspondences are more consistent than in FreeSurfer and that they can directly be utilized for cortex parcellation and group analyses of cortical thickness.
翻訳日:2024-01-24 14:57:37 公開日:2024-01-23
# 報酬関連フィルタ付きオフライン強化学習

Reward-Relevance-Filtered Linear Offline Reinforcement Learning ( http://arxiv.org/abs/2401.12934v1 )

ライセンス: Link先を確認
Angela Zhou(参考訳) 本稿では,線形関数近似を用いたオフライン強化学習を決定論的に検討する。 データ生成プロセスの構造的制約は、報酬に影響を及ぼし、報酬に影響を与えない追加の外因性ダイナミクスに影響を与える可能性があるスパースコンポーネントへの遷移因子が想定される。 完全状態遷移特性の推定のための最小限の調整セットは状態全体に依存するが、最適方針と状態-作用値関数はスパース成分のみに依存する: この因果/決定-理論的スパーシティと呼ぶ。 最低二乗政策評価における閾値ラッソの修正によりスパース成分に対する状態-作用値関数の推定を報奨フィルタする手法を開発した。 我々は, スパース成分のサイズによらず, サンプルの複雑さを考慮し, 報酬フィルタによる線形適合Q-イテレーションを理論的に保証する。

This paper studies offline reinforcement learning with linear function approximation in a setting with decision-theoretic, but not estimation sparsity. The structural restrictions of the data-generating process presume that the transitions factor into a sparse component that affects the reward and could affect additional exogenous dynamics that do not affect the reward. Although the minimally sufficient adjustment set for estimation of full-state transition properties depends on the whole state, the optimal policy and therefore state-action value function depends only on the sparse component: we call this causal/decision-theoretic sparsity. We develop a method for reward-filtering the estimation of the state-action value function to the sparse component by a modification of thresholded lasso in least-squares policy evaluation. We provide theoretical guarantees for our reward-filtered linear fitted-Q-iteration, with sample complexity depending only on the size of the sparse component.
翻訳日:2024-01-24 14:57:12 公開日:2024-01-23
# MtRA-Unet を用いた変形性膝関節症における関節組織分節と形状情報の統合:関節症イニシアチブからのデータ

Segmentation of tibiofemoral joint tissues from knee MRI using MtRA-Unet and incorporating shape information: Data from the Osteoarthritis Initiative ( http://arxiv.org/abs/2401.12932v1 )

ライセンス: Link先を確認
Akshay Daydar, Alik Pramanick, Arijit Sur, Subramani Kanagaraj(参考訳) 変形性膝関節症 (KOA) は, 頚部・後部痛の3番目に多い筋骨格障害である。 このような重度MSDを監視するために, 膝関節磁気共鳴画像(MRI)による自動セグメンテーションアルゴリズムを用いて, 大腿骨・大腿骨・大腿骨・大腿骨軟骨のセグメンテーションマップにアクセスする。 しかし、近年の研究では、このようなセグメンテーションは多段階のフレームワークからのみ考えられるため、データハンドリングの問題が発生し、迅速かつ正確な臨床診断ができないような連続的な手動推論が必要になる。 そこで本稿では, 大腿骨, ティビア, ティビオfemoral cartilage を自動的に分割するために, マルチレゾリューション・アテインティブ・ユント (mtra-unet) を提案する。 提案されている研究には, 大腿骨, tibia, tibiofemoral cartilageの多条件情報と構造解剖学的詳細に焦点を当てた, 新たなmrff (multi- resolution feature fusion) とsr (shape reconstruction) の損失が含まれている。 従来のアプローチとは異なり、提案された研究は、Dice similarity Coefficient(DSC)の98.5%の大腿骨向け、98.4%の大腿骨軟骨用、89.1%の大腿骨軟骨用、86.1%の臨界MRIスライス用の単段階およびエンドツーエンドのフレームワークである。 被験者あたりのMRIボリューム(160スライス)の分画時間は22秒であり、最先端技術の中でも最速の1つである。 また, 形態学的研究において最も重要となるfc, tcのセグメンテーションに関する総合的な実験により, 提案手法が2成分セグメンテーションで優れた結果をもたらしたことが明らかとなった。

Knee Osteoarthritis (KOA) is the third most prevalent Musculoskeletal Disorder (MSD) after neck and back pain. To monitor such a severe MSD, a segmentation map of the femur, tibia and tibiofemoral cartilage is usually accessed using the automated segmentation algorithm from the Magnetic Resonance Imaging (MRI) of the knee. But, in recent works, such segmentation is conceivable only from the multistage framework thus creating data handling issues and needing continuous manual inference rendering it unable to make a quick and precise clinical diagnosis. In order to solve these issues, in this paper the Multi-Resolution Attentive-Unet (MtRA-Unet) is proposed to segment the femur, tibia and tibiofemoral cartilage automatically. The proposed work has included a novel Multi-Resolution Feature Fusion (MRFF) and Shape Reconstruction (SR) loss that focuses on multi-contextual information and structural anatomical details of the femur, tibia and tibiofemoral cartilage. Unlike previous approaches, the proposed work is a single-stage and end-to-end framework producing a Dice Similarity Coefficient (DSC) of 98.5% for the femur, 98.4% for the tibia, 89.1% for Femoral Cartilage (FC) and 86.1% for Tibial Cartilage (TC) for critical MRI slices that can be helpful to clinicians for KOA grading. The time to segment MRI volume (160 slices) per subject is 22 sec. which is one of the fastest among state-of-the-art. Moreover, comprehensive experimentation on the segmentation of FC and TC which is of utmost importance for morphology-based studies to check KOA progression reveals that the proposed method has produced an excellent result with binary segmentation
翻訳日:2024-01-24 14:56:57 公開日:2024-01-23
# pyAKI - KDIGOの自動分類のためのオープンソースソリューション

pyAKI - An Open Source Solution to Automated KDIGO classification ( http://arxiv.org/abs/2401.12930v1 )

ライセンス: Link先を確認
Christian Porschen, Jan Ernsting, Paul Brauckmann, Raphael Weiss, Till W\"urdemann, Hendrik Booke, Wida Amini, Ludwig Maidowski, Benjamin Risse, Tim Hahn, Thilo von Groote(参考訳) 急性腎障害(aki: acute kidney injury)は、重症度の高い患者において頻繁な合併症であり、集中治療室の患者の最大50%に影響を及ぼす。 Kidney Disease Improving Global Outcomes (KDIGO) の基準を時系列データに適用するための標準化およびオープンソースツールの欠如は、作業負荷と研究品質に悪影響を及ぼす。 このプロジェクトでは、一貫性のあるKDIGO基準実装のための包括的なソリューションを提供することで、このギャップに対処するオープンソースのパイプラインであるpyAKIを紹介します。 pyAKIパイプラインは、救急医療のための医療情報マート(MIMIC)-IVデータベースのサブセットを使用して開発され、検証された。 再現性を確保するために、標準化されたデータモデルを定義した。 専門家のアノテーションに対する検証は、KDIGO基準の実装におけるpyAKIの堅牢なパフォーマンスを示した。 比較分析の結果,ヒトのラベルの品質を超える能力を示した。 本研究は,時系列データを用いたAKI診断のKDIGO基準の実装のためのオープンソースのソリューションとしてpyAKIを紹介する。

Acute Kidney Injury (AKI) is a frequent complication in critically ill patients, affecting up to 50% of patients in the intensive care units. The lack of standardized and open-source tools for applying the Kidney Disease Improving Global Outcomes (KDIGO) criteria to time series data has a negative impact on workload and study quality. This project introduces pyAKI, an open-source pipeline addressing this gap by providing a comprehensive solution for consistent KDIGO criteria implementation. The pyAKI pipeline was developed and validated using a subset of the Medical Information Mart for Intensive Care (MIMIC)-IV database, a commonly used database in critical care research. We defined a standardized data model in order to ensure reproducibility. Validation against expert annotations demonstrated pyAKI's robust performance in implementing KDIGO criteria. Comparative analysis revealed its ability to surpass the quality of human labels. This work introduces pyAKI as an open-source solution for implementing the KDIGO criteria for AKI diagnosis using time series data with high accuracy and performance.
翻訳日:2024-01-24 14:56:18 公開日:2024-01-23
# DsDm: データモデルによるモデル対応データセットの選択

DsDm: Model-Aware Dataset Selection with Datamodels ( http://arxiv.org/abs/2401.12926v1 )

ライセンス: Link先を確認
Logan Engstrom, Axel Feldmann, Aleksander Madry(参考訳) 大規模モデルをトレーニングするためのデータを選択する場合、標準的なプラクティスは、人間のデータ品質の概念にマッチする例をフィルタリングする。 このようなフィルタリングは定性的にクリーンなデータポイントをもたらし、直感的にモデルの振る舞いを改善する。 なデータソースとの類似性に応じて選択することは、ランダムに選択したデータに比べてパフォーマンスが向上しない(そして痛むことさえある)ことが分かりました。 より優れたデータ選択方法を開発するために,まず,与えられた目標タスク,学習アルゴリズム,候補データなどを直接解決可能な最適化問題としてデータセット選択をフレーミングし,モデル性能を最大化するサブセットを選択する。 このフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。 その結果,前述したタスクと未確認タスクの両方において,言語モデル(lm)の性能が大幅に向上した。 具体的には、標準のLM問題を表すタスクを選択し、様々なホールトアウトベンチマークで評価し、ベースライン法よりも2倍の計算乗算器を提供する。

When selecting data for training large-scale models, standard practice is to filter for examples that match human notions of data quality. Such filtering yields qualitatively clean datapoints that intuitively should improve model behavior. However, in practice the opposite can often happen: we find that selecting according to similarity with "high quality" data sources may not increase (and can even hurt) performance compared to randomly selecting data. To develop better methods for selecting data, we start by framing dataset selection as an optimization problem that we can directly solve for: given target tasks, a learning algorithm, and candidate data, select the subset that maximizes model performance. This framework thus avoids handpicked notions of data quality, and instead models explicitly how the learning process uses train datapoints to predict on the target tasks. Our resulting method greatly improves language model (LM) performance on both pre-specified tasks and previously unseen tasks. Specifically, choosing target tasks representative of standard LM problems and evaluating on diverse held-out benchmarks, our selected datasets provide a 2x compute multiplier over baseline methods.
翻訳日:2024-01-24 14:55:59 公開日:2024-01-23
# 森林火災検知用連成データセットにおける支持ベクトルマシン(SVM)の性能解析

Performance Analysis of Support Vector Machine (SVM) on Challenging Datasets for Forest Fire Detection ( http://arxiv.org/abs/2401.12924v1 )

ライセンス: Link先を確認
Ankan Kar, Nirjhar Nath, Utpalraj Kemprai, Aman(参考訳) 本稿では,イメージデータセットを用いた森林火災検知の重要課題に対する支援ベクトルマシン(SVM)の性能と利用について検討する。 森林火災が生態系や人的居住地への脅威が高まる中、迅速かつ正確な検知システムの必要性が最も重要である。 強力な分類能力で知られるSVMは、画像内の火災に関連するパターンを認識する能力を示す。 ラベル付きデータに基づいてトレーニングすることで、SVMは、森林地域の視覚的特性における炎、煙、変化といった、火災に関連する特徴を識別する能力を得る。 この文書は、データ前処理、特徴抽出、モデルトレーニングといった重要な要素を網羅し、SVMの使用を徹底的に調査している。 正確性、効率性、実用性などのパラメータを厳格に評価する。 本研究から得られた知識は,効率的な森林火災検知システムの開発を支援し,迅速な対応を可能にし,災害管理を改善する。 さらに,SVMの精度と高次元データセットが提示する困難度との関係を,明らかにしたケーススタディを通じて詳細に検討した。 トレーニングデータセットのリサイズに使用する精度スコアと解像度の違いとの関係についても,本論文で論じている。 これらの包括的な研究は、直面する困難と潜在的なセクターがさらなる改善と焦点を必要とする決定的な概要をもたらす。

This article delves into the analysis of performance and utilization of Support Vector Machines (SVMs) for the critical task of forest fire detection using image datasets. With the increasing threat of forest fires to ecosystems and human settlements, the need for rapid and accurate detection systems is of utmost importance. SVMs, renowned for their strong classification capabilities, exhibit proficiency in recognizing patterns associated with fire within images. By training on labeled data, SVMs acquire the ability to identify distinctive attributes associated with fire, such as flames, smoke, or alterations in the visual characteristics of the forest area. The document thoroughly examines the use of SVMs, covering crucial elements like data preprocessing, feature extraction, and model training. It rigorously evaluates parameters such as accuracy, efficiency, and practical applicability. The knowledge gained from this study aids in the development of efficient forest fire detection systems, enabling prompt responses and improving disaster management. Moreover, the correlation between SVM accuracy and the difficulties presented by high-dimensional datasets is carefully investigated, demonstrated through a revealing case study. The relationship between accuracy scores and the different resolutions used for resizing the training datasets has also been discussed in this article. These comprehensive studies result in a definitive overview of the difficulties faced and the potential sectors requiring further improvement and focus.
翻訳日:2024-01-24 14:55:41 公開日:2024-01-23
# 確率的最適制御問題を解くためのディープマルチタスクニューラルネットワーク

Deep multitask neural networks for solving some stochastic optimal control problems ( http://arxiv.org/abs/2401.12923v1 )

ライセンス: Link先を確認
Christian Yeo(参考訳) 関連する後方動的プログラミング原理を用いて確率的最適制御問題を解決する既存のニューラルネットワークベースのアプローチのほとんどは、基礎となる状態変数をシミュレートする能力に依存している。 しかし、いくつかの問題では、このシミュレーションは実現不可能であり、状態変数空間の離散化と、各データポイントに対して1つのニューラルネットワークをトレーニングする必要がある。 このアプローチは、大きな状態変数空間を扱うときに計算量的に非効率になる。 本稿では,この種の確率的最適制御問題のクラスを考察し,マルチタスクニューラルネットワークを用いた効果的な解法を提案する。 マルチタスクニューラルネットワークをトレーニングするために,タスク間の学習を動的にバランスさせる新しいスキームを導入する。 実世界のデリバティブ価格問題に関する数値実験を通じて,本手法が最先端手法より優れていることを示す。

Most existing neural network-based approaches for solving stochastic optimal control problems using the associated backward dynamic programming principle rely on the ability to simulate the underlying state variables. However, in some problems, this simulation is infeasible, leading to the discretization of state variable space and the need to train one neural network for each data point. This approach becomes computationally inefficient when dealing with large state variable spaces. In this paper, we consider a class of this type of stochastic optimal control problems and introduce an effective solution employing multitask neural networks. To train our multitask neural network, we introduce a novel scheme that dynamically balances the learning across tasks. Through numerical experiments on real-world derivatives pricing problems, we prove that our method outperforms state-of-the-art approaches.
翻訳日:2024-01-24 14:55:22 公開日:2024-01-23
# 分解型グラフニューラルネットワークによる駐車場利用予測

Truck Parking Usage Prediction with Decomposed Graph Neural Networks ( http://arxiv.org/abs/2401.12920v1 )

ライセンス: Link先を確認
Rei Tamaru, Yang Cheng, Steven Parker, Ernie Perry, Bin Ran, Soyoung Ahn(参考訳) 貨物回廊のトラックの駐車は、駐車場の不足やHOS(Hour-of-Service)規制の遵守など、様々な課題に直面している。 これらの制約は、しばしば無許可の駐車慣行を引き起こし、安全上の懸念を引き起こす。 正確な駐車利用予測を提供して貨物運行の安全性を高めることは、コスト効率の良い解決策であることが証明される。 個々の駐車場利用量の予測に十分な精度を示す既存の研究にもかかわらず、複数の駐車場の空間依存性を考慮した利用予測手法が提案されている。 本稿では,地域時間グラフニューラルネットワーク(regt-gcn)を,州全体の駐車利用状況を評価するための予測枠組みとして提示し,トラックの駐車情報の向上と無許可駐車の緩和を図る。 この枠組みは、トラックの駐車場所分布と歴史的な駐車データのトポロジー構造を利用して、州全体の占有率を予測する。 そこで本研究では,地理的特徴を効果的に捉えた地域分割手法を提案する。 また、時間モジュールと効率的に連携する空間モジュールについても紹介する。 評価の結果,提案モデルは他のベースラインモデルを上回っており,従来のモデルと比較して20-%$以上性能が向上した。 提案モデルにより,トラックの駐車地点のトポロジカルな構造を把握でき,高い性能が得られる。

Truck parking on freight corridors faces various challenges, such as insufficient parking spaces and compliance with Hour-of-Service (HOS) regulations. These constraints often result in unauthorized parking practices, causing safety concerns. To enhance the safety of freight operations, providing accurate parking usage prediction proves to be a cost-effective solution. Despite the existing research demonstrating satisfactory accuracy for predicting individual truck parking site usage, few approaches have been proposed for predicting usage with spatial dependencies of multiple truck parking sites. We present the Regional Temporal Graph Neural Network (RegT-GCN) as a predictive framework for assessing parking usage across the entire state to provide better truck parking information and mitigate unauthorized parking. The framework leverages the topological structures of truck parking site distributions and historical parking data to predict occupancy rates across a state. To achieve this, we introduce a Regional Decomposition approach, which effectively captures the geographical characteristics. We also introduce the spatial module working efficiently with the temporal module. Evaluation results demonstrate that the proposed model surpasses other baseline models, improving the performance by more than $20\%$ compared with the original model. The proposed model allows truck parking sites' percipience of the topological structures and provides higher performance.
翻訳日:2024-01-24 14:55:10 公開日:2024-01-23
# エージェントモデルとしてのアクティブ推論

Active Inference as a Model of Agency ( http://arxiv.org/abs/2401.12917v1 )

ライセンス: Link先を確認
Lancelot Da Costa, Samuel Tenka, Dominic Zhao, Noor Sajid(参考訳) 報酬の最大化を超えたエージェンシーを考える正統的な方法はあるだろうか? 本稿では,生物エージェントが世界とどのように相互作用するかという物理的に健全な仮定に従うあらゆる行動が,世界の状態に対するリスクとあいまいさを最小限に抑えるという意味で,探索と搾取をうまく統合していることを示す。 能動推論として知られるこの記述は、神経科学に由来する行動と知覚のための一般的な記述的枠組みである自由エネルギー原理を洗練させる。 能動推論は行動神経科学、強化学習(RL)、ロボット工学で広く使われているエージェンシーをシミュレートしモデル化するための規範的ベイズ的枠組みを提供する。 RLに対する能動推論の有用性は3倍である。 \emph{a}) 能動推論は、生物学的エージェンシーを効果的にシミュレートする探索・探索ジレンマの原理的な解決策を提供する。 emph{b}) 振る舞いをシミュレートするための説明可能なレシピを提供し、生成的世界モデルの下で探索と搾取が説明可能な混合として従うと、振る舞いのすべての違いは世界モデルの違いにおいて明確になる。 このフレームワークは、活性推論アルゴリズムとしての活性推論の記述的仮定に従って任意のRLアルゴリズムを書き換えることは理論的に可能であるという意味で普遍的である。 したがって、アクティブ推論は、より特定のエージェンシーモデルのコミットメントと仮定を解明し比較するためのツールとして使用できる。

Is there a canonical way to think of agency beyond reward maximisation? In this paper, we show that any type of behaviour complying with physically sound assumptions about how macroscopic biological agents interact with the world canonically integrates exploration and exploitation in the sense of minimising risk and ambiguity about states of the world. This description, known as active inference, refines the free energy principle, a popular descriptive framework for action and perception originating in neuroscience. Active inference provides a normative Bayesian framework to simulate and model agency that is widely used in behavioural neuroscience, reinforcement learning (RL) and robotics. The usefulness of active inference for RL is three-fold. \emph{a}) Active inference provides a principled solution to the exploration-exploitation dilemma that usefully simulates biological agency. \emph{b}) It provides an explainable recipe to simulate behaviour, whence behaviour follows as an explainable mixture of exploration and exploitation under a generative world model, and all differences in behaviour are explicit in differences in world model. \emph{c}) This framework is universal in the sense that it is theoretically possible to rewrite any RL algorithm conforming to the descriptive assumptions of active inference as an active inference algorithm. Thus, active inference can be used as a tool to uncover and compare the commitments and assumptions of more specific models of agency.
翻訳日:2024-01-24 14:54:48 公開日:2024-01-23
# レッドチームによるビジュアル言語モデル

Red Teaming Visual Language Models ( http://arxiv.org/abs/2401.12915v1 )

ライセンス: Link先を確認
Mukai Li and Lei Li and Yuwei Yin and Masood Ahmed and Zhenguang Liu and Qi Liu(参考訳) VLM(Vision-Language Models)は、マルチモーダル入力を受け入れるためにLLM(Large Language Models)の機能を拡張する。 LLMが特定のテストケース(Red Teamingと呼ばれる)を通じて有害または不正確なコンテンツを生成することが検証されているので、VLMが同様のシナリオ、特にテキストとビジュアルの入力の組み合わせでどのように機能するかは疑問である。 この問題を解決するために,我々は,4つの主要な側面(ファシフルネス,プライバシ,安全性,フェアネス)の下で10のサブタスク(イメージミスリーディング,マルチモーダル脱獄,フェイスフェアネスなど)を包含する,新しいレッド・チーム・データセットrtvlmを提案する。 我々のRTVLMは、これらの4つの異なる側面から現在のVLMをベンチマークする最初の赤チームデータセットです。 詳細な分析によると、オープンソースの10の有名なVLMは、異なるレベルのレッドチームで苦労し、GPT-4Vと最大31%のパフォーマンスギャップを持つ。 さらに, RTVLM を用いて, LLaVA-v1.5 と Supervised Fine-tuning (SFT) を併用することで, RTVLM テストセットで10%, MM-Hal で13%, MM-Bench で13%, MM-Bench で顕著に低下せず, 通常のアライメントデータを用いた他の LLaVA ベースモデルをオーバーパスする。 これは、現在のオープンソースVLMにはまだレッドチームアライメントがないことを示している。 コードとデータセットはオープンソースになります。

VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.
翻訳日:2024-01-24 14:54:24 公開日:2024-01-23
# 産業用iotにおけるタスクオフロードのための創発的通信プロトコル学習

Emergent Communication Protocol Learning for Task Offloading in Industrial Internet of Things ( http://arxiv.org/abs/2401.12914v1 )

ライセンス: Link先を確認
Salwa Mostafa, Mateus P. Mota, Alvaro Valcarce, and Mehdi Bennis(参考訳) 本稿では、マルチエージェント強化学習(MARL)フレームワークを活用し、計算オフロード決定とマルチチャネルアクセスポリシーを対応信号とともに共同で学習する。 具体的には、ベースステーションと産業用iotモバイルデバイスは、期限の制約内で計算タスクを実行するために協力する必要がある強化学習エージェントである。 この問題を解決するために,創発的な通信プロトコル学習フレームワークを採用する。 計算結果から,チャネルアクセス成功率の向上における創発的コミュニケーションの有効性と,コンティションベース,コンティションフリー,非コミュニケーションアプローチと比較して計算されたタスク数について検討した。 さらに,提案するタスクオフロードポリシは,リモートおよびローカルの計算ベースラインを上回っている。

In this paper, we leverage a multi-agent reinforcement learning (MARL) framework to jointly learn a computation offloading decision and multichannel access policy with corresponding signaling. Specifically, the base station and industrial Internet of Things mobile devices are reinforcement learning agents that need to cooperate to execute their computation tasks within a deadline constraint. We adopt an emergent communication protocol learning framework to solve this problem. The numerical results illustrate the effectiveness of emergent communication in improving the channel access success rate and the number of successfully computed tasks compared to contention-based, contention-free, and no-communication approaches. Moreover, the proposed task offloading policy outperforms remote and local computation baselines.
翻訳日:2024-01-24 14:53:50 公開日:2024-01-23
# 識別性測定による通信複雑性の非有界量子長所

Unbounded quantum advantage in communication complexity measured by distinguishability ( http://arxiv.org/abs/2401.12903v1 )

ライセンス: Link先を確認
Satyaki Manna, Anubhav Chaturvedi, and Debashis Saha(参考訳) コミュニケーションの複雑さは情報科学において重要な要素であり、量子論は古典的アプローチを大きく上回っている。 ワンウェイ通信複雑性の標準的な定量化は、送信者が指定されたタスクを達成するために通信するシステムの最小次元に依存する。 本研究では,通信システムの寸法を制約することなく,送信者の入力の識別可能性によって通信の複雑さを測定する新しい視点を採用する。 この措置は、送信者の入力の機密性を維持することが不可欠であるときに特に重要となる。 汎用フレームワークを確立した後、通信複雑性タスクの2つの重要なカテゴリ、すなわちランダムアクセスコードの一般的なバージョンとグラフによって定義される等質問題に焦点を当てます。 古典的コミュニケーションにおけるこれらのタスクの成功度指標の関数として、送信者の入力の識別可能性について下限を導出する。 特に,同じ成功基準を達成するための古典的コミュニケーションと量子的コミュニケーションの区別可能性の比率は,これらのタスクの複雑さとともにエスカレートし,任意に大きな値に達することを示した。 さらに, 量子ビットを用いて奇サイクルグラフの等式問題を解くことで, 量子アドバンテージを実証する。 さらに、別の種類の通信タスク、すなわちペア識別可能性タスクの区別可能性の低い境界を導出し、量子優位性のいくつかの事例を示す。

Communication complexity is a pivotal element in information science, with quantum theory presenting a significant edge over classical approaches. The standard quantification of one-way communication complexity relies on the minimal dimension of the systems that the sender communicates to accomplish the designated task. In this study, we adopt a novel perspective, measuring the complexity of the communication by the distinguishability of the sender's input without constraining the dimension of the communicated systems. This measure becomes especially pertinent when maintaining the confidentiality of the sender's input is essential. After establishing the generic framework, we focus on two important categories of communication complexity tasks - the general version of random access codes and equality problems defined by graphs. We derive lower bounds on the distinguishability of the sender's input as a function of the success metric of these tasks in classical communication. Notably, we show that the ratio between the distinguishability in classical and quantum communication to achieve the same success metric escalates with the complexity of these tasks, reaching arbitrarily large values. Besides, we demonstrate the quantum advantage by employing qubits in solving equality problems associated with odd-cycle graphs. Furthermore, we derive lower bounds on distinguishability for another class of communication tasks, namely, pair-distinguishability tasks, and present several instances of the quantum advantage.
翻訳日:2024-01-24 14:53:38 公開日:2024-01-23
# GALA:単一スキャンからアニマタブルなレイヤーアセットを生成する

GALA: Generating Animatable Layered Assets from a Single Scan ( http://arxiv.org/abs/2401.12979v1 )

ライセンス: Link先を確認
Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo(参考訳) GALAは, 単層布3次元メッシュを入力として, 完全な多層3次元アセットに分解するフレームワークである。 出力は、他の資産と組み合わせて、あらゆるポーズで新しい服を着た人間のアバターを作ることができる。 既存の再構築アプローチは、しばしば、服を着た人間を幾何学の一層として扱い、髪型、衣服、アクセサリーを持つ人間の固有の構成性を見落とし、下流の用途におけるメッシュの有用性を制限する。 単一層メッシュを別々の層に分解することは難しい作業である。 さらに、分解が成功しても、メッシュはポーズや体形の観点からは正規化されず、新しいアイデンティティやポーズとのコヒーレントな構成に欠ける。 これらの課題に対処するため,我々は,事前訓練された2次元拡散モデルの一般知識を,人間や他の資産に先立って幾何学と外観として活用することを提案する。 まず,マルチビュー2次元セグメンテーションから抽出した3次元表面セグメンテーションを用いて入力メッシュを分離する。 次に,新しいポーズ誘導スコア蒸留サンプリング(sds)損失を用いて,ポーズ空間と正準空間の異なる層の欠落形状を合成する。 高忠実度3D形状の塗布が完了すると、そのテクスチャに同じSDSロスを適用して、初期閉鎖領域を含む完全な外観を得る。 一連の分解段階を通じて,ポーズと人間の形状を基準とした共有正準空間における複数の3Dアセットの層を取得し,新規なアイデンティティと新規なポーズによる再アニメーションを支援する。 本実験は,既存ソリューションと比較して,分解,正準化,合成タスクに対するアプローチの有効性を示す。

We present GALA, a framework that takes as input a single-layer clothed 3D human mesh and decomposes it into complete multi-layered 3D assets. The outputs can then be combined with other assets to create novel clothed human avatars with any pose. Existing reconstruction approaches often treat clothed humans as a single-layer of geometry and overlook the inherent compositionality of humans with hairstyles, clothing, and accessories, thereby limiting the utility of the meshes for downstream applications. Decomposing a single-layer mesh into separate layers is a challenging task because it requires the synthesis of plausible geometry and texture for the severely occluded regions. Moreover, even with successful decomposition, meshes are not normalized in terms of poses and body shapes, failing coherent composition with novel identities and poses. To address these challenges, we propose to leverage the general knowledge of a pretrained 2D diffusion model as geometry and appearance prior for humans and other assets. We first separate the input mesh using the 3D surface segmentation extracted from multi-view 2D segmentations. Then we synthesize the missing geometry of different layers in both posed and canonical spaces using a novel pose-guided Score Distillation Sampling (SDS) loss. Once we complete inpainting high-fidelity 3D geometry, we also apply the same SDS loss to its texture to obtain the complete appearance including the initially occluded regions. Through a series of decomposition steps, we obtain multiple layers of 3D assets in a shared canonical space normalized in terms of poses and human shapes, hence supporting effortless composition to novel identities and reanimation with novel poses. Our experiments demonstrate the effectiveness of our approach for decomposition, canonicalization, and composition tasks compared to existing solutions.
翻訳日:2024-01-24 14:49:30 公開日:2024-01-23
# 汎用オブジェクトにおける3次元アフォーアンスプリミティブのためのゼロショット学習

Zero-Shot Learning for the Primitives of 3D Affordance in General Objects ( http://arxiv.org/abs/2401.12978v1 )

ライセンス: Link先を確認
Hyeonwoo Kim, Sookwan Han, Patrick Kwon, Hanbyul Joo(参考訳) AIの大きな課題の1つは、機械に環境機能に正確に反応し、活用するように教えることである。 その重要性にもかかわらず、学習分野は、特に3Dにおいて、人間と物体の相互作用の多様さにより、アノテート・アノテート・アノテート・アコメンタンス(英語版)は、面倒なプロセスである。 アフォーアンスデータの低可用性は、オブジェクトカテゴリの一般化の観点からの学習を制限すると同時に、アフォーアンス表現を単純化し、アフォーアンスのほんの一部をキャプチャする。 これらの課題を克服するために,手作業でアノテーションを使わずに3dオブジェクトのみに3dアフォーアンスを生成できる,新しい自己教師付き手法を提案する。 この手法は3dオブジェクトを画像にキャプチャし、2dアフォーアンス画像を作成することから始まり、その画像に人間を塗りつぶし拡散モデルを通して挿入し、物体の本来の詳細を変更することなく、人間の挿入を可能にする適応マスクアルゴリズムを提案する。 この方法では、挿入された人間を3dへ持ち上げ、3dの人間と物体のペアを作り、複数の視点から予め生成された人間の姿勢を利用する深度最適化フレームワークの中で奥行きあいまいを解消する。 また,任意の3次元hoiデータセットから容易に集約できる,相対方向と密接な人間と対象点の近接について定義した新たなアフォーマンス表現を提供する。 提案された表現は、物理的に行使された価格から非物理学的な価格まで、単純な変換によって従来の空白表現に表せるプリミティブとして機能する。 本研究では, 3次元アフォーアンスサンプルを生成し, 接触, 方位, 空間占有率などの表現から高品質アフォーアンスサンプルを導出することにより, 提案手法と表現の有効性を示す。

One of the major challenges in AI is teaching machines to precisely respond and utilize environmental functionalities, thereby achieving the affordance awareness that humans possess. Despite its importance, the field has been lagging in terms of learning, especially in 3D, as annotating affordance accompanies a laborious process due to the numerous variations of human-object interaction. The low availability of affordance data limits the learning in terms of generalization for object categories, and also simplifies the representation of affordance, capturing only a fraction of the affordance. To overcome these challenges, we propose a novel, self-supervised method to generate the 3D affordance examples given only a 3D object, without any manual annotations. The method starts by capturing the 3D object into images and creating 2D affordance images by inserting humans into the image via inpainting diffusion models, where we present the Adaptive Mask algorithm to enable human insertion without altering the original details of the object. The method consequently lifts inserted humans back to 3D to create 3D human-object pairs, where the depth ambiguity is resolved within a depth optimization framework that utilizes pre-generated human postures from multiple viewpoints. We also provide a novel affordance representation defined on relative orientations and proximity between dense human and object points, that can be easily aggregated from any 3D HOI datasets. The proposed representation serves as a primitive that can be manifested to conventional affordance representations via simple transformations, ranging from physically exerted affordances to nonphysical ones. We demonstrate the efficacy of our method and representation by generating the 3D affordance samples and deriving high-quality affordance examples from the representation, including contact, orientation, and spatial occupancies.
翻訳日:2024-01-24 14:48:59 公開日:2024-01-23
# IRIS:低ダイナミックレンジ画像からの室内シーンの逆レンダリング

IRIS: Inverse Rendering of Indoor Scenes from Low Dynamic Range Images ( http://arxiv.org/abs/2401.12977v1 )

ライセンス: Link先を確認
Zhi-Hao Lin, Jia-Bin Huang, Zhengqin Li, Zhao Dong, Christian Richardt, Tuotuo Li, Michael Zollh\"ofer, Johannes Kopf, Shenlong Wang, Changil Kim(参考訳) 多数の3次元再構成と新しい視点合成手法によって、コンシューマーカメラで簡単に撮影できるマルチビュー画像からのシーンのフォトリアリスティックなレンダリングが可能になる一方で、それらの表現に照明を焼き付け、素材の編集、リライト、仮想オブジェクト挿入といった高度なアプリケーションのサポートを欠いている。 物理的な材料特性の再構築と逆レンダリングによる照明により、そのような応用が可能になる。 しかし、ほとんどの逆レンダリング技術は入力として高ダイナミックレンジ(HDR)画像を必要とする。 本稿では,多視点低ダイナミックレンジ(LDR)画像から物理特性と空間的に変化するシーンのHDR照明を復元する手法を提案する。 逆レンダリングパイプラインにおけるLDR画像生成過程をモデル化し,材料,照明,カメラ応答モデルに対する新たな最適化戦略を提案する。 ldr と hdr を入力とする最先端の逆レンダリング手法と比較し,合成および実場面によるアプローチを評価した。 提案手法は,LDR画像を入力として利用する既存の手法よりも優れており,リアルなリライティングやオブジェクト挿入を実現している。

While numerous 3D reconstruction and novel-view synthesis methods allow for photorealistic rendering of a scene from multi-view images easily captured with consumer cameras, they bake illumination in their representations and fall short of supporting advanced applications like material editing, relighting, and virtual object insertion. The reconstruction of physically based material properties and lighting via inverse rendering promises to enable such applications. However, most inverse rendering techniques require high dynamic range (HDR) images as input, a setting that is inaccessible to most users. We present a method that recovers the physically based material properties and spatially-varying HDR lighting of a scene from multi-view, low-dynamic-range (LDR) images. We model the LDR image formation process in our inverse rendering pipeline and propose a novel optimization strategy for material, lighting, and a camera response model. We evaluate our approach with synthetic and real scenes compared to the state-of-the-art inverse rendering methods that take either LDR or HDR input. Our method outperforms existing methods taking LDR images as input, and allows for highly realistic relighting and object insertion.
翻訳日:2024-01-24 14:48:25 公開日:2024-01-23
# ハザードチャレンジ:動的変化環境における具体的意思決定

HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments ( http://arxiv.org/abs/2401.12975v1 )

ライセンス: Link先を確認
Qinhong Zhou, Sunli Chen, Yisong Wang, Haozhe Xu, Weihua Du, Hongxin Zhang, Yilun Du, Joshua B. Tenenbaum, Chuang Gan(参考訳) 高忠実な仮想環境の最近の進歩は、物理的世界に対する知覚、理性、相互作用のためのインテリジェントなエンボディエージェントを構築するための主要な推進力の1つである。 通常、これらの環境はエージェントがそれらと相互作用しない限り変わらない。 しかし、現実のシナリオでは、エージェントは予期せぬ出来事を特徴とする動的に変化する環境に直面し、それに応じて迅速に行動を起こす必要がある。 このギャップを補うために、我々はHAZARDと呼ばれる新しい擬似具体化ベンチマークを提案し、特に動的状況における具体化エージェントの意思決定能力を評価する。 HAZARDは、火災、洪水、風などの予期せぬ3つの災害シナリオで構成され、一般的な感覚推論や意思決定を支援するために、大規模言語モデル(LLM)の利用を特に支援している。 このベンチマークにより、動的に変化する環境において、強化学習(RL)、ルールベース、検索に基づく手法を含む、さまざまなパイプラインにわたる自律エージェントの意思決定能力を評価することができる。 大規模言語モデルを用いてこの問題に対処する第一歩として,さらにLLMベースのエージェントを開発し,これらの課題を解決するための目標と課題を詳細に分析する。 HAZARDはhttps://vis-www.cs.umass.edu/hazard/で入手できる。

Recent advances in high-fidelity virtual environments serve as one of the major driving forces for building intelligent embodied agents to perceive, reason and interact with the physical world. Typically, these environments remain unchanged unless agents interact with them. However, in real-world scenarios, agents might also face dynamically changing environments characterized by unexpected events and need to rapidly take action accordingly. To remedy this gap, we propose a new simulated embodied benchmark, called HAZARD, specifically designed to assess the decision-making abilities of embodied agents in dynamic situations. HAZARD consists of three unexpected disaster scenarios, including fire, flood, and wind, and specifically supports the utilization of large language models (LLMs) to assist common sense reasoning and decision-making. This benchmark enables us to evaluate autonomous agents' decision-making capabilities across various pipelines, including reinforcement learning (RL), rule-based, and search-based methods in dynamically changing environments. As a first step toward addressing this challenge using large language models, we further develop an LLM-based agent and perform an in-depth analysis of its promise and challenge of solving these challenging tasks. HAZARD is available at https://vis-www.cs.umass.edu/hazard/.
翻訳日:2024-01-24 14:48:05 公開日:2024-01-23
# SegmentAnyBone:MRIでどんな場所にでも骨を分割できるユニバーサルモデル

SegmentAnyBone: A Universal Model that Segments Any Bone at Any Location on MRI ( http://arxiv.org/abs/2401.12974v1 )

ライセンス: Link先を確認
Hanxue Gu, Roy Colglazier, Haoyu Dong, Jikai Zhang, Yaqian Chen, Zafer Yildiz, Yuwen Chen, Lin Li, Jichen Yang, Jay Willhite, Alex M. Meyer, Brian Guo, Yashvi Atul Shah, Emily Luo, Shipra Rajput, Sally Kuehn, Clark Bulleit, Kevin A. Wu, Jisoo Lee, Brandon Ramirez, Darui Lu, Jay M. Levin, Maciej A. Mazurowski(参考訳) 磁気共鳴イメージング(MRI)は放射線学において重要であり、人体に対する非侵襲的で高品質な洞察を提供する。 異なる臓器や組織へのMRIの精密な分割は、画像内容のより高度な理解と、正確な診断と効果的な治療計画に不可欠な重要な測定を可能にするため、非常に有益である。 具体的には、mriで骨を分割することで筋骨格の状態をより定量的に評価できるが、その評価は現在の放射線治療ではほとんど欠落している。 骨MRIのセグメント化の難しさは、限られたアルゴリズムが一般に利用可能であり、文献に含まれるものは通常特定の解剖学的領域に対処しているという事実によって説明される。 そこで本研究では,MRIにおける骨分割のための汎用的,一般公開なディープラーニングモデルを提案する。 提案モデルでは,完全自動セグメンテーションとプロンプトベースセグメンテーションの2つのモードで動作可能である。 Our contributions include (1) collecting and annotating a new MRI dataset across various MRI protocols, encompassing over 300 annotated volumes and 8485 annotated slices across diverse anatomic regions; (2) investigating several standard network architectures and strategies for automated segmentation; (3) introducing SegmentAnyBone, an innovative foundational model-based approach that extends Segment Anything Model (SAM); (4) comparative analysis of our algorithm and previous approaches; and (5) generalization analysis of our algorithm across different anatomical locations and MRI sequences, as well as an external dataset. モデルはhttps://github.com/mazurowski-lab/SegmentAnyBone.comで公開しています。

Magnetic Resonance Imaging (MRI) is pivotal in radiology, offering non-invasive and high-quality insights into the human body. Precise segmentation of MRIs into different organs and tissues would be highly beneficial since it would allow for a higher level of understanding of the image content and enable important measurements, which are essential for accurate diagnosis and effective treatment planning. Specifically, segmenting bones in MRI would allow for more quantitative assessments of musculoskeletal conditions, while such assessments are largely absent in current radiological practice. The difficulty of bone MRI segmentation is illustrated by the fact that limited algorithms are publicly available for use, and those contained in the literature typically address a specific anatomic area. In our study, we propose a versatile, publicly available deep-learning model for bone segmentation in MRI across multiple standard MRI locations. The proposed model can operate in two modes: fully automated segmentation and prompt-based segmentation. Our contributions include (1) collecting and annotating a new MRI dataset across various MRI protocols, encompassing over 300 annotated volumes and 8485 annotated slices across diverse anatomic regions; (2) investigating several standard network architectures and strategies for automated segmentation; (3) introducing SegmentAnyBone, an innovative foundational model-based approach that extends Segment Anything Model (SAM); (4) comparative analysis of our algorithm and previous approaches; and (5) generalization analysis of our algorithm across different anatomical locations and MRI sequences, as well as an external dataset. We publicly release our model at https://github.com/mazurowski-lab/SegmentAnyBone.
翻訳日:2024-01-24 14:47:43 公開日:2024-01-23
# インコンテキスト言語学習:アリューテクチュアとアルゴリズム

In-Context Language Learning: Arhitectures and Algorithms ( http://arxiv.org/abs/2401.12973v1 )

ライセンス: Link先を確認
Ekin Aky\"urek, Bailin Wang, Yoon Kim, Jacob Andreas(参考訳) 大規模ニューラルネットワークモデルは、インコンテキスト学習(ICL)において顕著な能力を示し、入力として提供されるデータセットから新しい関数を推論することができる。 現在のICLの理解のほとんどは、線形回帰や連想的リコールといった極めて単純な学習問題に基づいて訓練されたLMから来ています。 これらのモデル問題と、大きなテキストコーパスでトレーニングされたlmsによって提示された「本物の」iclの間には、大きなギャップが残っている。 本稿では、文脈言語学習(icll)におけるモデル問題の新たなファミリーのレンズを通して、iclについて検討する。 icllでは、lmsは形式言語からの文字列の集合で示され、同じ言語から追加文字列を生成する必要がある。 ランダム有限オートマトンによって生成される正規言語の文脈内学習に焦点をあてる。 我々は,通常のicllタスクにおける様々なニューラルネットワークモデル(複数のrnn,トランスフォーマー,状態空間モデルを含む)の評価を行い,(1)どのモデルクラスがicllを経験的に利用できるか,という3つの疑問に答えることを目的としている。 (2) 成功したモデルがicllを実行するために実装するアルゴリズム的ソリューションは何か? 3) パフォーマンスの低いモデルでicllを改善できるアーキテクチャ変更は何ですか? まず、トランスフォーマーがicllタスクで繰り返しあるいは畳み込み表現を持つニューラルネットワークモデルを大幅に上回ることを示す。 次に,入力条件次値分布を計算する特殊なn-gramヘッド (higher-order variants of induction head) にその能力が依存していることを示す。 最後に、これらのヘッドをリカレントおよび畳み込みモデルにハードワイリングすることで、icllだけでなく、自然言語モデリング(slimpajamaデータセット上の340mパラメータモデルのパープレキシティを最大1.14ポイント(6.7%)向上させる)によってパフォーマンスが向上することを示す。

Large-scale neural language models exhibit a remarkable capacity for in-context learning (ICL): they can infer novel functions from datasets provided as input. Most of our current understanding of when and how ICL arises comes from LMs trained on extremely simple learning problems like linear regression and associative recall. There remains a significant gap between these model problems and the "real" ICL exhibited by LMs trained on large text corpora, which involves not just retrieval and function approximation but free-form generation of language and other structured outputs. In this paper, we study ICL through the lens of a new family of model problems we term in context language learning (ICLL). In ICLL, LMs are presented with a set of strings from a formal language, and must generate additional strings from the same language. We focus on in-context learning of regular languages generated by random finite automata. We evaluate a diverse set of neural sequence models (including several RNNs, Transformers, and state-space model variants) on regular ICLL tasks, aiming to answer three questions: (1) Which model classes are empirically capable of ICLL? (2) What algorithmic solutions do successful models implement to perform ICLL? (3) What architectural changes can improve ICLL in less performant models? We first show that Transformers significantly outperform neural sequence models with recurrent or convolutional representations on ICLL tasks. Next, we provide evidence that their ability to do so relies on specialized "n-gram heads" (higher-order variants of induction heads) that compute input-conditional next-token distributions. Finally, we show that hard-wiring these heads into recurrent and convolutional models improves performance not just on ICLL, but natural language modeling -- improving the perplexity of 340M-parameter models by up to 1.14 points (6.7%) on the SlimPajama dataset.
翻訳日:2024-01-24 14:47:17 公開日:2024-01-23
# 行動予測のためのテキスト入力モーダリティの有効性について

On the Efficacy of Text-Based Input Modalities for Action Anticipation ( http://arxiv.org/abs/2401.12972v1 )

ライセンス: Link先を確認
Apoorva Beedu, Karan Samel, Irfan Essa(参考訳) 将来の行動を予測するタスクは非常に不確実であるが、追加のモダリティからの情報は、考えられる行動選択を狭めるのに役立つ。 それぞれのモダリティは、モデルが学ぶべき異なる環境コンテキストを提供する。 従来のマルチモーダル手法ではビデオや音声などのモダリティ情報を活用するが、アクションやオブジェクトに対するテキスト入力がより正確なアクション予測を可能にする方法が主に検討されている。 そこで本研究では,マルチモーダルな特徴とテキストキャプションから学習する注意に基づくビデオトランスフォーマティブアーキテクチャであるマルチモーダル予測トランスフォーマ(mat)を提案する。 モデルがまずビデオクリップ内のアクションをキャプションにアライメントして予測する2段階のトレーニングを行い、第2段階では、モデルが将来のアクションを予測するように微調整します。 既存の手法と比較して、MATは事前学習段階における行動記述と、モーダル特徴融合時の検出対象と行動に対するテキスト入力という、2種類のテキスト入力から追加の環境コンテキストを学習する利点がある。 実験により, 事前学習段階の有効性を評価し, 全データセットにおいて, 従来の手法よりも優れていることを示す。 また,テキストによる物体情報と行動情報の影響を調べ,広範なアブレーションを行う。 epickitchens-100, epickitchens-55, egtea gaze+の3つのデータセットのパフォーマンスを評価し, テキスト記述がより効果的な行動予測に役立つことを示した。

Although the task of anticipating future actions is highly uncertain, information from additional modalities help to narrow down plausible action choices. Each modality provides different environmental context for the model to learn from. While previous multi-modal methods leverage information from modalities such as video and audio, we primarily explore how text inputs for actions and objects can also enable more accurate action anticipation. Therefore, we propose a Multi-modal Anticipative Transformer (MAT), an attention-based video transformer architecture that jointly learns from multi-modal features and text captions. We train our model in two-stages, where the model first learns to predict actions in the video clip by aligning with captions, and during the second stage, we fine-tune the model to predict future actions. Compared to existing methods, MAT has the advantage of learning additional environmental context from two kinds of text inputs: action descriptions during the pre-training stage, and the text inputs for detected objects and actions during modality feature fusion. Through extensive experiments, we evaluate the effectiveness of the pre-training stage, and show that our model outperforms previous methods on all datasets. In addition, we examine the impact of object and action information obtained via text and perform extensive ablations. We evaluate the performance on on three datasets: EpicKitchens-100, EpicKitchens-55 and EGTEA GAZE+; and show that text descriptions do indeed aid in more effective action anticipation.
翻訳日:2024-01-24 14:46:48 公開日:2024-01-23
# raidar: リライトによる生成ai検出

Raidar: geneRative AI Detection viA Rewriting ( http://arxiv.org/abs/2401.12970v1 )

ライセンス: Link先を確認
Chengzhi Mao, Carl Vondrick, Hao Wang, Junfeng Yang(参考訳) 大規模な言語モデル(LLM)は、書き直しをタスクする場合、AI生成テキストよりも人間の書き起こしテキストを変更する傾向にある。 この傾向は、LLMがAI生成したテキストを高品質と認識し、修正が少なくなるためである。 テキストの書き直しを LLM に促し,出力の編集距離を計算することで,AI 生成コンテンツを検出する手法を提案する。 我々はジェネレーティブAI検出viA書き換え方法Raidarと名づけた。 raidarは、ニュース、クリエイティブライティング、学生エッセイ、コード、yelpレビュー、arxiv論文など、さまざまなドメインにわたる既存のaiコンテンツ検出モデルのf1検出スコアを大幅に改善し、最大29ポイントを獲得した。 本手法は,高次元の特徴を持たない単語記号のみで動作し,ブラックボックスLLMと互換性があり,新しいコンテンツに対して本質的に堅牢である。 本研究は,機械自体のレンズを通して,機械生成テキストのユニークなインプリントを示す。

We find that large language models (LLMs) are more likely to modify human-written text than AI-generated text when tasked with rewriting. This tendency arises because LLMs often perceive AI-generated text as high-quality, leading to fewer modifications. We introduce a method to detect AI-generated content by prompting LLMs to rewrite text and calculating the editing distance of the output. We dubbed our geneRative AI Detection viA Rewriting method Raidar. Raidar significantly improves the F1 detection scores of existing AI content detection models -- both academic and commercial -- across various domains, including News, creative writing, student essays, code, Yelp reviews, and arXiv papers, with gains of up to 29 points. Operating solely on word symbols without high-dimensional features, our method is compatible with black box LLMs, and is inherently robust on new content. Our results illustrate the unique imprint of machine-generated text through the lens of the machines themselves.
翻訳日:2024-01-24 14:46:20 公開日:2024-01-23
# 量子マックスカットの古典的極限

The classical limit of Quantum Max-Cut ( http://arxiv.org/abs/2401.12968v1 )

ライセンス: Link先を確認
Vir B. Bulchandani, Stephen Piddock(参考訳) 物理学では、大きな量子スピン $s$ の極限は半古典的極限として理解されるべきである。 これは、そのような創発的古典性が局所ハミルトン問題のような計算上難しい量子最適化問題の近似を促進するかどうかという問題を引き起こす。 量子マックスカットのスピン-$s$一般化(\mathrm{qmaxcut}_s$)は、任意のスピン-$s$量子ハイゼンベルク反強磁性体の基底状態エネルギー(\mathrm{afh}_s$)を見つける問題と同値である。 逆多項式の精度に$\mathrm{AFH}_S$の値を近似することは、すべての$S$に対してQMA完全であることを証明する。 また、半定値プログラムの出力をブロッホコヒーレント状態の積に丸めることに基づいて、$\mathrm{qmaxcut}_s$ の古典近似アルゴリズムの2つの異なる族を示す。 提案する2つのアルゴリズムの近似比は厳密に$s$ で増加し、bri\"et-oliveira-vallentin近似比 $\alpha_{\mathrm{bov}} \approx 0.956$ に収束する。

It is well-known in physics that the limit of large quantum spin $S$ should be understood as a semiclassical limit. This raises the question of whether such emergent classicality facilitates the approximation of computationally hard quantum optimization problems, such as the local Hamiltonian problem. We demonstrate this explicitly for spin-$S$ generalizations of Quantum Max-Cut ($\mathrm{QMaxCut}_S$), equivalent to the problem of finding the ground state energy of an arbitrary spin-$S$ quantum Heisenberg antiferromagnet ($\mathrm{AFH}_S$). We prove that approximating the value of $\mathrm{AFH}_S$ to inverse polynomial accuracy is QMA-complete for all $S$, extending previous results for $S=1/2$. We also present two distinct families of classical approximation algorithms for $\mathrm{QMaxCut}_S$ based on rounding the output of a semidefinite program to a product of Bloch coherent states. The approximation ratios for both our proposed algorithms strictly increase with $S$ and converge to the Bri\"et-Oliveira-Vallentin approximation ratio $\alpha_{\mathrm{BOV}} \approx 0.956$ from below as $S \to \infty$.
翻訳日:2024-01-24 14:46:02 公開日:2024-01-23
# AutoRT:ロボットエージェントの大規模オーケストレーションのための身体的基礎モデル

AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents ( http://arxiv.org/abs/2401.12963v1 )

ライセンス: Link先を確認
Michael Ahn, Debidatta Dwibedi, Chelsea Finn, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Karol Hausman, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Sean Kirmani, Isabel Leal, Edward Lee, Sergey Levine, Yao Lu, Isabel Leal, Sharath Maddineni, Kanishka Rao, Dorsa Sadigh, Pannag Sanketi, Pierre Sermanet, Quan Vuong, Stefan Welker, Fei Xia, Ted Xiao, Peng Xu, Steve Xu, Zhuo Xu(参考訳) 言語、視覚、そしてより最近のアクションを組み込んだ基礎モデルは、インターネットスケールのデータを利用して有用なタスクを推論する能力に革命をもたらした。 しかし、基礎モデルのトレーニングにおける重要な課題の1つは、物理的世界に根ざしたデータの欠如である。 本稿では,既存の基盤モデルを利用して,人間の監督を最小限に抑えつつ,完全に見えないシナリオで運用ロボットの展開を拡大するシステムであるAutoRTを提案する。 AutoRTは視覚言語モデル(VLM)をシーン理解とグラウンド化に利用し、さらに大きな言語モデル(LLM)を使用して、ロボット群によって実行される多様な新しい命令を提案する。 基礎モデルの知識をタップしてデータ収集を誘導することで、AutoRTは自律的なトレードオフと安全性を効果的に推論し、ロボット学習のためのデータ収集を著しくスケールアップすることができる。 われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。 実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。

Foundation models that incorporate language, vision, and more recently actions have revolutionized the ability to harness internet scale data to reason about useful tasks. However, one of the key challenges of training embodied foundation models is the lack of data grounded in the physical world. In this paper, we propose AutoRT, a system that leverages existing foundation models to scale up the deployment of operational robots in completely unseen scenarios with minimal human supervision. AutoRT leverages vision-language models (VLMs) for scene understanding and grounding, and further uses large language models (LLMs) for proposing diverse and novel instructions to be performed by a fleet of robots. Guiding data collection by tapping into the knowledge of foundation models enables AutoRT to effectively reason about autonomy tradeoffs and safety while significantly scaling up data collection for robot learning. We demonstrate AutoRT proposing instructions to over 20 robots across multiple buildings and collecting 77k real robot episodes via both teleoperation and autonomous robot policies. We experimentally show that such "in-the-wild" data collected by AutoRT is significantly more diverse, and that AutoRT's use of LLMs allows for instruction following data collection robots that can align to human preferences.
翻訳日:2024-01-24 14:45:31 公開日:2024-01-23
# Chatterbox: 不安定ネットワーク下でのLLMトークンストリーミングのためのロバストトランスポート

Chatterbox: Robust Transport for LLM Token Streaming under Unstable Network ( http://arxiv.org/abs/2401.12961v1 )

ライセンス: Link先を確認
Hanchen Li, Yuhan Liu, Yihua Cheng, Siddhant Ray, Kuntai Du, Junchen Jiang(参考訳) LLMサーバは、各生成されたトークンをリアルタイムでレンダリングするために、1個ずつ応答トークンを生成し、生成されたトークン(または数個のトークンのグループ)をネットワーク経由でユーザへストリームする。 しかし、不安定なネットワーク条件下では、LCMトークンのストリーミング体験は、1つのパケットの損失によって、時間が経過しても後続のパケットに含まれるトークンのレンダリングがブロックされるため、ストールに大きく悩まされる可能性がある。 実世界の計測結果から,chatgpt,claude,bardなどのアプリケーションでは,不安定なネットワーク下でストールが増加することが判明した。 llmチャットボットにおける新たなトークンストリーミング問題に対して,我々はchatterboxと呼ばれる新しいトランスポート層スキームを提案する。 これにより、各パケットにはいくつかの新しいトークンが含まれており、受信時に独立してレンダリングできることが保証される。 各種ネットワーク条件下でのシミュレーションにより,Chatterboxは,実際のチャットボットアプリケーションで一般的に使用されているトークンストリーミング方式と比較して,ストール率(トークンレンダリング待ち時間の割合)を71.0%,カスタムパケット複製方式に比べて31.6%削減することを示した。 トークン・バイ・トークン世代のLSMに適合するようにChatterboxを調整することで、Chatbotsは雄弁なスピーカーのように反応し、ユーザーがより広くAIを楽しめるようにします。

To render each generated token in real time, the LLM server generates response tokens one by one and streams each generated token (or group of a few tokens) through the network to the user right after it is generated, which we refer to as LLM token streaming. However, under unstable network conditions, the LLM token streaming experience could suffer greatly from stalls since one packet loss could block the rendering of tokens contained in subsequent packets even if they arrive on time. With a real-world measurement study, we show that current applications including ChatGPT, Claude, and Bard all suffer from increased stall under unstable network. For this emerging token streaming problem in LLM Chatbots, we propose a novel transport layer scheme, called Chatterbox, which puts new generated tokens as well as currently unacknowledged tokens in the next outgoing packet. This ensures that each packet contains some new tokens and can be independently rendered when received, thus avoiding aforementioned stalls caused by missing packets. Through simulation under various network conditions, we show Chatterbox reduces stall ratio (proportion of token rendering wait time) by 71.0% compared to the token streaming method commonly used by real chatbot applications and by 31.6% compared to a custom packet duplication scheme. By tailoring Chatterbox to fit the token-by-token generation of LLM, we enable the Chatbots to respond like an eloquent speaker for users to better enjoy pervasive AI.
翻訳日:2024-01-24 14:45:08 公開日:2024-01-23
# 絵文字の理解 :)有用なコードレビューコメント

Understanding Emojis :) in Useful Code Review Comments ( http://arxiv.org/abs/2401.12959v1 )

ライセンス: Link先を確認
Sharif Ahmed and Nasir U. Eisty(参考訳) 絵文字とエモティコンは非言語的なヒントであり、モダンなコードレビューを含む様々なプラットフォームで普及している。 これらの手がかりは、しばしば開発者の動機付けや指導的な重みを持つ。 本研究は、これらのコメントの中で絵文字によって伝えられる感情や意味を精査することで、コードレビューコメント(CRコメント)の有用性を掘り下げるものである。 CRコメントの有用性を評価するため、従来の「テキスト」機能と「絵文字特化」機能と事前学習型埋め込みを付加する。 調査を強化するために、既存のデータセットを絵文字アノテーションで拡張し、githubの絵文字使用に関する既存の研究をガイドし、それに従ってcrコメントを再評価します。 我々のモデルは、テキストと絵文字に基づく感情特徴と絵文字の意味的理解を取り入れ、ベースラインの指標を大幅に上回っている。 crコメントでしばしば見過ごされる絵文字要素は、有用性の鍵となる指標として現れ、これらの記号がかなりの重みを持つことを示唆している。

Emojis and emoticons serve as non-verbal cues and are increasingly prevalent across various platforms, including Modern Code Review. These cues often carry emotive or instructive weight for developers. Our study dives into the utility of Code Review comments (CR comments) by scrutinizing the sentiments and semantics conveyed by emojis within these comments. To assess the usefulness of CR comments, we augment traditional 'textual' features and pre-trained embeddings with 'emoji-specific' features and pre-trained embeddings. To fortify our inquiry, we expand an existing dataset with emoji annotations, guided by existing research on GitHub emoji usage, and re-evaluate the CR comments accordingly. Our models, which incorporate textual and emoji-based sentiment features and semantic understandings of emojis, substantially outperform baseline metrics. The often-overlooked emoji elements in CR comments emerge as key indicators of usefulness, suggesting that these symbols carry significant weight.
翻訳日:2024-01-24 14:43:50 公開日:2024-01-23
# メタプロンプティング:タスク非依存による言語モデルの強化

Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding ( http://arxiv.org/abs/2401.12954v1 )

ライセンス: Link先を確認
Mirac Suzgun, Adam Tauman Kalai(参考訳) メタプロンプティングは,言語モデル(LM)の機能向上を目的とした効果的な足場技術である。 このアプローチは、1つのLMを多面導体に変換し、複数の独立したLMクエリを管理し統合する。 ハイレベルな命令を使用することで、メタプロパンティングはlmを誘導し、複雑なタスクをより小さく、より管理しやすいサブタスクに分解する。 これらのサブタスクは、同じLMの異なる"専門家"インスタンスによって処理され、それぞれが特定の調整された命令の下で動作する。 このプロセスの中心はlm自体で、導体としての役割は、これらのエキスパートモデルからの出力のシームレスなコミュニケーションと効果的な統合を保証する。 さらに、本質的な批判的思考と堅牢な検証プロセスを採用し、結果の洗練と認証を行っている。 このコラボレーティブなプロンプトアプローチにより、単一のlmが包括的なオーケストレータと多様な専門家のパネルとして同時に振る舞うことができるようになり、幅広いタスクにわたるパフォーマンスが大幅に向上する。 メタプロンプトのゼロショット,タスクに依存しない性質は,詳細なタスク固有の命令の必要性を回避し,ユーザインタラクションを大幅に単純化する。 さらに,pythonインタプリタなどの外部ツールのメタプロパンティングフレームワークへのシームレスな統合により,その適用性と有用性が向上することを示す。 24のゲームを含む全てのタスクを平均すると、チェックメイト・イン・ワンとpythonのプログラミングパズル、pythonインタプリタ機能で拡張されたメタプロパンティングは、標準プロンプトを17.1%、エキスパート(ダイナミック)を17.3%、マルチパーソナライズを15.2%上回る。

We introduce meta-prompting, an effective scaffolding technique designed to enhance the functionality of language models (LMs). This approach transforms a single LM into a multi-faceted conductor, adept at managing and integrating multiple independent LM queries. By employing high-level instructions, meta-prompting guides the LM to break down complex tasks into smaller, more manageable subtasks. These subtasks are then handled by distinct "expert" instances of the same LM, each operating under specific, tailored instructions. Central to this process is the LM itself, in its role as the conductor, which ensures seamless communication and effective integration of the outputs from these expert models. It additionally employs its inherent critical thinking and robust verification processes to refine and authenticate the end result. This collaborative prompting approach empowers a single LM to simultaneously act as a comprehensive orchestrator and a panel of diverse experts, significantly enhancing its performance across a wide array of tasks. The zero-shot, task-agnostic nature of meta-prompting greatly simplifies user interaction by obviating the need for detailed, task-specific instructions. Furthermore, our research demonstrates the seamless integration of external tools, such as a Python interpreter, into the meta-prompting framework, thereby broadening its applicability and utility. Through rigorous experimentation with GPT-4, we establish the superiority of meta-prompting over conventional scaffolding methods: When averaged across all tasks, including the Game of 24, Checkmate-in-One, and Python Programming Puzzles, meta-prompting, augmented with a Python interpreter functionality, surpasses standard prompting by 17.1%, expert (dynamic) prompting by 17.3%, and multipersona prompting by 15.2%.
翻訳日:2024-01-24 14:43:04 公開日:2024-01-23
# ベイズ半構造部分空間推論

Bayesian Semi-structured Subspace Inference ( http://arxiv.org/abs/2401.12950v1 )

ライセンス: Link先を確認
Daniel Dold, David R\"ugamer, Beate Sick, Oliver D\"urr(参考訳) 半構造回帰モデルは、解釈可能な構造と複雑な非構造的特徴効果の合同モデリングを可能にする。 構造化モデルは統計モデルにインスパイアされ、特に重要な特徴に対して入出力関係を推測することができる。 複雑な非構造部は任意のディープニューラルネットワークを定義し、競争予測性能を達成するのに十分な柔軟性を提供する。 これらのモデルはまた、摂動的不確かさを考慮できるが、認識的不確実性を説明するための作業が不足している。 本稿では,部分空間推論を用いた半構造化回帰モデルに対するベイズ近似を用いてこの問題に対処する。 この目的のために、構造的効果のための全パラメータ空間と非構造的効果のための部分空間から、関節後部サンプリングのための部分空間推論を拡張する。 このハイブリッドサンプリング方式とは別に,本手法は部分空間の可変的な複雑性を許容し,ロスランドスケープにおいて複数のミニマをキャプチャできる。 数値実験により,半構造化モデルにおける構造的効果パラメータ後方の復元と,部分空間次元拡大のためのmcmcのフルスペース後方分布へのアプローチの有効性が検証された。 さらに,シミュレーションおよび実世界のデータセット間での競合予測性能を示す。

Semi-structured regression models enable the joint modeling of interpretable structured and complex unstructured feature effects. The structured model part is inspired by statistical models and can be used to infer the input-output relationship for features of particular importance. The complex unstructured part defines an arbitrary deep neural network and thereby provides enough flexibility to achieve competitive prediction performance. While these models can also account for aleatoric uncertainty, there is still a lack of work on accounting for epistemic uncertainty. In this paper, we address this problem by presenting a Bayesian approximation for semi-structured regression models using subspace inference. To this end, we extend subspace inference for joint posterior sampling from a full parameter space for structured effects and a subspace for unstructured effects. Apart from this hybrid sampling scheme, our method allows for tunable complexity of the subspace and can capture multiple minima in the loss landscape. Numerical experiments validate our approach's efficacy in recovering structured effect parameter posteriors in semi-structured models and approaching the full-space posterior distribution of MCMC for increasing subspace dimension. Further, our approach exhibits competitive predictive performance across simulated and real-world datasets.
翻訳日:2024-01-24 14:42:24 公開日:2024-01-23
# トランスフォーマーに基づくモデルでは、構造的再帰をエミュレートする学習がまだ完璧ではない

Transformer-Based Models Are Not Yet Perfect At Learning to Emulate Structural Recursion ( http://arxiv.org/abs/2401.12947v1 )

ライセンス: Link先を確認
Dylan Zhang, Curt Tigges, Zory Zhang, Stella Biderman, Maxim Raginsky, Talia Ringer(参考訳) 本稿では, 変圧器モデルを用いた構造再帰学習の事例から検討する。 再帰は自然言語と形式言語の両方において普遍的な概念である。 構造的再帰はプログラミング言語や形式数学のタスクの中心であり、記号的ツールは現在、データ型間の意味的関係の推測やプログラムの振る舞いのエミュレートなど、ニューラルモデルを超えて優れている。 本稿では,プログラミング言語領域における構造再帰の抽象概念を,具体的なシーケンスモデリング問題や学習モデルの振る舞いにうまく結びつける汎用フレームワークを提案する。 このフレームワークには、構造再帰の一般的な \textit{syntax} をキャプチャする表現が含まれており、それらの \textit{semantics} を理解するための2つの異なるフレームワークと結合されている。 フレームワークを強力な概念ツールとして、さまざまな設定の下で異なる問題を特定します。 再帰的計算をエミュレートするために訓練されたモデルは、再帰を完全に捉えることができず、代わりにショートカットアルゴリズムに適合するので、トレーニング分布で表現されていない特定のエッジケースを解決できない。 さらに,現在最先端の大規模言語モデル (LLM) では,コンテキスト内デモから再帰的なルールを抽出することは困難である。 一方、これらのLSMは再帰関数の還元(ステップワイズ計算)をエミュレートする際に興味深い方法で失敗する。

This paper investigates the ability of transformer-based models to learn structural recursion from examples. Recursion is a universal concept in both natural and formal languages. Structural recursion is central to the programming language and formal mathematics tasks where symbolic tools currently excel beyond neural models, such as inferring semantic relations between datatypes and emulating program behavior. We introduce a general framework that nicely connects the abstract concepts of structural recursion in the programming language domain to concrete sequence modeling problems and learned models' behavior. The framework includes a representation that captures the general \textit{syntax} of structural recursion, coupled with two different frameworks for understanding their \textit{semantics} -- one that is more natural from a programming languages perspective and one that helps bridge that perspective with a mechanistic understanding of the underlying transformer architecture. With our framework as a powerful conceptual tool, we identify different issues under various set-ups. The models trained to emulate recursive computations cannot fully capture the recursion yet instead fit short-cut algorithms and thus cannot solve certain edge cases that are under-represented in the training distribution. In addition, it is difficult for state-of-the-art large language models (LLMs) to mine recursive rules from in-context demonstrations. Meanwhile, these LLMs fail in interesting ways when emulating reduction (step-wise computation) of the recursive function.
翻訳日:2024-01-24 14:42:07 公開日:2024-01-23
# Knapsacks を用いた MNL-Bandit 近似アルゴリズム

MNL-Bandit with Knapsacks: a near-optimal algorithm ( http://arxiv.org/abs/2106.01135v4 )

ライセンス: Link先を確認
Abdellah Aznag, Vineet Goyal and Noemie Perivier(参考訳) 販売者がN$の代替品の在庫を固定し、T$の期間に順次届く未知の需要に直面している場合の動的品揃え選択問題を考える。 各期間において、売り手は顧客に提供する製品の品揃え(一定の制約を満たす)を決定する必要がある。 顧客の応答は、パラメータ$\boldsymbol{v}$を持つ未知の多項ロジットモデル(mnl)に従っている。 顧客が商品$i \in [N]$を選択すると、売り手は収入$r_i$を受け取る。 販売者の目標は、n$製品の初期在庫が固定された場合、t$顧客から期待される総売上を最大化することである。 UCBに基づくアルゴリズムであるMNLwK-UCBを提案する。 MNLwK-UCB は、在庫規模が時間的に準直線的に大きくなると、$\tilde{O}(N + \sqrt{NT})$ regret bound が得られる。 また、より小さな在庫(成長$\sim T^{\alpha}$, $\alpha < 1$)の場合、MNLwK-UCB は $\tilde{O}(N(1 + T^{\frac{1 - \alpha}{2}}) + \sqrt{NT})$ を達成する。 特に、長い時間的地平線において、$\tilde{O}(\sqrt{NT})$ は在庫の制約や大きさに関わらず常に達成される。

We consider a dynamic assortment selection problem where a seller has a fixed inventory of $N$ substitutable products and faces an unknown demand that arrives sequentially over $T$ periods. In each period, the seller needs to decide on the assortment of products (satisfying certain constraints) to offer to the customers. The customer's response follows an unknown multinomial logit model (MNL) with parameter $\boldsymbol{v}$. If customer selects product $i \in [N]$, the seller receives revenue $r_i$. The goal of the seller is to maximize the total expected revenue from the $T$ customers given the fixed initial inventory of $N$ products. We present MNLwK-UCB, a UCB-based algorithm and characterize its regret under different regimes of inventory size. We show that when the inventory size grows quasi-linearly in time, MNLwK-UCB achieves a $\tilde{O}(N + \sqrt{NT})$ regret bound. We also show that for a smaller inventory (with growth $\sim T^{\alpha}$, $\alpha < 1$), MNLwK-UCB achieves a $\tilde{O}(N(1 + T^{\frac{1 - \alpha}{2}}) + \sqrt{NT})$. In particular, over a long time horizon $T$, the rate $\tilde{O}(\sqrt{NT})$ is always achieved regardless of the constraints and the size of the inventory.
翻訳日:2024-01-24 13:00:29 公開日:2024-01-23
# MotionMix:制御可能なモーション生成のための弱スーパービジョン拡散

MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation ( http://arxiv.org/abs/2401.11115v2 )

ライセンス: Link先を確認
Nhat M. Hoang, Kehong Gong, Chuan Guo, Michael Bi Mi(参考訳) 世界がデジタルトランスフォーメーションを受け入れるにつれ、制御可能な3次元人間の動きの生成は重要なトピックとなる。 拡散モデルの登場で有望な進展を遂げた既存の作品は、実世界のリソース集約的な取り組みである、細心の注意深いキャプチャーと注釈付き(テキストなど)の高品質モーションコーパスに大きく依存している。 提案するモーションミックスは,ノイズと無意味な動き列を併用した,単純かつ効果的な弱教師付き拡散モデルである。 具体的には, 初期$t-t^*$ ステップにおける条件付き粗動近似を得るには, 雑音アノテートされた動きを学習し, 最終$t^*$ ステップの条件付き粗動近似を得る。 特に、2つの不完全なデータソースから学習するが、我々のモデルは、ゴールドデータにアクセスする完全に教師されたアプローチに比べて、動きの生成品質を損なうことはない。 いくつかのベンチマークにおいて、MotionMixは多機能なフレームワークであり、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成している。

Controllable generation of 3D human motions becomes an important topic as the world embraces digital transformation. Existing works, though making promising progress with the advent of diffusion models, heavily rely on meticulously captured and annotated (e.g., text) high-quality motion corpus, a resource-intensive endeavor in the real world. This motivates our proposed MotionMix, a simple yet effective weakly-supervised diffusion model that leverages both noisy and unannotated motion sequences. Specifically, we separate the denoising objectives of a diffusion model into two stages: obtaining conditional rough motion approximations in the initial $T-T^*$ steps by learning the noisy annotated motions, followed by the unconditional refinement of these preliminary motions during the last $T^*$ steps using unannotated motions. Notably, though learning from two sources of imperfect data, our model does not compromise motion generation quality compared to fully supervised approaches that access gold data. Extensive experiments on several benchmarks demonstrate that our MotionMix, as a versatile framework, consistently achieves state-of-the-art performances on text-to-motion, action-to-motion, and music-to-dance tasks.
翻訳日:2024-01-24 12:57:09 公開日:2024-01-23
# DengueNet:資源制限国における時空間衛星画像を用いたデング予測

DengueNet: Dengue Prediction using Spatiotemporal Satellite Imagery for Resource-Limited Countries ( http://arxiv.org/abs/2401.11114v2 )

ライセンス: Link先を確認
Kuan-Ting Kuo, Dana Moukheiber, Sebastian Cajas Ordonez, David Restrepo, Atika Rahman Paddo, Tsung-Yu Chen, Lama Moukheiber, Mira Moukheiber, Sulaiman Moukheiber, Saptarshi Purkayastha, Po-Chih Kuo and Leo Anthony Celi(参考訳) デング熱は、衛生インフラが不十分な発展途上国で深刻な課題となっている。 包括的医療システムの欠如はデングの感染の深刻さを悪化させ、生命を脅かす可能性がある。 デングの流行に対する迅速な対応も、情報交換や統合の制限により困難である。 時折デング熱の流行はそのような流行を予防する可能性があるが、デング熱の予測研究の大半は、各国の収集に多大な負担をかけるデータに依存している。 本研究では,高解像度衛星画像の非従来的かつアクセスしやすいデータソースとしての有効性を探求することにより,資源制約国における健康管理を改善することを目的とする。 衛星画像の公開と入手の容易さを活かし,クラウドベースのコンピューティングプラットフォームであるsentinel hubに基づくスケーラブルな衛星抽出フレームワークを提案する。 さらに,衛星画像から時空間的特徴を抽出・統合するために,視覚トランスフォーマー,放射能,長期短期記憶を組み合わせた革新的なアーキテクチャであるdenguenetを紹介する。 これにより、デング予測をエピウィークベースで行える。 提案手法の有効性を評価するため,コロンビアの5つの自治体で実験を行った。 780のsentinel-2衛星画像からなるデータセットを訓練と評価に利用した。 DengueNetの性能は平均絶対誤差(MAE)測定値を用いて評価した。 5つの自治体全体で、デングネットは平均43.92のMAEを達成した。 本研究は,手動で収集したデータが乏しく,デングウイルスの流行が深刻である国において,特に公衆衛生政策を通知する上で,デング予測の貴重な資料として衛星画像の有効性を強く支持する。

Dengue fever presents a substantial challenge in developing countries where sanitation infrastructure is inadequate. The absence of comprehensive healthcare systems exacerbates the severity of dengue infections, potentially leading to life-threatening circumstances. Rapid response to dengue outbreaks is also challenging due to limited information exchange and integration. While timely dengue outbreak forecasts have the potential to prevent such outbreaks, the majority of dengue prediction studies have predominantly relied on data that impose significant burdens on individual countries for collection. In this study, our aim is to improve health equity in resource-constrained countries by exploring the effectiveness of high-resolution satellite imagery as a nontraditional and readily accessible data source. By leveraging the wealth of publicly available and easily obtainable satellite imagery, we present a scalable satellite extraction framework based on Sentinel Hub, a cloud-based computing platform. Furthermore, we introduce DengueNet, an innovative architecture that combines Vision Transformer, Radiomics, and Long Short-term Memory to extract and integrate spatiotemporal features from satellite images. This enables dengue predictions on an epi-week basis. To evaluate the effectiveness of our proposed method, we conducted experiments on five municipalities in Colombia. We utilized a dataset comprising 780 high-resolution Sentinel-2 satellite images for training and evaluation. The performance of DengueNet was assessed using the mean absolute error (MAE) metric. Across the five municipalities, DengueNet achieved an average MAE of 43.92. Our findings strongly support the efficacy of satellite imagery as a valuable resource for dengue prediction, particularly in informing public health policies within countries where manually collected data is scarce and dengue virus prevalence is severe.
翻訳日:2024-01-24 12:56:49 公開日:2024-01-23
# FAIR Enough: 大規模言語モデルのトレーニングにFAIR互換のデータセットをどのように開発し評価するか?

FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training? ( http://arxiv.org/abs/2401.11033v2 )

ライセンス: Link先を確認
Shaina Raza, Shardul Ghuge, Chen Ding, Deval Pandya(参考訳) 大規模言語モデル(LLM)の急速な進化は、AI開発における倫理的考慮とデータの完全性の重要性を強調し、FAIR(Findable, Accessible, Interoperable, Reusable)データ原則の役割を強調している。 これらの原則は長年、倫理データスチュワードシップの基盤となっているが、LLMトレーニングデータへの応用はそれほど一般的ではない。 本研究は,既存文献のレビューから始まり,モデルトレーニングにおけるデータ管理における公平な原則の重要性を強調する。 この基盤の上に構築され、FAIR原則をLLMトレーニングプロセスに組み込む新しいフレームワークを導入します。 このアプローチの重要な側面は包括的なチェックリストであり、モデル開発ライフサイクルを通じて、研究者や開発者が公平なデータ原則を一貫して適用することを支援するように設計されている。 我々のフレームワークの実践性と有効性は、バイアスを検出して低減するFAIR準拠のデータセットを作成するケーススタディによって実証される。 このケーススタディは、我々のフレームワークの有用性を検証するだけでなく、LLMトレーニングにおけるより公平で透明で倫理的な実践のための新しいベンチマークを確立する。 我々は、技術的に進歩し、倫理的に健全で、社会的に責任のあるAIモデルを促進する手段として、このフレームワークをコミュニティに提供する。

The rapid evolution of Large Language Models (LLMs) underscores the critical importance of ethical considerations and data integrity in AI development, emphasizing the role of FAIR (Findable, Accessible, Interoperable, Reusable) data principles. While these principles have long been a cornerstone of ethical data stewardship, their application in LLM training data is less prevalent, an issue our research aims to address. Our study begins with a review of existing literature, highlighting the significance of FAIR principles in data management for model training. Building on this foundation, we introduce a novel framework that incorporates FAIR principles into the LLM training process. A key aspect of this approach is a comprehensive checklist, designed to assist researchers and developers in consistently applying FAIR data principles throughout the model development lifecycle. The practicality and effectiveness of our framework are demonstrated through a case study that involves creating a FAIR-compliant dataset to detect and reduce biases. This case study not only validates the usefulness of our framework but also establishes new benchmarks for more equitable, transparent, and ethical practices in LLM training. We offer this framework to the community as a means to promote technologically advanced, ethically sound, and socially responsible AI models.
翻訳日:2024-01-24 12:56:08 公開日:2024-01-23
# 交通分類のためのデータ拡張

Data Augmentation for Traffic Classification ( http://arxiv.org/abs/2401.10754v2 )

ライセンス: Link先を確認
Chao Wang, Alessandro Finamore, Pietro Michiardi, Massimo Gallo, Dario Rossi(参考訳) Data Augmentation (DA) -- 合成サンプルを追加してトレーニングデータを強化する - は、モデルパフォーマンスを改善するためにコンピュータビジョン(CV)と自然言語処理(NLP)タスクに広く採用されているテクニックである。 しかし、daはネットワークのコンテキスト、特にトラフィック分類(tc)タスクで牽引力を得るのに苦労している。 本研究では,パケット時系列を入力表現として用いた3TCデータセットに適用した18の拡張関数をベンチマークし,様々な訓練条件を考慮した。 私たちの結果は 一 DAは、未調査の利益を享受することができる。 二 時系列順序及びマスキングに作用する増強は、振幅増強よりもtcに適していること。 (iii) 基礎モデル 潜在空間解析は分類性能に対する増強の正の/負の作用を理解するのに役立つ。

Data Augmentation (DA) -- enriching training data by adding synthetic samples -- is a technique widely adopted in Computer Vision (CV) and Natural Language Processing (NLP) tasks to improve models performance. Yet, DA has struggled to gain traction in networking contexts, particularly in Traffic Classification (TC) tasks. In this work, we fulfill this gap by benchmarking 18 augmentation functions applied to 3 TC datasets using packet time series as input representation and considering a variety of training conditions. Our results show that (i) DA can reap benefits previously unexplored, (ii) augmentations acting on time series sequence order and masking are better suited for TC than amplitude augmentations and (iii) basic models latent space analysis can help understanding the positive/negative effects of augmentations on classification performance.
翻訳日:2024-01-24 12:55:42 公開日:2024-01-23
# ゼロリソース言語のための多言語音響単語埋め込み

Multilingual acoustic word embeddings for zero-resource languages ( http://arxiv.org/abs/2401.10543v2 )

ライセンス: Link先を確認
Christiaan Jacobs(参考訳) 本研究は,ラベル付きデータに欠けるゼロリソース言語のための音声アプリケーションを開発することの課題に対処する。 具体的には、多言語トランスファーを使用して、多言語音声セグメントの固定次元表現であるawe(a acoustic word embedded)を使用している。 この研究は、ゼロリソース言語で既存のaweモデルを上回る新しいニューラルネットワークを導入している。 優れたリソース言語の選択の影響を探求するものだ。 AWEは、スワヒリのラジオ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用され、現実世界のシナリオにおける堅牢性を示す。 さらに、新しいセマンティックAWEモデルは、セマンティッククエリ・バイ・サンプル検索を改善する。

This research addresses the challenge of developing speech applications for zero-resource languages that lack labelled data. It specifically uses acoustic word embedding (AWE) -- fixed-dimensional representations of variable-duration speech segments -- employing multilingual transfer, where labelled data from several well-resourced languages are used for pertaining. The study introduces a new neural network that outperforms existing AWE models on zero-resource languages. It explores the impact of the choice of well-resourced languages. AWEs are applied to a keyword-spotting system for hate speech detection in Swahili radio broadcasts, demonstrating robustness in real-world scenarios. Additionally, novel semantic AWE models improve semantic query-by-example search.
翻訳日:2024-01-24 12:55:00 公開日:2024-01-23
# 準周期電位による局所化相のレベルスペーシング分布

Level spacing distribution of localized phases induced by quasiperiodic potentials ( http://arxiv.org/abs/2401.10067v3 )

ライセンス: Link先を確認
Chao Yang and Yucheng Wang(参考訳) レベル統計は局在物理学の探求において重要な道具である。 乱れた局所化相のレベル間隔分布はポアソン統計に従い、多くの研究は自然に準周期的局所化相に適用する。 ここでは準周期局所化相のレベル間隔分布を解析的に求め,ポアソン統計から逸脱していることを見出す。 さらに、このレベル統計に基づいて、隣接するギャップの比率を導出し、1つのサンプルに対して$\delta$関数であることが判明し、数値的な研究とよく一致している。 さらに、乱れたシステムとは異なり、準周期系では、スペクトルの異なる領域にまたがるレベル間隔分布のばらつきがあり、サイズの増加とサンプルの増加は非同値である。 本研究は準周期系におけるレベル統計の再評価と準周期ポテンシャルと障害誘発局在の異なる効果の深い理解に有意な意味を持つ。

Level statistics is a crucial tool in the exploration of localization physics. The level spacing distribution of the disordered localized phase follows Poisson statistics, and many studies naturally apply it to the quasiperiodic localized phase. Here we analytically obtain the level spacing distribution of the quasiperiodic localized phase, and find that it deviates from Poisson statistics. Moreover, based on this level statistics, we derive the ratio of adjacent gaps and find that for a single sample, it is a $\delta$ function, which is in excellent agreement with numerical studies. Additionally, unlike disordered systems, in quasiperiodic systems, there are variations in the level spacing distribution across different regions of the spectrum, and increasing the size and increasing the sample are non-equivalent. Our findings carry significant implications for the reevaluation of level statistics in quasiperiodic systems and a profound understanding of the distinct effects of quasiperiodic potentials and disorder induced localization.
翻訳日:2024-01-24 12:54:45 公開日:2024-01-23
# IPR-NeRF:オーナシップ検証とニューラルラジアンスフィールド

IPR-NeRF: Ownership Verification meets Neural Radiance Field ( http://arxiv.org/abs/2401.09495v4 )

ライセンス: Link先を確認
Win Kent Ong, Kam Woh Ng, Chee Seng Chan, Yi Zhe Song, Tao Xiang(参考訳) neural radiance field(nerf)モデルは、最近のコンピュータビジョンコミュニティにおいて、最先端の視覚品質で大きな注目を集め、印象的なデモンストレーションを生み出した。 それ以来、技術者はNeRFモデルを利益のあるビジネスに活用しようとしてきた。 そのため、NeRFモデルは、違法にそれらのモデルをコピー、再配布、または誤用するリスクを負う。 本稿では, ブラックボックスおよびホワイトボックス設定, IPR-NeRFにおけるNeRFモデルに対する包括的知的財産権保護フレームワークを提案する。 ブラックボックス設定では、2段階最適化プロセスを介して透かしを埋め込み抽出するために拡散ベースの溶液が導入された。 ホワイトボックス設定では、指定されたデジタル署名が、符号損失目標を採用して、nerfモデルの重みに埋め込まれる。 我々は,IPR-NeRFモデルの忠実度(レンダリング品質)を維持するだけでなく,従来の技術と比較して曖昧さと除去攻撃に対して頑健であることを示した。

Neural Radiance Field (NeRF) models have gained significant attention in the computer vision community in the recent past with state-of-the-art visual quality and produced impressive demonstrations. Since then, technopreneurs have sought to leverage NeRF models into a profitable business. Therefore, NeRF models make it worth the risk of plagiarizers illegally copying, re-distributing, or misusing those models. This paper proposes a comprehensive intellectual property (IP) protection framework for the NeRF model in both black-box and white-box settings, namely IPR-NeRF. In the black-box setting, a diffusion-based solution is introduced to embed and extract the watermark via a two-stage optimization process. In the white-box setting, a designated digital signature is embedded into the weights of the NeRF model by adopting the sign loss objective. Our extensive experiments demonstrate that not only does our approach maintain the fidelity (\ie, the rendering quality) of IPR-NeRF models, but it is also robust against both ambiguity and removal attacks compared to prior arts.
翻訳日:2024-01-24 12:54:18 公開日:2024-01-23
# 相対性理論の量子原理と可算重力

Quantum Principle of Relativity and The Renormalizable Gravity ( http://arxiv.org/abs/2401.08617v4 )

ライセンス: Link先を確認
Jinsu Kim and Dongok Kim(参考訳) 我々は、一般相対性理論を導入することなく、相対性理論という新しい相対性理論に基づく純粋量子理論を開発した。 我々は、相対性理論の本質が量子領域に自然に拡張され、活性変換と受動変換の同一構造が維持されることを示した。 この原理を用いることで、重力効果は自然に正規化可能理論に組み込まれ、古典的理論において一般相対性理論が出現することを示した。 グラビトンプロパゲーターを導出し、この理論に基づくいくつかの例を提供する。

We develop a purely quantum theory based on the novel principle of relativity, termed the quantum principle of relativity, without introducing general relativity. We demonstrate that the essence of the principle of relativity can be naturally extended into the quantum realm, maintaining the identical structures of active and passive transformations. By employing this principle, we show that gravitational effects are naturally incorporated into the renormalizable theory, with general relativity emerging in the classical regime. We derive graviton propagators and provide several examples grounded in this novel theory.
翻訳日:2024-01-24 12:53:18 公開日:2024-01-23
# 逆行訓練と知識蒸留によるリーフ病の分類

Explainability-Driven Leaf Disease Classification Using Adversarial Training and Knowledge Distillation ( http://arxiv.org/abs/2401.00334v3 )

ライセンス: Link先を確認
Sebastian-Vasile Echim, Iulian-Marius T\u{a}iatu, Dumitru-Clementin Cercel, Florin Pop(参考訳) 本研究は,植物葉病の分類に焦点をあて,逆行訓練,モデル説明可能性,モデル圧縮の3つの重要な側面を考察する。 モデルの敵攻撃に対する堅牢性は、敵の訓練によって強化され、脅威が存在する場合でも正確な分類が保証される。 説明可能性技術を活用することで、モデルの意思決定プロセスに対する洞察を得、信頼と透明性を改善します。 さらに,分類性能を維持しつつ計算効率を最適化するためのモデル圧縮手法を検討する。 本実験により,ベンチマークデータセット上でのロバスト性は,正規テストでは3%~20%,敵攻撃テストでは50%~70%の精度で,分類精度の値が決定される。 また, 学生モデルの計算効率は, 計算効率が15~25倍に向上し, より複雑なモデルの知識を抽出できることを実証した。

This work focuses on plant leaf disease classification and explores three crucial aspects: adversarial training, model explainability, and model compression. The models' robustness against adversarial attacks is enhanced through adversarial training, ensuring accurate classification even in the presence of threats. Leveraging explainability techniques, we gain insights into the model's decision-making process, improving trust and transparency. Additionally, we explore model compression techniques to optimize computational efficiency while maintaining classification performance. Through our experiments, we determine that on a benchmark dataset, the robustness can be the price of the classification accuracy with performance reductions of 3%-20% for regular tests and gains of 50%-70% for adversarial attack tests. We also demonstrate that a student model can be 15-25 times more computationally efficient for a slight performance reduction, distilling the knowledge of more complex models.
翻訳日:2024-01-24 12:53:08 公開日:2024-01-23
# カーネルマシンのプレコンディショニングにおけるNystrom近似について

On the Nystrom Approximation for Preconditioning in Kernel Machines ( http://arxiv.org/abs/2312.03311v3 )

ライセンス: Link先を確認
Amirhesam Abedsoltan, Parthe Pandit, Luis Rademacher, Mikhail Belkin(参考訳) カーネル法は機械学習における非線形予測モデルの一般的なクラスである。 カーネルモデルを学習するためのスケーラブルなアルゴリズムは、本質的に反復的である必要があるが、コンバージェンスは条件の悪いため遅くなる可能性がある。 スペクトルプレコンディショニングは、カーネルモデルをトレーニングするための反復アルゴリズムの収束を高速化する重要なツールである。 しかし、スペクトルプリコンディショナーの計算と保存はコストがかかり、大規模な計算とストレージのオーバーヘッドが発生し、大規模なデータセットの問題に対するカーネルメソッドの適用が妨げられる可能性がある。 スペクトルプレコンディショナーのナイストロム近似は、しばしば計算と保存に安価であり、実用的な応用で成功している。 本稿では,このような近似プリコンディショナーの使用のトレードオフを分析する。 具体的には、対数サイズのサンプル(データセットの大きさの関数として)によって、nystromベースの近似プリコンディショナーは、正確なプリコンディショナーと同様に勾配降下を加速できると同時に、計算とストレージのオーバーヘッドも削減できることを示す。

Kernel methods are a popular class of nonlinear predictive models in machine learning. Scalable algorithms for learning kernel models need to be iterative in nature, but convergence can be slow due to poor conditioning. Spectral preconditioning is an important tool to speed-up the convergence of such iterative algorithms for training kernel models. However computing and storing a spectral preconditioner can be expensive which can lead to large computational and storage overheads, precluding the application of kernel methods to problems with large datasets. A Nystrom approximation of the spectral preconditioner is often cheaper to compute and store, and has demonstrated success in practical applications. In this paper we analyze the trade-offs of using such an approximated preconditioner. Specifically, we show that a sample of logarithmic size (as a function of the size of the dataset) enables the Nystrom-based approximated preconditioner to accelerate gradient descent nearly as well as the exact preconditioner, while also reducing the computational and storage overheads.
翻訳日:2024-01-24 12:52:53 公開日:2024-01-23
# 時間の波及:アメリカの歴史における不連続

A ripple in time: a discontinuity in American history ( http://arxiv.org/abs/2312.01185v3 )

ライセンス: Link先を確認
Alexander Kolpakov, Igor Rivin(参考訳) この注記では、Kaggle の State of the Union Address (SOTU) データセットを使って、アメリカ史の一般的なタイムラインと、そのアドレス自体の特性と性質に関する驚くべき(そしてそれほど意外ではない)観察を行う。 我々の主なアプローチは、BERT (DistilBERT) や GPT-2 のようなベクトル埋め込みを使うことです。 BERT(およびそのバリエーション)はNLP分類タスクに最も適していると広く信じられているが、UDIなどの非線形次元減少法と組み合わせたGPT-2は、より良い分離とより強力なクラスタリングを提供する。 これにより、GPT-2 + UMAPが興味深い代替となる。 我々の場合、モデル微調整は不要であり、事前訓練されたGPT-2モデルで十分である。 また、細調整した DistilBERT モデルを用いて、大統領がどのアドレスをどのアドレスで送ったかの分類を行い、非常に良い結果を得た(精度は93% - 95%)。 執筆年を決定するために類似のタスクが実行され、我々はそれを約4年(大統領任期の1つ)に留めることができた。 sotuアドレスは、比較的小さな文書サンプル(平均で約80000語、200万語から20万語以上)を提供しており、著者数は比較的多い(42人の大統領がsotuアドレスを使っていた)ことは注目すべきである。 これは、このノートで記述された全ての計算はgoogle colabの1つのgpuインスタンスを使って実行できるが、採用されているテクニックはかなり効率的であることを示している。 付属するコードはGitHubで入手できる。

In this note we use the State of the Union Address (SOTU) dataset from Kaggle to make some surprising (and some not so surprising) observations pertaining to the general timeline of American history, and the character and nature of the addresses themselves. Our main approach is using vector embeddings, such as BERT (DistilBERT) and GPT-2. While it is widely believed that BERT (and its variations) is most suitable for NLP classification tasks, we find out that GPT-2 in conjunction with nonlinear dimension reduction methods such as UMAP provide better separation and stronger clustering. This makes GPT-2 + UMAP an interesting alternative. In our case, no model fine-tuning is required, and the pre-trained out-of-the-box GPT-2 model is enough. We also used a fine-tuned DistilBERT model for classification detecting which President delivered which address, with very good results (accuracy 93% - 95% depending on the run). An analogous task was performed to determine the year of writing, and we were able to pin it down to about 4 years (which is a single presidential term). It is worth noting that SOTU addresses provide relatively small writing samples (with about 8'000 words on average, and varying widely from under 2'000 words to more than 20'000), and that the number of authors is relatively large (we used SOTU addresses of 42 US presidents). This shows that the techniques employed turn out to be rather efficient, while all the computations described in this note can be performed using a single GPU instance of Google Colab. The accompanying code is available on GitHub.
翻訳日:2024-01-24 12:52:33 公開日:2024-01-23
# EMO: 自動回帰言語モデリングのためのアースモーバー距離最適化

EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling ( http://arxiv.org/abs/2310.04691v5 )

ライセンス: Link先を確認
Siyu Ren, Zhiyong Wu, Kenny Q. Zhu(参考訳) ニューラル言語モデルは人間のテキストの確率モデルである。 それらは主に、経験的データ分布とモデル分布の間の前方のクロスエントロピーを最小化するmle(maximum likelihood estimation)を使用して訓練される。 しかし、これらのモデルで学習した分布から復号する際には、様々な退化現象が広く見られる。 その結果,(1)リコール優先性(2)負の多様性無知,(3)列車試験ミスマッチによる人間とモデル分布の整合のための距離指標として,前方方向のクロスエントロピーが準最適であることが判明した。 本稿では,自動回帰言語モデリングのための地球間距離最適化(EMO)を提案する。 EMOは、前述の課題に対処するために、地球移動器距離の本質的な性質を生かしている。 直接計算の複雑さが高いため、emoのエンドツーエンドトレーニングを容易にするために、さらに実現可能な上限を導入する。 EMOとMLEを用いて訓練した言語モデルの広範囲な評価を行う。 EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。 さらに、EMOは、わずか25,000の文で最小限の微調整を施して、下流のパフォーマンスを向上する。 これは、大規模な事前学習された言語モデルを強化するための軽量キャリブレーション方法としてのemoの膨大な可能性を強調している。

Neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the empirical data distribution and the model distribution. However, various degeneration phenomena are still widely observed when decoding from the distributions learned by such models. We establish that the forward cross-entropy is suboptimal as a distance metric for aligning human and model distribution due to its (1) recall-prioritization (2) negative diversity ignorance and (3) train-test mismatch. In this paper, we propose Earth Mover Distance Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on the inherent properties of earth mover distance to address the aforementioned challenges. Due to the high complexity of direct computation, we further introduce a feasible upper bound for EMO to ease end-to-end training. Upon extensive evaluation of language models trained using EMO and MLE. We find that EMO demonstrates a consistently better language modeling performance than MLE across domains. Moreover, EMO demonstrates noteworthy enhancements in downstream performance with minimal fine-tuning on merely 25,000 sentences. This highlights the tremendous potential of EMO as a lightweight calibration method for enhancing large-scale pre-trained language models.
翻訳日:2024-01-24 12:52:04 公開日:2024-01-23
# 超高速・超軽量ネットワークを用いた耳疾患のリアルタイム診断システム

Ultrafast and Ultralight Network-Based Intelligent System for Real-time Diagnosis of Ear Diseases in Any Devices ( http://arxiv.org/abs/2308.10610v3 )

ライセンス: Link先を確認
Yubiao Yue, Xinyu Zeng, Xiaoqiang Shi, Meiping Zhang, Haihua Liang, Fan Zhang, Yanmei Chen, Zefeng Xie, Wenrui Wu, Zhenzhang Li(参考訳) 従来の耳疾患の診断は経験豊富な専門医や専門機器に大きく依存しており、しばしば誤診、治療遅延、一部の患者に対する金銭的負担が生じる。 効率的な耳疾患診断のためのディープラーニングモデルの利用は、効果的で安価であることが証明されている。 しかし、既存の研究では、配置に必要なモデル推論速度とパラメータサイズを見落としていた。 これらの課題に対処するため,2つの病院から8つの耳疾患カテゴリと正常な耳道サンプルからなる大規模データセットを構築した。 ShuffleNetV2に触発されて,リアルタイム耳疾患診断を可能にする超高速・超軽量ネットワークBest-EarNetを開発した。 Best-EarNetは、グローバルとローカルの空間情報を同時にキャプチャし、様々なレベルの特徴マップ内の重要な領域に集中するようにネットワークを誘導し、低い精度の問題を緩和する、新しいローカル・グローバル空間特徴融合モジュールを組み込んでいる。 さらに,効率的なパラメータ最適化のために,複数の補助分類ヘッドを用いる。 0.77Mパラメータで、Best-EarNetはCPU上で80秒毎の平均フレームを達成する。 転送学習と22,581の画像による5倍クロスバリデーションを用いることで、95.23%の精度が得られる。 病院2の1,652枚の画像の外部検査では、その性能が92.14%の精度で検証されている。 最先端ネットワークと比較して、Best-EarNetは実用用途に新しい最先端(SOTA)を確立する。 最も重要なことは、Ear Keeperと呼ばれるインテリジェントな診断システムを開発し、一般的な電子機器にデプロイできることです。 小型の電子内視鏡を操作することで、ユーザはリアルタイムビデオを用いて耳道の包括的スキャンと診断を行うことができる。 本研究は耳内内視鏡および他の医用内視鏡画像認識応用のための新しいパラダイムを提供する。

Traditional ear disease diagnosis heavily depends on experienced specialists and specialized equipment, frequently resulting in misdiagnoses, treatment delays, and financial burdens for some patients. Utilizing deep learning models for efficient ear disease diagnosis has proven effective and affordable. However, existing research overlooked model inference speed and parameter size required for deployment. To tackle these challenges, we constructed a large-scale dataset comprising eight ear disease categories and normal ear canal samples from two hospitals. Inspired by ShuffleNetV2, we developed Best-EarNet, an ultrafast and ultralight network enabling real-time ear disease diagnosis. Best-EarNet incorporates the novel Local-Global Spatial Feature Fusion Module which can capture global and local spatial information simultaneously and guide the network to focus on crucial regions within feature maps at various levels, mitigating low accuracy issues. Moreover, our network uses multiple auxiliary classification heads for efficient parameter optimization. With 0.77M parameters, Best-EarNet achieves an average frames per second of 80 on CPU. Employing transfer learning and five-fold cross-validation with 22,581 images from Hospital-1, the model achieves an impressive 95.23% accuracy. External testing on 1,652 images from Hospital-2 validates its performance, yielding 92.14% accuracy. Compared to state-of-the-art networks, Best-EarNet establishes a new state-of-the-art (SOTA) in practical applications. Most importantly, we developed an intelligent diagnosis system called Ear Keeper, which can be deployed on common electronic devices. By manipulating a compact electronic otoscope, users can perform comprehensive scanning and diagnosis of the ear canal using real-time video. This study provides a novel paradigm for ear endoscopy and other medical endoscopic image recognition applications.
翻訳日:2024-01-24 12:51:43 公開日:2024-01-23
# 後悔を保証したデータ駆動オンラインモデル選択

Data-Driven Online Model Selection With Regret Guarantees ( http://arxiv.org/abs/2306.02869v3 )

ライセンス: Link先を確認
Aldo Pacchiano, Christoph Dann, Claudio Gentile(参考訳) メタリアナーがベース学習者のプールを処分し,各ベース学習者が推奨する方針に基づいてどの行動を取るか判断する,バンディットフィードバックを伴う確率的環境における逐次意思決定のためのモデル選択を検討する。 モデル選択は, 後悔のバランスによって行われるが, この主題に関する最近の文献とは違って, 基本学習者に関する事前知識を, 候補者の後悔の保証のように想定しない。 したがって、メタ学習者は、(期待された後悔とは対照的に)学習環境において各基礎学習者が生み出した達成された後悔を活用でき、最高の後悔を一つにまとめることができる。 2つのモデル選択アルゴリズムをこの野心的な後悔の概念で設計し,モデル選択の保証を後悔のバランスで証明すると同時に,実際の後悔を扱うという説得力のある実用的メリットを実験的に実証する。

We consider model selection for sequential decision making in stochastic environments with bandit feedback, where a meta-learner has at its disposal a pool of base learners, and decides on the fly which action to take based on the policies recommended by each base learner. Model selection is performed by regret balancing but, unlike the recent literature on this subject, we do not assume any prior knowledge about the base learners like candidate regret guarantees; instead, we uncover these quantities in a data-driven manner. The meta-learner is therefore able to leverage the realized regret incurred by each base learner for the learning environment at hand (as opposed to the expected regret), and single out the best such regret. We design two model selection algorithms operating with this more ambitious notion of regret and, besides proving model selection guarantees via regret balancing, we experimentally demonstrate the compelling practical benefits of dealing with actual regrets instead of candidate regret bounds.
翻訳日:2024-01-24 12:51:15 公開日:2024-01-23
# コンピュータビジョンとそれを超える自己監督型異常検出:調査と展望

Self-Supervised Anomaly Detection in Computer Vision and Beyond: A Survey and Outlook ( http://arxiv.org/abs/2205.05173v5 )

ライセンス: Link先を確認
Hadi Hojjati, Thi Kieu Khanh Ho, Narges Armanfard(参考訳) 異常検出(AD)は、通常の行動から逸脱するパターンや事象を特定することによって、サイバーセキュリティ、金融、医療など様々な領域において重要な役割を果たす。 近年,深層学習モデルの顕著な成長により,この分野において大きな進歩を遂げている。 特に、自己教師付き学習の出現は、既存の最先端のアプローチをかなりの差で上回る新しい広告アルゴリズムの開発を促した。 本稿では,自己監督型異常検出における現在の手法を概観する。 標準手法の技術的詳細を説明し,その強みと欠点について考察する。 また,これらのモデルの性能を,他の最先端の異常検出モデルと比較した。 最後に、より効率的かつ効率的なアルゴリズムの開発や、これらの手法をマルチモーダル学習などの他の関連分野と統合することを含む、自己教師付き異常検出の今後の方向性について論じる。

Anomaly detection (AD) plays a crucial role in various domains, including cybersecurity, finance, and healthcare, by identifying patterns or events that deviate from normal behaviour. In recent years, significant progress has been made in this field due to the remarkable growth of deep learning models. Notably, the advent of self-supervised learning has sparked the development of novel AD algorithms that outperform the existing state-of-the-art approaches by a considerable margin. This paper aims to provide a comprehensive review of the current methodologies in self-supervised anomaly detection. We present technical details of the standard methods and discuss their strengths and drawbacks. We also compare the performance of these models against each other and other state-of-the-art anomaly detection models. Finally, the paper concludes with a discussion of future directions for self-supervised anomaly detection, including the development of more effective and efficient algorithms and the integration of these techniques with other related fields, such as multi-modal learning.
翻訳日:2024-01-24 12:50:54 公開日:2024-01-23
# DeepCERES:超高分解能マルチモーダルMRIを用いた小脳小葉セグメンテーションの深層学習法

DeepCERES: A Deep learning method for cerebellar lobule segmentation using ultra-high resolution multimodal MRI ( http://arxiv.org/abs/2401.12074v2 )

ライセンス: Link先を確認
Sergio Morell-Ortega, Marina Ruiz-Perez, Marien Gadea, Roberto Vivo-Hernando, Gregorio Rubio, Fernando Aparici, Maria de la Iglesia-Vaya, Gwenaelle Catheline, Pierrick Coup\'e, Jos\'e V. Manj\'on(参考訳) 本稿では,新しいマルチモーダル・高分解能ヒト脳小脳セグメンテーション法を提案する。 標準解像度($1 \text{mm}^{3}$)やモノモーダルデータを使用する現在のツールとは異なり、提案手法はマルチモーダルおよび超高解像度($0.125 \text{mm}^{3}$)トレーニングデータセットを用いて小脳小葉のセグメンテーションを改善する。 まず, 超高分解能t1およびt2 mr画像を用いて, 提案法を訓練するために, 半自動ラベル付き小脳小葉のデータベースを作成した。 そして, 複雑な小脳小葉分割課題において, 提案手法が優れていること, メモリ効率を保ちながら精度を向上させるために, 深層ネットワークのアンサンブルを設計, 開発してきた。 特に、私たちのアプローチは、代替アーキテクチャを探求することによって、従来のU-Netモデルから逸脱します。 また,従来の機械学習手法と深層学習を統合し,マルチアトラスセグメンテーションから事前知識を取り入れ,精度と堅牢性を向上した。 最後に、deepceresと呼ばれる新しいオンラインパイプラインが開発され、標準解像度で単一のt1 mr画像のみを入力として必要な科学コミュニティに提案手法を提供する。

This paper introduces a novel multimodal and high-resolution human brain cerebellum lobule segmentation method. Unlike current tools that operate at standard resolution ($1 \text{ mm}^{3}$) or using mono-modal data, the proposed method improves cerebellum lobule segmentation through the use of a multimodal and ultra-high resolution ($0.125 \text{ mm}^{3}$) training dataset. To develop the method, first, a database of semi-automatically labelled cerebellum lobules was created to train the proposed method with ultra-high resolution T1 and T2 MR images. Then, an ensemble of deep networks has been designed and developed, allowing the proposed method to excel in the complex cerebellum lobule segmentation task, improving precision while being memory efficient. Notably, our approach deviates from the traditional U-Net model by exploring alternative architectures. We have also integrated deep learning with classical machine learning methods incorporating a priori knowledge from multi-atlas segmentation, which improved precision and robustness. Finally, a new online pipeline, named DeepCERES, has been developed to make available the proposed method to the scientific community requiring as input only a single T1 MR image at standard resolution.
翻訳日:2024-01-24 12:44:30 公開日:2024-01-23
# 多変量一貫性を用いた立体整合知識蒸留単分子深さ推定

Stereo-Matching Knowledge Distilled Monocular Depth Estimation Filtered by Multiple Disparity Consistency ( http://arxiv.org/abs/2401.12019v2 )

ライセンス: Link先を確認
Woonghyun Ka, Jae Young Lee, Jaehyun Choi, Junmo Kim(参考訳) 自己教師付き単眼深度推定のステレオマッチング知識蒸留法では、ステレオマッチングネットワークの知識を擬似深度マップを介して単眼深度ネットワークに蒸留する。 これらの手法では, 学習に基づくステレオ信頼ネットワークを用いて, 擬似深度マップの誤りを識別し, 誤りの転送を防止する。 しかし、学習に基づくステレオ信頼ネットワークは、自己監督的な環境では実現不可能な地上真実(GT)で訓練されるべきである。 本稿では,GTやトレーニング処理を必要とせず,一貫性を確認することで,複数の不均一マップを用いて擬似深度マップの誤りを識別・フィルタリングする手法を提案する。 実験の結果,提案手法は従来手法よりも優れており,立体マッチングが脆弱なエリア,特にテクスチャレス領域,オクルージョン境界,反射面など,様々な構成でうまく機能することがわかった。

In stereo-matching knowledge distillation methods of the self-supervised monocular depth estimation, the stereo-matching network's knowledge is distilled into a monocular depth network through pseudo-depth maps. In these methods, the learning-based stereo-confidence network is generally utilized to identify errors in the pseudo-depth maps to prevent transferring the errors. However, the learning-based stereo-confidence networks should be trained with ground truth (GT), which is not feasible in a self-supervised setting. In this paper, we propose a method to identify and filter errors in the pseudo-depth map using multiple disparity maps by checking their consistency without the need for GT and a training process. Experimental results show that the proposed method outperforms the previous methods and works well on various configurations by filtering out erroneous areas where the stereo-matching is vulnerable, especially such as textureless regions, occlusion boundaries, and reflective surfaces.
翻訳日:2024-01-24 12:44:08 公開日:2024-01-23
# 異次元平面スイープによるエンドツーエンドステレオマッチングネットワークからのステレオ信頼のモデル化

Modeling Stereo-Confidence Out of the End-to-End Stereo-Matching Network via Disparity Plane Sweep ( http://arxiv.org/abs/2401.12001v2 )

ライセンス: Link先を確認
Jae Young Lee, Woonghyun Ka, Jaehyun Choi, Junmo Kim(参考訳) 本稿では,様々なステレオマッチングネットワークに対して外部から測定可能な新しいステレオ信頼度を提案し,特に安全クリティカルシステムにおいて,学習ベースアプローチにおいてコストボリュームの代替入力モダリティ選択を提供する。 本提案手法は, 立体像対のシフトを, 等間隔写像における対応する量シフトで更新する, という考え方に基づいて, 基本概念である不均一性の定義と不均質平面の掃討を基礎として構築されている。 この考えに基づき,提案手法は3つの折り畳みにまとめることができる。 1)不均質平面スイープを用いて、コストボリュームが構築されるように、複数の不均質マップを3次元ボリューム(予測不均質ボリューム)として取得、処理することができる。 2) これらの不均等写像の1つはアンカーとして機能し、任意の空間点において望ましい(あるいは理想的な)不均質プロファイルを定義することができる。 3) 予測された不一致プロファイルを比較することで, 信頼度測定のための左右画像間の一致曖昧度を定量化することができる。 各種ステレオマッチングネットワークとデータセットを用いた大規模な実験結果から,提案手法は自力で競合性能を示すだけでなく,学習に基づくステレオ信頼手法の入力モダリティとして使用する場合,一貫した性能向上を示す。

We propose a novel stereo-confidence that can be measured externally to various stereo-matching networks, offering an alternative input modality choice of the cost volume for learning-based approaches, especially in safety-critical systems. Grounded in the foundational concepts of disparity definition and the disparity plane sweep, the proposed stereo-confidence method is built upon the idea that any shift in a stereo-image pair should be updated in a corresponding amount shift in the disparity map. Based on this idea, the proposed stereo-confidence method can be summarized in three folds. 1) Using the disparity plane sweep, multiple disparity maps can be obtained and treated as a 3-D volume (predicted disparity volume), like the cost volume is constructed. 2) One of these disparity maps serves as an anchor, allowing us to define a desirable (or ideal) disparity profile at every spatial point. 3) By comparing the desirable and predicted disparity profiles, we can quantify the level of matching ambiguity between left and right images for confidence measurement. Extensive experimental results using various stereo-matching networks and datasets demonstrate that the proposed stereo-confidence method not only shows competitive performance on its own but also consistent performance improvements when it is used as an input modality for learning-based stereo-confidence methods.
翻訳日:2024-01-24 12:43:50 公開日:2024-01-23
# 自動ファクトチェックのためのクレーム検出:単言語・多言語・言語横断研究に関する調査

Claim Detection for Automated Fact-checking: A Survey on Monolingual, Multilingual and Cross-Lingual Research ( http://arxiv.org/abs/2401.11969v2 )

ライセンス: Link先を確認
Rrubaa Panchendrarajan and Arkaitz Zubiaga(参考訳) オンラインプラットフォーム上での誤情報拡散の増加により,過去数十年間,ファクトチェックの自動化が注目されている。 これはしばしば一連のタスクとして実行されます (i)確認を必要とする主張を構成するオンラインプラットフォームで流通する文の検出、続いて (ii)これらのクレームの検証プロセス 本調査は, 事実確認を必要とするクレームを検出するための既存の取り組みを, 多言語データと手法に特に焦点をあてることにより, 前者に焦点を当てる。 これは、既存の方法が人間のパフォーマンスにマッチするほど遠くない難易度の高い方向であり、この問題の極めて困難な性質のためである。 特に、複数の言語とモダリティで表現された複数のソーシャルプラットフォームにまたがる情報の拡散は、誤った情報に対処するためのより一般的な解決策を要求する。 多言語誤報に着目し,既存の多言語クレーム検出研究を包括的に調査する。 本稿では,現状の多言語クレーム検出研究を,問題の3つの重要な要因,妥当性,優先性,類似性に分類する。 さらに,既存の多言語データセットの概要と課題について概説し,今後の発展の可能性を提案する。

Automated fact-checking has drawn considerable attention over the past few decades due to the increase in the diffusion of misinformation on online platforms. This is often carried out as a sequence of tasks comprising (i) the detection of sentences circulating in online platforms which constitute claims needing verification, followed by (ii) the verification process of those claims. This survey focuses on the former, by discussing existing efforts towards detecting claims needing fact-checking, with a particular focus on multilingual data and methods. This is a challenging and fertile direction where existing methods are yet far from matching human performance due to the profoundly challenging nature of the issue. Especially, the dissemination of information across multiple social platforms, articulated in multiple languages and modalities demands more generalized solutions for combating misinformation. Focusing on multilingual misinformation, we present a comprehensive survey of existing multilingual claim detection research. We present state-of-the-art multilingual claim detection research categorized into three key factors of the problem, verifiability, priority, and similarity. Further, we present a detailed overview of the existing multilingual datasets along with the challenges and suggest possible future advancements.
翻訳日:2024-01-24 12:43:26 公開日:2024-01-23
# BETA:エッジにおける二元化エネルギー効率変換器加速器

BETA: Binarized Energy-Efficient Transformer Accelerator at the Edge ( http://arxiv.org/abs/2401.11851v2 )

ライセンス: Link先を確認
Yuhao Ji, Chao Fang, Zhongfeng Wang(参考訳) 既存のバイナリトランスフォーマーは、コンパクトなモデルサイズ、計算複雑性の低さ、かなりの推論精度により、エッジデプロイメントにおいて有望である。 しかし、量子化行列乗算(QMM)の非効率な実行と、マルチ精度アクティベーションによるエネルギー消費オーバーヘッドにより、バイナリトランスフォーマーのデプロイは、以前のプロセッサ上での課題に直面している。 上記の課題に対処するために、まず二進変換器の計算フロー抽象化法を開発し、計算順序を最適化してQMM実行効率を向上させる。 さらに、分岐エネルギー効率の高いトランスフォーマーアクセラレータBETAが、エッジでの効率的な展開を促進するために提案されている。 特に、BETAは構成可能なQMMエンジンを備え、バイナリトランスフォーマーの多様なアクティベーション精度を調節し、素晴らしいエネルギー効率を持つQMMに対して高い並列性と高速を提供する。 ZCU102 FPGAで評価された実験結果によると、BETAは174 GOPS/Wの平均エネルギー効率を実現しており、これは従来のFPGAベースのアクセラレータよりも1.76~21.92倍高い。

Existing binary Transformers are promising in edge deployment due to their compact model size, low computational complexity, and considerable inference accuracy. However, deploying binary Transformers faces challenges on prior processors due to inefficient execution of quantized matrix multiplication (QMM) and the energy consumption overhead caused by multi-precision activations. To tackle the challenges above, we first develop a computation flow abstraction method for binary Transformers to improve QMM execution efficiency by optimizing the computation order. Furthermore, a binarized energy-efficient Transformer accelerator, namely BETA, is proposed to boost the efficient deployment at the edge. Notably, BETA features a configurable QMM engine, accommodating diverse activation precisions of binary Transformers and offering high-parallelism and high-speed for QMMs with impressive energy efficiency. Experimental results evaluated on ZCU102 FPGA show BETA achieves an average energy efficiency of 174 GOPS/W, which is 1.76~21.92x higher than prior FPGA-based accelerators, showing BETA's good potential for edge Transformer acceleration.
翻訳日:2024-01-24 12:43:08 公開日:2024-01-23
# 不均一ランダム化制御試験における時間-時間結果のサブグループ解析法

Subgroup analysis methods for time-to-event outcomes in heterogeneous randomized controlled trials ( http://arxiv.org/abs/2401.11842v2 )

ライセンス: Link先を確認
Valentine Perrin, Nathan Noiry, Nicolas Loiseau, Alex Nowak(参考訳) 非有意なランダム化制御試験は、実験薬に対する優れた応答者のサブグループを隠蔽し、その後の発展を妨げる。 このような不均一な治療効果の同定は、精密医療の鍵であり、その目的で多くのポストホック分析法が開発されている。 これらの手法の長所と短所を特定するためにいくつかのベンチマークが実施されているが、特にバイナリおよび連続エンドポイントでは、時間とイベントのエンドポイントに対するサブグループ解析の体系的評価が欠如している。 この研究は、3つの異なる研究質問によって、複数のサブグループ分析アルゴリズムを時間からイベントまでの成果の文脈で評価することで、このギャップを埋めることを目的としている。 このような異質性の原因となるバイオマーカーは何か? 治療によい反応者は何者ですか。 そこで本研究では, ヘテロジニティのレベルを正確に制御した多種多様な不均一性シナリオを探索することのできる, 合成・半合成データ生成プロセスを提案する。 当社はgithubで利用可能なオープンソースのpythonパッケージを提供しており、生成プロセスと包括的なベンチマークフレームワークを含んでいます。 このパッケージは今後,治療効果の不均一性やサブグループ分析手法のベンチマーク研究に役立てられるものと期待している。

Non-significant randomized control trials can hide subgroups of good responders to experimental drugs, thus hindering subsequent development. Identifying such heterogeneous treatment effects is key for precision medicine and many post-hoc analysis methods have been developed for that purpose. While several benchmarks have been carried out to identify the strengths and weaknesses of these methods, notably for binary and continuous endpoints, similar systematic empirical evaluation of subgroup analysis for time-to-event endpoints are lacking. This work aims to fill this gap by evaluating several subgroup analysis algorithms in the context of time-to-event outcomes, by means of three different research questions: Is there heterogeneity? What are the biomarkers responsible for such heterogeneity? Who are the good responders to treatment? In this context, we propose a new synthetic and semi-synthetic data generation process that allows one to explore a wide range of heterogeneity scenarios with precise control on the level of heterogeneity. We provide an open source Python package, available on Github, containing our generation process and our comprehensive benchmark framework. We hope this package will be useful to the research community for future investigations of heterogeneity of treatment effects and subgroup analysis methods benchmarking.
翻訳日:2024-01-24 12:42:44 公開日:2024-01-23
# 強化学習とデモによる安全で汎用的なエンドツーエンド自動運転システム

Safe and Generalized end-to-end Autonomous Driving System with Reinforcement Learning and Demonstrations ( http://arxiv.org/abs/2401.11792v2 )

ライセンス: Link先を確認
Zuojin Tang, Xiaoyu Chen, YongQiang Li, Jianyu Chen(参考訳) インテリジェントな運転システムは、システムのセキュリティと信頼性を確保しつつ、現在の環境と車両状態に基づいて適切な運転戦略を動的に定式化することができるべきである。 しかし、強化学習と模倣学習に基づく既存の手法は安全性が低く、一般化が悪く、サンプリングが効率が悪い。 さらに、将来の運転軌跡を正確に予測することはできず、将来の運転軌跡の正確な予測は最適な決定を行うための前提条件である。 そこで本稿では,複雑なシナリオに対して,安全で汎用的なエンドツーエンドの自動運転システム(sgads)を提案する。 我々のSGADSは変動推論と正規化フローを組み込んでおり、インテリジェントな車両が将来の走行軌跡を正確に予測することができる。 さらに,ロバストな安全制約の定式化を提案する。 さらに,強化学習と実演を組み合わせることで,エージェントの探索過程を増強する。 実験結果から,SGADSは安全性能を著しく向上し,高度に一般化し,複雑な都市環境下での知的車両の訓練効率を向上させることができることが示された。

An intelligent driving system should be capable of dynamically formulating appropriate driving strategies based on the current environment and vehicle status, while ensuring the security and reliability of the system. However, existing methods based on reinforcement learning and imitation learning suffer from low safety, poor generalization, and inefficient sampling. Additionally, they cannot accurately predict future driving trajectories, and the accurate prediction of future driving trajectories is a precondition for making optimal decisions. To solve these problems, in this paper, we introduce a Safe and Generalized end-to-end Autonomous Driving System (SGADS) for complex and various scenarios. Our SGADS incorporates variational inference with normalizing flows, enabling the intelligent vehicle to accurately predict future driving trajectories. Moreover, we propose the formulation of robust safety constraints. Furthermore, we combine reinforcement learning with demonstrations to augment search process of the agent. The experimental results demonstrate that our SGADS can significantly improve safety performance, exhibit strong generalization, and enhance the training efficiency of intelligent vehicles in complex urban scenarios compared to existing methods.
翻訳日:2024-01-24 12:42:22 公開日:2024-01-23
# GI-PIP: グラディエント・インバージョン・アタックの非現実的補助的データセットは必要か?

GI-PIP: Do We Require Impractical Auxiliary Dataset for Gradient Inversion Attacks? ( http://arxiv.org/abs/2401.11748v2 )

ライセンス: Link先を確認
Yu sun, Gaojian Xiong, Xianxun Yao, Kailang Ma, Jian Cui(参考訳) 深い勾配の反転攻撃は、共有勾配から個人データを正確に回収することで、フェデレートされた学習(FL)に深刻な脅威を露呈する。 しかし、最先端技術は、FLの基本データ分割原理に違反している過剰な補助データにアクセスするための非現実的な仮定に大きく依存している。 本稿では,GI-PIP(Practical Image Prior)を用いたグラディエント・インバージョン・アタック(Gradient Inversion Attack)を提案する。 GI-PIPは異常検出モデルを利用して、より少ないデータから基礎となる分布をキャプチャする一方、GANベースの手法は画像の合成に大量のデータを消費する。 抽出した分布を利用して攻撃プロセスをAnomaly Score損失として制御する。 実験の結果、GI-PIPはイメージネットの3.8%のデータのみを使用して16.12dBのPSNRリカバリを実現している。 さらに,GI-PIPはGAN法に比べて分布一般化に優れる。 本手法は,勾配反転攻撃における量と分布の補助的データ要求を著しく軽減し,現実のFLに対してより重大な脅威となる。

Deep gradient inversion attacks expose a serious threat to Federated Learning (FL) by accurately recovering private data from shared gradients. However, the state-of-the-art heavily relies on impractical assumptions to access excessive auxiliary data, which violates the basic data partitioning principle of FL. In this paper, a novel method, Gradient Inversion Attack using Practical Image Prior (GI-PIP), is proposed under a revised threat model. GI-PIP exploits anomaly detection models to capture the underlying distribution from fewer data, while GAN-based methods consume significant more data to synthesize images. The extracted distribution is then leveraged to regulate the attack process as Anomaly Score loss. Experimental results show that GI-PIP achieves a 16.12 dB PSNR recovery using only 3.8% data of ImageNet, while GAN-based methods necessitate over 70%. Moreover, GI-PIP exhibits superior capability on distribution generalization compared to GAN-based methods. Our approach significantly alleviates the auxiliary data requirement on both amount and distribution in gradient inversion attacks, hence posing more substantial threat to real-world FL.
翻訳日:2024-01-24 12:42:05 公開日:2024-01-23
# tim: スパイキングトランスフォーマーのための効率的な時間相互作用モジュール

TIM: An Efficient Temporal Interaction Module for Spiking Transformer ( http://arxiv.org/abs/2401.11687v2 )

ライセンス: Link先を確認
Sicheng Shen, Dongcheng Zhao, Guobin Shen and Yi Zeng(参考訳) 第3世代のニューラルネットワークであるスパイキングニューラルネットワーク(SNN)は、その生物学的妥当性と計算効率、特に多様なデータセットの処理において注目されている。 ニューラルネットワークアーキテクチャの進歩に触発された注意機構の統合は、スパイキングトランスフォーマーの開発につながった。 これらは、SNNの機能強化、特に静的データセットとニューロモルフィックデータセットの両方の領域において、有望であることを示している。 それらの進歩にもかかわらず、これらのシステムには明確なギャップが存在し、特にSNNの時間的処理能力を活用するためのスパイキング自己注意(SSA)メカニズムの有効性においてである。 これを解決するために、SNNアーキテクチャ内の時間データ処理能力を増強する新しい畳み込みベースの拡張であるTIM(Temporal Interaction Module)を導入する。 TIMの既存のSNNフレームワークへの統合はシームレスで効率的であり、時間的情報処理能力を大幅に向上させながら、最小限の追加パラメータを必要とする。 厳密な実験を通じて、TIMは時間的情報を活用する効果を実証し、様々なニューロモルフィックデータセットにおける最先端のパフォーマンスをもたらす。

Spiking Neural Networks (SNNs), as the third generation of neural networks, have gained prominence for their biological plausibility and computational efficiency, especially in processing diverse datasets. The integration of attention mechanisms, inspired by advancements in neural network architectures, has led to the development of Spiking Transformers. These have shown promise in enhancing SNNs' capabilities, particularly in the realms of both static and neuromorphic datasets. Despite their progress, a discernible gap exists in these systems, specifically in the Spiking Self Attention (SSA) mechanism's effectiveness in leveraging the temporal processing potential of SNNs. To address this, we introduce the Temporal Interaction Module (TIM), a novel, convolution-based enhancement designed to augment the temporal data processing abilities within SNN architectures. TIM's integration into existing SNN frameworks is seamless and efficient, requiring minimal additional parameters while significantly boosting their temporal information handling capabilities. Through rigorous experimentation, TIM has demonstrated its effectiveness in exploiting temporal information, leading to state-of-the-art performance across various neuromorphic datasets.
翻訳日:2024-01-24 12:41:25 公開日:2024-01-23
# 言語モデルを用いたインコンテクスト学習 : 調査

In-context Learning with Retrieved Demonstrations for Language Models: A Survey ( http://arxiv.org/abs/2401.11624v2 )

ライセンス: Link先を確認
Man Luo, Xin Xu, Yue Liu, Panupong Pasupat, Mehran Kazemi(参考訳) 言語モデル、特に訓練済みの大規模言語モデルでは、入力コンテキストでいくつかのデモを行うだけで、新しいタスクに適応できる少数のインコンテキスト学習者(ICL)として顕著な能力を示した。 しかし、モデルがiclを実行する能力は、少数のデモの選択に敏感である。 最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。 実演検索の実装は比較的簡単で,既存のデータベースや検索システムを活用している。 これは学習プロセスの効率性とスケーラビリティを向上するだけでなく、手作業によるサンプル選択に固有のバイアスを低減することも示されている。 iclにおける研究成果の奨励と研究の進展を踏まえ,本研究の広範なレビューを行った。 本研究では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について検討し,比較する。

Language models, especially pre-trained large language models, have showcased remarkable abilities as few-shot in-context learners (ICL), adept at adapting to new tasks with just a few demonstrations in the input context. However, the model's ability to perform ICL is sensitive to the choice of the few-shot demonstrations. Instead of using a fixed set of demonstrations, one recent development is to retrieve demonstrations tailored to each input query. The implementation of demonstration retrieval is relatively straightforward, leveraging existing databases and retrieval systems. This not only improves the efficiency and scalability of the learning process but also has been shown to reduce biases inherent in manual example selection. In light of the encouraging results and growing research in ICL with retrieved demonstrations, we conduct an extensive review of studies in this area. In this survey, we discuss and compare different design choices for retrieval models, retrieval training procedures, and inference algorithms.
翻訳日:2024-01-24 12:41:05 公開日:2024-01-23
# 連続可変量子系における楕円曲線

Elliptic Curves in Continuous-Variable Quantum Systems ( http://arxiv.org/abs/2401.11579v2 )

ライセンス: Link先を確認
Maxwell Aifer and Evan Sheldon(参考訳) 楕円曲線は、アーベル群を定義するのに使用できる平面曲線である。 この群上の離散対数の効率的な計算は、暗号に関する長年の問題である。 群加算演算を量子デバイス上で効率的に計算できると仮定して、量子コンピュータを用いてこれらの対数を効率的に計算することができる。 しかし、現在、楕円曲線群の追加には何千もの論理量子ビットが必要であり、この応用は短期量子ハードウェアには及ばない。 ここでは,立方ポテンシャルエネルギーを持つシステムの弱測定に基づいて,単一の連続変数モードを用いた楕円曲線群加算を計算するアルゴリズムを提案する。 この結果は、量子デバイスを用いた楕円曲線離散対数効率の改善につながる可能性がある。

Elliptic curves are planar curves which can be used to define an abelian group. The efficient computation of discrete logarithms over this group is a longstanding problem relevant to cryptography. It may be possible to efficiently compute these logarithms using a quantum computer, assuming that the group addition operation can be computed efficiently on a quantum device. Currently, however, thousands of logical qubits are required for elliptic curve group addition, putting this application out of reach for near-term quantum hardware. Here we give an algorithm for computing elliptic curve group addition using a single continuous-variable mode, based on weak measurements of a system with a cubic potential energy. This result could lead to improvements in the efficiency of elliptic curve discrete logarithms using a quantum device.
翻訳日:2024-01-24 12:40:51 公開日:2024-01-23
# HARDCORE:フェライトコアにおける残差拡張畳み込みニューラルネットワークを用いた任意の波形のH場と損失推定

HARDCORE: H-field and power loss estimation for arbitrary waveforms with residual, dilated convolutional neural networks in ferrite cores ( http://arxiv.org/abs/2401.11488v2 )

ライセンス: Link先を確認
Wilhelm Kirchg\"assner, Nikolas F\"orster, Till Piepenbrock, Oliver Schweins, Oliver Wallscheid(参考訳) マグネットチャレンジ2023は、トロイダルフェライトコアの定常電力損失の材料特異的な波形非依存的な推定のためのデータ駆動モデルの開発を競合他社に求めている。 下記のHARDCORE (H-field and power loss Estimation for Arbitrary waveforms with Residual, Dilated convolutional Neural Network in Ferrte COREs) アプローチは、物理インフォーム拡張を持つ残留畳み込みニューラルネットワークが、事前に観測データに基づいてトレーニングした場合に、このタスクを効率的に行うことができることを示している。 1つの重要な解要素は、まずbh曲線を再構成し、次に提案したトポロジーを物理的に解釈可能な曲線の面積に基づいて電力損失を推定する中間モデル層である。 さらに、リーンモデルアーキテクチャを実現するために、エキスパートベースの機能エンジニアリングと情報豊富なインプットに重点が置かれた。 モデルは各材料についてスクラッチから訓練されるが、トポロジーは同じである。 モデルサイズと推定精度とのparetoスタイルのトレードオフが実証され、十分なサンプルのサンプルを持つ最悪のケース材料の相対誤差の95分の1に対して、最大1755パラメータ以下で8\,\%以下の最適値が得られる。

The MagNet Challenge 2023 calls upon competitors to develop data-driven models for the material-specific, waveform-agnostic estimation of steady-state power losses in toroidal ferrite cores. The following HARDCORE (H-field and power loss estimation for Arbitrary waveforms with Residual, Dilated convolutional neural networks in ferrite COREs) approach shows that a residual convolutional neural network with physics-informed extensions can serve this task efficiently when trained on observational data beforehand. One key solution element is an intermediate model layer which first reconstructs the bh curve and then estimates the power losses based on the curve's area rendering the proposed topology physically interpretable. In addition, emphasis was placed on expert-based feature engineering and information-rich inputs in order to enable a lean model architecture. A model is trained from scratch for each material, while the topology remains the same. A Pareto-style trade-off between model size and estimation accuracy is demonstrated, which yields an optimum at as low as 1755 parameters and down to below 8\,\% for the 95-th percentile of the relative error for the worst-case material with sufficient samples.
翻訳日:2024-01-24 12:40:40 公開日:2024-01-23
# アレルギー性鼻炎に対する皮下免疫療法の適応予測モデル

Sequential Model for Predicting Patient Adherence in Subcutaneous Immunotherapy for Allergic Rhinitis ( http://arxiv.org/abs/2401.11447v2 )

ライセンス: Link先を確認
Yin Li, Yu Xiong, Wenxin Fan, Kai Wang, Qingqing Yu, Liping Si, Patrick van der Smagt, Jun Tang, and Nutan Chen(参考訳) 目的: 皮下免疫療法 (SCIT) はアレルギー性鼻炎の長期治療である。 アレルゲン免疫療法(AIT)の利益を最大化するために患者の定着を高める方法は、AITの管理において重要な役割を果たす。 本研究は,新規機械学習モデルを用いて患者の非整合性のリスクを正確に予測し,長期AIT管理における新たなアプローチを提供することを目的とする。 方法: 本研究は, 逐次潜在アクタークリティカル(SLAC)とLong Short-Term Memory(LSTM)の2つのモデルを開発し, 評価する。 結果: 最初の段階でバイアスのあるサンプルを除くと、slacモデルの予測準拠精度は60\,\%$から72\%$であり、lstmモデルの場合、時間ステップに応じて6,6\,\%$から8,4\,\%$である。 SLACモデルのRoot Mean Square Error(RMSE)の範囲は0.93ドルから2.22ドル、LSTMモデルでは1.09ドルから1.77ドルである。 特に、これらのRMSEは4.55ドルというランダムな予測誤差よりもかなり低い。 結論: アレルギー性鼻炎 (AR) 患者のSCIT非アドヒアランス予測において, SCITの長期管理に有意な精度で逐次モデルを適用した。 LSTMは順応予測においてSLACより優れ、SLACはSCIT for ARの患者に対してスコア予測に優れる。 状態アクションベースのSLACは柔軟性を追加し、長期AITを管理するための新しく効果的なアプローチを提供する。

Objective: Subcutaneous Immunotherapy (SCIT) is the long-lasting causal treatment of allergic rhinitis. How to enhance the adherence of patients to maximize the benefit of allergen immunotherapy (AIT) plays a crucial role in the management of AIT. This study aims to leverage novel machine learning models to precisely predict the risk of non-adherence of patients and related systematic symptom scores, to provide a novel approach in the management of long-term AIT. Methods: The research develops and analyzes two models, Sequential Latent Actor-Critic (SLAC) and Long Short-Term Memory (LSTM), evaluating them based on scoring and adherence prediction capabilities. Results: Excluding the biased samples at the first time step, the predictive adherence accuracy of the SLAC models is from $60\,\%$ to $72\%$, and for LSTM models, it is $66\,\%$ to $84\,\%$, varying according to the time steps. The range of Root Mean Square Error (RMSE) for SLAC models is between $0.93$ and $2.22$, while for LSTM models it is between $1.09$ and $1.77$. Notably, these RMSEs are significantly lower than the random prediction error of $4.55$. Conclusion: We creatively apply sequential models in the long-term management of SCIT with promising accuracy in the prediction of SCIT nonadherence in Allergic Rhinitis (AR) patients. While LSTM outperforms SLAC in adherence prediction, SLAC excels in score prediction for patients undergoing SCIT for AR. The state-action-based SLAC adds flexibility, presenting a novel and effective approach for managing long-term AIT.
翻訳日:2024-01-24 12:40:12 公開日:2024-01-23
# PartIR: 機械学習のためのSPMD分割戦略の構築

PartIR: Composing SPMD Partitioning Strategies for Machine Learning ( http://arxiv.org/abs/2401.11202v2 )

ライセンス: Link先を確認
Sami Alabed, Bart Chrzaszcz, Juliana Franco, Dominik Grewe, Dougal Maclaurin, James Molloy, Tom Natan, Tamara Norman, Xiaoyue Pan, Adam Paszke, Norman A. Rink, Michael Schaarschmidt, Timur Sitdikov, Agnieszka Swietlik, Dimitrios Vytiniotis, Joel Wee(参考訳) 現代の大規模ニューラルネットワーク(NN)のトレーニングには、データ、モデル、オプティマイザシャーディングを含む並列化戦略の組み合わせが必要である。 戦略が複雑さを増すと、分割ツールの必要性が増す。 1) 簡潔な戦略の構成を可能にする表現的,及び 2) 性能を解析的に推定できる。 我々は,nnパーティショニングシステムの設計であるpartirを提案する。 PartIRは書き直しに対する漸進的なアプローチに重点を置いており、ハードウェアとランタイムに依存しない。 シャーディング戦略を構成するためのシンプルだが強力なAPIと,それらを検証するためのシミュレータを提示する。 このプロセスは、手動と自動の両方が可能なハイレベルなプログラマ発行のパーティショニング戦略によって駆動される。 重要なことに、戦術はモデルコードとは別々に指定され、変更が容易になります。 我々は,その予測可能性,表現性,ピーク性能に達する能力を示すため,複数のモデルでpartirを評価した。 .

Training of modern large neural networks (NN) requires a combination of parallelization strategies encompassing data, model, or optimizer sharding. When strategies increase in complexity, it becomes necessary for partitioning tools to be 1) expressive, allowing the composition of simpler strategies, and 2) predictable to estimate performance analytically. We present PartIR, our design for a NN partitioning system. PartIR is focused on an incremental approach to rewriting and is hardware-and-runtime agnostic. We present a simple but powerful API for composing sharding strategies and a simulator to validate them. The process is driven by high-level programmer-issued partitioning tactics, which can be both manual and automatic. Importantly, the tactics are specified separately from the model code, making them easy to change. We evaluate PartIR on several different models to demonstrate its predictability, expressibility, and ability to reach peak performance..
翻訳日:2024-01-24 12:39:43 公開日:2024-01-23
# binaryai:intelligent binary source code matchingによるバイナリソフトウェア構成分析

BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching ( http://arxiv.org/abs/2401.11161v2 )

ライセンス: Link先を確認
Ling Jiang, Junwen An, Huihui Huang, Qiyi Tang, Sen Nie, Shi Wu, Yuqun Zhang(参考訳) サードパーティのライブラリは、ソフトウェア開発中に生産性を高めるために広範囲に再利用されるが、脆弱性伝播のような潜在的なセキュリティリスクも引き起こすことができる。 このようなリスクを軽減するために再利用可能なTPLを同定するソフトウェア構成分析は、DevSecOpsにおいて必須の手順となっている。 主要なSCA技術の一つとして、バイナリからソースまでのSCAはバイナリソースコードマッチングを通じてバイナリファイルに含まれるサードパーティのオープンソースプロジェクトを特定します。 既存のバイナリ・トゥ・ソースのSCA技術は、冗長性と大規模TPLデータセットの堅牢性に欠ける基本的な構文的特徴を利用しており、必然的な偽陽性と難解なリコールにつながっている。 これらの制限を緩和するため、BinaryAIという2段階のバイナリソースコードマッチングを備えた、新しいバイナリからソースまでのSCA技術を導入し、構文的およびセマンティックなコードの特徴を捉える。 まず、BinaryAIはトランスフォーマーモデルを使用して関数レベルの埋め込みを生成し、それに応じて各バイナリ関数に対して同様のソース関数を取得する。 次に、関数マッチングを容易にするためにリンク時間局所性を適用することにより、BinaryAIは一致したソース関数の比率に基づいて再利用されたTPLを検出する。 実験結果は,バイナリソースコードマッチングとダウンストリームscaタスクの観点から,binaryaiの優れた性能を示す。 具体的には、埋め込みモデルは最先端のcodecmr、すなわち22.54%のre recall@1 と 0.34 mrr をそれぞれ10.75% と 0.17 に上回っている。 さらに、BinaryAIは既存のバイナリからソースまでのSCAツールをTPL検出で上回り、精度は73.36%から85.84%に、リコールは59.81%から64.98%に向上した。

While third-party libraries are extensively reused to enhance productivity during software development, they can also introduce potential security risks such as vulnerability propagation. Software composition analysis, proposed to identify reused TPLs for reducing such risks, has become an essential procedure within modern DevSecOps. As one of the mainstream SCA techniques, binary-to-source SCA identifies the third-party source projects contained in binary files via binary source code matching, which is a major challenge in reverse engineering since binary and source code exhibit substantial disparities after compilation. The existing binary-to-source SCA techniques leverage basic syntactic features that suffer from redundancy and lack robustness in the large-scale TPL dataset, leading to inevitable false positives and compromised recall. To mitigate these limitations, we introduce BinaryAI, a novel binary-to-source SCA technique with two-phase binary source code matching to capture both syntactic and semantic code features. First, BinaryAI trains a transformer-based model to produce function-level embeddings and obtain similar source functions for each binary function accordingly. Then by applying the link-time locality to facilitate function matching, BinaryAI detects the reused TPLs based on the ratio of matched source functions. Our experimental results demonstrate the superior performance of BinaryAI in terms of binary source code matching and the downstream SCA task. Specifically, our embedding model outperforms the state-of-the-art model CodeCMR, i.e., achieving 22.54% recall@1 and 0.34 MRR compared with 10.75% and 0.17 respectively. Additionally, BinaryAI outperforms all existing binary-to-source SCA tools in TPL detection, increasing the precision from 73.36% to 85.84% and recall from 59.81% to 64.98% compared with the well-recognized commercial SCA product Black Duck.
翻訳日:2024-01-24 12:39:30 公開日:2024-01-23