このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231120となっている論文です。

PDF登録状況(公開日: 20231120)

TitleAuthorsAbstract論文公表日・翻訳日
# Alpha-wolvesとAlpha-mammals:Iris認識システムにおける辞書攻撃の探索

Alpha-wolves and Alpha-mammals: Exploring Dictionary Attacks on Iris Recognition Systems ( http://arxiv.org/abs/2403.12047v1 )

ライセンス: Link先を確認
Sudipta Banerjee, Anubhav Jain, Zehua Jiang, Nasir Memon, Julian Togelius, Arun Ross, (参考訳) 生体認証システムにおける辞書攻撃は、少数の戦略的に生成された画像やテンプレートを使用することで、多数のIDとうまく一致し、セキュリティを損なう。 我々は、テンプレートレベルでの辞書攻撃、特に虹彩認識システムで使用されるIrisCodesに焦点を当てる。 我々は、単純なビットワイズ演算子を使ってIrisCodesを混合してアルファミキサー(「ウルフ」サンプルの組み合わせ)とアルファママル(検索最適化によって選択されたユーザのセットの組み合わせ)を生成し、偽マッチングを増大させる、未知の脆弱性を提示する。 IITD、CASIA-IrisV4-Thousand、Syntheticのデータセットを用いてこの脆弱性を評価し、アルファウルフ(2匹のオオカミから)が71個のアイデンティティ@FMR=0.001%まで一致し、アルファ哺乳類(2つのアイデンティティから)が133個のID@FMR=0.01%まで一致可能であることを観察した。

A dictionary attack in a biometric system entails the use of a small number of strategically generated images or templates to successfully match with a large number of identities, thereby compromising security. We focus on dictionary attacks at the template level, specifically the IrisCodes used in iris recognition systems. We present an hitherto unknown vulnerability wherein we mix IrisCodes using simple bitwise operators to generate alpha-mixtures - alpha-wolves (combining a set of "wolf" samples) and alpha-mammals (combining a set of users selected via search optimization) that increase false matches. We evaluate this vulnerability using the IITD, CASIA-IrisV4-Thousand and Synthetic datasets, and observe that an alpha-wolf (from two wolves) can match upto 71 identities @FMR=0.001%, while an alpha-mammal (from two identities) can match upto 133 other identities @FMR=0.01% on the IITD dataset.
翻訳日:2024-03-25 07:46:43 公開日:2023-11-20
# ICT対応電力グリッドサービスの運用状態に対する信頼の適用

Applying Trust for Operational States of ICT-Enabled Power Grid Services ( http://arxiv.org/abs/2311.11633v1 )

ライセンス: Link先を確認
Michael Brand, Anand Narayan, Sebastian Lehnhoff, (参考訳) デジタル化により、現代のサイバー物理エネルギーシステム(CPES)の運用に必要な自動化が可能となり、階層的なシステムから有機的なシステムへとシフトする。 しかし、デジタル化はCPES(ソフトウェアバグやサイバー脅威など)の状態を左右する要因の数を増やす。 機能的正当性のような確立された要因に加えて、セキュリティのような他の要素も関係するが、運用上の観点、すなわちシステム状態に関する全体論的視点にはまだ統合されていない。 有機コンピューティングにおける信頼は、システムの全体像を得るためのアプローチである。 CPESの状態を評価するために使用できるいくつかのファセット(機能的正確性、セキュリティ、信頼性など)で構成されている。 したがって、すべてのレベルの信頼評価は、コヒーレントな状態評価に寄与することができる。 本稿では,CPESにおけるICT対応グリッドサービスの信頼性に着目した。 これらはCPESを操作する上で必須であり、そのパフォーマンスは可用性、タイムライン、正確性など、さまざまなデータ側面に依存している。 本稿では,グリッドサービスにおいて重要なデータ正当性を推定するために,関連するコンポーネントやデータに対する信頼度を評価することを提案する。 この評価は,2つの模範グリッドサービス,すなわち状態推定と調整電圧制御を考慮したものである。 さらに、異なる信頼面の解釈についても論じる。

Digitalization enables the automation required to operate modern cyber-physical energy systems (CPESs), leading to a shift from hierarchical to organic systems. However, digitalization increases the number of factors affecting the state of a CPES (e.g., software bugs and cyber threats). In addition to established factors like functional correctness, others like security become relevant but are yet to be integrated into an operational viewpoint, i.e. a holistic perspective on the system state. Trust in organic computing is an approach to gain a holistic view of the state of systems. It consists of several facets (e.g., functional correctness, security, and reliability), which can be used to assess the state of CPES. Therefore, a trust assessment on all levels can contribute to a coherent state assessment. This paper focuses on the trust in ICT-enabled grid services in a CPES. These are essential for operating the CPES, and their performance relies on various data aspects like availability, timeliness, and correctness. This paper proposes to assess the trust in involved components and data to estimate data correctness, which is crucial for grid services. The assessment is presented considering two exemplary grid services, namely state estimation and coordinated voltage control. Furthermore, the interpretation of different trust facets is also discussed.
翻訳日:2024-03-18 15:51:52 公開日:2023-11-20
# IoTセキュリティの強化に向けた信頼ベースのアプローチ - 体系的な文献レビュー

Trust-based Approaches Towards Enhancing IoT Security: A Systematic Literature Review ( http://arxiv.org/abs/2311.11705v1 )

ライセンス: Link先を確認
Oghenetejiri Okporokpo, Funminiyi Olajide, Nemitari Ajienka, Xiaoqi Ma, (参考訳) 企業によるIoT(Internet of Things)のような新興技術の継続的な普及は、イノベーションと成長の先例のない機会をもたらしている。 しかし、リアルタイムデータ処理、自己設定、相互運用性、スケーラビリティといった、これらの新興IoTテクノロジの特徴により、マルウェア攻撃、高度な永続的脅威(APT)、DoS/DDoS(Denial of Service & Distributed Denial of Service attack)、インサイダー脅威など、いくつかのユニークなサイバーセキュリティ課題も導入されている。 これらの課題の結果として、IoTネットワーク内の通信のプライバシとセキュリティを確保するために、改善されたサイバーセキュリティアプローチと効率的な管理ソリューションの必要性が高まっている。 1つのセキュリティアプローチは信頼に基づくシステムの利用であり、この研究の焦点となっている。 本研究は,IoTに対するTrustベースのサイバーセキュリティセキュリティアプローチについて,系統的な文献レビューを行う。 審査基準を満たす23の項目が特定された。 我々は、これらの脅威に対処するために存在する信頼に基づく一般的な緩和テクニックを強調し、それらを3つの主要なカテゴリ、すなわち、観察ベース、知識ベース、クラスタベースシステムに分類した。 最後に、いくつかのオープンな問題が強調され、今後の研究の方向性が提示された。

The continuous rise in the adoption of emerging technologies such as Internet of Things (IoT) by businesses has brought unprecedented opportunities for innovation and growth. However, due to the distinct characteristics of these emerging IoT technologies like real-time data processing, Self-configuration, interoperability, and scalability, they have also introduced some unique cybersecurity challenges, such as malware attacks, advanced persistent threats (APTs), DoS /DDoS (Denial of Service & Distributed Denial of Service attacks) and insider threats. As a result of these challenges, there is an increased need for improved cybersecurity approaches and efficient management solutions to ensure the privacy and security of communication within IoT networks. One proposed security approach is the utilization of trust-based systems and is the focus of this study. This research paper presents a systematic literature review on the Trust-based cybersecurity security approaches for IoT. A total of 23 articles were identified that satisfy the review criteria. We highlighted the common trust-based mitigation techniques in existence for dealing with these threats and grouped them into three major categories, namely: Observation-Based, Knowledge-Based & Cluster-Based systems. Finally, several open issues were highlighted, and future research directions presented.
翻訳日:2024-03-18 15:51:52 公開日:2023-11-20
# ログモデルによるソフトウェアサプライチェーンの脅威レベルの評価

Assessing the Threat Level of Software Supply Chains with the Log Model ( http://arxiv.org/abs/2311.11725v1 )

ライセンス: Link先を確認
Luıs Soeiro, Thomas Robert, Stefano Zacchiroli, (参考訳) 全ソフトウェアシステムにおけるフリーおよびオープンソースソフトウェア(FOSS)コンポーネントの使用は90%以上と見積もられている。 このような高い使用率と、FOSSツール、リポジトリ、開発者、エコシステムの不均一性により、ソフトウェア開発管理の複雑さのレベルも高まっている。 これにより、悪意のあるアクターに対する攻撃面と、ソフトウェア製品が脅威から解放されることの難しさの両方が増幅された。 高いプロファイル攻撃を含むセキュリティインシデントの増加は、ソフトウェア製品とFOSSサプライチェーンを保護するためにまだやるべきことがまだたくさんあることの証拠である。 ソフトウェア構成分析(SCA)ツールと攻撃木の研究は、セキュリティの改善に役立つ。 しかし、ソフトウェアサプライチェーン内のインタラクションがセキュリティにどのように影響するかを包括的に解決する能力がない。 本研究は、ログモデルを用いてFOSSサプライチェーンの脅威レベルを評価する新しいアプローチを提案する。 このモデルは、攻撃や脆弱なソフトウェアの使用によって引き起こされる可能性のあるセキュリティリスクだけでなく、他の要素とどのように相互作用してモデルのあらゆる要素の脅威レベルに影響を与えるか、情報キャプチャと脅威伝播の分析を提供する。

The use of free and open source software (FOSS) components in all software systems is estimated to be above 90%. With such high usage and because of the heterogeneity of FOSS tools, repositories, developers and ecosystem, the level of complexity of managing software development has also increased. This has amplified both the attack surface for malicious actors and the difficulty of making sure that the software products are free from threats. The rise of security incidents involving high profile attacks is evidence that there is still much to be done to safeguard software products and the FOSS supply chain. Software Composition Analysis (SCA) tools and the study of attack trees help with improving security. However, they still lack the ability to comprehensively address how interactions within the software supply chain may impact security. This work presents a novel approach of assessing threat levels in FOSS supply chains with the log model. This model provides information capture and threat propagation analysis that not only account for security risks that may be caused by attacks and the usage of vulnerable software, but also how they interact with the other elements to affect the threat level for any element in the model.
翻訳日:2024-03-18 15:51:52 公開日:2023-11-20
# 無線通信(WoT)ネットワークにおける安全でない無線回線上のセキュアデータ伝送

Secure Data Transmission over Insecure Radio Channel in Wireless of Things (WoT) Network ( http://arxiv.org/abs/2311.11864v1 )

ライセンス: Link先を確認
Prokash Barman, Banani Saha, (参考訳) プロセッサの潜在能力は急速に向上しており、敵の計算能力が向上している。 その結果、複雑で破壊不能なセキュリティ通信システムでは、従来の暗号化技術に必要な鍵サイズが日々増大している。 より大きなキーを使用するPublic Key Cryptography (PKC)技術は、小さなリソース制約のあるWireless of Things (WoT)デバイスには適用できない。 一部のSKC(Symmetric Key Cryptosystems)は小型のキーを使用しており、小型のデバイスに組み込むことができる。 しかし、ノード数が103の大規模ネットワークでは、メモリ制約はシステムがそれを許さない。 安全でない媒体における既存のセキュアなデータ通信は、Public Key Cryptography (PKC) やSymmetric Key Cryptosystems (SKC) といった従来の暗号化手法を使用している。 一般に、現代の暗号化手法は膨大な処理能力、メモリ、時間を必要とする。 また、KPS(Key Pre-Distribution System)は異なる通信機器間で使用される場合もある。 従来のセキュア通信システムではキーサイズを大きくする必要性が高まっているため、通信機器の既存のリソースは、リソースの飢餓に悩まされている。 したがって、セキュアな通信のための新しいメカニズムの必要性は避けられない。 しかし、PKC、SKC、KPSのような既存のセキュアな通信メカニズムは、通信中に小さなデバイスでリソースの飢餓の問題を解消しない。 これらの従来のメカニズムでは、通常、平文はデバイスレベルでの平文よりも大きな大きさの暗号文に変換され、リソースの飢餓につながる。 送信時には、デバイスエンドの暗号テキストは、ブロードキャストチャネル(BC)に帯域オーバーヘッドを置くプレーンテキストよりも多くの帯域幅を必要とする。

Potential capacity of processors is enhancing rapidly which leads to the increase of computational ability of the adversary. As a result, the required key size for conventional encryption techniques is growing everyday for complex unbreakable security communication systems. The Public Key Cryptography (PKC) techniques which use larger keys cannot be fitted in tiny resource constrained Wireless of Things (WoT) devices. Some Symmetric Key Cryptosystems (SKC) use smaller keys, which can be fitted in the tiny devices. But in large networks where the number of nodes is in the order of 103, the memory constraint does not allow the system to do so. The existing secure data communication in insecure medium uses various conventional encryption methods like Public Key Cryptography (PKC) and Symmetric Key Cryptosystems (SKC). Generally, modern encryption methods need huge processing power, memory and time. Also in some cases, Key Pre-distribution System (KPS) is used among different communicating devices. With the growing need for larger key size in the conventional secure communication system, the existing resources in the communicating devices suffer from resource starvation. Hence, the need of a novel mechanism for secure communication is inevitable. But the existing secure communication mechanisms like PKC, SKC or KPS do not ensure elimination of resource starvation issue in tiny devices during communication. In these existing conventional mechanisms, the plain text is generally converted into cipher text with greater size than the plain text at the device level, which leads to resource starvation. At the time of transmission, the cipher text at the device end requires more bandwidth than the plain text which puts bandwidth overhead on the broadcast channel (BC).
翻訳日:2024-03-18 15:51:52 公開日:2023-11-20
# BMSモニタリングと診断読取のためのセキュアNFCベースの新しいアプローチ

A Novel Secure NFC-based Approach for BMS Monitoring and Diagnostic Readout ( http://arxiv.org/abs/2311.12006v1 )

ライセンス: Link先を確認
Fikret Basic, Claudia Rosina Laube, Christian Steger, Robert Kofler, (参考訳) バッテリマネジメントシステム(BMS)の利用に依存する現代のシステムでは、バッテリパックの寿命と再利用が議論の重要なトピックである。 これらのバッテリーパックは倉庫に保管され、新しいシステムに再統合する前に適切に監視され、設定される必要がある。 有線接続の従来の使用は、外層や包装のため、非常に煩雑であり、時には不可能であることもある。 これらの問題を回避するため,バッテリーパック状態の読み出しを目的としたNFC(Near Field Communication)を取り入れた従来のBMS設計の拡張を提案する。 さらに、これらのパックが認証されたデバイスでのみ管理され、通信されるデータが外部の盗聴や改ざんから保護されていることを保証するため、NFCプロトコル上に軽量セキュリティレイヤの形でソリューションを提示する。 本設計の有効性を示すため, 試作機を試作し, 評価した。

In modern systems that rely on the use of Battery Management Systems (BMS), longevity and the re-use of battery packs have always been important topics of discussion. These battery packs would be stored inside warehouses where they would need to be properly monitored and configured before their re-integration into the new systems. Traditional use of wired connections can be very cumbersome, and sometimes even impossible, due to the outer layers and packaging. To circumvent these issues, we propose an extension to the conventional BMS design that incorporates the use of Near Field Communication (NFC) for the purpose of wireless battery pack status readout. Additionally, to ensure that these packs are only managed by authenticated devices and that the data that is communicated with is protected against outside eavesdropping and tampering, we present a solution in the form of a lightweight security layer on top of the NFC protocol. To show the feasibility of our design, an accompanying prototype has been implemented and evaluated.
翻訳日:2024-03-18 15:51:52 公開日:2023-11-20
# ディフェンシブDR:次元化による対向パッチの防御

DefensiveDR: Defending against Adversarial Patches using Dimensionality Reduction ( http://arxiv.org/abs/2311.12211v1 )

ライセンス: Link先を確認
Nandish Chattopadhyay, Amira Guesmi, Muhammad Abdullah Hanif, Bassem Ouni, Muhammad Shafique, (参考訳) 逆パッチベースの攻撃は、マシンラーニングモデルの信頼性使用に対する大きな抑止力であることが示されている。 これらの攻撃には、訓練された機械学習モデルを欺くために、局所化されたパッチや特定の画像領域の戦略的修正が含まれる。 本稿では,このようなパッチベースの攻撃を阻止するために,次元削減技術を用いた実践的なメカニズムである「textit{DefensiveDR}」を提案する。 提案手法では,サンプル画像を低次元空間に投影し,有効機械学習タスクに必要な情報や可変性を保持する。 我々は、Singular Value Decompositionとt-Distributed Stochastic Neighbor Embeddingという2つの手法を用いてこれを実行する。 超パラメータとして最適性能を保つための変数を実験的に調整する。 この次元の縮小は、敵の摂動を著しく軽減し、与えられた機械学習モデルの堅牢性を高める。 私たちのディフェンスはモデルに依存しず、モデル決定やモデルアーキテクチャへのアクセスに関する仮定なしで動作します。 さらに、様々なモデルの精度を維持し、目に見えないパッチベースの攻撃に対して堅牢である。 提案した防御アプローチは、LGS(53.86\%)や柔術(60\%)といった最先端技術に取って代わるLaVANやGoogleAp攻撃を行う場合、38.8\%(無防御)から66.2\%(無防御)に精度を向上する。

Adversarial patch-based attacks have shown to be a major deterrent towards the reliable use of machine learning models. These attacks involve the strategic modification of localized patches or specific image areas to deceive trained machine learning models. In this paper, we propose \textit{DefensiveDR}, a practical mechanism using a dimensionality reduction technique to thwart such patch-based attacks. Our method involves projecting the sample images onto a lower-dimensional space while retaining essential information or variability for effective machine learning tasks. We perform this using two techniques, Singular Value Decomposition and t-Distributed Stochastic Neighbor Embedding. We experimentally tune the variability to be preserved for optimal performance as a hyper-parameter. This dimension reduction substantially mitigates adversarial perturbations, thereby enhancing the robustness of the given machine learning model. Our defense is model-agnostic and operates without assumptions about access to model decisions or model architectures, making it effective in both black-box and white-box settings. Furthermore, it maintains accuracy across various models and remains robust against several unseen patch-based attacks. The proposed defensive approach improves the accuracy from 38.8\% (without defense) to 66.2\% (with defense) when performing LaVAN and GoogleAp attacks, which supersedes that of the prominent state-of-the-art like LGS (53.86\%) and Jujutsu (60\%).
翻訳日:2024-03-18 15:51:52 公開日:2023-11-20
# 車両・第2生活用安全読取のための無線BMSアーキテクチャ

Wireless BMS Architecture for Secure Readout in Vehicle and Second life Applications ( http://arxiv.org/abs/2311.12226v1 )

ライセンス: Link先を確認
Fikret Basic, Claudia Rosina Laube, Patrick Stratznig, Christian Steger, Robert Kofler, (参考訳) バッテリー管理システム(BMS)は、クリーンエネルギーの認識がますます顕著になりつつある現代において、ますます重要になりつつある。 現代の電気自動車の大型バッテリーパックの制御を担当している。 しかし、従来のソリューションは、製造コストと複雑さを増大させる有線設計にのみ依存する。 近年の研究では、BMSの無線ソリューションが検討されている。 しかし、アクティブな車載アプリケーションと外部のセカンドライフアプリケーションの両方を考慮するソリューションを開発することは依然として困難である。 バッテリパスポートイニシアチブは、アクティブなユースケースと非アクティブなユースケースの両方において、バッテリを追跡することを目的としている。 エネルギーとコスト効率を考慮しつつ、安全な設計を提供する必要がある。 このギャップを埋めるために,従来の作業を拡張し,両方のユースケースに統一的なアーキテクチャを提供する,近距離場通信(NFC)に基づくワイヤレスソリューションを提案する。 一般的な無線脅威に対する防御、高度なセキュリティ分析、および、蓄電池パックのミリワットからマイクロワットへの日々の消費電力を減少させる覚醒プロセスのためのシステム設計分析を提供する。

Battery management systems (BMS) are becoming increasingly important in the modern age, where clean energy awareness is getting more prominent. They are responsible for controlling large battery packs in modern electric vehicles. However, conventional solutions rely only on a wired design, which adds manufacturing cost and complexity. Recent research has considered wireless solutions for the BMS. However, it is still challenging to develop a solution that considers both the active in-vehicle and the external second-life applications. The battery passport initiative aims to keep track of the batteries, both during active and inactive use cases. There is a need to provide a secure design while considering energy and cost-efficient solutions. We aim to fill this gap by proposing a wireless solution based on near-field communication (NFC) that extends previous work and provides a unified architecture for both use cases. To provide protection against common wireless threats, an advanced security analysis is performed, as well as a system design analysis for the wake-up process that reduces the daily power consumption of the stored battery packs from milli- to microwatts.
翻訳日:2024-03-18 15:51:52 公開日:2023-11-20
# 視覚的品質検査のための注釈付き穀物核画像データベース

An annotated grain kernel image database for visual quality inspection ( http://arxiv.org/abs/2401.08599v1 )

ライセンス: Link先を確認
Lei Fan, Yiwen Ding, Dongdong Fan, Yong Wu, Hongxia Chu, Maurice Pagnucco and Yang Song(参考訳) 本稿では,穀物カーネルの視覚的品質検査を目的としたマシンビジョンベースデータベースGrainSetを提案する。 データベースには、専門家の注釈付き350K以上のシングルカーネルイメージが含まれている。 本研究で使用した穀物核は,小麦,トウモロコシ,ソルガム,米の4種類の穀物からなり,5カ国20地域以上から収集された。 各カーネルの表面情報は、高分解能光学センサユニットを備えた独自のデバイスによってキャプチャされ、対応するサンプリング情報とアノテーションには、上級検査官が提供した収集場所と時間、形態、物理サイズ、重量、損傷と不健全な粒度カテゴリが含まれる。 さらに、ベンチマークとして分類結果を提供するために、よく使われるディープラーニングモデルを使用した。 我々は,穀物品質検査におけるインスペクタの支援,穀物の貯蔵・取引の指導,スマート農業の応用への貢献など,今後の研究の促進を期待する。

We present a machine vision-based database named GrainSet for the purpose of visual quality inspection of grain kernels. The database contains more than 350K single-kernel images with experts' annotations. The grain kernels used in the study consist of four types of cereal grains including wheat, maize, sorghum and rice, and were collected from over 20 regions in 5 countries. The surface information of each kernel is captured by our custom-built device equipped with high-resolution optic sensor units, and corresponding sampling information and annotations include collection location and time, morphology, physical size, weight, and Damage & Unsound grain categories provided by senior inspectors. In addition, we employed a commonly used deep learning model to provide classification results as a benchmark. We believe that our GrainSet will facilitate future research in fields such as assisting inspectors in grain quality inspections, providing guidance for grain storage and trade, and contributing to applications of smart agriculture.
翻訳日:2024-01-22 10:04:35 公開日:2023-11-20
# NutritionVerse-Real:食事摂取推定のためのオープンアクセスによる2D食品シーンデータセット

NutritionVerse-Real: An Open Access Manually Collected 2D Food Scene Dataset for Dietary Intake Estimation ( http://arxiv.org/abs/2401.08598v1 )

ライセンス: Link先を確認
Chi-en Amy Tai, Saeejith Nair, Olivia Markham, Matthew Keller, Yifan Wu, Yuhao Chen, Alexander Wong(参考訳) 食事摂取の推定は、個人や人口の栄養習慣を理解する上で重要な役割を担い、食事関連健康問題の予防と管理を支援する。 正確な推定には、画像、セグメンテーションマスク、食事摂取メタデータを含む食品シーンの包括的なデータセットが必要である。 本稿では,251種類の食器と45種類の食器の889枚の画像を用いた食事摂取推定のためのオープンアクセス2D食品シーンデータセットであるNutritionVerse-Realを紹介する。 NutritionVerse-Realデータセットは、実生活における食品シーンのイメージを手動で収集し、各成分の重量を測定し、食品包装物やカナダ栄養ファイルの食材量と栄養情報を用いて、各料理の食材含量を計算することによって作成された。 セグメンテーションマスクは人間の画像のラベル付けによって生成される。 本研究では,このデータを用いて食事摂取量推定モデルを開発する際の潜在的なバイアスを強調するために,データ多様性のさらなる分析を行う。 NutritionVerse-Realは、食事感覚のための機械学習を加速するオープンイニシアチブの一環として、https://www.kaggle.com/datasets/nutritionverse/nutritionverse-realで公開されている。

Dietary intake estimation plays a crucial role in understanding the nutritional habits of individuals and populations, aiding in the prevention and management of diet-related health issues. Accurate estimation requires comprehensive datasets of food scenes, including images, segmentation masks, and accompanying dietary intake metadata. In this paper, we introduce NutritionVerse-Real, an open access manually collected 2D food scene dataset for dietary intake estimation with 889 images of 251 distinct dishes and 45 unique food types. The NutritionVerse-Real dataset was created by manually collecting images of food scenes in real life, measuring the weight of every ingredient and computing the associated dietary content of each dish using the ingredient weights and nutritional information from the food packaging or the Canada Nutrient File. Segmentation masks were then generated through human labelling of the images. We provide further analysis on the data diversity to highlight potential biases when using this data to develop models for dietary intake estimation. NutritionVerse-Real is publicly available at https://www.kaggle.com/datasets/nutritionverse/nutritionverse-real as part of an open initiative to accelerate machine learning for dietary sensing.
翻訳日:2024-01-22 10:04:17 公開日:2023-11-20
# 長期心血管疾患検出のためのコンパクトlstm-svm融合モデル

A Compact LSTM-SVM Fusion Model for Long-Duration Cardiovascular Diseases Detection ( http://arxiv.org/abs/2312.09442v1 )

ライセンス: Link先を確認
Siyang Wu(参考訳) 世界的には、心臓血管疾患(CVD)が主な死因であり、毎年1790万人が死亡している。 重要な臨床目的の1つは、心電図(ECG)データを用いたCVDの早期検出である。 機械学習とディープラーニングに基づく最近の進歩は、この分野で大きな進歩を遂げている。 しかし、既存の手法には、不適切なモデル評価やデータ漏洩の事例など、固有の制限がある。 本研究では,ECG信号を10秒間連続的に前処理し,手動の特徴抽出・拍動検出の必要性をなくすためのワークフロー・パラダイムを提案する。 また,詐欺検出のためのSVMを用いたLong Short-Term Memory(LSTM)のハイブリッドモデルを提案する。 このアーキテクチャは2つのLSTM層とSVM分類器から構成されており、平均精度はMIT-BIH不整脈データセットで0.9402、MIT-BIH心房細動データセットで0.9563である。 その結果,本手法はcvdの早期検出と管理に有益であると考えられた。

Globally, cardiovascular diseases (CVDs) are the leading cause of mortality, accounting for an estimated 17.9 million deaths annually. One critical clinical objective is the early detection of CVDs using electrocardiogram (ECG) data, an area that has received significant attention from the research community. Recent advancements based on machine learning and deep learning have achieved great progress in this domain. However, existing methodologies exhibit inherent limitations, including inappropriate model evaluations and instances of data leakage. In this study, we present a streamlined workflow paradigm for preprocessing ECG signals into consistent 10-second durations, eliminating the need for manual feature extraction/beat detection. We also propose a hybrid model of Long Short-Term Memory (LSTM) with Support Vector Machine (SVM) for fraud detection. This architecture consists of two LSTM layers and an SVM classifier, which achieves a SOTA results with an Average precision score of 0.9402 on the MIT-BIH arrhythmia dataset and 0.9563 on the MIT-BIH atrial fibrillation dataset. Based on the results, we believe our method can significantly benefit the early detection and management of CVDs.
翻訳日:2024-01-15 14:26:22 公開日:2023-11-20
# デバイス電気性能予測のためのmetrologyデータへの機械学習モデルの適用

Applying Machine Learning Models on Metrology Data for Predicting Device Electrical Performance ( http://arxiv.org/abs/2312.09462v1 )

ライセンス: Link先を確認
Bappaditya Dey, Anh Tuan Ngo, Sara Sacchi, Victor Blanco, Philippe Leray, and Sandip Halder(参考訳) ムーアの法則によれば、トランジスタ密度は2年ごとに2倍になり、極端紫外線リソグラフィや新しいパターニング技術など、半導体産業を3nmノード以降へと導くような、連続的な多方向性革新によって今日まで持続する。 任意のパターンスキームにおいて、印刷パターンの品質を評価する上で最も重要な指標はEPEであり、オーバーレイが最大の貢献である。 オーバーレイエラーは、P2P電気接触の点で短絡や断線接続などのIC装置の致命的な故障を引き起こす可能性がある。 したがって、製造半導体デバイスの機能性を確保するために、効果的なオーバーレイ解析と制御技術を開発することが不可欠である。 本研究では, LELEパターン法によるImec N14 BEOLプロセスフローを用いて, 最小ピッチ48nmの金属層を193iリソグラフィーで印刷した。 FF構造を2つのマスク層(M1A,M1B)に分解し、LELEフローを実行して最終パターンを作成する。 1つのM1層を2つのマスクに分解するので、2つのマスク間のオーバーレイの制御が重要である。 この作品の目標は次の2倍である。 (a)オーバーレイが容量および容量に与える影響を定量化する (b) 選択した機械学習モデルを用いて, 最終容量測定を早期に予測できることを確認する。 そのため、これらの電気的試験構造に散乱スペクトルを収集する。 (a)ポスト・リト。 (b)TiNハードマスクエッチング,及び (c)CuめっきとCMP 線空間パターンの臨界次元およびオーバーレイ測定は, SEM Post litho, post etch, post Cu CMP を用いて行う。 様々な機械学習モデルを用いて、ウェーハ処理の異なるステップで複数のメロロジー入力でキャパシタンス予測を行う。 最後に、適切な機械学習モデルを使用することで、電気的結果のより良い予測が可能になることを実証する。

Moore Law states that transistor density will double every two years, which is sustained until today due to continuous multi-directional innovations, such as extreme ultraviolet lithography, novel patterning techniques etc., leading the semiconductor industry towards 3nm node and beyond. For any patterning scheme, the most important metric to evaluate the quality of printed patterns is EPE, with overlay being its largest contribution. Overlay errors can lead to fatal failures of IC devices such as short circuits or broken connections in terms of P2P electrical contacts. Therefore, it is essential to develop effective overlay analysis and control techniques to ensure good functionality of fabricated semiconductor devices. In this work we have used an imec N14 BEOL process flow using LELE patterning technique to print metal layers with minimum pitch of 48nm with 193i lithography. FF structures are decomposed into two mask layers (M1A and M1B) and then the LELE flow is carried out to make the final patterns. Since a single M1 layer is decomposed into two masks, control of overlay between the two masks is critical. The goal of this work is of two-fold as, (a) to quantify the impact of overlay on capacitance and (b) to see if we can predict the final capacitance measurements with selected machine learning models at an early stage. To do so, scatterometry spectra are collected on these electrical test structures at (a)post litho, (b)post TiN hardmask etch, and (c)post Cu plating and CMP. Critical Dimension and overlay measurements for line-space pattern are done with SEM post litho, post etch and post Cu CMP. Various machine learning models are applied to do the capacitance prediction with multiple metrology inputs at different steps of wafer processing. Finally, we demonstrate that by using appropriate machine learning models we are able to do better prediction of electrical results.
翻訳日:2024-01-15 14:12:56 公開日:2023-11-20
# 自動ネットワークトラフィック分析によるIoTセキュリティの強化 - マシンラーニングからディープラーニングへの移行

Enhancing IoT Security via Automatic Network Traffic Analysis: The Transition from Machine Learning to Deep Learning ( http://arxiv.org/abs/2312.00034v1 )

ライセンス: Link先を確認
Mounia Hamidouche, Eugeny Popko, Bassem Ouni(参考訳) この研究は、攻撃分類やデバイスタイプ識別など、IoT(Internet of Things)内のタスクに対処する上で、ディープラーニング(DL)が機械学習(ML)を上回る方法を示す比較分析を提供する。 当社のアプローチでは、さまざまなiot関連データセットを使用してdlモデルをトレーニングし、評価することで、さまざまなiot構成に直面すると、これらのモデルの適用性と実用性に関する貴重な洞察を得ることができます。 当初、PCAPファイルに格納されたIoTネットワークから、パケットデータを処理することにより、構造化されていないネットワークトラフィックデータを画像に変換する。 この変換プロセスは、DL分類の基準を満たすようにデータを適応する。 実験では、DLが手動で設計した機能に関連する制約を克服し、攻撃検出およびデバイスタイプの識別において同等の結果を維持する能力を示す。 さらに、実験で顕著な特徴抽出時間差が明らかになる: 従来の手法ではデータパケットあたり29ミリ秒、DLは同じタスクをわずか2.9ミリ秒で達成する。 重要な時間ギャップ、DLの優れたパフォーマンス、手動で設計した機能の制限が、IoTコミュニティ内でのアクションへの魅力的な呼びかけを示している。 これにより、データセット毎に新たなIoT機能を模索する作業から、DLをIoTに統合する上での課題への対処へと、現実のIoTシナリオに対するより効率的なソリューションへと移行します。

This work provides a comparative analysis illustrating how Deep Learning (DL) surpasses Machine Learning (ML) in addressing tasks within Internet of Things (IoT), such as attack classification and device-type identification. Our approach involves training and evaluating a DL model using a range of diverse IoT-related datasets, allowing us to gain valuable insights into how adaptable and practical these models can be when confronted with various IoT configurations. We initially convert the unstructured network traffic data from IoT networks, stored in PCAP files, into images by processing the packet data. This conversion process adapts the data to meet the criteria of DL classification methods. The experiments showcase the ability of DL to surpass the constraints tied to manually engineered features, achieving superior results in attack detection and maintaining comparable outcomes in device-type identification. Additionally, a notable feature extraction time difference becomes evident in the experiments: traditional methods require around 29 milliseconds per data packet, while DL accomplishes the same task in just 2.9 milliseconds. The significant time gap, DL's superior performance, and the recognized limitations of manually engineered features, presents a compelling call to action within the IoT community. This encourages us to shift from exploring new IoT features for each dataset to addressing the challenges of integrating DL into IoT, making it a more efficient solution for real-world IoT scenarios.
翻訳日:2023-12-11 03:54:36 公開日:2023-11-20
# DeFiのセキュリティ: 最も弱いリンクを最大の魅力に変える

DeFi Security: Turning The Weakest Link Into The Strongest Attraction ( http://arxiv.org/abs/2312.00033v1 )

ライセンス: Link先を確認
Ravi Kashyap(参考訳) ブロックチェーン情報セキュリティに重点を置いた、私たちが先駆的なイノベーションは、Safe-Houseと呼ばれるものです。 Safe-Houseは、現在DeFiに数多くのハッキングとセキュリティ上の懸念があるため、非常に必要だ。 Safe-Houseは、既存のブロックチェーンの原則を利用して、顧客資産の移動時にセキュリティを高めるエンジニアリングの高度な部分である。 Safe-Houseロジックは、任意の分散システム上でスマートコントラクトとして簡単に実装できる。 内部と外部の双方からリスクを負う資金の量、すなわち最大1回の損失は、暗号の基本に基づいて指定された制限内に留まることが保証されている。 セーフハウスの安全性をさらに向上するため、ブロックチェーン技術を使用したワンタイムパスワード(OPT)の概念を適用します。 ブロックチェーンの暗号化ニュアンスによく適しており、セカンダリな進化は、一度次回パスワード(OTNTP)メカニズムと呼ばれることができます。 OTNTPはSafe-Houseを補完する設計で、より安全だ。 我々は、defiプロトコルが直面するリスクとブロックチェーンファンド管理に適用される特定のリスクについて、詳細な脅威評価モデルを提供し、これらの脅威を堅牢に克服する方法について技術的な議論を行います。 我々は,Safe-Houseが他の外部利回り生成プロトコルと安全に連携する方法について論じる。 安全ホームが作業効率を犠牲にすることなく安全性を高める理由を提供する。 まずは、景観、対応する問題、ソリューションについて、高レベルな直感的な説明から始めます。 次に、技術実装のための数学的定式化とポインタを含む詳細な議論で、この概要を補足する。 このアプローチは、記事が幅広い読者にアクセスできることを保証します。

The primary innovation we pioneer -- focused on blockchain information security -- is called the Safe-House. The Safe-House is badly needed since there are many ongoing hacks and security concerns in the DeFi space right now. The Safe-House is a piece of engineering sophistication that utilizes existing blockchain principles to bring about greater security when customer assets are moved around. The Safe-House logic is easily implemented as smart contracts on any decentralized system. The amount of funds at risk from both internal and external parties -- and hence the maximum one time loss -- is guaranteed to stay within the specified limits based on cryptographic fundamentals. To improve the safety of the Safe-House even further, we adapt the one time password (OPT) concept to operate using blockchain technology. Well suited to blockchain cryptographic nuances, our secondary advancement can be termed the one time next time password (OTNTP) mechanism. The OTNTP is designed to complement the Safe-House making it even more safe. We provide a detailed threat assessment model -- discussing the risks faced by DeFi protocols and the specific risks that apply to blockchain fund management -- and give technical arguments regarding how these threats can be overcome in a robust manner. We discuss how the Safe-House can participate with other external yield generation protocols in a secure way. We provide reasons for why the Safe-House increases safety without sacrificing the efficiency of operation. We start with a high level intuitive description of the landscape, the corresponding problems and our solutions. We then supplement this overview with detailed discussions including the corresponding mathematical formulations and pointers for technological implementation. This approach ensures that the article is accessible to a broad audience.
翻訳日:2023-12-11 03:54:11 公開日:2023-11-20
# hveegnet:脳波データによる階層的vaesの神経科学への応用

hvEEGNet: exploiting hierarchical VAEs on EEG data for neuroscience applications ( http://arxiv.org/abs/2312.00799v1 )

ライセンス: Link先を確認
Giulia Cisotto, Alberto Zancanaro, Italo F. Zoppis, Sara L. Manzoni(参考訳) 近年の神経科学における人工知能の成功により、脳波(EEG)における分類、異常検出、パターン認識タスクのための多くのディープラーニング(DL)モデルが提案された。 EEGは、診断、神経リハビリテーション、その他の応用(感情認識を含む)のための個々の脳活動に関する情報を提供するマルチチャンネルの時系列である。 脳波データの品質を確保するのが難しく、被験者間の高いばらつきと低信号対雑音比の2つの主要な課題が、既存のDLベースの脳波モデリング手法の課題である。 本稿では,高忠実度脳波再構成問題を対象とした2つの変分オートエンコーダモデル,すなわちvEEGNet-ver3とhvEEGNetを提案する。 我々は、よく知られたEEGNetのブロックをエンコーダとして、それらのアーキテクチャを適切に設計し、動的時間ワープに基づく損失関数を提案した。 我々は,公開データセット2a - bci competition ivで実験を行い,脳波を被験者9名とチャネル22名から収集した。 hvEEGNetは、非常に高い忠実度でEEGデータを再構築し、以前のソリューション(vEEGNet-ver3を含む)よりも優れています。 さらに、これはすべての主題で一致した。 興味深いことに、hvEEGNetは、この人気のあるデータセットには、過去の文献結果に影響を与えた可能性のある、多数の破損した脳波記録が含まれていることを発見した。 また,モデルのトレーニング行動を調査し,入力脳波データセットの品質とサイズと関連づけ,この関係に関する新たな研究討論を開くことを目的とした。 将来的には、hvEEGNetは、大規模なEEGデータセットの異常(例えば、アーティファクト)検出器としてドメインの専門家をサポートするために使用することができるが、他の分類問題やEEGデータ生成にも使用することができる。

With the recent success of artificial intelligence in neuroscience, a number of deep learning (DL) models were proposed for classification, anomaly detection, and pattern recognition tasks in electroencephalography (EEG). EEG is a multi-channel time-series that provides information about the individual brain activity for diagnostics, neuro-rehabilitation, and other applications (including emotions recognition). Two main issues challenge the existing DL-based modeling methods for EEG: the high variability between subjects and the low signal-to-noise ratio making it difficult to ensure a good quality in the EEG data. In this paper, we propose two variational autoencoder models, namely vEEGNet-ver3 and hvEEGNet, to target the problem of high-fidelity EEG reconstruction. We properly designed their architectures using the blocks of the well-known EEGNet as the encoder, and proposed a loss function based on dynamic time warping. We tested the models on the public Dataset 2a - BCI Competition IV, where EEG was collected from 9 subjects and 22 channels. hvEEGNet was found to reconstruct the EEG data with very high-fidelity, outperforming most previous solutions (including our vEEGNet-ver3 ). Furthermore, this was consistent across all subjects. Interestingly, hvEEGNet made it possible to discover that this popular dataset includes a number of corrupted EEG recordings that might have influenced previous literature results. We also investigated the training behaviour of our models and related it with the quality and the size of the input EEG dataset, aiming at opening a new research debate on this relationship. In the future, hvEEGNet could be used as anomaly (e.g., artefact) detector in large EEG datasets to support the domain experts, but also the latent representations it provides could be used in other classification problems and EEG data generation.
翻訳日:2023-12-11 03:45:36 公開日:2023-11-20
# memorycompanion:創発的aiを解き放つことによって、効率的なアルツハイマー病治療を促進するスマートヘルスケアソリューション

MemoryCompanion: A Smart Healthcare Solution to Empower Efficient Alzheimer's Care Via Unleashing Generative AI ( http://arxiv.org/abs/2311.14730v1 )

ライセンス: Link先を確認
Lifei Zheng, Yeonie Heo, Yi Fang(参考訳) gptフレームワークを特徴とする大規模言語モデル(llm)の台頭に伴い、新たな医療アプリケーションへの触媒が出現する。 初期のチャットボットの介護者は存在するものの、人間のような真正さの次元をまだ達成していない。 本稿では,アルツハイマー病(AD)患者とその介護者を対象とした,先駆的なデジタルヘルスソリューションであるMemoryCompanionを紹介する。 メモリコンパニオンは、gpt技術とプロンプトエンジニアリングのニュアンスに基づき、身近な仲間の親密さに共鳴する音声クローニングと会話によるインタラクションを促進する、パーソナライズされたケアサベーションパラダイムを示している。 高度なプロンプトエンジニアリングを用いて、システムは患者の異なるプロファイルに複雑に適応し、その内容とコミュニケーションスタイルをキュレートする。 このアプローチは、AD人口統計でよく見られる社会的孤立と孤独の一般的な問題に対処する試みである。 私たちの方法論はその革新的なデザインに根ざしており、このドメインに内在する注意深い課題と技術的な課題の両方に対処しています。

With the rise of Large Language Models (LLMs), notably characterized by GPT frameworks, there emerges a catalyst for novel healthcare applications. Earlier iterations of chatbot caregivers, though existent, have yet to achieve a dimension of human-like authenticity. This paper unveils `MemoryCompanion' a pioneering digital health solution explicitly tailored for Alzheimer's disease (AD) patients and their caregivers. Drawing upon the nuances of GPT technology and prompt engineering, MemoryCompanion manifests a personalized caregiving paradigm, fostering interactions via voice-cloning and talking-face mechanisms that resonate with the familiarity of known companions. Using advanced prompt-engineering, the system intricately adapts to each patient's distinct profile, curating its content and communication style accordingly. This approach strives to counteract prevalent issues of social isolation and loneliness frequently observed in AD demographics. Our methodology, grounded in its innovative design, addresses both the caregiving and technological challenges intrinsic to this domain.
翻訳日:2023-12-03 13:41:51 公開日:2023-11-20
# 音声面接と文法分析を併用した履歴書型ジョブマッチングアプリの検討

App for Resume-Based Job Matching with Speech Interviews and Grammar Analysis: A Review ( http://arxiv.org/abs/2311.14729v1 )

ライセンス: Link先を確認
Tanmay Kulkarni, Yuvraj Pardeshi, Yash Shah, Vaishnvi Sakat, Sapana Bhirud(参考訳) 自然言語処理(NLP)の進歩、特に音声認識において、音声入力で機能する完全自動化複合システムは、ホームオートメーションなどの領域で発展し始めている。 これらのシステムはASR(Automatic Speech Recognition Systems)と呼ばれている。 本稿では,面接作成のための音声とテキストに基づく自然言語処理と関連する求人の推薦を提供するエンド・ツー・エンドシステムの実現可能性について検討する。 また,既存のレコメンダベースのシステムについても検討し,その限界に留意する。 この文献レビューは、今後のプロジェクトにおけるnlp技術の様々な類似のユースケースのアプローチと限界を特定するのに役立ちます。

Through the advancement in natural language processing (NLP), specifically in speech recognition, fully automated complex systems functioning on voice input have started proliferating in areas such as home automation. These systems have been termed Automatic Speech Recognition Systems (ASR). In this review paper, we explore the feasibility of an end-to-end system providing speech and text based natural language processing for job interview preparation as well as recommendation of relevant job postings. We also explore existing recommender-based systems and note their limitations. This literature review would help us identify the approaches and limitations of the various similar use-cases of NLP technology for our upcoming project.
翻訳日:2023-12-03 13:41:32 公開日:2023-11-20
# 観光分野における新しいデータセットのためのソーシャルコンテンツの多言語分析のための最適戦略

Optimal Strategies to Perform Multilingual Analysis of Social Content for a Novel Dataset in the Tourism Domain ( http://arxiv.org/abs/2311.14727v1 )

ライセンス: Link先を確認
Maxime Masson, Rodrigo Agerri, Christian Sallaberry, Marie-Noelle Bessagnet, Annig Le Parc Lacayrelle and Philippe Roose(参考訳) 観光を含む各分野におけるソーシャルメディアプラットフォームの影響の高まりは、この貴重な資源を活用するために、効率的かつ自動化された自然言語処理(NLP)アプローチの必要性の高まりを浮き彫りにした。 しかし、多言語、非構造的、非公式なテキストの構造化知識への変換は、しばしば重大な課題を引き起こす。 本研究では,観光分野における3つの共通nlpタスクに対する注釈付きデータの欠如に対して,(1)感情分析,(2)名前付きエンティティ認識,(3)きめ細かなテーマ概念抽出(意味資源とリンク)という,最善の戦略を確立するため,多言語言語モデル(llms)上でのマイナショット,パターン展開,微調整の機械学習手法を評価し,比較する。 さらに,NLP研究者がドメイン固有のデータセットの構築において直面する共通の課題に対処するため,これらの3つのタスクにおいて優れたパフォーマンスを達成するのに必要な注釈付きサンプルの量を確認することを目的とする。 Extensive experimentation on a newly collected and annotated multilingual (French, English, and Spanish) dataset composed of tourism-related tweets shows that current few-shot learning techniques allow us to obtain competitive results for all three tasks with very little annotation data: 5 tweets per label (15 in total) for Sentiment Analysis, 10% of the tweets for location detection (around 160) and 13% (200 approx.) of the tweets annotated with thematic concepts, a highly fine-grained sequence labeling task based on an inventory of 315 classes. この比較分析は、新しいデータセットに基づいて、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装し、手動アノテーションの必要性を減らし、ルールベースのアドホックソリューションの複雑さを回避する。

The rising influence of social media platforms in various domains, including tourism, has highlighted the growing need for efficient and automated natural language processing (NLP) approaches to take advantage of this valuable resource. However, the transformation of multilingual, unstructured, and informal texts into structured knowledge often poses significant challenges. In this work, we evaluate and compare few-shot, pattern-exploiting and fine-tuning machine learning techniques on large multilingual language models (LLMs) to establish the best strategy to address the lack of annotated data for 3 common NLP tasks in the tourism domain: (1) Sentiment Analysis, (2) Named Entity Recognition, and (3) Fine-grained Thematic Concept Extraction (linked to a semantic resource). Furthermore, we aim to ascertain the quantity of annotated examples required to achieve good performance in those 3 tasks, addressing a common challenge encountered by NLP researchers in the construction of domain-specific datasets. Extensive experimentation on a newly collected and annotated multilingual (French, English, and Spanish) dataset composed of tourism-related tweets shows that current few-shot learning techniques allow us to obtain competitive results for all three tasks with very little annotation data: 5 tweets per label (15 in total) for Sentiment Analysis, 10% of the tweets for location detection (around 160) and 13% (200 approx.) of the tweets annotated with thematic concepts, a highly fine-grained sequence labeling task based on an inventory of 315 classes. This comparative analysis, grounded in a novel dataset, paves the way for applying NLP to new domain-specific applications, reducing the need for manual annotations and circumventing the complexities of rule-based, ad hoc solutions.
翻訳日:2023-12-03 13:41:23 公開日:2023-11-20
# シャッフル構成に基づくサイトパーコレーションの教師なし学習

Unsupervised learning of site percolation based on shuffled configurations ( http://arxiv.org/abs/2311.14725v1 )

ライセンス: Link先を確認
Dian Xu, Shanshan Wang, Feng Gao, Wei Li and Jianmin Shen(参考訳) 統計物理学の分野では,近年の相転移研究において,機械学習が注目されている。本論文では,非教師なし学習に基づく主成分分析(pca)とオートエンコーダ(ae)を適用し,平衡相転移におけるパーコレーションモデルの様々な構成について検討する。 非平衡相転移におけるDPモデルのような特定の相転移モデルでは、順序パラメータは粒子密度である。 しかし、パーコレーションモデルのような他の相転移モデルでは、そうではない。 本研究は、ニューラルネットワークの入力として使用するパーコレーショングラフのランダム化と選択を行い、得られた結果を分析し、aeの単一潜在変数とpcaの第1主成分の出力が粒子密度に関連する信号であることを示す。

In the field of statistical physics, machine learning has gained significant popularity and has achieved remarkable results in recent studies on phase transitions.In this paper, we apply Principal Component Analysis (PCA) and Autoencoder(AE) based on Unsupervised learning to study the various configurations of the percolation model in equilibrium phase transition. In certain phase transition models, such as the DP model in non-equilibrium phase transitions, the order parameter is particle density. However, in some other phase transition models, such as the percolation model, it is not. This study involved randomizing and selecting percolation graphs to be used as input for a neural network, and analyzed the obtained results, indicating that the outputs of the single latent variable of AE and the first principal component of PCA are signals related to particle density.
翻訳日:2023-12-03 13:40:52 公開日:2023-11-20
# 粗粒高分子フィンガープリントによる機械学習による特性予測

Coarse-Grained Configurational Polymer Fingerprints for Property Prediction using Machine Learning ( http://arxiv.org/abs/2311.14744v1 )

ライセンス: Link先を確認
Ishan Kumar and Prateek K Jha(参考訳) 本研究では,ビードスプリングモデルを用いて高分子の構成レベル指紋を生成する手法を提案する。 原子論的ディスクリプタを量子化学計算を用いて計算するモノマーレベル情報を用いる従来のフィンガープリント手法とは異なり、このアプローチでは長いポリマー鎖の粗粒モデルからの構成情報を取り入れている。 提案手法は、大きな分子量から生じる挙動の研究に有利である可能性がある。 この指紋を作成するには、2種類の記述子を使用します。 まず、re2、rg2などの幾何記述子を計算し、計算記述子としてラベル付けする。 次に,教師なしのオートエンコーダモデルを用いてデータ駆動記述子を生成し,学習記述子と呼ぶ。 これらを組み合わせることで, 構造から高分子鎖の様々な性質へのマッピングをmlモデルをトレーニングすることで学習することができる。 我々は, 瞬時内部エネルギーと平衡平均内部エネルギーの単純な線形関係から近似した, 平衡状態における形状発生確率を予測するため, 指紋検査を行った。

In this work, we present a method to generate a configurational level fingerprint for polymers using the Bead-Spring-Model. Unlike some of the previous fingerprinting approaches that employ monomer-level information where atomistic descriptors are computed using quantum chemistry calculations, this approach incorporates configurational information from a coarse-grained model of a long polymer chain. The proposed approach may be advantageous for the study of behavior resulting from large molecular weights. To create this fingerprint, we make use of two kinds of descriptors. First, we calculate certain geometric descriptors like Re2, Rg2 etc. and label them as Calculated Descriptors. Second, we generate a set of data-driven descriptors using an unsupervised autoencoder model and call them Learnt Descriptors. Using a combination of both of them, we are able to learn mappings from the structure to various properties of the polymer chain by training ML models. We test our fingerprint to predict the probability of occurrence of a configuration at equilibrium, which is approximated by a simple linear relationship between the instantaneous internal energy and equilibrium average internal energy.
翻訳日:2023-12-03 13:27:55 公開日:2023-11-20
# 進化的機械学習とゲーム

Evolutionary Machine Learning and Games ( http://arxiv.org/abs/2311.16172v1 )

ライセンス: Link先を確認
Julian Togelius, Ahmed Khalifa, Sam Earle, Michael Cerny Green, Lisa Soros(参考訳) 進化的機械学習(EML)は、様々な目的のために、様々な方法でゲームに適用されている。 重要なのは、ゲームにおけるAI研究はゲームだけでなく、ゲームコンテンツ、モデリングプレイヤー、その他多くのアプリケーションを生成することである。 これらのアプリケーションの多くは、emlに興味深い問題をもたらします。 進化が機械学習(ML)の強化に使用されるか、進化の増強にMLが使用されるかに基づいて、ゲーム用EMLのこの章を構築します。 完全性については、ゲーム内でMLと進化を別々に使用することについても簡単に論じる。

Evolutionary machine learning (EML) has been applied to games in multiple ways, and for multiple different purposes. Importantly, AI research in games is not only about playing games; it is also about generating game content, modeling players, and many other applications. Many of these applications pose interesting problems for EML. We will structure this chapter on EML for games based on whether evolution is used to augment machine learning (ML) or ML is used to augment evolution. For completeness, we also briefly discuss the usage of ML and evolution separately in games.
翻訳日:2023-12-03 13:05:59 公開日:2023-11-20
# 電子商取引における効率的ファーム化とルーティング戦略のマルチエージェント学習

Multi-Agent Learning of Efficient Fulfilment and Routing Strategies in E-Commerce ( http://arxiv.org/abs/2311.16171v1 )

ライセンス: Link先を確認
Omkar Shelke and Pranavi Pathakota and Anandsingh Chauhan and Harshad Khadilkar and Hardik Meisheri and Balaraman Ravindran(参考訳) 本稿では,eコマースにおける製品提供コストを最小化するための統合的アルゴリズムフレームワークを提案する。 電子商取引における大きな課題の1つは、複数の顧客からの大量の時空間的な注文であり、それぞれが車両群を使用して複数の倉庫の1つから満たされなければならない。 これは2段階の意思決定をもたらす。 (i)各順序(将来の時刻に延期するオプションを含む。)の充足ノードの選択 二 車両の経路(いずれも同一倉庫から発する複数の注文を運べるもの) 本稿では,グラフニューラルネットワークと強化学習を組み合わせたノード選択と車両ルーティングエージェントの訓練手法を提案する。 倉庫の在庫容量、旅行時間、サービス時間、輸送能力、配送の時間窓を含む顧客の制約など、現実的な制約が含まれています。 この問題の複雑さは、結果(逆)がフルフィルメントノードマッピングとルーティングアルゴリズムの両方によって駆動され、時空間分布が時空間分布であるという事実から生じる。 実験の結果,このパイプラインは純粋ヒューリスティックな政策よりも優れていた。

This paper presents an integrated algorithmic framework for minimising product delivery costs in e-commerce (known as the cost-to-serve or C2S). One of the major challenges in e-commerce is the large volume of spatio-temporally diverse orders from multiple customers, each of which has to be fulfilled from one of several warehouses using a fleet of vehicles. This results in two levels of decision-making: (i) selection of a fulfillment node for each order (including the option of deferral to a future time), and then (ii) routing of vehicles (each of which can carry multiple orders originating from the same warehouse). We propose an approach that combines graph neural networks and reinforcement learning to train the node selection and vehicle routing agents. We include real-world constraints such as warehouse inventory capacity, vehicle characteristics such as travel times, service times, carrying capacity, and customer constraints including time windows for delivery. The complexity of this problem arises from the fact that outcomes (rewards) are driven both by the fulfillment node mapping as well as the routing algorithms, and are spatio-temporally distributed. Our experiments show that this algorithmic pipeline outperforms pure heuristic policies.
翻訳日:2023-12-03 13:05:50 公開日:2023-11-20
# MiniAnDE:マイクロアレイデータを扱うための縮小されたAnDEアンサンブル

MiniAnDE: a reduced AnDE ensemble to deal with microarray data ( http://arxiv.org/abs/2311.12879v1 )

ライセンス: Link先を確認
Pablo Torrijos, Jos\'e A. G\'amez, Jos\'e M. Puerta(参考訳) この記事では、多数の変数と少数のインスタンスからなるデータセットの教師付き分類に焦点を当てます。 これは例えば、バイオインフォマティクスで一般的に使用されるマイクロアレイデータセットの場合である。 多くの変数で統計を推定する必要がある複雑な分類器は、この種のデータには適していない。 低次確率表を持つ確率的分類器、例えばnbとaodeは、この種のデータを扱うのによい選択肢である。 AODEは通常、NBを精度良く改善するが、$k$モデルがそれぞれ$n+1$変数を持つため、空間的複雑さに悩まされる。 本稿では,アンサンブルに少数の不均一な基底分類器のみを含むアルゴリズムであるminiandeを提案する。つまり,各モデルには$k$予測変数の異なるサブセットのみが含まれている。 実験により,マイクロアレイデータに対するMiniAnDE分類器の使用は可能であり,バッグングやランダムフォレストなどのNBおよび他のアンサンブルよりも優れていた。

This article focuses on the supervised classification of datasets with a large number of variables and a small number of instances. This is the case, for example, for microarray data sets commonly used in bioinformatics. Complex classifiers that require estimating statistics over many variables are not suitable for this type of data. Probabilistic classifiers with low-order probability tables, e.g. NB and AODE, are good alternatives for dealing with this type of data. AODE usually improves NB in accuracy, but suffers from high spatial complexity since $k$ models, each with $n+1$ variables, are included in the AODE ensemble. In this paper, we propose MiniAnDE, an algorithm that includes only a small number of heterogeneous base classifiers in the ensemble, i.e., each model only includes a different subset of the $k$ predictive variables. Experimental evaluation shows that using MiniAnDE classifiers on microarray data is feasible and outperforms NB and other ensembles such as bagging and random forest.
翻訳日:2023-11-23 17:50:25 公開日:2023-11-20
# 行動と状態依存信号可変を用いた適応ベイズ学習

Adaptive Bayesian Learning with Action and State-Dependent Signal Variance ( http://arxiv.org/abs/2311.12878v1 )

ライセンス: Link先を確認
Kaiwen Hou(参考訳) 本稿では,行動と状態に依存した信号分散を意思決定モデルに組み込むことにより,ベイズ学習のための高度な枠組みを提案する。 この枠組みは、様々な経済システムにおける複雑なデータフィードバックループと意思決定プロセスを理解する上で重要である。 安定環境における単純なベイズ的更新から、社会学習と状態依存的不確実性を伴う複雑なモデルまで、さまざまな状況においてこのアプローチが多様であることを示します。 この論文は、データ、行動、成果、および経済モデルにおける固有の不確実性の間の曖昧な相互作用の理解に一意的に貢献する。

This manuscript presents an advanced framework for Bayesian learning by incorporating action and state-dependent signal variances into decision-making models. This framework is pivotal in understanding complex data-feedback loops and decision-making processes in various economic systems. Through a series of examples, we demonstrate the versatility of this approach in different contexts, ranging from simple Bayesian updating in stable environments to complex models involving social learning and state-dependent uncertainties. The paper uniquely contributes to the understanding of the nuanced interplay between data, actions, outcomes, and the inherent uncertainty in economic models.
翻訳日:2023-11-23 17:50:07 公開日:2023-11-20
# コンピュータ支援医療画像分割と分類のためのエッジTPUと組み込みGPUのエネルギー効率

Energy efficiency in Edge TPU vs. embedded GPU for computer-aided medical imaging segmentation and classification ( http://arxiv.org/abs/2311.12876v1 )

ライセンス: Link先を確認
Jos\'e Mar\'ia Rodr\'iguez Corral, Javier Civit-Masot, Francisco Luna-Perej\'on, Ignacio D\'iaz-Cano, Arturo Morgado-Est\'evez, Manuel Dom\'inguez-Morales(参考訳) 本研究では,Edge TPUおよび組み込みGPUプロセッサに実装された医用画像のセグメンテーションと分類の両方に基づいて,完全組み込み医療診断支援のエネルギー使用量を評価する。 眼底画像に基づく緑内障の診断を例として, 組込み基板上でリアルタイムにセグメンテーションと分類を行う可能性を示し, 検討した実装のエネルギー要求の相違を強調した。 その他のいくつかの研究は、深層神経ネットワークを用いた緑内障の検出にセグメンテーションと特徴抽出技術を用いている。 組み込みアクセラレーションシステム(EAS)のメモリ制限と低処理能力は、ディープネットワークベースのシステムトレーニングでの使用を制限する。 しかし、NVIDIAのMaxwell GPUやGoogleのEdge TPUのような特定のアクセラレーションハードウェアを含めると、複雑な事前学習ネットワークを使用した推論を極めて合理的な時間で実行することができる。 本研究では、機械学習(ML)アクセラレーターを搭載した2つのEASの時間とエネルギー特性を評価し、前報で開発した例診断ツールを実行する。 光学ディスク(od)とカップ(oc)セグメンテーションでは、画像当たりの予測時間は、エッジtpusとmaxwell gpuを用いてそれぞれ29ms以下、43ms以下である。 分類サブシステムの予測時間はEdge TPUとMaxwell GPUでそれぞれ10msと14ms以下である。 エネルギー使用量については、略して、odセグメンテーションエッジtpusとmaxwell gpuはそれぞれ画像あたり38と190mjを使用する。 ファンド分類では、Edge TPUとMaxwell GPUはそれぞれ45mJと70mJを使用する。

In this work, we evaluate the energy usage of fully embedded medical diagnosis aids based on both segmentation and classification of medical images implemented on Edge TPU and embedded GPU processors. We use glaucoma diagnosis based on color fundus images as an example to show the possibility of performing segmentation and classification in real time on embedded boards and to highlight the different energy requirements of the studied implementations. Several other works develop the use of segmentation and feature extraction techniques to detect glaucoma, among many other pathologies, with deep neural networks. Memory limitations and low processing capabilities of embedded accelerated systems (EAS) limit their use for deep network-based system training. However, including specific acceleration hardware, such as NVIDIA's Maxwell GPU or Google's Edge TPU, enables them to perform inferences using complex pre-trained networks in very reasonable times. In this study, we evaluate the timing and energy performance of two EAS equipped with Machine Learning (ML) accelerators executing an example diagnostic tool developed in a previous work. For optic disc (OD) and cup (OC) segmentation, the obtained prediction times per image are under 29 and 43 ms using Edge TPUs and Maxwell GPUs, respectively. Prediction times for the classification subsystem are lower than 10 and 14 ms for Edge TPUs and Maxwell GPUs, respectively. Regarding energy usage, in approximate terms, for OD segmentation Edge TPUs and Maxwell GPUs use 38 and 190 mJ per image, respectively. For fundus classification, Edge TPUs and Maxwell GPUs use 45 and 70 mJ, respectively.
翻訳日:2023-11-23 17:49:54 公開日:2023-11-20
# Nav-Q:自動運転車の衝突回避ナビゲーションのための量子深部強化学習

Nav-Q: Quantum Deep Reinforcement Learning for Collision-Free Navigation of Self-Driving Cars ( http://arxiv.org/abs/2311.12875v1 )

ライセンス: Link先を確認
Akash Sinha, Antonio Macaluso, Matthias Klusch(参考訳) 自動運転車における衝突のないナビゲーション(CFN)の課題は、深層強化学習(DRL)を通して解決されるNPハード問題である。 drl法の有効性にもかかわらず、彼らの応用は回復力のあるエージェントを確立するために重要な計算資源と長期間の訓練期間を必要としている。 一方で、量子強化学習アルゴリズムは、単純な非現実環境において、より高速な収束と安定性の向上を最近実証している。 しかし、実世界のcfnドメインでの彼らの応用は検討されておらず、直接適用するには車両に搭載された量子コンピューティング装置が必要である。 本研究では,自動運転車用CFNのための最初の量子支援型DRLアルゴリズムであるNav-Qを提案する。 Nav-Qはアクター批判的アプローチに基づいており、批判者は短期量子デバイスに適したハイブリッド量子古典アルゴリズムを用いて実装される。 CARLAドライビングシミュレータを用いて,最先端DRL手法の評価のためのデファクト標準ベンチマークであるNav-Qの性能を評価する。 実験により,Nav-Q はトレーニング安定性だけでなく,Reward と Episode の曲線解析における収束率についても古典的よりも優れていることが示された。 この強化はエージェントが学習したポリシーに悪影響を与えることなく達成される。 さらに,Nav-Qを有効次元で評価し,量子部品の組み込みにより,古典的ベースラインよりも説明力の高いモデルが得られることを示した。 最後に, 雑音量子シミュレーションによるnav-qの性能評価を行い, 量子ノイズがエージェントの探索的傾向を高めることを観測した。

The challenge of collision-free navigation (CFN) for self-driving cars is an NP-hard problem addressed through Deep Reinforcement Learning (DRL). Despite the effectiveness of DRL methods, their application demands significant computing resources and prolonged training periods to establish a resilient agent. On the other hand, quantum reinforcement learning algorithms have recently demonstrated faster convergence and improved stability in simple, non-real-world environments. However, their application in the real-world CFN domain has not been explored, and their direct adaptation would require a quantum computing device onboard the vehicle for testing. In this work, we propose Nav-Q, the first quantum-supported DRL algorithm for CFN of self-driving cars, that leverages quantum computation for improving the training performance without the requirement for onboard quantum hardware. Nav-Q is based on the actor-critic approach, where the critic is implemented using a hybrid quantum-classical algorithm suitable for near-term quantum devices. We assess the performance of Nav-Q using the CARLA driving simulator, a de facto standard benchmark for evaluating state-of-the-art DRL methods. Our empirical evaluations showcase that Nav-Q surpasses its classical counterpart not only in terms of training stability but also, in certain instances, with respect to the convergence rate when analyzing the Reward vs. Episode curve. This enhancement is accomplished without negatively impacting the learned policy by the agent. Furthermore, we assess Nav-Q in relation to effective dimension, unveiling that the incorporation of a quantum component results in a model possessing greater descriptive power compared to classical baselines. Finally, we evaluate the performance of Nav-Q using noisy quantum simulation, observing that the quantum noise enhances the exploratory tendencies of the agent during training.
翻訳日:2023-11-23 17:49:25 公開日:2023-11-20
# SpecHD:FPGAを用いた質量分析クラスタリングのための超次元計算フレームワーク

SpecHD: Hyperdimensional Computing Framework for FPGA-based Mass Spectrometry Clustering ( http://arxiv.org/abs/2311.12874v1 )

ライセンス: Link先を確認
Sumukh Pinge, Weihong Xu, Jaeyoung Kang, Tianqi Zhang, Neima Moshiri, Wout Bittremieux, Tajana Rosing(参考訳) 質量分析に基づくプロテオミクスは、パーソナライズされた医療にとって重要な存在であり、生体システムの複雑なタンパク質組成を深く掘り下げる。 この技術はバイオテクノロジーとバイオメディシンに大きな応用があるが、計算のボトルネックに直面する。 現在の手法では、大規模なデータセット、特にスペクトルクラスタリングの領域を処理するのに、何時間か数日もかかることが多い。 これらの非効率に対処するため,FPGAアクセラレーションアーキテクチャを内蔵した超次元計算(HDC)フレームワークであるSpecHDを導入する。 HDC環境での合理化されたバイナリ操作を利用することで、SpecHDはFPGAの低レイテンシと並列機能を活用する。 このアプローチはクラスタリングのスピードと効率を著しく改善し、将来の医療アプリケーションにおけるリアルタイムで高スループットのデータ分析の触媒となる。 我々の評価では、SpecHDは既存のクラスタリング品質指標をはるかに上回りながら、計算時間を劇的に削減している。 具体的には、大規模なヒトプロテオームデータセット(2500万のMS/MSスペクトルと131GBのMSデータを含む)を5分でクラスタ化することができる。 エネルギー効率が31倍を超え、既存の最先端ソリューションの6倍から54倍のスピードアップファクターを持つSpecHDは、パーソナライズされた医療に多大な影響を及ぼすマススペクトロメトリデータの迅速分析のソリューションとして期待できる。

Mass spectrometry-based proteomics is a key enabler for personalized healthcare, providing a deep dive into the complex protein compositions of biological systems. This technology has vast applications in biotechnology and biomedicine but faces significant computational bottlenecks. Current methodologies often require multiple hours or even days to process extensive datasets, particularly in the domain of spectral clustering. To tackle these inefficiencies, we introduce SpecHD, a hyperdimensional computing (HDC) framework supplemented by an FPGA-accelerated architecture with integrated near-storage preprocessing. Utilizing streamlined binary operations in an HDC environment, SpecHD capitalizes on the low-latency and parallel capabilities of FPGAs. This approach markedly improves clustering speed and efficiency, serving as a catalyst for real-time, high-throughput data analysis in future healthcare applications. Our evaluations demonstrate that SpecHD not only maintains but often surpasses existing clustering quality metrics while drastically cutting computational time. Specifically, it can cluster a large-scale human proteome dataset-comprising 25 million MS/MS spectra and 131 GB of MS data-in just 5 minutes. With energy efficiency exceeding 31x and a speedup factor that spans a range of 6x to 54x over existing state of-the-art solutions, SpecHD emerges as a promising solution for the rapid analysis of mass spectrometry data with great implications for personalized healthcare.
翻訳日:2023-11-23 17:48:57 公開日:2023-11-20
# ディープラーニングによるDNA配列の同定

Identifying DNA Sequence Motifs Using Deep Learning ( http://arxiv.org/abs/2311.12884v1 )

ライセンス: Link先を確認
Asmita Poddar, Vladimir Uzun, Elizabeth Tunbridge, Wilfried Haerty, Alejo Nevado-Holgado(参考訳) スプライス部位は遺伝子発現において重要な役割を担い、DNA配列におけるこれらの部位の正確な予測は遺伝子疾患の診断と治療に不可欠である。 我々は,DNAシークエンス内のヌクレオチドの長期依存性をキャプチャする注目ベースのディープラーニングシーケンスモデルであるDeepDeCodeを導入することで,スプライスサイト予測の課題に対処する。 さらに,deepdecodeの解釈性と信頼性を高めるために,シーケンスモチーフの正確な識別のための可視化手法を提案する。 我々はDeepDeCodeと他の最先端のサイト予測手法を比較し、その精度、説明可能性、効率を実証する。 本手法の結果から, 医療応用においてゲノム過程を解明し, 新たなスプライス部位やゲノム調節要素の発見に応用できることが期待される。

Splice sites play a crucial role in gene expression, and accurate prediction of these sites in DNA sequences is essential for diagnosing and treating genetic disorders. We address the challenge of splice site prediction by introducing DeepDeCode, an attention-based deep learning sequence model to capture the long-term dependencies in the nucleotides in DNA sequences. We further propose using visualization techniques for accurate identification of sequence motifs, which enhance the interpretability and trustworthiness of DeepDeCode. We compare DeepDeCode to other state-of-the-art methods for splice site prediction and demonstrate its accuracy, explainability and efficiency. Given the results of our methodology, we expect that it can used for healthcare applications to reason about genomic processes and be extended to discover new splice sites and genomic regulatory elements.
翻訳日:2023-11-23 17:34:10 公開日:2023-11-20
# LLVM静的解析によるプログラム評価とメモリ再利用プロファイルの推定

LLVM Static Analysis for Program Characterization and Memory Reuse Profile Estimation ( http://arxiv.org/abs/2311.12883v1 )

ライセンス: Link先を確認
Atanu Barai, Nandakishore Santhi, Abdur Razzak, Stephan Eidenbenz and Abdel-Hameed A. Badawy(参考訳) 異なる演算数、メモリフットプリントなど、様々なアプリケーション特性をプロファイリングすることは、時間と空間を動的に消費する。 一方で、静的解析メソッドは高速ではあるが、精度が低下する可能性がある。 本稿では,LLVM IR ファイルをプログラム入力サイズに関係なく一定時間解析することにより,プログラムの特性を正確に予測し,プログラムの再利用距離プロファイルを推定する LLVM ベースの確率的静的解析手法を提案する。 対象のアプリケーションカーネルの基本ブロックレベル制御フローグラフを生成し,隣接する基本ブロックの遷移確率を含む線形バランス方程式を解くことにより,基本ブロック実行数を決定する。 最後に,カーネルメモリアクセスを括弧形式で表現し,再帰的アルゴリズムを用いて再利用距離プロファイルを計算する。 その結果,LLVMベースの動的コード解析ツールであるByflと比較して,アプリケーションの特性を正確に予測できることがわかった。

Profiling various application characteristics, including the number of different arithmetic operations performed, memory footprint, etc., dynamically is time- and space-consuming. On the other hand, static analysis methods, although fast, can be less accurate. This paper presents an LLVM-based probabilistic static analysis method that accurately predicts different program characteristics and estimates the reuse distance profile of a program by analyzing the LLVM IR file in constant time, regardless of program input size. We generate the basic-block-level control flow graph of the target application kernel and determine basic-block execution counts by solving the linear balance equation involving the adjacent basic blocks' transition probabilities. Finally, we represent the kernel memory accesses in a bracketed format and employ a recursive algorithm to calculate the reuse distance profile. The results show that our approach can predict application characteristics accurately compared to another LLVM-based dynamic code analysis tool, Byfl.
翻訳日:2023-11-23 17:33:54 公開日:2023-11-20
# 弱形式潜在空間ダイナミクスの同定

Weak-Form Latent Space Dynamics Identification ( http://arxiv.org/abs/2311.12880v1 )

ライセンス: Link先を確認
April Tran, Xiaolong He, Daniel A. Messenger, Youngsoo Choi, David M. Bortz(参考訳) データ駆動モデリングにおける最近の研究は、モデル方程式の弱い定式化が幅広い計算手法のノイズロバスト性を高めることを示した。 本稿では,最近開発されたデータ駆動型減数次モデリング手法であるlasdi(latent space dynamics identification)アルゴリズムを,弱形式で拡張する能力を示す。 弱形式に基づくwlasdi (weak-form latent space dynamics identification) を導入する。 WLaSDIはまずデータを圧縮し、次にテスト関数に投影し、局所潜在空間モデルを学ぶ。 特に、WLaSDIはノイズに対するロバスト性を大幅に強化している。 WLaSDIでは、弱形式方程式学習技術を用いて局所潜在空間を求める。 LaSDIで使用される非線形力学(SINDy)の標準的なスパース同定と比較すると、弱い形状の分散は頑健で正確な遅延空間回復を保証し、高速で堅牢で正確なシミュレーションを可能にする。 WLaSDI 対 LaSDI の有効性は,バーガーズ,ラジアル対流,熱伝導など,いくつかの一般的なベンチマーク例で示されている。 例えば、1D inviscid Burgersのシミュレーションでは、最大100%ガウスホワイトノイズが加わり、相対誤差はWLaSDIでは6%以下であり、LaSDIでは10,000%を超える。 同様に、放射対流シミュレーションでは、相対誤差はWLaSDIの15%以下であり、LaSDIの1万%の潜在的な誤差とは対照的である。 さらに、WLaSDIで数桁のスピードアップが得られる。 例えば、WLaSDIを1D Burgers'に適用すると、対応するフルオーダーモデルと比較して140倍のスピードアップが得られる。 この作業の結果を再現するためのPythonコードは (https://github.com/MathBioCU/PyWSINDy_ODE) と (https://github.com/MathBioCU/PyWLaSDI) にある。

Recent work in data-driven modeling has demonstrated that a weak formulation of model equations enhances the noise robustness of a wide range of computational methods. In this paper, we demonstrate the power of the weak form to enhance the LaSDI (Latent Space Dynamics Identification) algorithm, a recently developed data-driven reduced order modeling technique. We introduce a weak form-based version WLaSDI (Weak-form Latent Space Dynamics Identification). WLaSDI first compresses data, then projects onto the test functions and learns the local latent space models. Notably, WLaSDI demonstrates significantly enhanced robustness to noise. With WLaSDI, the local latent space is obtained using weak-form equation learning techniques. Compared to the standard sparse identification of nonlinear dynamics (SINDy) used in LaSDI, the variance reduction of the weak form guarantees a robust and precise latent space recovery, hence allowing for a fast, robust, and accurate simulation. We demonstrate the efficacy of WLaSDI vs. LaSDI on several common benchmark examples including viscid and inviscid Burgers', radial advection, and heat conduction. For instance, in the case of 1D inviscid Burgers' simulations with the addition of up to 100% Gaussian white noise, the relative error remains consistently below 6% for WLaSDI, while it can exceed 10,000% for LaSDI. Similarly, for radial advection simulations, the relative errors stay below 15% for WLaSDI, in stark contrast to the potential errors of up to 10,000% with LaSDI. Moreover, speedups of several orders of magnitude can be obtained with WLaSDI. For example applying WLaSDI to 1D Burgers' yields a 140X speedup compared to the corresponding full order model. Python code to reproduce the results in this work is available at (https://github.com/MathBioCU/PyWSINDy_ODE) and (https://github.com/MathBioCU/PyWLaSDI).
翻訳日:2023-11-23 17:33:38 公開日:2023-11-20
# リアルタイム高次元動的価格設定に向けたオンライン正規化

Online Regularization towards Always-Valid High-Dimensional Dynamic Pricing ( http://arxiv.org/abs/2007.02470v3 )

ライセンス: Link先を確認
Chi-Hua Wang, Zhanyu Wang, Will Wei Sun, Guang Cheng(参考訳) 常に有効なオンライン統計学習手順を持つ動的価格ポリシーの開発は重要かつ未解決の問題である。 既存の動的価格政策のほとんどは、顧客選択モデルの忠実性に焦点を当てており、価格プロセス中に学習された統計モデルのオンライン不確実性に適応する能力は限られている。 本稿では,動的価格ポリシーに基づくオンライン統計学習を理論的保証付きで設計するための新しいアプローチを提案する。 新しいアプローチは、オンラインラッソ手順の継続的な監視という課題を克服し、いくつかの魅力的な特性を持っている。 特に、価格決定の常に妥当性がオンラインの正規化スキームに基づいて構築され、成長するという決定的な観察を行ないます。 提案手法は,提案した楽観的オンライン定式化最大価格(OORMLP)の価格体系に,市場ノイズ知識を価格決定プロセスの最適化にエンコードすること,オンライン統計学習をすべての決定点に対して常に正当性で強化すること,時間的一様でないオラクルの不平等による予測誤差プロセスの包含という,3つの大きな利点を付与する。 このタイプの非漸近推論結果により、よりサンプリング効率が高くロバストな動的価格アルゴリズムを実際に設計することができる。 理論的には,提案したOORMLPアルゴリズムは高次元モデルの空間構造を利用し,決定の地平線における対数的後悔を保証する。 これらの理論的進歩は、非漸近的なマルティンゲール濃度の新しい使用に基づいて、プロセスレベルで動的価格問題を解決する楽観的なオンラインラッソ手順を提案することによって可能となる。 実験では,OORMLPを異なる合成および実際の価格設定で評価し,OORMLPが最先端の手法を進歩させることを示す。

Devising dynamic pricing policy with always valid online statistical learning procedure is an important and as yet unresolved problem. Most existing dynamic pricing policy, which focus on the faithfulness of adopted customer choice models, exhibit a limited capability for adapting the online uncertainty of learned statistical model during pricing process. In this paper, we propose a novel approach for designing dynamic pricing policy based regularized online statistical learning with theoretical guarantees. The new approach overcomes the challenge of continuous monitoring of online Lasso procedure and possesses several appealing properties. In particular, we make the decisive observation that the always-validity of pricing decisions builds and thrives on the online regularization scheme. Our proposed online regularization scheme equips the proposed optimistic online regularized maximum likelihood pricing (OORMLP) pricing policy with three major advantages: encode market noise knowledge into pricing process optimism; empower online statistical learning with always-validity over all decision points; envelop prediction error process with time-uniform non-asymptotic oracle inequalities. This type of non-asymptotic inference results allows us to design more sample-efficient and robust dynamic pricing algorithms in practice. In theory, the proposed OORMLP algorithm exploits the sparsity structure of high-dimensional models and secures a logarithmic regret in a decision horizon. These theoretical advances are made possible by proposing an optimistic online Lasso procedure that resolves dynamic pricing problems at the process level, based on a novel use of non-asymptotic martingale concentration. In experiments, we evaluate OORMLP in different synthetic and real pricing problem settings, and demonstrate that OORMLP advances the state-of-the-art methods.
翻訳日:2023-11-23 06:27:05 公開日:2023-11-20
# ソースフリーの教師なしグラフドメイン適応

Source Free Unsupervised Graph Domain Adaptation ( http://arxiv.org/abs/2112.00955v3 )

ライセンス: Link先を確認
Haitao Mao, Lun Du, Yujia Zheng, Qiang Fu, Zelin Li, Xu Chen, Shi Han, Dongmei Zhang(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類が不可欠であるグラフ構造データを用いたさまざまなタスクにおいて,大きな成功を収めている。 Unsupervised Graph Domain Adaptation (UGDA) はノード分類のラベル付けコストを削減するための実用的価値を示している。 ラベル付きグラフ(すなわち、ソースドメイン)からの知識を活用して、ラベルなしグラフ(すなわち、ターゲットドメイン)上の同じタスクに取り組む。 既存のUGDAメソッドの多くは、ソースドメインのラベル付きグラフに大きく依存している。 これらはソースドメインのラベルを監督信号として使用し、ソースグラフとターゲットグラフの両方で共同でトレーニングされる。 しかし、現実のシナリオでは、プライバシーの問題のためにソースグラフにアクセスできない場合がある。 そこで我々は,Source Free Unsupervised Graph Domain Adaptation (SFUGDA) という新しいシナリオを提案する。 このシナリオでは、ソースドメインから活用できる唯一の情報は、ソースグラフとそのラベルに触れることなく、十分に訓練されたソースモデルです。 その結果、既存のUGDAメソッドはもはや実現不可能となった。 この実践シナリオにおける非自明な適応問題に対処するために、ターゲットグラフ上の構造的近接性の一貫性を維持しつつ、ソースモデルの識別能力を完全に活用する、SOGAと呼ばれるモデル非依存アルゴリズムを提案する。 提案手法の有効性を理論的および実証的に証明する。 4つのクロスドメインタスクの実験結果は、マクロF1スコアとマクロAUCの一貫性のある改善を示している。

Graph Neural Networks (GNNs) have achieved great success on a variety of tasks with graph-structural data, among which node classification is an essential one. Unsupervised Graph Domain Adaptation (UGDA) shows its practical value of reducing the labeling cost for node classification. It leverages knowledge from a labeled graph (i.e., source domain) to tackle the same task on another unlabeled graph (i.e., target domain). Most existing UGDA methods heavily rely on the labeled graph in the source domain. They utilize labels from the source domain as the supervision signal and are jointly trained on both the source graph and the target graph. However, in some real-world scenarios, the source graph is inaccessible because of privacy issues. Therefore, we propose a novel scenario named Source Free Unsupervised Graph Domain Adaptation (SFUGDA). In this scenario, the only information we can leverage from the source domain is the well-trained source model, without any exposure to the source graph and its labels. As a result, existing UGDA methods are not feasible anymore. To address the non-trivial adaptation challenges in this practical scenario, we propose a model-agnostic algorithm called SOGA for domain adaptation to fully exploit the discriminative ability of the source model while preserving the consistency of structural proximity on the target graph. We prove the effectiveness of the proposed algorithm both theoretically and empirically. The experimental results on four cross-domain tasks show consistent improvements in the Macro-F1 score and Macro-AUC.
翻訳日:2023-11-23 06:19:29 公開日:2023-11-20
# 長距離幾何学における普遍性と量子複雑性

Universality in long-distance geometry and quantum complexity ( http://arxiv.org/abs/2111.12700v2 )

ライセンス: Link先を確認
Adam R. Brown, Michael H. Freedman, Henry W. Lin, Leonard Susskind(参考訳) 物理学において、短いスケールで根本的に異なる2つの系は、非常に類似したマクロな振る舞いを示す。 ここで、この視点を幾何学に適用し、その長距離特性により群多様体上の同次計量を分類するプログラムを開始する。 低次元リー群の多くの指標は、近距離特性は著しく異なるが、遠距離における距離関数はほぼ同一であり、この現象が高次元においてさらに強固であることを示す。 物理学や計算機科学に特に興味を持つこれらのアイデアの応用は、複雑性幾何学である-リーマン幾何学を用いた量子計算複雑性の研究である。 我々は、量子複雑性の定義の広い普遍性クラスの存在を議論し、それぞれが互いに線形に関連し、通常考慮されるよりもずっときめ細かな同値であると主張する。 我々は,超微視的ペナルティ因子の様々な選択に敏感な,より広い複雑性のジオメトリを記述する,新しい有効な計量が現れると推測する。 量子重力における最近の予想の意味について論じる。

In physics, two systems that radically differ at short scales can exhibit strikingly similar macroscopic behaviour: they are part of the same long-distance universality class. Here we apply this viewpoint to geometry and initiate a program of classifying homogeneous metrics on group manifolds by their long-distance properties. We show that many metrics on low-dimensional Lie groups have markedly different short-distance properties but nearly identical distance functions at long distances, and provide evidence that this phenomenon is even more robust in high dimensions. An application of these ideas of particular interest to physics and computer science is complexity geometry--the study of quantum computational complexity using Riemannian geometry. We argue for the existence of a large universality class of definitions of quantum complexity, each linearly related to the other, a much finer-grained equivalence than typically considered. We conjecture that a new effective metric emerges at larger complexities that describes a broad class of complexity geometries, insensitive to various choices of microscopic penalty factors. We discuss the implications for recent conjectures in quantum gravity.
翻訳日:2023-11-23 06:19:08 公開日:2023-11-20
# 遠隔学習のためのニューラルブレグマンダイバージェンス

Neural Bregman Divergences for Distance Learning ( http://arxiv.org/abs/2206.04763v2 )

ライセンス: Link先を確認
Fred Lu, Edward Raff, Francis Ferraro(参考訳) 三重項学習、近距離探索、可視化といった多くの計量学習タスクは、主にユークリッド距離(例えばコサインやマハラノビス)のある種の変種である埋め込みタスクとして扱われ、アルゴリズムはプレチョセン空間に点を埋め込むことを学ばなければならない。 非ユークリッド測地の研究はしばしば行われず、これは非ユークリッド測地を遠距離で学ぶための道具が不足しているためと考えられている。 最近の研究は、ブレグマンの発散がデータから学べることを示し、非対称距離を学習するための有望なアプローチを開いた。 入力凸ニューラルネットワークを用いて任意のベルグマンの発散を微分可能な方法で学習する新しい手法を提案する。 また,本手法は非対称回帰,ランキング,クラスタリングなど,新しいタスクと以前に研究されたタスクのセットにおいて,より忠実に相違を学習することを示す。 我々のテストは既知の非対称だが非ブレグマンタスクにも拡張され、この手法は誤特定にもかかわらず競争的に動作し、非対称学習へのアプローチの汎用的有用性を示している。

Many metric learning tasks, such as triplet learning, nearest neighbor retrieval, and visualization, are treated primarily as embedding tasks where the ultimate metric is some variant of the Euclidean distance (e.g., cosine or Mahalanobis), and the algorithm must learn to embed points into the pre-chosen space. The study of non-Euclidean geometries is often not explored, which we believe is due to a lack of tools for learning non-Euclidean measures of distance. Recent work has shown that Bregman divergences can be learned from data, opening a promising approach to learning asymmetric distances. We propose a new approach to learning arbitrary Bergman divergences in a differentiable manner via input convex neural networks and show that it overcomes significant limitations of previous works. We also demonstrate that our method more faithfully learns divergences over a set of both new and previously studied tasks, including asymmetric regression, ranking, and clustering. Our tests further extend to known asymmetric, but non-Bregman tasks, where our method still performs competitively despite misspecification, showing the general utility of our approach for asymmetric learning.
翻訳日:2023-11-23 06:05:58 公開日:2023-11-20
# 摂動下におけるロカフェル緩和と確率最適化

Rockafellian Relaxation and Stochastic Optimization under Perturbations ( http://arxiv.org/abs/2204.04762v4 )

ライセンス: Link先を確認
Johannes O. Royset, Louis L. Chen, and Eric Eckstrand(参考訳) 実際、最適化モデルは、疑わしい仮定と破損したデータのために、避けられない不正確な結果を招くことが多い。 伝統的に、これはリスクベースのロバストな定式化と「保守的」な決定に特に重点を置いている。対照的に、我々は、ロックフェリアの緩和に基づく「オプティミズム」フレームワークを開発し、元の決定空間上だけでなく、モデル摂動の選択とも協調して最適化を行う。 この枠組みにより,2段階確率最適化の領域から,連続性特性を欠いた確率関数,期待制約,外れ値解析を伴わずに,曖昧な確率分布を持つ問題に対処できる。 また、分布の収束が期待の収束を保証するのに失敗する確率最適化の根本的な困難を回避できる。 この枠組みは、特定の設定で現れる『負の』正規化の解釈とともに、厳密で極限的なロックフェラーの新たな概念に焦点を当てている。 本稿では,phi-divergenceの役割を説明し,分布の変化に伴う収束率を調べ,一階最適条件の拡張を検討する。 主な発展は、凸性、滑らか性、さらには目的関数の連続性に関する仮定を含まないことである。 コンピュータビジョンの設定における数値的な結果とラベルノイズによるテキスト分析により,この枠組みが示される。

In practice, optimization models are often prone to unavoidable inaccuracies due to dubious assumptions and corrupted data. Traditionally, this placed special emphasis on risk-based and robust formulations, and their focus on ``conservative" decisions. We develop, in contrast, an ``optimistic" framework based on Rockafellian relaxations in which optimization is conducted not only over the original decision space but also jointly with a choice of model perturbation. The framework enables us to address challenging problems with ambiguous probability distributions from the areas of two-stage stochastic optimization without relatively complete recourse, probability functions lacking continuity properties, expectation constraints, and outlier analysis. We are also able to circumvent the fundamental difficulty in stochastic optimization that convergence of distributions fails to guarantee convergence of expectations. The framework centers on the novel concepts of exact and limit-exact Rockafellians, with interpretations of ``negative'' regularization emerging in certain settings. We illustrate the role of Phi-divergence, examine rates of convergence under changing distributions, and explore extensions to first-order optimality conditions. The main development is free of assumptions about convexity, smoothness, and even continuity of objective functions. Numerical results in the setting of computer vision and text analytics with label noise illustrate the framework.
翻訳日:2023-11-23 06:03:09 公開日:2023-11-20
# エンコーダ・デコーダ言語モデルによる相補的連鎖ペアリング配列の生成

Generative Antibody Design for Complementary Chain Pairing Sequences through Encoder-Decoder Language Model ( http://arxiv.org/abs/2301.02748v4 )

ライセンス: Link先を確認
Simon K.S. Chu, Kathy Y. Wei(参考訳) 現在のタンパク質言語モデル(plm)は、主に単鎖タンパク質配列に焦点を当てており、しばしばタンパク質とタンパク質の相互作用によって課される生成的設計の制約を考慮していない。 このギャップに対処するため、ペアリングパートナーから補体重鎖や軽鎖を生成するエンコーダデコーダモデルであるAntibody T5(pAbT5)を提案する。 本モデルでは,可変長cdrループと配列アライメントの一致により,フレームワーク領域の保存と超変数領域の可変性を尊重することを示す。 また,本モデルでは,接地連鎖型および遺伝子ファミリーの回復を通じて連鎖ペアリングの嗜好を捉える。 本研究は,pAbT5の誘導抗体設計における可能性を示し,鎖の組合わせによる生物学的制約を取り入れた。

Current protein language models (pLMs) predominantly focus on single-chain protein sequences and often have not accounted for constraints on generative design imposed by protein-protein interactions. To address this gap, we present paired Antibody T5 (pAbT5), an encoder-decoder model to generate complementary heavy or light chain from its pairing partner. We show that our model respects conservation in framework regions and variability in hypervariable domains, demonstrated by agreement with sequence alignment and variable-length CDR loops. We also show that our model captures chain pairing preferences through the recovery of ground-truth chain type and gene families. Our results showcase the potential of pAbT5 in generative antibody design, incorporating biological constraints from chain pairing preferences.
翻訳日:2023-11-23 05:56:00 公開日:2023-11-20
# 学習する時間を学ぶ - 継続的学習におけるリプレイスケジューリング

Learn the Time to Learn: Replay Scheduling in Continual Learning ( http://arxiv.org/abs/2209.08660v2 )

ライセンス: Link先を確認
Marcus Klasson, Hedvig Kjellstr\"om, Cheng Zhang(参考訳) リプレイ手法は、履歴データへのアクセスが制限されているにもかかわらず、継続的な学習シナリオにおける破滅的な忘れることの軽減に成功していることが知られている。 しかし、多くの実世界では、履歴データの保存は安価であるが、処理時間の制約のため、履歴データの再生は禁止されることが多い。 このような状況下では,連続学習システムは学習する時間を学習し,異なる時間ステップでどのタスクをリプレイするかをスケジュールすべきである。 まず,モンテカルロ木探索を用いて適切な再生スケジュールを求めることで提案手法の利点を実証し,連続的な学習環境における様々な再生手法と組み合わせることで,得られた再生スケジュールが一定のスケジューリングポリシーより優れていることを示す。 さらに,強化学習を用いたリプレイスケジューリングポリシの学習フレームワークを提案する。 学習方針は, 計算コストを増すことなく, 全てのタスクを等しく再生するよりも, 新たな連続学習シナリオにおいてより一般化できることを示す。 本研究は,継続学習における学習時間の重要性を明らかにし,現在の研究を現実世界のニーズに近づける。

Replay methods are known to be successful at mitigating catastrophic forgetting in continual learning scenarios despite having limited access to historical data. However, storing historical data is cheap in many real-world settings, yet replaying all historical data is often prohibited due to processing time constraints. In such settings, we propose that continual learning systems should learn the time to learn and schedule which tasks to replay at different time steps. We first demonstrate the benefits of our proposal by using Monte Carlo tree search to find a proper replay schedule, and show that the found replay schedules can outperform fixed scheduling policies when combined with various replay methods in different continual learning settings. Additionally, we propose a framework for learning replay scheduling policies with reinforcement learning. We show that the learned policies can generalize better in new continual learning scenarios compared to equally replaying all seen tasks, without added computational cost. Our study reveals the importance of learning the time to learn in continual learning, which brings current research closer to real-world needs.
翻訳日:2023-11-23 05:51:29 公開日:2023-11-20
# 西森の猫:有限深度単位から安定な長距離絡み合いと弱い測定

Nishimori's cat: stable long-range entanglement from finite-depth unitaries and weak measurements ( http://arxiv.org/abs/2208.11136v2 )

ライセンス: Link先を確認
Guo-Yi Zhu, Nathanan Tantivasadakarn, Ashvin Vishwanath, Simon Trebst, Ruben Verresen(参考訳) 監視量子回路の分野では、長距離の絡み合った状態を作るための有限時間プロトコルがゲートの不完全性に安定な物質の位相につながり、射影を弱い測定に変換できるかどうかという疑問が残されている。 ここでは、ある場合において、弱い測定の存在下で長距離の絡み合いが持続し、新しい量子臨界性をもたらすことを示す。 グリーンバーガー・ホーネ・ザイリンガーの2次元猫状態と3次元トーリックコードを極小インスタンスとして作成するために,これを明示的に示す。 モニタされたランダムなユニタリ回路とは対照的に、ランダムなモニタされた回路とは対照的に、我々のゲートと測定の回路は決定論的である。 これらの弱い測定のランダム性によって、ランダムボンドイジングモデルの解離可能な西森線を追跡でき、ガラス状長距離絡み状態の2次元と3次元の安定性を厳密に確立できることを示す。 この完全可解な構成から離れて、我々はハイブリッドテンソルネットワークとモンテカルロシミュレーションを用いて2次元シナリオにおける長距離絡み合いの指標として非零エドワーズ・アンダーソン次数パラメータを得る。 我々は,IBMのヘキサゴナルトランスモンチップの奥行き3回路のみを必要とする,既存の量子コンピューティングアーキテクチャの自然な実装を認めている。

In the field of monitored quantum circuits, it has remained an open question whether finite-time protocols for preparing long-range entangled states lead to phases of matter which are stable to gate imperfections, which can convert projective into weak measurements. Here we show that in certain cases, long-range entanglement persists in the presence of weak measurements, and gives rise to novel forms of quantum criticality. We demonstrate this explicitly for preparing the two-dimensional Greenberger-Horne-Zeilinger cat state and the three-dimensional toric code as minimal instances. In contrast to the monitored random unitary circuits, In contrast to random monitored circuits, our circuit of gates and measurements is deterministic; the only randomness is in the measurement outcomes. We show how the randomness in these weak measurements allows us to track the solvable Nishimori line of the random-bond Ising model, rigorously establishing the stability of the glassy long-range entangled states in two and three spatial dimensions. Away from this exactly solvable construction, we use hybrid tensor network and Monte Carlo simulations to obtain a nonzero Edwards-Anderson order parameter as an indicator of long-range entanglement in the two-dimensional scenario. We argue that our protocol admits a natural implementation in existing quantum computing architectures, requiring only a depth-3 circuit on IBM's heavy-hexagon transmon chips.
翻訳日:2023-11-23 05:51:11 公開日:2023-11-20
# aparate: 自律ナビゲーションのためのcnnに基づく単眼深度推定のための適応逆パッチ

APARATE: Adaptive Adversarial Patch for CNN-based Monocular Depth Estimation for Autonomous Navigation ( http://arxiv.org/abs/2303.01351v2 )

ライセンス: Link先を確認
Amira Guesmi, Muhammad Abdullah Hanif, Ihsen Alouani, and Muhammad Shafique(参考訳) 近年、単眼深度推定(MDE)は、革新的アーキテクチャ、すなわち畳み込みニューラルネットワーク(CNN)とトランスフォーマーの統合によるパフォーマンスの著しい進歩を経験している。 しかし、特に安全とセキュリティが最優先の領域において、敵攻撃に対するこれらのモデルの感受性が注目に値する関心事となっている。 この懸念は、正確なシーン理解が重要である自律運転やロボットナビゲーションといったアプリケーションにおいて重要な役割を担っているため、MDEにとって特に重みとなる。 CNNに基づく深度予測手法の脆弱性を評価するため、最近の研究はMDEに対する敵パッチの設計を試みる。 しかし、既存のアプローチはビジョンシステムに包括的で破壊的な影響をもたらすには至っていない。 その代わりに、その影響は部分的であり、特定の地域に限定される。 これらの手法は,入力画像と重なり合う領域内でのみ,対象物体のサイズ,形状,位置などの特性を考慮せずに誤った深度予測を行う。 本稿では,APARATEという新たな対角パッチを提案する。 このパッチは、推定距離を歪めるか、自律システムの観点から消失する物体の錯覚を生じさせることで、2つの異なる方法でmdeを選択的に弱めさせる能力を持っている。 特に、アパリテートは対象物体の形状や大きさに敏感に設計されており、その影響はすぐ近くまで及んでいる。 APARATEは、平均深度推定誤差が0.5ドルを超え、CNNベースのMDEモデルに適用した場合、ターゲット領域の最大99.%のコストに著しく影響する。 さらに、TransformerベースのMDEのコンテキストにおいて、0.34ドルという大きなエラーが発生し、ターゲット領域の9,4\%以上に大きな影響を及ぼす。

In recent times, monocular depth estimation (MDE) has experienced significant advancements in performance, largely attributed to the integration of innovative architectures, i.e., convolutional neural networks (CNNs) and Transformers. Nevertheless, the susceptibility of these models to adversarial attacks has emerged as a noteworthy concern, especially in domains where safety and security are paramount. This concern holds particular weight for MDE due to its critical role in applications like autonomous driving and robotic navigation, where accurate scene understanding is pivotal. To assess the vulnerability of CNN-based depth prediction methods, recent work tries to design adversarial patches against MDE. However, the existing approaches fall short of inducing a comprehensive and substantially disruptive impact on the vision system. Instead, their influence is partial and confined to specific local areas. These methods lead to erroneous depth predictions only within the overlapping region with the input image, without considering the characteristics of the target object, such as its size, shape, and position. In this paper, we introduce a novel adversarial patch named APARATE. This patch possesses the ability to selectively undermine MDE in two distinct ways: by distorting the estimated distances or by creating the illusion of an object disappearing from the perspective of the autonomous system. Notably, APARATE is designed to be sensitive to the shape and scale of the target object, and its influence extends beyond immediate proximity. APARATE, results in a mean depth estimation error surpassing $0.5$, significantly impacting as much as $99\%$ of the targeted region when applied to CNN-based MDE models. Furthermore, it yields a significant error of $0.34$ and exerts substantial influence over $94\%$ of the target region in the context of Transformer-based MDE.
翻訳日:2023-11-23 05:41:41 公開日:2023-11-20
# papal:混合ナッシュ平衡のための証明可能な粒子ベース原始双対アルゴリズム

PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium ( http://arxiv.org/abs/2303.00970v2 )

ライセンス: Link先を確認
Shihong Ding, Hanze Dong, Cong Fang, Zhouchen Lin, Tong Zhang(参考訳) 2人プレイのゼロサム連続ゲームにおける非凸非凸目的関数を考える。 純粋なナッシュ均衡の存在には厳密な条件が必要であり、この問題に対する大きな挑戦となる。 この問題を回避すべく,戦略がランダム化され,連続領域上の確率分布によって特徴づけられる混合ナッシュ均衡を同定する問題を考察し,この目的のために,確率分布上の弱エントロピー正規化min-max最適化のために調整された粒子型原始双対アルゴリズム(papal)を提案する。 このアルゴリズムは粒子の確率運動を用いて、$\epsilon$-mixed Nash平衡のランダム戦略の更新を表す。 提案アルゴリズムの包括的収束解析を行い,その有効性を示す。 運動なしで粒子の重要度を更新しようとする以前の研究とは対照的に、PAPALは非漸近的な定量的収束結果、実行時間、サンプルの複雑性保証を伴う最初の実装可能な粒子ベースのアルゴリズムである。 本フレームワークは,非凸非凸設定における連続min-max最適化のための粒子ベースのアルゴリズムに関する新たな知見を提供する。

We consider the non-convex non-concave objective function in two-player zero-sum continuous games. The existence of pure Nash equilibrium requires stringent conditions, posing a major challenge for this problem. To circumvent this difficulty, we examine the problem of identifying a mixed Nash equilibrium, where strategies are randomized and characterized by probability distributions over continuous domains.To this end, we propose PArticle-based Primal-dual ALgorithm (PAPAL) tailored for a weakly entropy-regularized min-max optimization over probability distributions. This algorithm employs the stochastic movements of particles to represent the updates of random strategies for the $\epsilon$-mixed Nash equilibrium. We offer a comprehensive convergence analysis of the proposed algorithm, demonstrating its effectiveness. In contrast to prior research that attempted to update particle importance without movements, PAPAL is the first implementable particle-based algorithm accompanied by non-asymptotic quantitative convergence results, running time, and sample complexity guarantees. Our framework contributes novel insights into the particle-based algorithms for continuous min-max optimization in the general non-convex non-concave setting.
翻訳日:2023-11-23 05:41:11 公開日:2023-11-20
# 畳み込み畳み込み分布のためのデータスライニング

Data thinning for convolution-closed distributions ( http://arxiv.org/abs/2301.07276v3 )

ライセンス: Link先を確認
Anna Neufeld, Ameer Dharamshi, Lucy L. Gao, and Daniela Witten(参考訳) 本稿では,観測を元の観測値に等しい2つ以上の独立した部分に分割する手法であるデータスライニングを提案し,パラメータの(既知の)スケーリングまで,元の観測値と同じ分布をたどる。 この非常に一般的な提案は、ガウス分布、ポアソン分布、負二項分布、ガンマ分布、二項分布などを含む任意の畳み込み閉分布に適用できる。 データシンキングには、モデル選択、評価、推論のための多くのアプリケーションがある。 例えば、データスライニングによるクロスバリデーションは、特に後者が適用できない環境では、サンプル分割によるクロスバリデーションの一般的なアプローチに代わる魅力的な代替手段となる。 シミュレーションおよび単一セルRNAシークエンシングデータへの応用において、k平均クラスタリングや主成分分析などの教師なし学習手法の結果を、従来のサンプル分割が難解であるか、利用不能であることを示す。

We propose data thinning, an approach for splitting an observation into two or more independent parts that sum to the original observation, and that follow the same distribution as the original observation, up to a (known) scaling of a parameter. This very general proposal is applicable to any convolution-closed distribution, a class that includes the Gaussian, Poisson, negative binomial, gamma, and binomial distributions, among others. Data thinning has a number of applications to model selection, evaluation, and inference. For instance, cross-validation via data thinning provides an attractive alternative to the usual approach of cross-validation via sample splitting, especially in settings in which the latter is not applicable. In simulations and in an application to single-cell RNA-sequencing data, we show that data thinning can be used to validate the results of unsupervised learning approaches, such as k-means clustering and principal components analysis, for which traditional sample splitting is unattractive or unavailable.
翻訳日:2023-11-23 05:38:27 公開日:2023-11-20
# 原子-光子2量子状態のフルベル基底測定と量子ネットワークへの応用

Full Bell-basis measurement of an atom-photon 2-qubit state and its application for quantum networks ( http://arxiv.org/abs/2301.06091v4 )

ライセンス: Link先を確認
Elena Arensk\"otter, Stephan Kucera, Omar Elshehy, Max Bergerhoff, Matthias Kreis, L\'eandre Brunel, J\"urgen Eschner(参考訳) 光子対におけるベル状態測定の効率は、線形光学を用いて区別できるベル状態の数によって50\,\%に制限される。 ここでは、単一イオン量子メモリと重畳吸収を状態選択測定として使用することにより、4つのベル状態全てを識別できるプロトコルの実装について述べる。 プロトコルは2つのステップで実装される。 まず,光量子ビットの量子メモリへの状態保存マッピングを実演し,その過程における絡み合いの保存によって検証する。 次に、原子-光子量子状態テレポーテーションに印加することにより、メモリ量子ビットと入射フォトニック量子ビットの間のベル状態の完全な投影を実演する。

The efficiency of a Bell-state measurement on photon pairs is bound to 50\,\% due to the number of Bell states that can be distinguished using linear optics. Here we present the implementation of a protocol that allows us to distinguish all four Bell states by the use of a single-ion quantum memory and heralded absorption as state-selective measurement. The protocol is implemented in two steps. First we demonstrate the state-preserving mapping of a photonic qubit onto the quantum memory, verified by the preservation of entanglement in the process. Then we demonstrate the full Bell state projection between a memory qubit and an incoming photonic qubit, by applying it for atom-to-photon quantum state teleportation.
翻訳日:2023-11-23 05:38:10 公開日:2023-11-20
# 遺伝的アルゴリズム強化YOLOv5を用いたAIシティチャレンジ2023におけるリアルタイムヘルメット振動検出

Real-Time Helmet Violation Detection in AI City Challenge 2023 with Genetic Algorithm-Enhanced YOLOv5 ( http://arxiv.org/abs/2304.09248v2 )

ライセンス: Link先を確認
Elham Soltanikazemi, Ashwin Dhakal, Bijaya Kumar Hatuwal, Imad Eddine Toubal, Armstrong Aboah, Kannappan Palaniappan(参考訳) 本研究は,オートバイの運転者や乗務員のリスクを著しく増大させるヘルメット規制に違反する問題に対処する手段として,リアルタイム監視システムに焦点を当てている。 ヘルメットの使用が確立された利点にもかかわらず、幅広いコンプライアンスの実現は様々な要因により依然として困難である。 この問題を効果的に解決するために、ヘルメット法をリアルタイムに監視し、施行する手法が提案されている。 しかし、リアルタイムヘルメット違反検出の試みは、そのリアルタイム運用能力の制限によって妨げられている。 この制限を克服するために, YOLOv5単段物体検出モデルを用いた新しいリアルタイムヘルメット違反検出システムを提案する。 このモデルは2023 nvidia ai city challenge 2023 track 5データセットでトレーニングされている。 モデルのトレーニングに最適なハイパーパラメータは、遺伝的アルゴリズムを用いて決定される。 さらに、モデルの性能を高めるために、データ拡張と様々なサンプリング技術を実装した。 モデルの有効性は、精度、リコール、平均平均精度(mAP)測定値を用いて評価される。 その結果,トレーニングデータに対してそれぞれ0.848,0.599,0.641の精度,リコール,mAPスコアが得られた。 さらに、このモデルはテストデータセットの注目すべきmAPスコア0.6667を達成し、公開のリーダーボードで4位にランクインした。 この革新的なアプローチはこの分野における画期的なブレークスルーであり、オートバイの安全性を大幅に向上させる大きな可能性を秘めている。 リアルタイムの監視と実施を可能にすることで、このシステムはヘルメット法に準拠し、オートバイのライダーや乗客が直面するリスクを効果的に軽減することができる。

This research focuses on real-time surveillance systems as a means for tackling the issue of non-compliance with helmet regulations, a practice that considerably amplifies the risk for motorcycle drivers or riders. Despite the well-established advantages of helmet usage, achieving widespread compliance remains challenging due to diverse contributing factors. To effectively address this concern, real-time monitoring and enforcement of helmet laws have been proposed as a plausible solution. However, previous attempts at real-time helmet violation detection have been hindered by their limited ability to operate in real-time. To overcome this limitation, the current paper introduces a novel real-time helmet violation detection system that utilizes the YOLOv5 single-stage object detection model. This model is trained on the 2023 NVIDIA AI City Challenge 2023 Track 5 dataset. The optimal hyperparameters for training the model are determined using genetic algorithms. Additionally, data augmentation and various sampling techniques are implemented to enhance the model's performance. The efficacy of the models is evaluated using precision, recall, and mean Average Precision (mAP) metrics. The results demonstrate impressive precision, recall, and mAP scores of 0.848, 0.599, and 0.641, respectively for the training data. Furthermore, the model achieves notable mAP score of 0.6667 for the test datasets, leading to a commendable 4th place rank in the public leaderboard. This innovative approach represents a notable breakthrough in the field and holds immense potential to substantially enhance motorcycle safety. By enabling real-time monitoring and enforcement capabilities, this system has the capacity to contribute towards increased compliance with helmet laws, thereby effectively reducing the risks faced by motorcycle riders and passengers.
翻訳日:2023-11-23 05:28:46 公開日:2023-11-20
# 自己監督型映像表現学習の大規模分析

A Large-Scale Analysis on Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2306.06010v2 )

ライセンス: Link先を確認
Akash Kumar, Ashlesha Kumar, Vibhav Vineet, Yogesh Singh Rawat(参考訳) 自己教師付き学習は、ラベル付けが高価であるビデオ領域において、ラベルなしモデルの事前学習に有効な方法である。 ビデオ領域における既存の自己監督型ワークは、さまざまな実験的なセットアップを使用して、その効果とアプローチ間の比較を実証する。 そこで本研究では,まず,既存のアプローチを同一条件で比較可能なベンチマークを提案する。 次に,ビデオにとって重要な自己教師型学習の5つの側面について検討する。 1)データセットサイズ。 2)複雑さ。 3)データ流通 4)データノイズ,5)特徴分析。 本研究では、7つの異なるネットワークアーキテクチャとともに7つの異なる手法に焦点を合わせ、5つの異なるデータセットに対する広範な実験を行い、2つの異なる下流タスクの評価を行う。 本研究から得られた興味深い知見は,事前学習やターゲットデータセット,プリテキストタスク,モデルアーキテクチャなど,さまざまな特性にまたがるものである。 さらに,これらの知見を実際のテストに適用し,限られたトレーニングデータを必要とするアプローチを提案し,事前トレーニングデータを10倍使用した既存の最先端のアプローチよりも優れる手法を提案する。 我々は、この研究が、ビデオ表現学習における自己教師付きプレテキストタスクの理解を深める道を開くと信じている。

Self-supervised learning is an effective way for label-free model pre-training, especially in the video domain where labeling is expensive. Existing self-supervised works in the video domain use varying experimental setups to demonstrate their effectiveness and comparison across approaches becomes challenging with no standard benchmark. In this work, we first provide a benchmark that enables a comparison of existing approaches on the same ground. Next, we study five different aspects of self-supervised learning important for videos; 1) dataset size, 2) complexity, 3) data distribution, 4) data noise, and, 5)feature analysis. To facilitate this study, we focus on seven different methods along with seven different network architectures and perform an extensive set of experiments on 5 different datasets with an evaluation of two different downstream tasks. We present several interesting insights from this study which span across different properties of pretraining and target datasets, pretext-tasks, and model architectures among others. We further put some of these insights to the real test and propose an approach that requires a limited amount of training data and outperforms existing state-of-the-art approaches which use 10x pretraining data. We believe this work will pave the way for researchers to a better understanding of self-supervised pretext tasks in video representation learning.
翻訳日:2023-11-23 05:18:55 公開日:2023-11-20
# グラフニューラルネットワークにおける局所ホモフィリーレベルの性能差について

On Performance Discrepancies Across Local Homophily Levels in Graph Neural Networks ( http://arxiv.org/abs/2306.05557v4 )

ライセンス: Link先を確認
Donald Loveland, Jiong Zhu, Mark Heimann, Benjamin Fish, Michael T. Schaub, Danai Koutra(参考訳) graph neural network(gnn)の研究は、高い相同性(つまり同じクラスのノードが接続する傾向)とノード分類における強力な予測性能との関係を強調している。 しかし、最近の研究は、単純なGNNがある種の異好的な設定で学習できることを実証し、よりニュアンスな関係を見出した。 これらの矛盾を解消し、実世界のデータセットに近づき、グローバルグラフのホモフィリーレベルの仮定を超えて、ノードの局所ホモフィリーレベルがグローバルなホモフィリーレベルから逸脱した場合にGNNの性能を研究する。 理論的および実証的分析により,局所ホモフィリのシフトが性能低下をもたらすことを体系的に実証し,局所ホモフィリレベルにおける性能のばらつきを明らかにした。 我々は,この研究の実践的意味を,グローバルなホモフィリーレベルの異なる5つの実世界のデータセットの粒度解析により明らかにした。 (a)GNNは、グラフのグローバルなホモフィリエから逸脱するテストノードに一般化に失敗する可能性がある。 (b)高局所ホモフィリーは必ずしもノードの高性能を期待するとは限らない。 さらに、グローバルな異種グラフ用に設計されたGNNは、局所的ホモフィリーレベルのパフォーマンスを改善することにより、パフォーマンスの相違を緩和し、これらのGNNがより強力なグローバルパフォーマンスを実現するための新たな視点を提供する。

Graph Neural Network (GNN) research has highlighted a relationship between high homophily (i.e., the tendency of nodes of the same class to connect) and strong predictive performance in node classification. However, recent work has found the relationship to be more nuanced, demonstrating that simple GNNs can learn in certain heterophilous settings. To resolve these conflicting findings and align closer to real-world datasets, we go beyond the assumption of a global graph homophily level and study the performance of GNNs when the local homophily level of a node deviates from the global homophily level. Through theoretical and empirical analysis, we systematically demonstrate how shifts in local homophily can introduce performance degradation, leading to performance discrepancies across local homophily levels. We ground the practical implications of this work through granular analysis on five real-world datasets with varying global homophily levels, demonstrating that (a) GNNs can fail to generalize to test nodes that deviate from the global homophily of a graph, and (b) high local homophily does not necessarily confer high performance for a node. We further show that GNNs designed for globally heterophilous graphs can alleviate performance discrepancy by improving performance across local homophily levels, offering a new perspective on how these GNNs achieve stronger global performance.
翻訳日:2023-11-23 05:18:36 公開日:2023-11-20
# 映像モーメント検索における弱視テキストアライメントの克服

Overcoming Weak Visual-Textual Alignment for Video Moment Retrieval ( http://arxiv.org/abs/2306.02728v2 )

ライセンス: Link先を確認
Minjoon Jung, Youwon Jang, Seongho Choi, Joochan Kim, Jin-Hwa Kim, Byoung-Tak Zhang(参考訳) ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。 このタスクは、ビデオデータセットに固有の視覚・テキストアライメントの弱い問題に悩まされる傾向がある。 あいまいさのため、クエリが対応するモーメントの関連する詳細を完全にカバーしていない場合や、モーメントが不一致で無関係なフレームを含む場合があり、さらなるパフォーマンス向上が制限される可能性がある。 そこで本研究では,背景認識型モーメント検出トランス (BM-DETR) を提案する。 我々のモデルは、ビデオ内の他の瞬間にマッチする負のクエリを慎重に利用し、対照的なアプローチを採用する。 具体的には、正の問合せと負の問合せの補間が与えられた各フレームの結合確率から目標モーメントを予測することを学ぶ。 これにより、周囲の背景が効果的に利用され、モーメントの感度が向上し、ビデオ全体のアライメントが向上する。 4つのベンチマークでの大規模な実験は、我々のアプローチの有効性を示している。

Video moment retrieval (VMR) identifies a specific moment in an untrimmed video for a given natural language query. This task is prone to suffer the weak visual-textual alignment problem innate in video datasets. Due to the ambiguity, a query does not fully cover the relevant details of the corresponding moment, or the moment may contain misaligned and irrelevant frames, potentially limiting further performance gains. To tackle this problem, we propose a background-aware moment detection transformer (BM-DETR). Our model adopts a contrastive approach, carefully utilizing the negative queries matched to other moments in the video. Specifically, our model learns to predict the target moment from the joint probability of each frame given the positive query and the complement of negative queries. This leads to effective use of the surrounding background, improving moment sensitivity and enhancing overall alignments in videos. Extensive experiments on four benchmarks demonstrate the effectiveness of our approach.
翻訳日:2023-11-23 05:17:48 公開日:2023-11-20
# DAP: Evading Person Detectorのための動的対向パッチ

DAP: A Dynamic Adversarial Patch for Evading Person Detectors ( http://arxiv.org/abs/2305.11618v2 )

ライセンス: Link先を確認
Amira Guesmi, Ruitian Ding, Muhammad Abdullah Hanif, Ihsen Alouani, Muhammad Shafique(参考訳) パッチベースの敵攻撃はコンピュータビジョンシステムの堅牢性と信頼性を損なうことが証明された。 しかし、その顕著で容易に検出可能な性質は、現実の環境での実践性に挑戦する。 これを解決するために、近年の研究では、GAN(Generative Adversarial Networks)を用いて、人間の注意を惹きつけない自然なパッチを生成することを提案した。 しかし、そのようなアプローチは限定的な潜在空間に苦しむため、複数の現実世界の変換に対して効率的でステルス的で堅牢なパッチを作るのが難しくなる。 本稿では,これらの制約を克服するために設計された動的適応パッチ(DAP)を創出する新しいアプローチを提案する。 DAPは、攻撃効率と実世界の変換に対する堅牢性を最適化しながら、自然主義的な外観を維持している。 このアプローチでは、最適化問題を再定義し、パッチの作成を導くために類似度メトリックを組み込んだ新しい客観的関数を導入する。 GANベースの技術とは異なり、DAPはパッチ内のピクセル値を直接修正し、複数の変換への柔軟性と適応性を高める。 さらに、衣服ベースの物理的攻撃の多くは静的な物体を想定し、人のポーズの変化による非剛性変形による変形を無視する。 この制限に対処するため、"Creases Transformation"(CT)ブロックが導入され、パッチのレジリエンスをさまざまな現実世界の歪みに高めている。 実験の結果、提案手法は最先端の攻撃よりも優れており、YOLOv7検出器をターゲットとするデジタル世界では最大82.28%、エッジベースのスマートカメラに展開するYOLOv3tiny検出器をターゲットとする場合では65%の成功率を達成した。

Patch-based adversarial attacks were proven to compromise the robustness and reliability of computer vision systems. However, their conspicuous and easily detectable nature challenge their practicality in real-world setting. To address this, recent work has proposed using Generative Adversarial Networks (GANs) to generate naturalistic patches that may not attract human attention. However, such approaches suffer from a limited latent space making it challenging to produce a patch that is efficient, stealthy, and robust to multiple real-world transformations. This paper introduces a novel approach that produces a Dynamic Adversarial Patch (DAP) designed to overcome these limitations. DAP maintains a naturalistic appearance while optimizing attack efficiency and robustness to real-world transformations. The approach involves redefining the optimization problem and introducing a novel objective function that incorporates a similarity metric to guide the patch's creation. Unlike GAN-based techniques, the DAP directly modifies pixel values within the patch, providing increased flexibility and adaptability to multiple transformations. Furthermore, most clothing-based physical attacks assume static objects and ignore the possible transformations caused by non-rigid deformation due to changes in a person's pose. To address this limitation, a 'Creases Transformation' (CT) block is introduced, enhancing the patch's resilience to a variety of real-world distortions. Experimental results demonstrate that the proposed approach outperforms state-of-the-art attacks, achieving a success rate of up to 82.28% in the digital world when targeting the YOLOv7 detector and 65% in the physical world when targeting YOLOv3tiny detector deployed in edge-based smart cameras.
翻訳日:2023-11-23 05:14:28 公開日:2023-11-20
# カーネルt分散確率的隣接埋め込み

Kernel t-distributed stochastic neighbor embedding ( http://arxiv.org/abs/2307.07081v2 )

ライセンス: Link先を確認
Denis C. Ilie-Ablachim, Bogdan Dumitrescu, Cristian Rusu(参考訳) 本稿では,高次元データを低次元空間にマッピングし,非ユークリッド計量におけるデータポイント間の対距離を保ちながら,T-SNEアルゴリズムのカーネル化バージョンを提案する。 これは、高次元空間または両方の空間でのみカーネルトリックを使用して達成でき、エンドツーエンドのカーネル化バージョンに繋がる。 提案したカーネルバージョンのt-SNEアルゴリズムは、カーネルメソッドを含む分類問題など、特定のアプリケーションの性能と精度を向上させるため、データポイント間の関係に関する新たなビューを提供することができる。 t-SNEとカーネル化されたバージョンの違いは、いくつかのデータセットで示され、異なるクラスに属するポイントのより正確なクラスタリングを示している。

This paper presents a kernelized version of the t-SNE algorithm, capable of mapping high-dimensional data to a low-dimensional space while preserving the pairwise distances between the data points in a non-Euclidean metric. This can be achieved using a kernel trick only in the high dimensional space or in both spaces, leading to an end-to-end kernelized version. The proposed kernelized version of the t-SNE algorithm can offer new views on the relationships between data points, which can improve performance and accuracy in particular applications, such as classification problems involving kernel methods. The differences between t-SNE and its kernelized version are illustrated for several datasets, showing a neater clustering of points belonging to different classes.
翻訳日:2023-11-23 05:04:26 公開日:2023-11-20
# 中間の損失:言語モデルが長い文脈をどのように使うか

Lost in the Middle: How Language Models Use Long Contexts ( http://arxiv.org/abs/2307.03172v3 )

ライセンス: Link先を確認
Nelson F. Liu and Kevin Lin and John Hewitt and Ashwin Paranjape and Michele Bevilacqua and Fabio Petroni and Percy Liang(参考訳) 最近の言語モデルでは、長いコンテキストを入力として扱うことができるが、より長いコンテキストの使い方についてはあまり知られていない。 入力コンテキストにおける関連情報を識別する必要がある2つのタスクにおける言語モデルの性能分析を行った。 関連する情報の位置を変えると性能が著しく低下し、現在の言語モデルが長い入力コンテキストにおける情報の利用を頑健にしないことを示す。 特に、入力コンテキストの開始時や終了時に関連情報が生じた場合、性能が最も高く、たとえ明示的に長いコンテキストモデルであっても、長いコンテキストの途中で関係情報にアクセスしなければならない場合、大幅に低下する。 分析は、言語モデルが入力コンテキストをどのように利用するかをよりよく理解し、将来のロングコンテキスト言語モデルのための新しい評価プロトコルを提供する。

While recent language models have the ability to take long contexts as input, relatively little is known about how well they use longer context. We analyze the performance of language models on two tasks that require identifying relevant information in their input contexts: multi-document question answering and key-value retrieval. We find that performance can degrade significantly when changing the position of relevant information, indicating that current language models do not robustly make use of information in long input contexts. In particular, we observe that performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts, even for explicitly long-context models. Our analysis provides a better understanding of how language models use their input context and provides new evaluation protocols for future long-context language models.
翻訳日:2023-11-23 05:04:13 公開日:2023-11-20
# 再帰的アルゴリズム推論

Recursive Algorithmic Reasoning ( http://arxiv.org/abs/2307.00337v2 )

ライセンス: Link先を確認
Jonas J\"ur{\ss}, Dulhan Jayalath, Petar Veli\v{c}kovi\'c(参考訳) アルゴリズムを実行する学習モデルは、ディープラーニングにおける重要な問題に対処することができる。 しかし、ニューラルネットワークは現在、状態の保存とリコールに任意に大きなメモリを持たないため、再帰的アルゴリズムを実行できない。 これを解決するために,(1)グラフニューラルネットワーク(GNN)をスタックで拡張する方法を提案し,(2)従来の手法よりもアルゴリズムと再帰的アルゴリズムとの整合性を改善する中間アルゴリズムトラジェクトリを捕捉する手法を開発した。 このスタックにより、ネットワークは、再帰アルゴリズムにおけるコールスタックの動作に類似した、ネットワークの状態の一部を特定の時間に格納し、リコールすることを学ぶことができる。 この拡張により、ネットワークは再帰的に推論できる。 提案手法は,deep-first search (DFS) の先行研究よりも,より大きな入力グラフへの一般化が著しく向上することを示す。

Learning models that execute algorithms can enable us to address a key problem in deep learning: generalizing to out-of-distribution data. However, neural networks are currently unable to execute recursive algorithms because they do not have arbitrarily large memory to store and recall state. To address this, we (1) propose a way to augment graph neural networks (GNNs) with a stack, and (2) develop an approach for capturing intermediate algorithm trajectories that improves algorithmic alignment with recursive algorithms over previous methods. The stack allows the network to learn to store and recall a portion of the state of the network at a particular time, analogous to the action of a call stack in a recursive algorithm. This augmentation permits the network to reason recursively. We empirically demonstrate that our proposals significantly improve generalization to larger input graphs over prior work on depth-first search (DFS).
翻訳日:2023-11-23 05:03:02 公開日:2023-11-20
# シンセティック・ヒューマングループ活動から学ぶ

Learning from Synthetic Human Group Activities ( http://arxiv.org/abs/2306.16772v3 )

ライセンス: Link先を確認
Che-Jui Chang, Danrui Li, Deep Patel, Parth Goel, Honglu Zhou, Seonghyeon Moon, Samuel S. Sohn, Sejong Yoon, Vladimir Pavlovic, Mubbasir Kapadia(参考訳) 複雑な人間の相互作用と集団活動の研究は、人間中心のコンピュータビジョンの焦点となっている。 しかし、関連するタスクの進捗は、実世界のシナリオから大規模ラベル付きデータセットを取得するという課題によって妨げられることが多い。 この制限に対処するために,マルチビューマルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティのための合成データ・ジェネレータm3actを紹介する。 unityエンジンを搭載したm3actは、複数のセマンティックグループ、高度に多様なフォトリアリスティックなイメージ、そして、人間中心のタスクの学習を容易にする包括的なアノテーションセットを備えている。 各種入力モダリティを用いた3つのコア実験におけるM3Actの利点を示す。 まず、合成データを追加することで、dancetrackでのmotrv2のパフォーマンスが大幅に向上し、リードボードが10位から2位に跳ね上がりました。 M3Actでは、実世界の62.5%のデータをトレーニングしたMOTRv2*と同等の追跡結果が得られる。 第2に、M3ActはCAD2のベンチマーク性能を5.59%改善し、グループアクティビティとアトミックアクションの精度は7.43%向上した。 さらに、M3Actは制御可能な3Dグループ活動生成のための新しい研究を開始した。 複数のメトリクスを定義し、新しいタスクの競争基準を提案する。

The study of complex human interactions and group activities has become a focal point in human-centric computer vision. However, progress in related tasks is often hindered by the challenges of obtaining large-scale labeled datasets from real-world scenarios. To address the limitation, we introduce M3Act, a synthetic data generator for multi-view multi-group multi-person human atomic actions and group activities. Powered by the Unity engine, M3Act features multiple semantic groups, highly diverse and photorealistic images, and a comprehensive set of annotations, which facilitates the learning of human-centered tasks across single-person, multi-person, and multi-group conditions. We demonstrate the advantages of M3Act across three core experiments using various input modalities. First, adding our synthetic data significantly improves the performance of MOTRv2 on DanceTrack, leading to a hop on the leaderboard from 10th to 2nd place. With M3Act, we achieve tracking results on par with MOTRv2*, which is trained with 62.5% more real-world data. Second, M3Act improves the benchmark performances on CAD2 by 5.59% and 7.43% on group activity and atomic action accuracy respectively. Moreover, M3Act opens new research for controllable 3D group activity generation. We define multiple metrics and propose a competitive baseline for the novel task.
翻訳日:2023-11-23 05:02:00 公開日:2023-11-20
# BTSeg: セマンティックセグメンテーションにおけるドメイン適応のためのBarlow Twins正規化

BTSeg: Barlow Twins Regularization for Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2308.16819v2 )

ライセンス: Link先を確認
Johannes K\"unzel, Anna Hilsmann, Peter Eisert(参考訳) セマンティックイメージセグメンテーションは、自動運転車技術の進歩に特に不可欠である。 しかし、このドメインは雨や暗闇といった悪条件下では大きな課題に直面している。 これらのシナリオのための追加のトレーニングデータの生成にはコストがかかるだけでなく、潜在的な不正確さも伴う。 btsegは,広範囲なデータセットの作成を必要とせず,さまざまな悪条件を効果的に処理するために意味セグメンテーションモデルを拡張する,革新的な半教師付きトレーニング手法である。 BTSegは、教師なし学習から借用された概念であるBarlow Twins Losの新たな応用を採用している。 オリジナルのバーロウ双生児のアプローチは、外部ラベルを必要とせずにラベルのないデータから有用な表現を学ぶために確率的拡張を用いる。 提案手法では,同一地点で撮影された映像を同一場面の多様体表現(「自然な増補」と解釈できる)と見なすことにより,環境の理解を概念化することができる。 我々はACDCデータセットに対する我々のアプローチを評価し、現在の最先端手法と比較して好適に機能すると同時に、実装やトレーニングも簡単である。 新しい挑戦的なACGベンチマークでは、最先端のパフォーマンスを示し、堅牢性と一般化能力を示している。 受理後、コードを公開します。

Semantic image segmentation is particularly vital for the advancement of autonomous vehicle technologies. However, this domain faces substantial challenges under adverse conditions like rain or darkness, which remain underrepresented in most datasets. The generation of additional training data for these scenarios is not only costly but also fraught with potential inaccuracies, largely attributable to the aleatoric uncertainty inherent in such conditions. We introduce BTSeg, an innovative, semi-supervised training approach enhancing semantic segmentation models in order to effectively handle a range of adverse conditions without requiring the creation of extensive new datasets. BTSeg employs a novel application of the Barlow Twins loss, a concept borrowed from unsupervised learning. The original Barlow Twins approach uses stochastic augmentations in order to learn useful representations from unlabeled data without the need for external labels. In our approach, we regard images captured at identical locations but under varying adverse conditions as manifold representation of the same scene (which could be interpreted as "natural augmentations"), thereby enabling the model to conceptualize its understanding of the environment. We evaluate our approach on the ACDC dataset, where it performs favorably when compared to the current state-of-the-art methods, while also being simpler to implement and train. For the new challenging ACG benchmark it shows cutting-edge performance, demonstrating its robustness and generalization capabilities. We will make the code publicly available post-acceptance.
翻訳日:2023-11-23 04:51:56 公開日:2023-11-20
# CartiMorph:人工膝関節軟骨形態計測のためのフレームワーク

CartiMorph: a framework for automated knee articular cartilage morphometrics ( http://arxiv.org/abs/2308.01981v3 )

ライセンス: Link先を確認
Yongcheng Yao, Junru Zhong, Liping Zhang, Sheheryar Khan, Weitian Chen(参考訳) 人工膝関節軟骨形態計測の枠組みであるCartiMorphを紹介した。 入力として画像を取得し、フル厚さ軟骨損失(FCL)、平均厚さ、表面積、体積の比率を含む軟骨サブリージョンの定量値を生成する。 CartiMorphは階層的な画像特徴表現にディープラーニングモデルのパワーを利用する。 深層学習モデルは、組織セグメンテーション、テンプレート構築、テンプレート・ツー・イメージ登録のために訓練され、検証された。 表面正規化軟骨厚マッピング, FCL推定, およびルールベース軟骨粒度解析の手法を確立した。 軟骨厚図では, 薄い領域と周辺領域では誤差が低かった。 モデルセグメンテーションから得られた量と手動セグメンテーションから得られた量を比較することで,採用セグメンテーションモデルの有効性を評価した。 FCL測定の根平均二乗偏差は8%未満であり, 平均厚さ (Pearson's correlation coefficient $\rho \in [0.82,0.97]$), 表面積$\rho \in [0.82,0.98]$), 体積$\rho \in [0.89,0.98]$) に対して強い相関関係が認められた。 我々は、FCLの測定を以前の研究と比較し、我々の測定が真実から逸脱することを発見した。 本研究は,アトラス法と比較して,ルールベース軟骨解析法の優れた性能を示した。 CartiMorphは、膝関節症に対する画像バイオマーカーの発見を促進する可能性がある。

We introduce CartiMorph, a framework for automated knee articular cartilage morphometrics. It takes an image as input and generates quantitative metrics for cartilage subregions, including the percentage of full-thickness cartilage loss (FCL), mean thickness, surface area, and volume. CartiMorph leverages the power of deep learning models for hierarchical image feature representation. Deep learning models were trained and validated for tissue segmentation, template construction, and template-to-image registration. We established methods for surface-normal-based cartilage thickness mapping, FCL estimation, and rule-based cartilage parcellation. Our cartilage thickness map showed less error in thin and peripheral regions. We evaluated the effectiveness of the adopted segmentation model by comparing the quantitative metrics obtained from model segmentation and those from manual segmentation. The root-mean-squared deviation of the FCL measurements was less than 8%, and strong correlations were observed for the mean thickness (Pearson's correlation coefficient $\rho \in [0.82,0.97]$), surface area ($\rho \in [0.82,0.98]$) and volume ($\rho \in [0.89,0.98]$) measurements. We compared our FCL measurements with those from a previous study and found that our measurements deviated less from the ground truths. We observed superior performance of the proposed rule-based cartilage parcellation method compared with the atlas-based approach. CartiMorph has the potential to promote imaging biomarkers discovery for knee osteoarthritis.
翻訳日:2023-11-23 04:49:28 公開日:2023-11-20
# 半教師型医用画像分割のための対角的階層的一貫性学習

Diagonal Hierarchical Consistency Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2311.06031v2 )

ライセンス: Link先を確認
Heejoon Koo(参考訳) 多くの臨床応用に欠かせない医療画像セグメンテーションは、データ駆動深層学習技術によってほぼ人間レベルのパフォーマンスを達成した。 それにもかかわらず、そのパフォーマンスは大量の医療画像に手動で注釈をつけるコストのかかるプロセスに基づいている。 そこで本研究では,対角階層整合学習(DiHC-Net)を用いた半教師付き医用画像分割のための新しいフレームワークを提案する。 まず、同一のマルチスケールアーキテクチャを持つ複数のサブモデルで構成され、アップサンプリングや正規化といった異なるサブレイヤを持つ。 第二に、相互整合性とともに、あるモデルの中間および最終予測と他のモデルのソフト擬似ラベルとの間に、新しい対角的階層的整合性が強制される。 実験結果は,従来の左心房データセットのアプローチを上回って,簡単なフレームワークの有効性を検証した。

Medical image segmentation, which is essential for many clinical applications, has achieved almost human-level performance via data-driven deep learning techniques. Nevertheless, its performance is predicated upon the costly process of manually annotating a vast amount of medical images. To this end, we propose a novel framework for robust semi-supervised medical image segmentation using diagonal hierarchical consistency learning (DiHC-Net). First, it is composed of multiple sub-models with identical multi-scale architecture but with distinct sub-layers, such as up-sampling and normalisation layers. Second, along with mutual consistency, a novel diagonal hierarchical consistency is enforced between one model's intermediate and final prediction and other models' soft pseudo labels in a diagonal hierarchical fashion. Experimental results verify the efficacy of our simple framework, outperforming all previous approaches on public Left Atrium (LA) dataset.
翻訳日:2023-11-23 04:16:51 公開日:2023-11-20
# 画像ベースおよび臨床バイオメディシンにおけるマルチモーダル機械学習:調査と展望

Multimodal Machine Learning in Image-Based and Clinical Biomedicine: Survey and Prospects ( http://arxiv.org/abs/2311.02332v3 )

ライセンス: Link先を確認
Elisa Warner, Joonsang Lee, William Hsu, Tanveer Syeda-Mahmood, Charles Kahn, Olivier Gevaert and Arvind Rao(参考訳) 医療人工知能(AI)システムにおける機械学習(ML)の応用は、伝統的な統計手法からディープラーニングモデルの適用の増加へと移行している。 本研究は,マルチモーダルmlの現状を概観し,医療画像解析と臨床意思決定支援システムへの深い影響に注目した。 マルチモーダル表現,融合,翻訳,アライメント,コラーニングの課題とイノベーションを強調し,臨床予測のためのマルチモーダルモデルの変換可能性について検討した。 また、このようなモデルの実用的な実装に疑問を呈し、意思決定支援システムと医療提供者のダイナミクスに注意を向けている。 進歩にもかかわらず、多くの生物医学領域におけるデータバイアスや「ビッグデータ」の不足といった課題が続いている。 我々は、失敗をさらに進めるために効果的なイノベーションと協力的努力に関する議論を締めくくった。

Machine learning (ML) applications in medical artificial intelligence (AI) systems have shifted from traditional and statistical methods to increasing application of deep learning models. This survey navigates the current landscape of multimodal ML, focusing on its profound impact on medical image analysis and clinical decision support systems. Emphasizing challenges and innovations in addressing multimodal representation, fusion, translation, alignment, and co-learning, the paper explores the transformative potential of multimodal models for clinical predictions. It also questions practical implementation of such models, bringing attention to the dynamics between decision support systems and healthcare providers. Despite advancements, challenges such as data biases and the scarcity of "big data" in many biomedical domains persist. We conclude with a discussion on effective innovation and collaborative efforts to further the miss
翻訳日:2023-11-23 04:13:18 公開日:2023-11-20
# 模倣ブートストラップ強化学習

Imitation Bootstrapped Reinforcement Learning ( http://arxiv.org/abs/2311.02198v2 )

ライセンス: Link先を確認
Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh(参考訳) 強化学習(RL)のかなりの可能性にもかかわらず、ロボット制御タスクはより優れたサンプル効率のため、主に模倣学習(IL)に依存している。 しかし、大規模なデモンストレーション収集のコストが高いことから、RLは効率的な自律的自己改善のために限られた模倣データを利用することができるといまだに魅力的である。 デモを利用する既存のrlメソッドは、デモでリプレイバッファを初期化し、rlトレーニング中にオーバーサンプルするか、最新のilメソッドの一般化の恩恵を受けないか、デモでilでrlポリシーを事前トレーニングするかのどちらかで、rlの微調整中に壊滅的なリプレイバッファを忘れるのを防ぐ追加のメカニズムを必要とする。 提案手法は,実演数限定でILポリシーを訓練し,オンライン探索と目標値ブートストラップのための代替行動を提案する新しいフレームワークである,模倣ブートストラップ型強化学習(IBRL)を提案する。 IBRLは、画素から直接学習しながらシミュレーションにおいて、7つのスパース報酬連続制御タスクに対して、SoTA性能とサンプル効率を達成する。 我々の方法のハイライトとして、ILBLはRLPDよりも6.4\times$高い成功率を実現しています。これは、ロボミミックベンチマークの挑戦的なPickPlaceCanタスクにおいて、10のデモと100Kのインタラクションの予算の下で、デモをオーバーサンプリングするアイデアと現代的なRLの改善を組み合わせた強力なメソッドです。

Despite the considerable potential of reinforcement learning (RL), robotics control tasks predominantly rely on imitation learning (IL) owing to its better sample efficiency. However, given the high cost of collecting extensive demonstrations, RL is still appealing if it can utilize limited imitation data for efficient autonomous self-improvement. Existing RL methods that utilize demonstrations either initialize the replay buffer with demonstrations and oversample them during RL training, which does not benefit from the generalization potential of modern IL methods, or pretrain the RL policy with IL on the demonstrations, which requires additional mechanisms to prevent catastrophic forgetting during RL fine-tuning. We propose imitation bootstrapped reinforcement learning (IBRL), a novel framework that first trains an IL policy on a limited number of demonstrations and then uses it to propose alternative actions for both online exploration and target value bootstrapping. IBRL achieves SoTA performance and sample efficiency on 7 challenging sparse reward continuous control tasks in simulation while learning directly from pixels. As a highlight of our method, IBRL achieves $6.4\times$ higher success rate than RLPD, a strong method that combines the idea of oversampling demonstrations with modern RL improvements, under the budget of 10 demos and 100K interactions in the challenging PickPlaceCan task in the Robomimic benchmark.
翻訳日:2023-11-23 04:13:05 公開日:2023-11-20
# 野生のAI生成顔を見つける

Finding AI-Generated Faces in the Wild ( http://arxiv.org/abs/2311.08577v2 )

ライセンス: Link先を確認
Gonzalo J. Aniano Porcile, Jack Gindi, Shivansh Mundra, James R. Verbus, Hany Farid(参考訳) AIベースの画像生成は急速に改善され続けており、視覚的欠陥が少なく、ますます現実的なイメージを生み出している。 AI生成画像は偽のオンラインプロフィールを作成するために使われており、スパム、詐欺、偽情報キャンペーンに使われている。 操作された、あるいは合成されたコンテンツを検知する一般的な問題は、注目されているので、ここでは、実際の顔とAI生成された顔とを区別するより狭いタスクに焦点を当てる。 これは、不正なオンラインアカウントを偽ユーザープロフィール写真で扱う場合に特に当てはまる。 顔のみに焦点を当てることで、様々なganおよび拡散ベースの合成エンジンからaiが生成した顔の検出を可能にする、より弾力的で汎用的な人工物の検出が可能であり、画像解像度(128 x 128ピクセル)と品質にまたがる。

AI-based image generation has continued to rapidly improve, producing increasingly more realistic images with fewer obvious visual flaws. AI-generated images are being used to create fake online profiles which in turn are being used for spam, fraud, and disinformation campaigns. As the general problem of detecting any type of manipulated or synthesized content is receiving increasing attention, here we focus on a more narrow task of distinguishing a real face from an AI-generated face. This is particularly applicable when tackling inauthentic online accounts with a fake user profile photo. We show that by focusing on only faces, a more resilient and general-purpose artifact can be detected that allows for the detection of AI-generated faces from a variety of GAN- and diffusion-based synthesis engines, and across image resolutions (as low as 128 x 128 pixels) and qualities.
翻訳日:2023-11-23 04:03:52 公開日:2023-11-20
# 非対称コントラストマルチモーダル学習による化学理解の促進

Asymmetric Contrastive Multimodal Learning for Advancing Chemical Understanding ( http://arxiv.org/abs/2311.06456v2 )

ライセンス: Link先を確認
Hao Xu, Yifei Wang, Yunrui Li, Pengyu Hong(参考訳) マルチモーダル深層学習の汎用性は、科学的研究と実践的応用の進歩に非常に有望である。 この分野が発展を続けるにつれ、クロスモーダル分析の集団的力は革新的イノベーションを駆動し、化学理解と発見の新しいフロンティアへと導かれる。 そこで, 分子に適した新しいアプローチとして, 非対称コントラスト型マルチモーダルラーニング (ACML) を導入し, 化学分野の進展の可能性を示した。 ACMLは効果的な非対称コントラスト学習の力を利用して、様々な化学修飾物から分子グラフ表現への情報をシームレスに伝達する。 事前訓練された化学ユニモーダルエンコーダと浅層設計のグラフエンコーダを組み合わせることで、ACMLは、異なるモダリティから協調した化学意味論の同化を促進する。 この革新的な枠組みは、学習表現の解釈性を高め、グラフニューラルネットワークの表現力を高める。 異性体識別や薬物発見のための重要な化学的性質の発見といった実践的なタスクを通じて、ACMLは化学研究と応用に革命をもたらす能力を示し、異なるモダリティの化学的意味をより深く理解している。

The versatility of multimodal deep learning holds tremendous promise for advancing scientific research and practical applications. As this field continues to evolve, the collective power of cross-modal analysis promises to drive transformative innovations, leading us to new frontiers in chemical understanding and discovery. Hence, we introduce Asymmetric Contrastive Multimodal Learning (ACML) as a novel approach tailored for molecules, showcasing its potential to advance the field of chemistry. ACML harnesses the power of effective asymmetric contrastive learning to seamlessly transfer information from various chemical modalities to molecular graph representations. By combining pre-trained chemical unimodal encoders and a shallow-designed graph encoder, ACML facilitates the assimilation of coordinated chemical semantics from different modalities, leading to comprehensive representation learning with efficient training. This innovative framework enhances the interpretability of learned representations and bolsters the expressive power of graph neural networks. Through practical tasks such as isomer discrimination and uncovering crucial chemical properties for drug discovery, ACML exhibits its capability to revolutionize chemical research and applications, providing a deeper understanding of chemical semantics of different modalities.
翻訳日:2023-11-23 04:01:10 公開日:2023-11-20
# データ融合による学習材料合成-プロセス-構造-プロパティ関係:ベイジアンコリージョン化N次元Piecewise Function Learning

Learning material synthesis-process-structure-property relationship by data fusion: Bayesian Coregionalization N-Dimensional Piecewise Function Learning ( http://arxiv.org/abs/2311.06228v2 )

ライセンス: Link先を確認
A. Gilad Kusne, Austin McDannald, Brian DeCost(参考訳) autonomous materials research labsは、さまざまなデータストリームを結合し、学習する能力を必要としている。 これは、材料合成-プロセス-構造-プロパティ関係の学習、材料の最適化と発見の促進、機械的理解の加速に特に当てはまる。 合成プロセス-構造-プロパティ relAtionship coreGionalized lEarner (SAGE) アルゴリズムを提案する。 マルチモーダルなコリージョン化を用いて、データソース間の知識をマージして、合成-プロセス-構造-プロパティ関係を学習する完全ベイズアルゴリズム。 SAGEは、データに与えられた最も可能性の高い関係を含む関係の確率論的後部を出力する。

Autonomous materials research labs require the ability to combine and learn from diverse data streams. This is especially true for learning material synthesis-process-structure-property relationships, key to accelerating materials optimization and discovery as well as accelerating mechanistic understanding. We present the Synthesis-process-structure-property relAtionship coreGionalized lEarner (SAGE) algorithm. A fully Bayesian algorithm that uses multimodal coregionalization to merge knowledge across data sources to learn synthesis-process-structure-property relationships. SAGE outputs a probabilistic posterior for the relationships including the most likely relationships given the data.
翻訳日:2023-11-23 03:59:46 公開日:2023-11-20
# Masked Autoencodersは、ニューラルネットワークを学習する学習者

Masked Autoencoders Are Robust Neural Architecture Search Learners ( http://arxiv.org/abs/2311.12086v1 )

ライセンス: Link先を確認
Yiming Hu and Xiangxiang Chu and Bo Zhang(参考訳) Neural Architecture Search (NAS)は現在、ラベル付きデータに大きく依存している。 本稿では,検索処理中にラベル付きデータの必要性をなくすための,マスク付きオートエンコーダ(mae)に基づく新しいnasフレームワークを提案する。 教師あり学習目標を画像再構成タスクに置き換えることで,性能や一般化能力の損なうことなく,ネットワークアーキテクチャの堅牢な発見を可能にする。 さらに,マルチスケールデコーダの導入により,教師なしパラダイムにおいて広く使用されている微分可能アーキテクチャ探索(DARTS)手法で発生する性能崩壊の問題に対処する。 様々な探索空間とデータセット上で行った広範囲な実験を通じて,提案手法の有効性と頑健性を実証し,ベースラインアプローチよりも優れていることを示す。

Neural Architecture Search (NAS) currently relies heavily on labeled data, which is both expensive and time-consuming to acquire. In this paper, we propose a novel NAS framework based on Masked Autoencoders (MAE) that eliminates the need for labeled data during the search process. By replacing the supervised learning objective with an image reconstruction task, our approach enables the robust discovery of network architectures without compromising performance and generalization ability. Additionally, we address the problem of performance collapse encountered in the widely-used Differentiable Architecture Search (DARTS) method in the unsupervised paradigm by introducing a multi-scale decoder. Through extensive experiments conducted on various search spaces and datasets, we demonstrate the effectiveness and robustness of the proposed method, providing empirical evidence of its superiority over baseline approaches.
翻訳日:2023-11-23 03:39:51 公開日:2023-11-20
# 数発アウトオブ・ディストリビューション検出に向けて

Towards Few-shot Out-of-Distribution Detection ( http://arxiv.org/abs/2311.12076v1 )

ライセンス: Link先を確認
Jiuqing Dong, Yongbin Gao, Heng Zhou, Jun Cen, Yifan Yao, Sook Yoon, Park Dong Sun(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、オープンワールドのインテリジェントシステムの信頼性を確保するために重要である。 既存のOOD検出法では顕著な進歩があったが,本研究では,トレーニングサンプルの不足下での顕著な性能低下を確認した。 この文脈では,このギャップに対処するために慎重に構築された,新たな少数ショットood検出ベンチマークを導入する。 我々の経験的分析は,数発のOOD検出タスクにおける完全微調整や線形探触子を含む従来の手法よりも,視覚的プロンプトチューニングや視覚的アダプタチューニングといったパラメータ効率の良い細調整(PEFT)戦略が優れていることを示す。 そこで,ood検出に欠かせない事前学習モデルから重要な情報を認識する手法として,ドメイン固有および一般知識融合(dsgf)を提案する。 このアプローチはさまざまな微調整フレームワークと互換性があるように設計されている。 実験の結果,DSGFの統合により,フル微調整,視覚的適応チューニング,視覚的プロンプトチューニングなど,様々な手法や微調整手法による数発のOOD検出機能が大幅に向上することがわかった。 コードはリリースされます。

Out-of-distribution (OOD) detection is critical for ensuring the reliability of open-world intelligent systems. Despite the notable advancements in existing OOD detection methodologies, our study identifies a significant performance drop under the scarcity of training samples. In this context, we introduce a novel few-shot OOD detection benchmark, carefully constructed to address this gap. Our empirical analysis reveals the superiority of ParameterEfficient Fine-Tuning (PEFT) strategies, such as visual prompt tuning and visual adapter tuning, over conventional techniques, including fully fine-tuning and linear probing tuning in the few-shot OOD detection task. Recognizing some crucial information from the pre-trained model, which is pivotal for OOD detection, may be lost during the fine-tuning process, we propose a method termed DomainSpecific and General Knowledge Fusion (DSGF). This approach is designed to be compatible with diverse fine-tuning frameworks. Our experiments show that the integration of DSGF significantly enhances the few-shot OOD detection capabilities across various methods and fine-tuning methodologies, including fully fine-tuning, visual adapter tuning, and visual prompt tuning. The code will be released.
翻訳日:2023-11-23 03:39:37 公開日:2023-11-20
# BadCLIP:マルチモーダルコントラスト学習におけるデュアルエンベッド型バックドアアタック

BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning ( http://arxiv.org/abs/2311.12075v1 )

ライセンス: Link先を確認
Siyuan Liang, Mingli Zhu, Aishan Liu, Baoyuan Wu, Xiaochun Cao, Ee-Chien Chang(参考訳) バックドア攻撃の研究は、モデル著作権保護と防御強化に有用である。 既存のバックドア攻撃は、CLIPのようなマルチモーダルなコントラスト学習モデルに感染したが、MCLモデルのための特別なバックドア防御によって容易に対処できる。 本稿では,バックドア攻撃が防御後にも有効であり続けるという現実シナリオにおける脅威を明らかにし,バックドア検出に抵抗し,微調整防御をモデル化する \emph{\toolns}攻撃を導入する。 これを実現するため,ベイズ支配の観点からモチベーションを導き,バックドア攻撃のための二重埋め込み誘導フレームワークを提案する。 具体的には,視覚的トリガパターンが埋め込み空間のテキスト的ターゲットセマンティクスに近似することを保証し,そのような自然なトリガパターンに対するバックドア学習によって引き起こされる微妙なパラメータ変動を検出することが困難である。 さらに、汚染されたサンプルを目標視機能に合わせるために視覚トリガーパターンを最適化し、クリーンな微調整によるバックドアアンラーニングを阻害する。 広範囲にわたる実験により,SOTAのバックドアディフェンスの存在下での攻撃は最先端のベースライン(+45.3% ASR)を著しく上回り,これらの緩和と検出戦略は事実上効果がないことが示された。 さらに,ダウンストリームタスクなど,より厳密なシナリオを効果的に攻撃する手法を提案する。 本稿では,マルチモーダル・コントラッシブ・ラーニングの実践的適用に伴う潜在的な脅威に対する認識を高め,より堅牢な防御機構の開発を促進すると信じている。

Studying backdoor attacks is valuable for model copyright protection and enhancing defenses. While existing backdoor attacks have successfully infected multimodal contrastive learning models such as CLIP, they can be easily countered by specialized backdoor defenses for MCL models. This paper reveals the threats in this practical scenario that backdoor attacks can remain effective even after defenses and introduces the \emph{\toolns} attack, which is resistant to backdoor detection and model fine-tuning defenses. To achieve this, we draw motivations from the perspective of the Bayesian rule and propose a dual-embedding guided framework for backdoor attacks. Specifically, we ensure that visual trigger patterns approximate the textual target semantics in the embedding space, making it challenging to detect the subtle parameter variations induced by backdoor learning on such natural trigger patterns. Additionally, we optimize the visual trigger patterns to align the poisoned samples with target vision features in order to hinder the backdoor unlearning through clean fine-tuning. Extensive experiments demonstrate that our attack significantly outperforms state-of-the-art baselines (+45.3% ASR) in the presence of SoTA backdoor defenses, rendering these mitigation and detection strategies virtually ineffective. Furthermore, our approach effectively attacks some more rigorous scenarios like downstream tasks. We believe that this paper raises awareness regarding the potential threats associated with the practical application of multimodal contrastive learning and encourages the development of more robust defense mechanisms.
翻訳日:2023-11-23 03:39:17 公開日:2023-11-20
# 制約ボソンモデルにおける創発的アシュキン・テラー臨界

Emergent Ashkin-Teller criticality in a constrained boson model ( http://arxiv.org/abs/2311.12107v1 )

ライセンス: Link先を確認
Anirudha Menon, Anwesha Chattopadhyay, K. Sengupta, and Arnab Sen(参考訳) 制約付きボソニックモデル上での明示的な計算により、サブシステム対称性の存在は、臨界点が創発的拡張対称性を示す量子相転移につながることを示した。 このような遷移は、一意にガッピングされた基底状態とギャップのない状態とを分離し、後者の位相は、モデルにおけるサブシステム対称性の存在と結びついた破れた $z_2$ 対称性を示す。 これらの位相を分離する中間臨界点は、我々が識別する追加の創発的な$z_2$対称性を示し、この出現は期待されるイジング、普遍性クラスの代わりにアシュキン・テラーにおいて臨界理論をもたらす。 我々はこのシナリオを明示的な完全対角化計算によって検証し、そのような遷移に対して有効なランダウ・ギンツブルク理論を提供し、ライドバーグ原子配列を記述するpxpモデルとの接続について論じる。

We show, via explicit computation on a constrained bosonic model, that the presence of subsystem symmetries can lead to a quantum phase transition where the critical point exhibits an emergent enhanced symmetry. Such a transition separates a unique gapped ground state from a gapless one; the latter phase exhibits a broken $Z_2$ symmetry which we tie to the presence of the subsystem symmetries in the model. The intermediate critical point separating these phases exhibits an additional emergent $Z_2$ symmetry which we identify; this emergence leads to a critical theory in the Ashkin-Teller, instead of the expected Ising, universality class . We verify this scenario via explicit exact-diagonalization computations, provide an effective Landau-Ginzburg theory for such a transition, and discuss the connection of our model to the PXP model describing Rydberg atom arrays.
翻訳日:2023-11-23 03:26:21 公開日:2023-11-20
# コンセプトスライダ:拡散モデルにおける精密制御のためのLoRAアダプタ

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models ( http://arxiv.org/abs/2311.12092v1 )

ライセンス: Link先を確認
Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau(参考訳) 拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。 提案手法では,他の属性との干渉を最小限に抑えながら,ある概念に対応する低ランクパラメータの方向を特定する。 スライダは、プロンプトまたはサンプルイメージの小さなセットを使用して作成されるので、テキストまたはビジュアルのコンセプトでスライダの方向を作成できる。 コンセプトスライダはプラグアンドプレイであり、効率的かつ連続的に構成でき、画像生成を精密に制御することができる。 従来の編集技術と比較した定量的実験では、スライダは低い干渉でより強力な目標編集を示す。 天気,年齢,スタイル,表現のスライダとスライダ構成について紹介する。 テキスト記述が難しい視覚概念を直感的に編集するために,スライダがスタイルガンから潜在表現を転送する方法を示す。 また, 本手法は, 物体変形の修復や変形した手の固定など, 安定拡散xlの持続的な品質問題に対処できることがわかった。 私たちのコード、データ、トレーニングされたスライダーはhttps://sliders.baulab.info/で利用可能です。

We present a method to create interpretable concept sliders that enable precise control over attributes in image generations from diffusion models. Our approach identifies a low-rank parameter direction corresponding to one concept while minimizing interference with other attributes. A slider is created using a small set of prompts or sample images; thus slider directions can be created for either textual or visual concepts. Concept Sliders are plug-and-play: they can be composed efficiently and continuously modulated, enabling precise control over image generation. In quantitative experiments comparing to previous editing techniques, our sliders exhibit stronger targeted edits with lower interference. We showcase sliders for weather, age, styles, and expressions, as well as slider compositions. We show how sliders can transfer latents from StyleGAN for intuitive editing of visual concepts for which textual description is difficult. We also find that our method can help address persistent quality issues in Stable Diffusion XL including repair of object deformations and fixing distorted hands. Our code, data, and trained sliders are available at https://sliders.baulab.info/
翻訳日:2023-11-23 03:26:02 公開日:2023-11-20
# das: cnnの敬遠情報を取り込むための変形可能な注意

DAS: A Deformable Attention to Capture Salient Information in CNNs ( http://arxiv.org/abs/2311.12091v1 )

ライセンス: Link先を確認
Farzad Salajegheh, Nader Asadi, Soroush Saryazdi, Sudhir Mudur(参考訳) 畳み込みニューラルネットワーク(cnns)は局所的な空間パターン認識に優れている。 オブジェクト認識やセグメンテーションなど、多くの視覚タスクでは、CNNのカーネル境界の外側に詳細な情報が存在する。 しかし、cnnはそのような情報を取り込むのに苦労している。 自己注意は、グローバル情報へのアクセスを改善するが、計算オーバーヘッドを増大させる。 dasと呼ばれる高速で単純な完全畳み込み方式を提案し,関連する情報に注目した。 画像領域の位置の変形可能な畳み込みと効率の分離可能な畳み込みを使用する。 DASは既存のCNNにプラグインし、ゲーティング機構を使用して関連情報を伝達する。 変圧器型注意のO(n^2)計算複雑性と比較すると、DASはO(n)である。 dasが関連する機能に注意を払う能力は、画像分類とオブジェクト検出のために人気のあるcnnに追加されるとパフォーマンスが向上すると主張している。 例えば、DASはStanford Dogs (4.47%)、ImageNet (1.91%)、COCO AP (3.3%)とベースResNet50のバックボーンを改善している。 これにより、同様のFLOPを使用しながら他のCNN注意機構より優れる。 私たちのコードは公開されます。

Convolutional Neural Networks (CNNs) excel in local spatial pattern recognition. For many vision tasks, such as object recognition and segmentation, salient information is also present outside CNN's kernel boundaries. However, CNNs struggle in capturing such relevant information due to their confined receptive fields. Self-attention can improve a model's access to global information but increases computational overhead. We present a fast and simple fully convolutional method called DAS that helps focus attention on relevant information. It uses deformable convolutions for the location of pertinent image regions and separable convolutions for efficiency. DAS plugs into existing CNNs and propagates relevant information using a gating mechanism. Compared to the O(n^2) computational complexity of transformer-style attention, DAS is O(n). Our claim is that DAS's ability to pay increased attention to relevant features results in performance improvements when added to popular CNNs for Image Classification and Object Detection. For example, DAS yields an improvement on Stanford Dogs (4.47%), ImageNet (1.91%), and COCO AP (3.3%) with base ResNet50 backbone. This outperforms other CNN attention mechanisms while using similar or less FLOPs. Our code will be publicly available.
翻訳日:2023-11-23 03:25:45 公開日:2023-11-20
# FrePolad: 点雲生成のための周波数可変点潜時拡散

FrePolad: Frequency-Rectified Point Latent Diffusion for Point Cloud Generation ( http://arxiv.org/abs/2311.12090v1 )

ライセンス: Link先を確認
Chenliang Zhou and Fangcheng Zhong and Param Hanji and Zhilin Guo and Kyle Fogarty and Alejandro Sztrajman and Hongyun Gao and Cengiz Oztireli(参考訳) 本稿では,変分オートエンコーダ(vae)と遅延拡散確率モデル(ddpm)を統合する点雲生成パイプラインであるfrepolad: frequency-rectified point latent diffusionを提案する。 FrePoladは、高い計算効率を維持しながら、生成タスクのポイントクラウド濃度において、高品質、多様性、柔軟性を同時に達成します。 生成品質と多様性の向上は,(1)点雲分布を学習しながら高周波コンテンツを保持できる球面高調波による新しい周波数補正モジュール,(2)規則化されたが複雑な潜伏分布を学習するための潜伏DDPMによって達成される。 さらに、frepoladは、潜在形状分布上の条件分布として点のサンプリングを定式化することで、可変点雲濃度をサポートする。 最後に、vaeによって符号化された低次元の潜在空間は、frepoladの高速でスケーラブルなサンプリングに寄与する。 定量的・定性的な結果から,frepoladは品質,多様性,計算効率において最先端の性能を示す。

We propose FrePolad: frequency-rectified point latent diffusion, a point cloud generation pipeline integrating a variational autoencoder (VAE) with a denoising diffusion probabilistic model (DDPM) for the latent distribution. FrePolad simultaneously achieves high quality, diversity, and flexibility in point cloud cardinality for generation tasks while maintaining high computational efficiency. The improvement in generation quality and diversity is achieved through (1) a novel frequency rectification module via spherical harmonics designed to retain high-frequency content while learning the point cloud distribution; and (2) a latent DDPM to learn the regularized yet complex latent distribution. In addition, FrePolad supports variable point cloud cardinality by formulating the sampling of points as conditional distributions over a latent shape distribution. Finally, the low-dimensional latent space encoded by the VAE contributes to FrePolad's fast and scalable sampling. Our quantitative and qualitative results demonstrate the state-of-the-art performance of FrePolad in terms of quality, diversity, and computational efficiency.
翻訳日:2023-11-23 03:25:25 公開日:2023-11-20
# 時系列加速度に基づく年齢関連歩行分類のための深層学習モデル

Explaining Deep Learning Models for Age-related Gait Classification based on time series acceleration ( http://arxiv.org/abs/2311.12089v1 )

ライセンス: Link先を確認
Xiaoping Zheng, Bert Otten, Michiel F Reneman, Claudine JC Lamoth(参考訳) 歩行分析は、特に高齢者の日常生活のモニタリングにおいて重要な役割を担っている。 センサー技術の進歩により、実生活環境での動きを捉え、ビッグデータを生成することができる。 機械学習、特にディープラーニング(DL)は、これらのビッグデータを歩行分析に使用することを約束している。 しかしながら、これらのモデル固有のブラックボックスの性質は、臨床応用に課題をもたらす。 本研究の目的は,SHAPなどの説明可能な人工知能を用いた高齢歩行パターンに対するDLに基づく歩行分類の透明性を高めることである。 対象は,成人129名,高齢者115名(65歳)の計244名であった。 彼らは3分間の歩行作業を行い、加速度計を腰椎セグメントL3に取り付けた。 成人群と高齢者群を分類するために, DLモデル, 畳み込みニューラルネットワーク(CNN)およびゲートリカレントユニット(GRU)を1ストライド, 8ストライドアクセラレーションを用いて訓練した。 SHAPはモデルの予測を説明するために使用された。 cnn は 81.4% の精度と 0.89 の auc で満足のいく性能を達成し、 gru は 84.5% の精度と 0.94 の auc で有望な結果を示した。 shap分析の結果、cnnとgruは、垂直方向と歩行方向からのデータにより高いシェープ値を割り当て、特に、端末スイングから負荷応答フェーズにまたがるヒール接触周辺のデータを強調した。 さらに、SHAP値から、GRUは全てのストライドを等しく扱っていないことが示された。 CNNは, シングルストライドデータの特徴から, 成人と高齢者を正確に区別した。 GRUはストライド間の関係と微妙な差異を考慮して正確な分類を行った。 両モデルとも、ヒール接触周辺のデータは最も重要であり、異なる年齢群間の歩行における加速度と減速パターンの違いが示唆された。

Gait analysis holds significant importance in monitoring daily health, particularly among older adults. Advancements in sensor technology enable the capture of movement in real-life environments and generate big data. Machine learning, notably deep learning (DL), shows promise to use these big data in gait analysis. However, the inherent black-box nature of these models poses challenges for their clinical application. This study aims to enhance transparency in DL-based gait classification for aged-related gait patterns using Explainable Artificial Intelligence, such as SHAP. A total of 244 subjects, comprising 129 adults and 115 older adults (age>65), were included. They performed a 3-minute walking task while accelerometers were affixed to the lumbar segment L3. DL models, convolutional neural network (CNN) and gated recurrent unit (GRU), were trained using 1-stride and 8-stride accelerations, respectively, to classify adult and older adult groups. SHAP was employed to explain the models' predictions. CNN achieved a satisfactory performance with an accuracy of 81.4% and an AUC of 0.89, and GRU demonstrated promising results with an accuracy of 84.5% and an AUC of 0.94. SHAP analysis revealed that both CNN and GRU assigned higher SHAP values to the data from vertical and walking directions, particularly emphasizing data around heel contact, spanning from the terminal swing to loading response phases. Furthermore, SHAP values indicated that GRU did not treat every stride equally. CNN accurately distinguished between adults and older adults based on the characteristics of a single stride's data. GRU achieved accurate classification by considering the relationships and subtle differences between strides. In both models, data around heel contact emerged as most critical, suggesting differences in acceleration and deceleration patterns during walking between different age groups.
翻訳日:2023-11-23 03:25:10 公開日:2023-11-20
# PhytNet - カスタムボタニカルデータのためのテーラー畳み込みニューラルネットワーク

PhytNet -- Tailored Convolutional Neural Networks for Custom Botanical Data ( http://arxiv.org/abs/2311.12088v1 )

ライセンス: Link先を確認
Jamie R. Sykes, Katherine Denby and Daniel W. Franks(参考訳) コンピュータービジョンによる自動病気、雑草、作物の分類は、農業の未来において貴重なものになるだろう。 しかし、resnet、 efficientnet、convnextのような既存のモデルアーキテクチャは、そのようなプロジェクトで典型的なより小さく専門化されたデータセットに過小評価されることが多い。 我々は、インフォームドデータ収集と新しいcnnアーキテクチャであるphytnetの開発でこのギャップに対処する。 赤外線ココアツリー画像の新しいデータセットを用いて、PhytNetの開発を実証し、既存のアーキテクチャと比較する。 データ収集は分光データの解析により,ココア木のスペクトル特性に関する有用な知見を得た。 このような情報は、将来のデータ収集とモデル開発に役立ちます。 ココアはその病気の多様な病理から焦点種として選ばれ、検出に重大な課題を生じさせた。 ResNet18はオーバーフィッティングの兆候を示し、EfficientNetはオーバーフィッティングの兆候を示した。 対照的に、PhytNetは関連する機能に優れた注意を払っており、オーバーフィッティングはなく、計算コストも非常に低い(1.19 GFLOPS)。 このようなフィトネットは、急速な疾患や植物の分類、あるいは自律システムのための疾患症状の正確な局所化の候補として有望である。

Automated disease, weed and crop classification with computer vision will be invaluable in the future of agriculture. However, existing model architectures like ResNet, EfficientNet and ConvNeXt often underperform on smaller, specialised datasets typical of such projects. We address this gap with informed data collection and the development of a new CNN architecture, PhytNet. Utilising a novel dataset of infrared cocoa tree images, we demonstrate PhytNet's development and compare its performance with existing architectures. Data collection was informed by analysis of spectroscopy data, which provided useful insights into the spectral characteristics of cocoa trees. Such information could inform future data collection and model development. Cocoa was chosen as a focal species due to the diverse pathology of its diseases, which pose significant challenges for detection. ResNet18 showed some signs of overfitting, while EfficientNet variants showed distinct signs of overfitting. By contrast, PhytNet displayed excellent attention to relevant features, no overfitting, and an exceptionally low computation cost (1.19 GFLOPS). As such PhytNet is a promising candidate for rapid disease or plant classification, or precise localisation of disease symptoms for autonomous systems.
翻訳日:2023-11-23 03:24:41 公開日:2023-11-20
# 微細3次元シーン生成のためのピラミッド拡散

Pyramid Diffusion for Fine 3D Large Scene Generation ( http://arxiv.org/abs/2311.12085v1 )

ライセンス: Link先を確認
Yuheng Liu, Xinke Li, Xueting Li, Lu Qi, Chongshou Li, Ming-Hsuan Yang(参考訳) 2D技術を直接3Dシーン生成に転送することは、解像度の大幅な低減と、包括的な実世界の3Dシーンデータセットの不足により困難である。 これらの問題に対処するため,我々は3次元シーン生成のためのピラミッド離散拡散モデル(pdd)を提案する。 この新しいアプローチでは、粗いものから細かいものまで、高品質な3Dシーンを段階的に生成できるマルチスケールモデルを採用している。 このように、PDDは限られたリソース制約の中で高品質なシーンを生成することができ、追加のデータソースを必要としない。 我々の知る限りでは、我々は3D大シーン生成のためのシンプルで効果的な粗大な戦略を最初に採用している。 実験では,非条件生成と条件生成の両方を対象とし,実感的かつ詳細な3Dシーンの生成におけるモデルの有効性とロバスト性を示した。 私たちのコードは公開される予定だ。

Directly transferring the 2D techniques to 3D scene generation is challenging due to significant resolution reduction and the scarcity of comprehensive real-world 3D scene datasets. To address these issues, our work introduces the Pyramid Discrete Diffusion model (PDD) for 3D scene generation. This novel approach employs a multi-scale model capable of progressively generating high-quality 3D scenes from coarse to fine. In this way, the PDD can generate high-quality scenes within limited resource constraints and does not require additional data sources. To the best of our knowledge, we are the first to adopt the simple but effective coarse-to-fine strategy for 3D large scene generation. Our experiments, covering both unconditional and conditional generation, have yielded impressive results, showcasing the model's effectiveness and robustness in generating realistic and detailed 3D scenes. Our code will be available to the public.
翻訳日:2023-11-23 03:24:22 公開日:2023-11-20
# ODDR: 対側パッチに対する外乱検出・次元削減に基づく防御

ODDR: Outlier Detection & Dimension Reduction Based Defense Against Adversarial Patches ( http://arxiv.org/abs/2311.12084v1 )

ライセンス: Link先を確認
Nandish Chattopadhyay, Amira Guesmi, Muhammad Abdullah Hanif, Bassem Ouni, Muhammad Shafique(参考訳) 敵対的攻撃は、機械学習モデルの信頼性使用に対する大きな抑止力である。 強力なタイプの敵攻撃はパッチベースの攻撃であり、敵の摂動は訓練された機械学習モデルを欺くために、画像内の局所的なパッチまたは特定の領域を変更する。 本稿では,パッチ攻撃を効果的に軽減する総合的防御機構であるoutlier detection and dimension reduction (oddr)を提案する。 本手法では, 画像サンプルの固有分布から逸脱し, 異常値や異常値として識別することが可能な, 敵対的パッチに対応する入力特徴を仮定する。 ODDRはフラグメンテーション、分離、中立化という3段階のパイプラインを採用しており、画像分類とオブジェクト検出の両方に適用されるモデルに依存しないソリューションを提供する。 フラグメンテーションステージは、サンプルをその後の分離プロセスのためにチャンクに解析する。 ここで、外乱検出技術は、対向的摂動に伴う異常特徴を識別し、分離する。 中和段階は、機械学習タスクに必要な関連する情報を犠牲にすることなく、対向摂動の影響を軽減するために、外れ値に対する次元縮小法を利用する。 ベンチマークデータセットと最先端の敵パッチの大規模なテストは、ODDRの有効性を示している。 その結果,クリーンなアキュラティ(分類では1%-3%,対象検出では3%-5%)の範囲内に存在するロバストなアキュラティが示され,クリーンなサンプルでの性能が1%-2%という限界的な妥協しか得られず,他の防御を著しく上回っていた。

Adversarial attacks are a major deterrent towards the reliable use of machine learning models. A powerful type of adversarial attacks is the patch-based attack, wherein the adversarial perturbations modify localized patches or specific areas within the images to deceive the trained machine learning model. In this paper, we introduce Outlier Detection and Dimension Reduction (ODDR), a holistic defense mechanism designed to effectively mitigate patch-based adversarial attacks. In our approach, we posit that input features corresponding to adversarial patches, whether naturalistic or otherwise, deviate from the inherent distribution of the remaining image sample and can be identified as outliers or anomalies. ODDR employs a three-stage pipeline: Fragmentation, Segregation, and Neutralization, providing a model-agnostic solution applicable to both image classification and object detection tasks. The Fragmentation stage parses the samples into chunks for the subsequent Segregation process. Here, outlier detection techniques identify and segregate the anomalous features associated with adversarial perturbations. The Neutralization stage utilizes dimension reduction methods on the outliers to mitigate the impact of adversarial perturbations without sacrificing pertinent information necessary for the machine learning task. Extensive testing on benchmark datasets and state-of-the-art adversarial patches demonstrates the effectiveness of ODDR. Results indicate robust accuracies matching and lying within a small range of clean accuracies (1%-3% for classification and 3%-5% for object detection), with only a marginal compromise of 1%-2% in performance on clean samples, thereby significantly outperforming other defenses.
翻訳日:2023-11-23 03:24:06 公開日:2023-11-20
# PanBench: ハイリゾリューションと高性能パンシャーピングを目指して

PanBench: Towards High-Resolution and High-Performance Pansharpening ( http://arxiv.org/abs/2311.12083v1 )

ライセンス: Link先を確認
Shiying Wang, Xuechao Zou, Kai Li, Junliang Xing, Pin Tao(参考訳) リモートセンシングにおける重要なタスクであるPansharpeningは、高解像度のマルチスペクトル画像と高解像度のパンクロマティック画像を統合することで、高解像度でマルチスペクトル情報を保持するイメージを合成する。 これらのパンシャープ化画像は、リモートセンシングデータ解析における土地被覆分類、変化検出、環境モニタリングの精度を高める。 ディープラーニング技術は、パンシャープ化で大きな成功を収めているが、既存の手法は、衛星データソース、単一シーンタイプ、低解像度画像に限定して、評価の限界に直面することが多い。 本論文は,主眼衛星すべてを含む高分解能マルチシーンデータセットであるPanBenchを導入し,5,898対のサンプルを作成した。 各ペアは256x256ピクセルの4チャンネル(RGB + 近赤外線)マルチスペクトル画像と1,024x1,024ピクセルの単チャネルパンクロマティック画像を含む。 高忠実度合成を実現するために,Pansharpening のための Cascaded Multiscale Fusion Network (CMFNet) を提案する。 cmfnetの有効性を検証する広範な実験。 補足でデータセット、ソースコード、事前訓練されたモデルをリリースし、リモートセンシングのさらなる研究を奨励しました。

Pansharpening, a pivotal task in remote sensing, involves integrating low-resolution multispectral images with high-resolution panchromatic images to synthesize an image that is both high-resolution and retains multispectral information. These pansharpened images enhance precision in land cover classification, change detection, and environmental monitoring within remote sensing data analysis. While deep learning techniques have shown significant success in pansharpening, existing methods often face limitations in their evaluation, focusing on restricted satellite data sources, single scene types, and low-resolution images. This paper addresses this gap by introducing PanBench, a high-resolution multi-scene dataset containing all mainstream satellites and comprising 5,898 pairs of samples. Each pair includes a four-channel (RGB + near-infrared) multispectral image of 256x256 pixels and a mono-channel panchromatic image of 1,024x1,024 pixels. To achieve high-fidelity synthesis, we propose a Cascaded Multiscale Fusion Network (CMFNet) for Pansharpening. Extensive experiments validate the effectiveness of CMFNet. We have released the dataset, source code, and pre-trained models in the supplementary, fostering further research in remote sensing.
翻訳日:2023-11-23 03:23:36 公開日:2023-11-20
# Tiny-VBF:超音波単一角波イメージングのための資源効率の高いビジョントランスを用いた軽量ビームフォーマ

Tiny-VBF: Resource-Efficient Vision Transformer based Lightweight Beamformer for Ultrasound Single-Angle Plane Wave Imaging ( http://arxiv.org/abs/2311.12082v1 )

ライセンス: Link先を確認
Abdul Rahoof, Vivek Chaturvedi, Mahesh Raveendranatha Panicker, and Muhammad Shafique(参考訳) 近年,ディープラーニングアーキテクチャを用いた超音波画像における計算集約非リアルタイムビーム生成アルゴリズムの高速化が活発化している。 それでも、最先端のディープラーニング技術の複雑さは、リソース制約のあるエッジデバイスへのデプロイに課題をもたらす。 本研究では,単角平面波のインソニゼーションにより取得した生の高周波チャネルデータに基づいて,新しい視覚トランスフォーマ(tiny-vbf)を提案する。 Tiny-VBFの出力は、最先端のディープラーニングモデルと比較して、フレームサイズが368 x 128の0.34 GOPs/Frameを必要とする高速エンベロープ検出を提供する。 また, in-vitroデータセットのtiny-cnnと比較して, コントラストが8%上昇し, 軸および横分解能が5%, 33%上昇した。 また, 従来のdasビームフォーマーと比較して, コントラストが4.2%増加し, 軸方向および横方向の分解能が4%, 20%向上した。 さらに,Zynq UltraScale+MPSoC ZCU104 FPGA上でのTiny-VBFモデルを実装し,画像品質を保ちながら,フローティングポイントの実装に比べて50%少ない資源消費のハイブリッド量子化方式を提案する。

Accelerating compute intensive non-real-time beam-forming algorithms in ultrasound imaging using deep learning architectures has been gaining momentum in the recent past. Nonetheless, the complexity of the state-of-the-art deep learning techniques poses challenges for deployment on resource-constrained edge devices. In this work, we propose a novel vision transformer based tiny beamformer (Tiny-VBF), which works on the raw radio-frequency channel data acquired through single-angle plane wave insonification. The output of our Tiny-VBF provides fast envelope detection requiring very low frame rate, i.e. 0.34 GOPs/Frame for a frame size of 368 x 128 in comparison to the state-of-the-art deep learning models. It also exhibited an 8% increase in contrast and gains of 5% and 33% in axial and lateral resolution respectively when compared to Tiny-CNN on in-vitro dataset. Additionally, our model showed a 4.2% increase in contrast and gains of 4% and 20% in axial and lateral resolution respectively when compared against conventional Delay-and-Sum (DAS) beamformer. We further propose an accelerator architecture and implement our Tiny-VBF model on a Zynq UltraScale+ MPSoC ZCU104 FPGA using a hybrid quantization scheme with 50% less resource consumption compared to the floating-point implementation, while preserving the image quality.
翻訳日:2023-11-23 03:23:15 公開日:2023-11-20
# 深層学習によるFDG PETの異常検出における健康な個体群の変動

Leveraging healthy population variability in deep learning unsupervised anomaly detection in brain FDG PET ( http://arxiv.org/abs/2311.12081v1 )

ライセンス: Link先を確認
Ma\"elys Solal (ARAMIS), Ravi Hassanaly (ARAMIS), Ninon Burgos (ARAMIS)(参考訳) 教師なし異常検出(unsupervised anomaly detection)は、非ラベルデータから幅広い異常を識別できるため、神経画像データの解析に一般的なアプローチである。 これは、被験者のイメージを異常を検出するために比較できる健康な外観の主題固有のモデルを構築することに依存する。 文献では, 異常検出は, 被写体像と擬似健康再構築像の残像解析に依存することが一般的である。 しかし、この手法には、疑似健康再建が不完全であることや、自然なしきい値設定機構の欠如により、制限がある。 提案手法は,z-scoresに触発され,健康な人口変動を利用してこれらの制限を克服する。 ADNIデータベースからFDG PETスキャンを行い,アルツハイマー病関連異常を正確に同定する手法の有効性を実証した。

Unsupervised anomaly detection is a popular approach for the analysis of neuroimaging data as it allows to identify a wide variety of anomalies from unlabelled data. It relies on building a subject-specific model of healthy appearance to which a subject's image can be compared to detect anomalies. In the literature, it is common for anomaly detection to rely on analysing the residual image between the subject's image and its pseudo-healthy reconstruction. This approach however has limitations partly due to the pseudo-healthy reconstructions being imperfect and to the lack of natural thresholding mechanism. Our proposed method, inspired by Z-scores, leverages the healthy population variability to overcome these limitations. Our experiments conducted on FDG PET scans from the ADNI database demonstrate the effectiveness of our approach in accurately identifying Alzheimer's disease related anomalies.
翻訳日:2023-11-23 03:22:46 公開日:2023-11-20
# FreeKD:Semantic Frequency Promptによる知識蒸留

FreeKD: Knowledge Distillation via Semantic Frequency Prompt ( http://arxiv.org/abs/2311.12079v1 )

ライセンス: Link先を確認
Yuan Zhang, Tao Huang, Jiaming Liu, Tao Jiang, Kuan Cheng, Shanghang Zhang(参考訳) 知識蒸留(KD)は様々なタスクにうまく適用され、主流の手法は一般に、空間的模倣の損失を通じて学生モデルを強化する。 しかし,教師モデルの空間領域で引き起こされる連続的なダウンサンプリングは腐敗の一種であり,学生が模倣すべき情報を分析することを妨げているため,精度が低下する。 劣化した特徴写像の基本パターンをよりよく理解するために、我々は周波数領域に注意を移す。 周波数蒸留中に、低周波帯は一般だが最小の文脈を伝達し、高域はより有益だがノイズも持ち込むという新たな課題に遭遇する。 周波数帯内の各画素が性能に等しく寄与するわけではない。 上記の問題に対処するために,(1)教師モデルに挿入された周波数プロンプトを提案し,微調整中に意味周波数コンテキストを吸収する。 2) 蒸留期間中, 周波数プロンプトにより, 種々の周波数帯に, それらの興味(PoIs)を局在させるために, 画素ワイドの周波数マスクが生成される。 さらに,高密度予測タスクに対して位置認識型関係周波数損失を用い,高次空間拡張を学生モデルに提供する。 我々は周波数知識蒸留法をfreekdとしてダビングし,周波数蒸留の最適位置と程度を決定する。 大規模な実験では、FreeKDは密集予測タスクにおいて空間ベースの蒸留法を常に上回るだけでなく(例えば、COCO2017ではRepPoints-R50で3.8AP、Cityscapesでは4.55mIoUで4.55mIoU)、学生により堅牢性を与える。 特に、大規模視覚モデル(例えば、DINOとSAM)に対するアプローチの一般化についても検証する。

Knowledge distillation (KD) has been applied to various tasks successfully, and mainstream methods typically boost the student model via spatial imitation losses. However, the consecutive downsamplings induced in the spatial domain of teacher model is a type of corruption, hindering the student from analyzing what specific information needs to be imitated, which results in accuracy degradation. To better understand the underlying pattern of corrupted feature maps, we shift our attention to the frequency domain. During frequency distillation, we encounter a new challenge: the low-frequency bands convey general but minimal context, while the high are more informative but also introduce noise. Not each pixel within the frequency bands contributes equally to the performance. To address the above problem: (1) We propose the Frequency Prompt plugged into the teacher model, absorbing the semantic frequency context during finetuning. (2) During the distillation period, a pixel-wise frequency mask is generated via Frequency Prompt, to localize those pixel of interests (PoIs) in various frequency bands. Additionally, we employ a position-aware relational frequency loss for dense prediction tasks, delivering a high-order spatial enhancement to the student model. We dub our Frequency Knowledge Distillation method as FreeKD, which determines the optimal localization and extent for the frequency distillation. Extensive experiments demonstrate that FreeKD not only outperforms spatial-based distillation methods consistently on dense prediction tasks (e.g., FreeKD brings 3.8 AP gains for RepPoints-R50 on COCO2017 and 4.55 mIoU gains for PSPNet-R18 on Cityscapes), but also conveys more robustness to the student. Notably, we also validate the generalization of our approach on large-scale vision models (e.g., DINO and SAM).
翻訳日:2023-11-23 03:22:33 公開日:2023-11-20
# アンダーサンプルMRI再構成のための高速可制御拡散モデル

Fast Controllable Diffusion Models for Undersampled MRI Reconstruction ( http://arxiv.org/abs/2311.12078v1 )

ライセンス: Link先を確認
Wei Jiang, Zhuang Xiong, Feng Liu, Nan Ye, Hongfu Sun(参考訳) 改良された深層学習法はMRI(MRI)アンサンプリング再構成において有望であるが、ペア化データの要求はMRI取得パラメータの多様さに制限されている。 近年、MRIのアンサンプリング再構成において、異なるMRI取得のためのペアデータやモデル再構成なしに、教師なし制御不能な生成拡散モデルが適用されている。 しかし、一般に拡散モデルはサンプリングが遅く、最先端の加速技術は制御可能な生成プロセスに直接適用される場合、最適以下の結果をもたらす可能性がある。 本研究では,MRIアンサンプ再構成のための拡散モデルの制御可能生成を促進・促進するPredictor-Projector-Noisor (PPN)と呼ばれる新しいアルゴリズムを提案する。 以上の結果から, PPNは, k空間のアンサンプ測定に適合する高忠実なMR像を生成できることがわかった。 さらに、教師なしPPN加速拡散モデルが異なるMRI取得パラメータに適応可能であり、教師付き学習技術よりも臨床的に有用である。

Supervised deep learning methods have shown promise in Magnetic Resonance Imaging (MRI) undersampling reconstruction, but their requirement for paired data limits their generalizability to the diverse MRI acquisition parameters. Recently, unsupervised controllable generative diffusion models have been applied to MRI undersampling reconstruction, without paired data or model retraining for different MRI acquisitions. However, diffusion models are generally slow in sampling and state-of-the-art acceleration techniques can lead to sub-optimal results when directly applied to the controllable generation process. This study introduces a new algorithm called Predictor-Projector-Noisor (PPN), which enhances and accelerates controllable generation of diffusion models for MRI undersampling reconstruction. Our results demonstrate that PPN produces high-fidelity MR images that conform to undersampled k-space measurements with significantly shorter reconstruction time than other controllable sampling methods. In addition, the unsupervised PPN accelerated diffusion models are adaptable to different MRI acquisition parameters, making them more practical for clinical use than supervised learning techniques.
翻訳日:2023-11-23 03:21:57 公開日:2023-11-20
# 任意スケール画像超解法に基づく入射神経表現の効率的なモデル認識手法

Efficient Model Agnostic Approach for Implicit Neural Representation Based Arbitrary-Scale Image Super-Resolution ( http://arxiv.org/abs/2311.12077v1 )

ライセンス: Link先を確認
Young Jae Oh, Jihun Kim, Tae Hyun Kim(参考訳) 単一の画像超解像(SISR)は、主に深層畳み込みネットワークによって大きく進歩した。 しかし、従来のネットワークは、イメージを一定の規模にスケールアップすることに限定されており、任意にスケールした画像を生成するために暗黙の神経機能を利用することになる。 しかしながら、これらの手法は、単一のリソース集約デコーダに全てのターゲットピクセルをクエリすることを含む、かなりの計算要求を課している。 本稿では, 再構成品質を犠牲にすることなく, 計算効率を大幅に向上させ, 任意のスケールでの超解像を実現する, 新規で効率的なフレームワークであるMixture of Experts Implicit Super-Resolution(MoEISR)を紹介する。 MoEISRは、軽量なマッパーモジュールを使用して各ピクセルに最適なデコードの専門家を動的に割り当て、様々な能力を持つ専門家が様々な複雑さを持つ領域にまたがってピクセルを再構築することができる。 実験の結果, MoEISR は浮動小数点演算 (FLOP) において 73% の低減を実現し, ピーク信号-雑音比 (PSNR) に匹敵する性能を示した。

Single image super-resolution (SISR) has experienced significant advancements, primarily driven by deep convolutional networks. Traditional networks, however, are limited to upscaling images to a fixed scale, leading to the utilization of implicit neural functions for generating arbitrarily scaled images. Nevertheless, these methodologies have imposed substantial computational demands as they involve querying every target pixel to a single resource-intensive decoder. In this paper, we introduce a novel and efficient framework, the Mixture of Experts Implicit Super-Resolution (MoEISR), which enables super-resolution at arbitrary scales with significantly increased computational efficiency without sacrificing reconstruction quality. MoEISR dynamically allocates the most suitable decoding expert to each pixel using a lightweight mapper module, allowing experts with varying capacities to reconstruct pixels across regions with diverse complexities. Our experiments demonstrate that MoEISR successfully reduces up to 73% in floating point operations (FLOPs) while delivering comparable or superior peak signal-to-noise ratio (PSNR).
翻訳日:2023-11-23 03:21:39 公開日:2023-11-20
# vit特徴空間における絡み合い構造と外観

Disentangling Structure and Appearance in ViT Feature Space ( http://arxiv.org/abs/2311.12193v1 )

ライセンス: Link先を確認
Narek Tumanyan, Omer Bar-Tal, Shir Amir, Shai Bagon, Tali Dekel(参考訳) 本稿では,ある自然画像の視覚的外観を他へ意味的に伝達する手法を提案する。 具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。 セマンティクス情報をフレームワークに統合するには、事前訓練された固定視覚トランスフォーマ(vit)モデルを活用することが重要なアイデアです。 具体的には,深部 ViT 特徴から抽出した構造と外観の新規なアンタングル表現を導出する。 次に、所望の構造と外観表現を分割し、それらをViT特徴空間に織り込む客観的関数を確立する。 目的関数に基づいて,1対と任意の1対の構造出現画像に対してジェネレータをトレーニングする"Splice"と,特定のドメインからのイメージのデータセットに基づいてトレーニングされたフィードフォワードリアルタイムな外観伝達モデルである"SpliceNet"の2つのフレームワークを提案する。 私たちのフレームワークは、敵のトレーニングを含まないし、セマンティックセグメンテーションや対応といった追加の入力情報も必要ありません。 対象物数,ポーズ数,外観に有意な変化がみられ,様々な画像対に対して高分解能な結果が得られた。 splice-vit.github.io. コードと補足資料はプロジェクトページで公開されています。

We present a method for semantically transferring the visual appearance of one natural image to another. Specifically, our goal is to generate an image in which objects in a source structure image are "painted" with the visual appearance of their semantically related objects in a target appearance image. To integrate semantic information into our framework, our key idea is to leverage a pre-trained and fixed Vision Transformer (ViT) model. Specifically, we derive novel disentangled representations of structure and appearance extracted from deep ViT features. We then establish an objective function that splices the desired structure and appearance representations, interweaving them together in the space of ViT features. Based on our objective function, we propose two frameworks of semantic appearance transfer -- "Splice", which works by training a generator on a single and arbitrary pair of structure-appearance images, and "SpliceNet", a feed-forward real-time appearance transfer model trained on a dataset of images from a specific domain. Our frameworks do not involve adversarial training, nor do they require any additional input information such as semantic segmentation or correspondences. We demonstrate high-resolution results on a variety of in-the-wild image pairs, under significant variations in the number of objects, pose, and appearance. Code and supplementary material are available in our project page: splice-vit.github.io.
翻訳日:2023-11-23 03:12:43 公開日:2023-11-20
# ChemScraper:PDF画像のためのグラフィック抽出、分子図解析、注釈付きデータ生成

ChemScraper: Graphics Extraction, Molecular Diagram Parsing, and Annotated Data Generation for PDF Images ( http://arxiv.org/abs/2311.12161v1 )

ライセンス: Link先を確認
Ayush Kumar Shah, Bryan Manrique Amador, Abhisek Dey, Ming Creekmore, Blake Ocampo, Scott Denmark, Richard Zanibbi(参考訳) 既存の分子図のビジュアルパーサーは、PNGのようなピクセルベースのラスタ画像を化学構造表現(SMILESなど)に変換する。 しかし、 \LaTeX{} や Word などのワードプロセッサによって作成されたPDFは、文字、行、ポリゴンの明確な位置と形状を提供する。 我々は、生来のデジタルPDF分子画像からシンボルを抽出し、簡単なグラフ変換を適用して編集可能なChemDrawファイル(CDXML)の視覚構造と化学構造の両方をキャプチャする手法を導入した。 我々の高速(PDF $\rightarrow$ visual graph $\rightarrow$ chemical graph )パイプラインはGPU、光学文字認識(OCR)、ベクトル化を必要としない。 SMILES文字列を用いた標準ベンチマークとグラフベースのメトリクスとLgEvalを用いたエラーコンパイルを提供する新たな評価を行った。 生来のデジタルPDFの幾何学的情報は高度に正確なパーサーを生成し、ラスタ画像から認識される視覚的パーサーのトレーニングデータを生成し、抽出されたグラフィック、視覚構造、化学構造をアノテーションとして生成する。 これを行うために、IndigoでSMILES文字列を描画し、分子構造を解析し、認識された構造を確認して正しいファイルを選択する。

Existing visual parsers for molecule diagrams translate pixel-based raster images such as PNGs to chemical structure representations (e.g., SMILES). However, PDFs created by word processors including \LaTeX{} and Word provide explicit locations and shapes for characters, lines, and polygons. We %introduce a method to extract symbols from born-digital PDF molecule images and then apply simple graph transformations to capture both visual and chemical structure in editable ChemDraw files (CDXML). Our fast ( PDF $\rightarrow$ visual graph $\rightarrow$ chemical graph ) pipeline does not require GPUs, Optical Character Recognition (OCR) or vectorization. We evaluate on standard benchmarks using SMILES strings, along with a novel evaluation that provides graph-based metrics and error compilation using LgEval. The geometric information in born-digital PDFs produces a highly accurate parser, motivating generating training data for visual parsers that recognize from raster images, with extracted graphics, visual structure, and chemical structure as annotations. To do this we render SMILES strings in Indigo, parse molecule structure, and then validate recognized structure to select correct files.
翻訳日:2023-11-23 03:12:20 公開日:2023-11-20
# 条件モデルに基づく自動映像要約

Conditional Modeling Based Automatic Video Summarization ( http://arxiv.org/abs/2311.12159v1 )

ライセンス: Link先を確認
Jia-Hong Huang, Chao-Han Huck Yang, Pin-Yu Chen, Min-Hung Chen, Marcel Worring(参考訳) ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。 ビデオ要約手法は主に視覚連続性や多様性といった視覚要因に依存しており、ビデオの内容を完全に理解するには不十分である。 興味、代表性、ストーリーラインの一貫性などの視覚的でない要素は、高品質のビデオ要約を生成するためにも考慮すべきである。 現在の手法ではこれらの非視覚的要因を十分に考慮していないため、最適以下の性能が得られる。 本研究では,人間による映像要約の作り方から得られた知見をもとに,映像要約への新たなアプローチを提案する。 この手法は条件付きモデリングの観点を利用し、複数の有意なランダム変数と共同分布を導入し、映像要約の重要な要素を特徴づける。 モデルのトレーニングを改善するためにヘルパー分布が用いられる。 条件付きアテンションモジュールは、マルチモーダル入力の存在下での潜在的な性能劣化を軽減するように設計されている。 提案手法は,人間生成ビデオと機械生成ビデオとのギャップを狭めることを目的とした,上述の革新的な設計手法を取り入れている。 広汎な実験により,提案手法は既存の手法よりも優れており,一般的なビデオ要約データセット上での最先端のパフォーマンスを実現する。

The aim of video summarization is to shorten videos automatically while retaining the key information necessary to convey the overall story. Video summarization methods mainly rely on visual factors, such as visual consecutiveness and diversity, which may not be sufficient to fully understand the content of the video. There are other non-visual factors, such as interestingness, representativeness, and storyline consistency that should also be considered for generating high-quality video summaries. Current methods do not adequately take into account these non-visual factors, resulting in suboptimal performance. In this work, a new approach to video summarization is proposed based on insights gained from how humans create ground truth video summaries. The method utilizes a conditional modeling perspective and introduces multiple meaningful random variables and joint distributions to characterize the key components of video summarization. Helper distributions are employed to improve the training of the model. A conditional attention module is designed to mitigate potential performance degradation in the presence of multi-modal input. The proposed video summarization method incorporates the above innovative design choices that aim to narrow the gap between human-generated and machine-generated video summaries. Extensive experiments show that the proposed approach outperforms existing methods and achieves state-of-the-art performance on commonly used video summarization datasets.
翻訳日:2023-11-23 03:11:57 公開日:2023-11-20
# 弱視と弱視による3次元眼球運動のモデル認識

Model-aware 3D Eye Gaze from Weak and Few-shot Supervisions ( http://arxiv.org/abs/2311.12157v1 )

ライセンス: Link先を確認
Nikola Popovic, Dimitrios Christodoulou, Danda Pani Paudel, Xi Wang, Luc Van Gool(参考訳) 眼画像から3d視線を予測する作業は、どちらでも行うことができる。 (a)画像対ガゼマッピングのためのエンドツーエンド学習 (b)画像に3dのアイモデルを取り付ける。 前者は3D視線ラベル、後者はモデルフィッティングを容易にするために目の意味やランドマークを必要とする。 眼のセマンティクスやランドマークを得るのは比較的簡単だが、その不適切な性質から、正確な3dアイモデルを取り付けるのは非常に困難である。 一方,ハードウェアのセットアップや計算能力の要求により,大規模3次元視線データの取得は困難である。 本研究は,眼意味セグメンテーションマスクの弱監督と数個の3次元視線ベクトルの直接監督から3次元視線を予測することを提案する。 提案手法は,目視画像のセマンティクスセグメンテーションに3次元眼モデルを取り付けることの難しさを軽減し,取得が容易な大量の弱いアノテーションと,わずか数個の3次元視線ベクトルを活用することで,両世界の最善を両立させる。 これにより、モデルフィッティングで使用される視線ベクトルは、少数ショットの視線ラベルを用いて直接監視される。 さらに,改良のための基盤となるトランスフォーマーベースのネットワークアーキテクチャを提案する。 実験では, トレーニング画像の0.05%の3Dアノテーションを使用する場合, 角度誤差がベースラインよりも約5度低くなるという, 提案手法の利点を実証した。 ソースコードはhttps://github.com/dimitris-christodoulou57/Model-aware_3D_Eye_Gazeで公開されている。

The task of predicting 3D eye gaze from eye images can be performed either by (a) end-to-end learning for image-to-gaze mapping or by (b) fitting a 3D eye model onto images. The former case requires 3D gaze labels, while the latter requires eye semantics or landmarks to facilitate the model fitting. Although obtaining eye semantics and landmarks is relatively easy, fitting an accurate 3D eye model on them remains to be very challenging due to its ill-posed nature in general. On the other hand, obtaining large-scale 3D gaze data is cumbersome due to the required hardware setups and computational demands. In this work, we propose to predict 3D eye gaze from weak supervision of eye semantic segmentation masks and direct supervision of a few 3D gaze vectors. The proposed method combines the best of both worlds by leveraging large amounts of weak annotations--which are easy to obtain, and only a few 3D gaze vectors--which alleviate the difficulty of fitting 3D eye models on the semantic segmentation of eye images. Thus, the eye gaze vectors, used in the model fitting, are directly supervised using the few-shot gaze labels. Additionally, we propose a transformer-based network architecture, that serves as a solid baseline for our improvements. Our experiments in diverse settings illustrate the significant benefits of the proposed method, achieving about 5 degrees lower angular gaze error over the baseline, when only 0.05% 3D annotations of the training images are used. The source code is available at https://github.com/dimitris-christodoulou57/Model-aware_3D_Eye_Gaze.
翻訳日:2023-11-23 03:11:38 公開日:2023-11-20
# 認知自動化のためのユーザライクなボット:調査

User-Like Bots for Cognitive Automation: A Survey ( http://arxiv.org/abs/2311.12154v1 )

ライセンス: Link先を確認
Habtom Kahsay Gidey and Peter Hillmann and Andreas Karcher and Alois Knoll(参考訳) ソフトウェアボットは研究と社会の両方で関心や人気が高まっている。 彼らの貢献は、自動化、デジタル双子、意識的な振る舞いを持つゲームキャラクター、ソーシャルメディアに及んでいる。 しかし、web環境の可変性と動的性質に適応できるインテリジェントなボットがいまだに欠けている。 人間のユーザとは違って、複数の仮想環境における余裕の理解と活用が難しい。 ハイプにもかかわらず、人間のユーザーのような認知を持つボットは、現在存在しない。 例えばチャットボットは、運用するデジタルプラットフォームに対する状況認識を欠いているため、人間ユーザーのような有意義で自律的な知的な行動が起こらない。 本研究では,高度な汎用知性を持つソフトウェアボットの開発支援における認知アーキテクチャの役割を探ることを目的としている。 我々は、認知アーキテクチャが知的ソフトウェアボット作成にどのように寄与するかについて議論する。 さらに,自律型ユーザライクな認知ロボットの開発に向けて,重要なアーキテクチャ勧告を強調した。

Software bots have attracted increasing interest and popularity in both research and society. Their contributions span automation, digital twins, game characters with conscious-like behavior, and social media. However, there is still a lack of intelligent bots that can adapt to web environments' variability and dynamic nature. Unlike human users, they have difficulty understanding and exploiting the affordances across multiple virtual environments. Despite the hype, bots with human user-like cognition do not currently exist. Chatbots, for instance, lack situational awareness on the digital platforms where they operate, preventing them from enacting meaningful and autonomous intelligent behavior similar to human users. In this survey, we aim to explore the role of cognitive architectures in supporting efforts towards engineering software bots with advanced general intelligence. We discuss how cognitive architectures can contribute to creating intelligent software bots. Furthermore, we highlight key architectural recommendations for the future development of autonomous, user-like cognitive bots.
翻訳日:2023-11-23 03:11:10 公開日:2023-11-20
# マルチ軸核融合によるMR画像のコントラスト変換の不確かさ推定

Uncertainty Estimation in Contrast-Enhanced MR Image Translation with Multi-Axis Fusion ( http://arxiv.org/abs/2311.12153v1 )

ライセンス: Link先を確認
Ivo M. Baltruschat, Parvaneh Janbakhshi, Melanie Dohmen, Matthias Lenga(参考訳) 近年、深層学習は幅広い医療画像や画像処理タスクに応用されている。 本研究では,3次元医用画像から画像への変換における認識的不確かさの推定に着目する。 本稿では,ボリューム画像データに対する複数視点からの補完的情報の統合に依存する,新しいモデル不確かさ定量化手法である多軸融合(maf)を提案する。 提案手法は,T1,T2,T2-FLAIRスキャンに基づくコントラスト強調T1強調画像の合成に応用される。 定量的な結果から,maf法の平均絶対画像合成誤差と平均不確かさスコアとの間に強い相関(\rho_{\text healthy} = 0.89$)が認められた。 したがって、MAFは、推論時に合成失敗を検出するという非常に関連性の高い課題を解決するための有望なアプローチであると考えている。

In recent years, deep learning has been applied to a wide range of medical imaging and image processing tasks. In this work, we focus on the estimation of epistemic uncertainty for 3D medical image-to-image translation. We propose a novel model uncertainty quantification method, Multi-Axis Fusion (MAF), which relies on the integration of complementary information derived from multiple views on volumetric image data. The proposed approach is applied to the task of synthesizing contrast enhanced T1-weighted images based on native T1, T2 and T2-FLAIR scans. The quantitative findings indicate a strong correlation ($\rho_{\text healthy} = 0.89$) between the mean absolute image synthetization error and the mean uncertainty score for our MAF method. Hence, we consider MAF as a promising approach to solve the highly relevant task of detecting synthetization failures at inference time.
翻訳日:2023-11-23 03:10:56 公開日:2023-11-20
# ロボットに自分自身のシミュレーションを

Teaching Robots to Build Simulations of Themselves ( http://arxiv.org/abs/2311.12151v1 )

ライセンス: Link先を確認
Yuhang Hu, Jiong Lin, Hod Lipson(参考訳) シミュレーションにより、ロボットは物理的に実行することなく、予測行動の結果を計画し、見積もることができる。 本稿では,ロボットが簡単な生のビデオデータのみを用いて,その形態,運動学,運動制御をモデル化し,予測するための自己教師付き学習フレームワークを提案する。 鏡で反射を見ている人間に似た、自分の動きを観察することで、ロボットは自分自身をシミュレートし、様々なタスクのために空間的な動きを予測する能力を学ぶ。 この自己学習型シミュレーションは, 正確な動作計画を可能にするだけでなく, 異常を検知し, 損傷から回復することを可能にする。

Simulation enables robots to plan and estimate the outcomes of prospective actions without the need to physically execute them. We introduce a self-supervised learning framework to enable robots model and predict their morphology, kinematics and motor control using only brief raw video data, eliminating the need for extensive real-world data collection and kinematic priors. By observing their own movements, akin to humans watching their reflection in a mirror, robots learn an ability to simulate themselves and predict their spatial motion for various tasks. Our results demonstrate that this self-learned simulation not only enables accurate motion planning but also allows the robot to detect abnormalities and recover from damage.
翻訳日:2023-11-23 03:10:42 公開日:2023-11-20
# ドメイン特化分類による早期要求トレーサビリティ - 実験的検討

Early Requirements Traceability with Domain-Specific Taxonomies -- A Pilot Experiment ( http://arxiv.org/abs/2311.12146v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner(参考訳) 背景: 要求文書から下流のアーティファクトに早期にトレーサビリティを確立することは、エンジニアが要求品質(例えば、完全性、一貫性、冗長性)を推論できるという点で有益である。 しかし、下流のアーティファクトがいなければ、このような早期トレースの作成は困難である。 目的:我々は、初期のトレーサビリティを確立するためにドメイン固有の分類を用いることを提案し、トレースリンクの価値と認識されるメリットを高め、設計、テスト、メンテナンスなど、後の開発フェーズでも利用可能にする。 方法: 一連のヒューリスティックスに基づいて, 要件からドメイン固有の分類へのトレースリンクを提案するレコメンデータシステムを開発した。 我々は,業界の実践者の効率,正確性,一貫性,信頼性を,推奨者の支持なしに比較する制御実験を設計した。 結果: 実験材料を7人の実践者で試験した。 自己報告された自信の分析は、制御群と治療群の両方が正確性と完全性に対する自信が低いと報告するため、トレースタスク自体が非常に困難であることを示唆している。 結論: パイロットとしてこの実験は,レコメンダのパフォーマンスに関する最初のフィードバックを提供し,実験資料に対する洞察を提供し,収集したデータを有意義に分析できることを示したため,成功した。

Background: Establishing traceability from requirements documents to downstream artifacts early can be beneficial as it allows engineers to reason about requirements quality (e.g. completeness, consistency, redundancy). However, creating such early traces is difficult if downstream artifacts do not exist yet. Objective: We propose to use domain-specific taxonomies to establish early traceability, raising the value and perceived benefits of trace links so that they are also available at later development phases, e.g. in design, testing or maintenance. Method: We developed a recommender system that suggests trace links from requirements to a domain-specific taxonomy based on a series of heuristics. We designed a controlled experiment to compare industry practitioners' efficiency, accuracy, consistency and confidence with and without support from the recommender. Results: We have piloted the experimental material with seven practitioners. The analysis of self-reported confidence suggests that the trace task itself is very challenging as both control and treatment group report low confidence on correctness and completeness. Conclusions: As a pilot, the experiment was successful since it provided initial feedback on the performance of the recommender, insight on the experimental material and illustrated that the collected data can be meaningfully analysed.
翻訳日:2023-11-23 03:10:31 公開日:2023-11-20
# 大規模基礎モデルの自律運転への適用

Applications of Large Scale Foundation Models for Autonomous Driving ( http://arxiv.org/abs/2311.12144v1 )

ライセンス: Link先を確認
Yu Huang, Yue Chen, Zhu Li(参考訳) 2004/05年のDARPA Grand Challenges、2007年のUrban Challenges以来、自動運転はAIアプリケーションの最も活発な分野となっている。 近年,大規模言語モデル (LLM) を基盤として,チャットGPT や PaLM などのチャットシステムが出現し,自然言語処理 (NLP) において人工知能 (AGI) を実現するための有望な方向となった。 自動運転の改革にこれらの能力を使うことは自然な考えだ。 llmを基礎モデルと組み合わせることで、人間の知識、常識、推論を利用して、現在のロングテールのaiジレンマから自動運転システムを再構築することができる。 本稿では、シミュレーション、世界モデル、データアノテーションと計画、E2Eソリューションなどに分類される、自動運転に応用された基礎モデルとLLMの技術について検討する。

Since DARPA Grand Challenges (rural) in 2004/05 and Urban Challenges in 2007, autonomous driving has been the most active field of AI applications. Recently powered by large language models (LLMs), chat systems, such as chatGPT and PaLM, emerge and rapidly become a promising direction to achieve artificial general intelligence (AGI) in natural language processing (NLP). There comes a natural thinking that we could employ these abilities to reformulate autonomous driving. By combining LLM with foundation models, it is possible to utilize the human knowledge, commonsense and reasoning to rebuild autonomous driving systems from the current long-tailed AI dilemma. In this paper, we investigate the techniques of foundation models and LLMs applied for autonomous driving, categorized as simulation, world model, data annotation and planning or E2E solutions etc.
翻訳日:2023-11-23 03:10:08 公開日:2023-11-20
# スタートアップ企業におけるソフトウェアエンジニアリング:88回の経験報告の分析

Software engineering in start-up companies: An analysis of 88 experience reports ( http://arxiv.org/abs/2311.12139v1 )

ライセンス: Link先を確認
Eriks Klotins, Michael Unterkalmsteiner, Tony Gorschek(参考訳) コンテキスト: スタートアップ企業はイノベーションとソフトウェア集約製品の重要なサプライヤになっています。 スタートアップの柔軟性と反応性は、革新的なプロダクトの迅速な開発とローンチを可能にします。 しかし、ソフトウェアスタートアップのほとんどは、成功する前に失敗します。 ソフトウェアエンジニアリングの貧弱さは、スタートアップが経験した課題に重大な貢献をする可能性がある。 しかし、スタートアップにおけるソフトウェア工学の実践状態と最先端技術の利用は、ほとんど探索されていない領域である。 目的:本研究は,重要な知識領域とさらなる研究の機会の特定に焦点をあてて,スタートアップコンテキストにおけるソフトウェア工学の適用方法を検討する。 方法: 88の起業経験報告の多目的探索研究を行う。 我々は、報告されたソフトウェア工学のプラクティスとビジネス面との関係を分類し、知識領域間の影響と依存関係を調査するために質的データ分析を適用するカスタム分類法を開発した。 結果:最も頻繁に報告されているソフトウェア工学(要求工学,ソフトウェア設計,品質)とビジネス的側面(ビジョンと戦略開発)の知識領域を特定し,それらの関係を説明する。 また、ソフトウェアエンジニアリングの知識領域がスタートアップでどのように実装されているかの概要を示し、スタートアップで採用する上で潜在的に有用なプラクティスを特定します。 結論: この結果は、スタートアップにおけるエンジニアリングプラクティスに関するより焦点を絞った研究を可能にする。 スタートアップにおけるほとんどのエンジニアリングの課題は要件工学の不備によるものだと結論付けている。 特定のエンジニアリング課題に対処する多くの有望なプラクティスが存在するが、確立されたプラクティスの適応に関するさらなる研究、新しいスタートアップ固有のプラクティスの検証が必要である。

Context: Start-up companies have become an important supplier of innovation and software-intensive products. The flexibility and reactiveness of start-ups enables fast development and launch of innovative products. However, a majority of software start-up companies fail before achieving any success. Among other factors, poor software engineering could be a significant contributor to the challenges experienced by start-ups. However, the state-of-practice of software engineering in start-ups, as well as the utilization of state-of-the-art is largely an unexplored area. Objective: In this study we investigate how software engineering is applied in start-up context with a focus to identify key knowledge areas and opportunities for further research. Method: We perform a multi-vocal exploratory study of 88 start-up experience reports. We develop a custom taxonomy to categorize the reported software engineering practices and their interrelation with business aspects, and apply qualitative data analysis to explore influences and dependencies between the knowledge areas. Results: We identify the most frequently reported software engineering (requirements engineering, software design and quality) and business aspect (vision and strategy development) knowledge areas, and illustrate their relationships. We also present a summary of how relevant software engineering knowledge areas are implemented in start-ups and identify potentially useful practices for adoption in start-ups. Conclusions: The results enable a more focused research on engineering practices in start-ups. We conclude that most engineering challenges in start-ups stem from inadequacies in requirements engineering. Many promising practices to address specific engineering challenges exists, however more research on adaptation of established practices, and validation of new start-up specific practices is needed.
翻訳日:2023-11-23 03:09:52 公開日:2023-11-20
# スタートアップにおけるソフトウェアエンジニアリングのアンチパターン

Software Engineering Antipatterns in Start-Ups ( http://arxiv.org/abs/2311.12132v1 )

ライセンス: Link先を確認
Eriks Klotins, Michael Unterkalmsteiner, Tony Gorschek(参考訳) ソフトウェアスタートアップの失敗はしばしば、貧弱なビジネスモデル、市場問題、資金不足、あるいは単に悪い製品アイデアで説明される。 しかしながら、ソフトウェアプロダクトエンジニアリングの不十分さは比較的調査されておらず、高い起動失敗率に重要な要因となる可能性がある。 本稿では,88件の起動経験報告について分析する。 この分析は、共通の症状、実際の原因、および工学的異常の潜在的な対策を示す3つのアンチパターンの形で示される。 3つのアンチパターンは、要求工学における問題を含む製品不確実性、製品品質の不備による製品品質の低さ、チームの問題によるチーム分割の3つである。 アンチパターンは、ビジネスまたは市場関連のように見える課題と失敗のシナリオが、実際に製品エンジニアリングの不整合から生じることを示している。

Software start-up failures are often explained with poor business model, market issues, insufficient funding, or simply a bad product idea. However, inadequacies in software product engineering are relatively little explored and could be a significant contributing factor to high start-up failure rate. In this paper we present analysis of 88 start-up experience reports. The analysis is presented in a form of three anti-patterns illustrating common symptoms, actual causes, and potential countermeasures of engineering inadequacies. The three anti-patterns are: product uncertainty comprising of issues in requirements engineering, poor product quality comprising of inadequacies in product quality, and team breakup comprising of team issues. The anti-patterns show that challenges and failure scenarios that appear to be business or market-related can actually originate from inadequacies in product engineering.
翻訳日:2023-11-23 03:09:28 公開日:2023-11-20
# モデルフィードバックによるヒューマンラーニング:ミッドジャーニーによる反復的プロンプティングのダイナミクス

Human Learning by Model Feedback: The Dynamics of Iterative Prompting with Midjourney ( http://arxiv.org/abs/2311.12131v1 )

ライセンス: Link先を確認
Shachar Don-Yehiya and Leshem Choshen and Omri Abend(参考訳) テキスト・ツー・イメージ・モデルで画像を生成するには、しばしば複数の試行が必要であり、人間のユーザーはフィードバック、すなわち出力画像に基づいてプロンプトを反復的に更新する。 本稿では,参照ゲームと対話アライメントに関する認知作業からインスピレーションを得て,ユーザプロンプトのダイナミクスを分析した。 ユーザとmidjourneyの反復的なインタラクションのデータセットをコンパイルする。 分析の結果、これらのイテレーションに沿って特定の特性に対して予測的に収束するプロンプトが明らかになった。 さらに,この収束が人間ユーザによるものか,重要な詳細を見逃しているか,モデルの ‘preferences'' への適応によるものか,あるいは特定の言語スタイルに適した画像を生成するのかについても検討した。 両方の可能性があり得るという最初の証拠を示します。 ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を引き起こす。 プロンプトは、人間の意図や自然な表現方法と一致するのではなく、特定のモデルの好みに偏ることがある。

Generating images with a Text-to-Image model often requires multiple trials, where human users iteratively update their prompt based on feedback, namely the output image. Taking inspiration from cognitive work on reference games and dialogue alignment, this paper analyzes the dynamics of the user prompts along such iterations. We compile a dataset of iterative interactions of human users with Midjourney. Our analysis then reveals that prompts predictably converge toward specific traits along these iterations. We further study whether this convergence is due to human users, realizing they missed important details, or due to adaptation to the model's ``preferences'', producing better images for a specific language style. We show initial evidence that both possibilities are at play. The possibility that users adapt to the model's preference raises concerns about reusing user data for further training. The prompts may be biased towards the preferences of a specific model, rather than align with human intentions and natural manner of expression.
翻訳日:2023-11-23 03:09:15 公開日:2023-11-20
# Fingerspelling PoseNet: Pose-based Transformer ModelによるFingerspelling Translationの強化

Fingerspelling PoseNet: Enhancing Fingerspelling Translation with Pose-Based Transformer Models ( http://arxiv.org/abs/2311.12128v1 )

ライセンス: Link先を確認
Pooya Fayyazsanavi, Negar Nejatishahidin, Jana Kosecka(参考訳) 我々は,アメリカ手話翻訳の課題を,野放しのビデオを用いて解決する。 我々は,より正確な手形推定手法の進歩を活用し,シームレスな文脈的単語翻訳を可能にするトランスフォーマベースエンコーダ・デコーダモデルを活用した新しいアーキテクチャを提案する。 翻訳モデルは、指で打った単語の長さを正確に予測する新しい損失項によって拡張され、トレーニングと推論の両方に役立つ。 また,デコーダの言語モデル機能を用いて仮説を再ランク付けする,新しい二段階推論手法を提案する。 実験により,提案手法はシカゴFSWildとシカゴFSWild+の最先端モデルよりも10%以上の性能向上を達成できることを示した。 本研究は手話翻訳における指先認識の進歩の可能性とアプローチの有効性を明らかにするものである。 コードはhttps://github.com/pooyafayyaz/fingerspelling-posenetでも利用できる。

We address the task of American Sign Language fingerspelling translation using videos in the wild. We exploit advances in more accurate hand pose estimation and propose a novel architecture that leverages the transformer based encoder-decoder model enabling seamless contextual word translation. The translation model is augmented by a novel loss term that accurately predicts the length of the finger-spelled word, benefiting both training and inference. We also propose a novel two-stage inference approach that re-ranks the hypotheses using the language model capabilities of the decoder. Through extensive experiments, we demonstrate that our proposed method outperforms the state-of-the-art models on ChicagoFSWild and ChicagoFSWild+ achieving more than 10% relative improvement in performance. Our findings highlight the effectiveness of our approach and its potential to advance fingerspelling recognition in sign language translation. Code is also available at https://github.com/pooyafayyaz/Fingerspelling-PoseNet.
翻訳日:2023-11-23 03:08:59 公開日:2023-11-20
# 混在型汎用運用ネットワーク

Mixing-Denoising Generalizable Occupancy Networks ( http://arxiv.org/abs/2311.12125v1 )

ライセンス: Link先を確認
Amine Ouasfi and Adnane Boukhayma(参考訳) 現在の最先端の一般化された暗黙のニューラルシェイプモデルは畳み込みの帰納的バイアスに依存しているが、これらのバイアスから生じる特性が、ポイントクラウドからの3d再構成のタスクとどのように互換性があるのかは、まだ完全には分かっていない。 この文脈で一般化可能性に対する別のアプローチを探求する。 固有モデルバイアス(MLPを用いて局所的な特徴を畳み込みではなくエンコードする)を緩和し、再構成タスクに関連する補助正規化(denoising)によって仮説空間を制約する。 得られたモデルは、高速フィードフォワード推論を備えたポイントクラウドネットワークからローカルに条件付の暗黙の形状再構成を行う最初のMLPモデルである。 ポイントクラウドによる特徴とデノナイジングオフセットは、単一のフォワードパスでのみ MLP 製ネットワークから予測される。 デコーダは、特定相対的な位置符号化によって案内される点雲から近傍の特徴を任意にプールすることで、空間内のクエリの占有確率を予測する。 モデルパラメータの半数を使用しながら、最先端の畳み込み手法より優れています。

While current state-of-the-art generalizable implicit neural shape models rely on the inductive bias of convolutions, it is still not entirely clear how properties emerging from such biases are compatible with the task of 3D reconstruction from point cloud. We explore an alternative approach to generalizability in this context. We relax the intrinsic model bias (i.e. using MLPs to encode local features as opposed to convolutions) and constrain the hypothesis space instead with an auxiliary regularization related to the reconstruction task, i.e. denoising. The resulting model is the first only-MLP locally conditioned implicit shape reconstruction from point cloud network with fast feed forward inference. Point cloud borne features and denoising offsets are predicted from an exclusively MLP-made network in a single forward pass. A decoder predicts occupancy probabilities for queries anywhere in space by pooling nearby features from the point cloud order-invariantly, guided by denoised relative positional encoding. We outperform the state-of-the-art convolutional method while using half the number of model parameters.
翻訳日:2023-11-23 03:08:42 公開日:2023-11-20
# スクランブルンループ

Scramblon loops ( http://arxiv.org/abs/2311.12121v1 )

ライセンス: Link先を確認
Douglas Stanford, Shreya Vardhan, Shunyu Yao(参考訳) 大きなn$カオス量子システムでは、バタフライ効果は ``scramblon" として知られる集合場モードによって媒介される。 「」 Sachdev-Ye-Kitaev モデルの変種でスクランブルンの自己相互作用を研究する。 モデルの空間的に拡張されたバージョンと大きな空間分離では、ループダイアグラムによって記述されたゆらぎは、時間外のコリケータへの貢献が順序1になる前に、シングルスクランブル近似を無効にすることができる。 我々は、高温度(またはブラウンバージョンのモデル)における非コヒーレントな状態と低温におけるコヒーレントな状態との質的な差を見出した。

In large $N$ chaotic quantum systems, the butterfly effect is mediated by a collective field mode known as the ``scramblon.'' We study self-interactions of the scramblon in variants of the Sachdev-Ye-Kitaev model. In spatially extended versions of the model and for large spatial separation, fluctuations described by loop diagrams can invalidate the single-scramblon approximation well before its contribution to out-of-time-order correlators becomes of order one. We find a qualitative difference between an incoherent regime at high temperaure (or in a Brownian version of the model) and a coherent regime at low temperature.
翻訳日:2023-11-23 03:08:13 公開日:2023-11-20
# 議論の防衛的意味論:再考

Defense semantics of argumentation: revisit ( http://arxiv.org/abs/2311.12207v1 )

ライセンス: Link先を確認
Beishui Liao and Leendert van der Torre(参考訳) 本稿では,1つの引数が(部分的に)別の引数によって攻撃され,別の引数によって(部分的に)防御されるという三重符号化である(部分的)防御の概念を用いて,ダングの抽象的議論フレームワークに対して,新たなセマンティクス,すなわち防御セマンティクスを導入する。 防衛セマンティクスの観点からは、3サイクルの自己攻撃的議論や議論に関連する防衛はいかなる状況でも不可能であり、AFの防衛セマンティクスに影響を与えることなく除去可能であることを示す。 次に, AFsの防衛等価性の概念を導入し, 防御等価性と標準等価性, 強等価性を比較した。 最後に、防衛意味論を利用して、議論を受理する2種類の理由、すなわち直接的理由と根的理由、および議論の要約に使用できるAFの根的等価性の概念を定義する。

In this paper we introduce a novel semantics, called defense semantics, for Dung's abstract argumentation frameworks in terms of a notion of (partial) defence, which is a triple encoding that one argument is (partially) defended by another argument via attacking the attacker of the first argument. In terms of defense semantics, we show that defenses related to self-attacked arguments and arguments in 3-cycles are unsatifiable under any situation and therefore can be removed without affecting the defense semantics of an AF. Then, we introduce a new notion of defense equivalence of AFs, and compare defense equivalence with standard equivalence and strong equivalence, respectively. Finally, by exploiting defense semantics, we define two kinds of reasons for accepting arguments, i.e., direct reasons and root reasons, and a notion of root equivalence of AFs that can be used in argumentation summarization.
翻訳日:2023-11-23 02:59:48 公開日:2023-11-20
# IEC-61850スマートグリッドにおける通信のSDNに基づく動的サイバーセキュリティフレームワーク

SDN-Based Dynamic Cybersecurity Framework of IEC-61850 Communications in Smart Grid ( http://arxiv.org/abs/2311.12205v1 )

ライセンス: Link先を確認
Mansi Girdhar, Junho Hong, Wencong Su, Akila Herath, Chen-Ching Liu(参考訳) 近年、重要なインフラと電力網が一連のサイバー攻撃を経験しており、一時的な大規模な停電につながっている。 ほとんどの変電所は無人で物理的なセキュリティ保護が制限されているため、電力網の変電所へのサイバー侵入はリスクをもたらす。 ソフトウェア定義ネットワーク(SDN)は現在,サブステーション自動化システムにおいて,OpenFlowプロトコルをベースとした一般的な仮想ネットワーク技術として広く利用されている。 しかし、sdnアーキテクチャのサイバー攻撃に対する感受性は近年、研究結果から明らかなように顕著に向上している。 これはSDNフレームワーク内でのサイバーセキュリティ侵害の可能性に対する懸念が高まっていることを示している。 本稿では、悪意のあるIEC 61850ベースの汎用オブジェクト指向サブステーションイベント(GOOSE)メッセージのデジタルサブステーションへの注入を検知・防止するハイブリッド侵入検知システム(IDS)統合SDNアーキテクチャを提案する。 さらに、このプログラムは障害の位置を特定し、緩和の一形態としてあるポートを無効にする。 さらに、デジタル変電所の機能を模倣したハードウェア・イン・ザ・ループ(hil)テストベッドを用いて実装例を実証し検証する。

In recent years, critical infrastructure and power grids have experienced a series of cyber-attacks, leading to temporary, widespread blackouts of considerable magnitude. Since most substations are unmanned and have limited physical security protection, cyber breaches into power grid substations present a risk. Nowadays, software-defined network (SDN), a popular virtual network technology based on the OpenFlow protocol is being widely used in the substation automation system. However, the susceptibility of SDN architecture to cyber-attacks has exhibited a notable increase in recent years, as indicated by research findings. This suggests a growing concern regarding the potential for cybersecurity breaches within the SDN framework. In this paper, we propose a hybrid intrusion detection system (IDS)-integrated SDN architecture for detecting and preventing the injection of malicious IEC 61850-based generic object-oriented substation event (GOOSE) messages in a digital substation. Additionally, this program locates the fault's location and, as a form of mitigation, disables a certain port. Furthermore, implementation examples are demonstrated and verified using a hardware-in-the-loop (HIL) testbed that mimics the functioning of a digital substation.
翻訳日:2023-11-23 02:59:31 公開日:2023-11-20
# 負に訓練された生成AIモデル崩壊

Nepotistically Trained Generative-AI Models Collapse ( http://arxiv.org/abs/2311.12202v1 )

ライセンス: Link先を確認
Matyas Bohacek and Hany Farid(参考訳) 膨大な量の人為的コンテンツに基づいて訓練されたAI(人工知能)画像合成は、トレーニングデータの視覚的外観と一致するセマンティックコヒーレントな画像を生成することができる。 これらの生成AIモデルは, 少量でも再学習した場合, 歪みのある画像を生成する。 また,この歪みはリトレーニングに使用されるテキストプロンプトを超えて広がり,一度毒殺されたモデルでは,実際の画像のみをリトレーニングした後でも完全に回復することは困難であることを示した。

Trained on massive amounts of human-generated content, AI (artificial intelligence) image synthesis is capable of reproducing semantically coherent images that match the visual appearance of its training data. We show that when retrained on even small amounts of their own creation, these generative-AI models produce highly distorted images. We also show that this distortion extends beyond the text prompts used in retraining, and that once poisoned, the models struggle to fully heal even after retraining on only real images.
翻訳日:2023-11-23 02:59:12 公開日:2023-11-20
# 音声分離における階層最適化と動的サンプルドロップアウトによるラベル割当学習の改善

Improving Label Assignments Learning by Dynamic Sample Dropout Combined with Layer-wise Optimization in Speech Separation ( http://arxiv.org/abs/2311.12199v1 )

ライセンス: Link先を確認
Chenyang Gao, Yue Gu, Ivan Marsic(参考訳) 教師付き音声分離では、モデルの更新に最適な順列を選択することにより、ラベル曖昧性に対処するために順列不変トレーニング(pit)が広く使われている。 その成功にもかかわらず、以前の研究では、PITは近隣のエポックにおける過剰なラベル割り当ての切り替えに悩まされており、より良いラベル割り当てを学ぶためのモデルを妨げることが示されている。 そこで本稿では,従来の最良ラベル割り当てと評価指標を考慮して,学習中のラベル割り当てに悪影響を及ぼす可能性のあるサンプルを除外する,新しいトレーニング戦略であるdynamic sample dropout(dsd)を提案する。 さらに、レイヤ分離の解決によるパフォーマンス向上のためのレイヤワイド最適化(LO)も含んでいます。 実験により,dsdとloの組み合わせがベースラインを上回り,ラベル割り当ての過度な切り替えやレイヤ分離の問題を解決することを示した。 提案するdsdとloのアプローチは実装が容易であり、追加のトレーニングセットやステップは必要とせず、様々な音声分離タスクに汎用性を示す。

In supervised speech separation, permutation invariant training (PIT) is widely used to handle label ambiguity by selecting the best permutation to update the model. Despite its success, previous studies showed that PIT is plagued by excessive label assignment switching in adjacent epochs, impeding the model to learn better label assignments. To address this issue, we propose a novel training strategy, dynamic sample dropout (DSD), which considers previous best label assignments and evaluation metrics to exclude the samples that may negatively impact the learned label assignments during training. Additionally, we include layer-wise optimization (LO) to improve the performance by solving layer-decoupling. Our experiments showed that combining DSD and LO outperforms the baseline and solves excessive label assignment switching and layer-decoupling issues. The proposed DSD and LO approach is easy to implement, requires no extra training sets or steps, and shows generality to various speech separation tasks.
翻訳日:2023-11-23 02:59:01 公開日:2023-11-20
# PhysGaussian: 生成ダイナミクスのための物理集積型3Dガウシアン

PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics ( http://arxiv.org/abs/2311.12198v1 )

ライセンス: Link先を確認
Tianyi Xie, Zeshun Zong, Yuxin Qiu, Xuan Li, Yutao Feng, Yin Yang, Chenfanfu Jiang(参考訳) 3次元ガウス内における物理的に接地したニュートン力学をシームレスに統合し,高品質な運動合成を実現する新しい手法であるphysgaussianを紹介する。 カスタム・マテリアル・ポイント法(mpm)を用いて,物理的に有意味な運動的変形と機械的応力特性を持つ3次元ガウス核を,連続力学原理に従って拡張した。 本手法の特色は物理シミュレーションと視覚レンダリングのシームレスな統合である:両コンポーネントはそれぞれの離散表現と同じ3次元ガウスカーネルを使用する。 これは三角形/テトラエドロンメッシュ、行進立方体、ケージメッシュ、その他の幾何学的埋め込みの必要性を否定し、「あなたが見ているものは、シミュレーションする(WS$^2$)ものである」という原則を強調している。 本手法は, 弾性体, 金属, 非ニュートン流体, 粒状物質を含む多種多様な材料にまたがる特異な汎用性を示し, 新たな視点と動きを持つ多様な視覚コンテンツを作成する上での強力な能力を示す。 私たちのプロジェクトページは、https://xpandora.github.io/physgaussian/です。

We introduce PhysGaussian, a new method that seamlessly integrates physically grounded Newtonian dynamics within 3D Gaussians to achieve high-quality novel motion synthesis. Employing a custom Material Point Method (MPM), our approach enriches 3D Gaussian kernels with physically meaningful kinematic deformation and mechanical stress attributes, all evolved in line with continuum mechanics principles. A defining characteristic of our method is the seamless integration between physical simulation and visual rendering: both components utilize the same 3D Gaussian kernels as their discrete representations. This negates the necessity for triangle/tetrahedron meshing, marching cubes, "cage meshes," or any other geometry embedding, highlighting the principle of "what you see is what you simulate (WS$^2$)." Our method demonstrates exceptional versatility across a wide variety of materials--including elastic entities, metals, non-Newtonian fluids, and granular materials--showcasing its strong capabilities in creating diverse visual content with novel viewpoints and movements. Our project page is at: https://xpandora.github.io/PhysGaussian/
翻訳日:2023-11-23 02:58:45 公開日:2023-11-20
# diffavatar: 微分可能なシミュレーションによる衣服最適化

DiffAvatar: Simulation-Ready Garment Optimization with Differentiable Simulation ( http://arxiv.org/abs/2311.12194v1 )

ライセンス: Link先を確認
Yifei Li, Hsiao-yu Chen, Egor Larionov, Nikolaos Sarafianos, Wojciech Matusik, Tuur Stuyck(参考訳) デジタルアバターのリアリズムは、自己表現とカスタマイズを備えたテレプレゼンスアプリケーションの実現に不可欠である。 このリアリズムの重要な側面は、本物の身体の形と衣服の両方の物理的正確さに由来する。 物理シミュレーションは, 高品質でリアルな動作を創出するが, 布のシミュレーションには, 身体形状や衣服の質を正確に推定する必要がある。 しかし、手動でこれらの資産を作成し、パラメータを校正することは労働集約的であり、専門的な専門知識を必要とする。 このギャップに対処するために、微分可能シミュレーションを用いて身体と衣服の共最適化を行う新しいアプローチであるDiffAvatarを提案する。 物理シミュレーションを最適化ループに統合し,布の複雑な非線形挙動と身体との複雑な相互作用を考慮し,身体と衣服の形状を復元し,物理的に妥当な方法で重要な材料パラメータを抽出する。 実験では,下流のアプリケーションで容易に使用可能な衣服や体型を現実的に生成できることを実証した。

The realism of digital avatars is crucial in enabling telepresence applications with self-expression and customization. A key aspect of this realism originates from the physical accuracy of both a true-to-life body shape and clothing. While physical simulations can produce high-quality, realistic motions for clothed humans, they require precise estimation of body shape and high-quality garment assets with associated physical parameters for cloth simulations. However, manually creating these assets and calibrating their parameters is labor-intensive and requires specialized expertise. To address this gap, we propose DiffAvatar, a novel approach that performs body and garment co-optimization using differentiable simulation. By integrating physical simulation into the optimization loop and accounting for the complex nonlinear behavior of cloth and its intricate interaction with the body, our framework recovers body and garment geometry and extracts important material parameters in a physically plausible way. Our experiments demonstrate that our approach generates realistic clothing and body shape that can be easily used in downstream applications.
翻訳日:2023-11-23 02:58:22 公開日:2023-11-20
# トラッピングボース・フェルミ混合系の相関効果:実測結果

Correlation Effects in a Trapped Bose-Fermi Mixture: Exact Results ( http://arxiv.org/abs/2311.12192v1 )

ライセンス: Link先を確認
Ofir E. Alon and Lorenz S. Cederbaum(参考訳) ボース-アインシュタイン凝縮物に埋め込まれたフェルミイオン性不純物の多体特性を、ボース-フェルミ混合物の調和相互作用モデルである可解モデルを用いて解析した。 1粒子と2粒子の密度、密度行列の減少、フェルミオンとボソンの相関関数は、位置と運動量空間の両方において閉じた形で規定される。 様々なコヒーレンスの長さを解析する。 位置空間と運動量空間における一階のコヒーレンス長は等しく、二階の量は実質的に異なる。 不純物と凝縮物の間の唯一の相互作用が説明できる例を示す。 含意は簡潔に議論される。

Many-body properties of a fermionic impurity embedded in a Bose-Einstein condensate are analyzed analytically using a solvable model, the harmonic-interaction model for Bose-Fermi mixtures. The one-particle and two-particle densities, reduced density matrices, and correlation functions of the fermions and bosons, both in position and momentum spaces, are prescribed in closed form. The various coherence lengths are analyzed. We show that the first-order coherence lengths in position and momentum spaces are equal whereas the second-order quantities can differ substantially. Illustrative examples where the sole interaction is between the impurity and the condensate are presented. Implications are briefly discussed.
翻訳日:2023-11-23 02:58:02 公開日:2023-11-20
# ChatGPTとポストテスト確率

ChatGPT and post-test probability ( http://arxiv.org/abs/2311.12188v1 )

ライセンス: Link先を確認
Samuel J. Weisenthal(参考訳) ChatGPTのような強化学習に基づく大規模言語モデルは、医療を含む多くの分野の人間専門家を支援する可能性があると考えられている。 しかし、chatgptの医療における重要なタスクを実行する能力には、形式的で確率的な医療診断推論という、ほとんど作業がない。 このタイプの推論は、例えば、テスト前確率をテスト後確率に更新するために使用される。 本研究では,ChatGPTのタスク実行能力について検討する。 特に、私たちはchatgptに医療診断にベイズルールを使う方法の例を示してもらいます。 私たちのプロンプトは、純粋確率(例えば、"posterior probability"の要求)から、医学診断文献から用語を使用するクエリ(例えば、"post-test probability"の要求)まで幅広い。 医療変数名の導入は、chatgptが犯すエラー数の増加にどのようにつながるかを示す。 また,この結果から,ChatGPTがエラーを部分的に回避する上で,プロンプトエンジニアリングをどのように利用できるかを示す。 我々は,最近の感度と特異性に関するコメンテータに照らして,その結果について考察する。 また,大規模言語モデルに対する新たな研究の方向性について述べる。

Reinforcement learning-based large language models, such as ChatGPT, are believed to have potential to aid human experts in many domains, including healthcare. There is, however, little work on ChatGPT's ability to perform a key task in healthcare: formal, probabilistic medical diagnostic reasoning. This type of reasoning is used, for example, to update a pre-test probability to a post-test probability. In this work, we probe ChatGPT's ability to perform this task. In particular, we ask ChatGPT to give examples of how to use Bayes rule for medical diagnosis. Our prompts range from queries that use terminology from pure probability (e.g., requests for a "posterior probability") to queries that use terminology from the medical diagnosis literature (e.g., requests for a "post-test probability"). We show how the introduction of medical variable names leads to an increase in the number of errors that ChatGPT makes. Given our results, we also show how one can use prompt engineering to facilitate ChatGPT's partial avoidance of these errors. We discuss our results in light of recent commentaries on sensitivity and specificity. We also discuss how our results might inform new research directions for large language models.
翻訳日:2023-11-23 02:57:50 公開日:2023-11-20
# HRIの信頼を測る一般的な(良い)慣行

Common (good) practices measuring trust in HRI ( http://arxiv.org/abs/2311.12182v1 )

ライセンス: Link先を確認
Patrick Holthaus and Alessandra Rossi(参考訳) ロボットへの信頼は、人々の日常生活にロボットを取り入れるために欠かせないと広く信じられている。 それゆえ、過去数十年の文献は、これらの技術に対する信頼を育むために、ロボット(そしてより一般的には、あらゆるエージェント)の信頼度を測定することに重点を置いていることは理解できる。 研究者たちは、人間とロボットのインタラクション(hri)に対する信頼度を、物理的な接触なしにテキスト記述や画像に基づいて測定するなど、さまざまな方法でロボットを信頼する方法を模索している。 それでも、信頼は複雑な振る舞いであり、影響を受け、相互作用するエージェント(人間、ロボット、ペットなど)、それ自身(能力、信頼性など)、コンテキスト(タスクなど)、環境(公共空間対プライベートスペース対ワークスペースなど)など、いくつかの要因に依存する。 一般的に、ほとんどのロボット工学者は、信頼の不十分なレベルが離脱のリスクにつながり、テクノロジーの過度な信頼が過度に依存し、例えば緊急状況において危険を継承する可能性があることに同意している。 したがって、研究コミュニティが、ロボットや技術に対する人々の信頼度を測定するための信頼できる方法にアクセスできることが非常に重要である。 本稿では、現状の手法とその強みを概説し、(一部)弱くカバーされた側面を特定し、HRIに対する信頼に影響を及ぼすより包括的な要因をカバーする可能性について論じる。

Trust in robots is widely believed to be imperative for the adoption of robots into people's daily lives. It is, therefore, understandable that the literature of the last few decades focuses on measuring how much people trust robots -- and more generally, any agent - to foster such trust in these technologies. Researchers have been exploring how people trust robot in different ways, such as measuring trust on human-robot interactions (HRI) based on textual descriptions or images without any physical contact, during and after interacting with the technology. Nevertheless, trust is a complex behaviour, and it is affected and depends on several factors, including those related to the interacting agents (e.g. humans, robots, pets), itself (e.g. capabilities, reliability), the context (e.g. task), and the environment (e.g. public spaces vs private spaces vs working spaces). In general, most roboticists agree that insufficient levels of trust lead to a risk of disengagement while over-trust in technology can cause over-reliance and inherit dangers, for example, in emergency situations. It is, therefore, very important that the research community has access to reliable methods to measure people's trust in robots and technology. In this position paper, we outline current methods and their strengths, identify (some) weakly covered aspects and discuss the potential for covering a more comprehensive amount of factors influencing trust in HRI.
翻訳日:2023-11-23 02:57:31 公開日:2023-11-20
# 低資源言語における自動文アライメントのためのクローズドアクセス多言語埋め込みの活用

Leveraging Closed-Access Multilingual Embedding for Automatic Sentence Alignment in Low Resource Languages ( http://arxiv.org/abs/2311.12179v1 )

ライセンス: Link先を確認
Idris Abdulmumin and Auwal Abubakar Khalid and Shamsuddeen Hassan Muhammad and Ibrahim Said Ahmad and Lukman Jibril Aliyu and Babangida Sani and Bala Mairiga Abduljalil and Sani Ahmad Hassan(参考訳) 機械翻訳における質的並列データの重要性は長い間決定されてきたが、世界言語の大部分にとって、それを実現するのは常に困難であり、主な原因は、関連するコストとこれらの言語へのアクセシビリティの欠如である。 オンライン記事から、自動的なアプローチで並列データセットを得る可能性にもかかわらず、法医学的な調査は、不一致や誤った言語コードなど、品質に関する多くの問題を発見した。 本稿では, クローズドアクセス型 Cohere multilingual 埋め込みを慎重に活用した, 単純だが定性的な並列文整合器を提案する。 提案手法はフロレスとマファンドmtで94.96$と54.83$f1点を達成し、それぞれ3.64$と0.64$であった。 また,MAFAND-MTデータセットを用いて翻訳モデルのトレーニングを行った場合,LASERよりも5 BLEUスコアが向上した。 私たちのコードとデータはここで研究目的で利用可能です(https://github.com/abumafrim/Cohere-Align)。

The importance of qualitative parallel data in machine translation has long been determined but it has always been very difficult to obtain such in sufficient quantity for the majority of world languages, mainly because of the associated cost and also the lack of accessibility to these languages. Despite the potential for obtaining parallel datasets from online articles using automatic approaches, forensic investigations have found a lot of quality-related issues such as misalignment, and wrong language codes. In this work, we present a simple but qualitative parallel sentence aligner that carefully leveraged the closed-access Cohere multilingual embedding, a solution that ranked second in the just concluded #CoHereAIHack 2023 Challenge (see https://ai6lagos.devpost.com). The proposed approach achieved $94.96$ and $54.83$ f1 scores on FLORES and MAFAND-MT, compared to $3.64$ and $0.64$ of LASER respectively. Our method also achieved an improvement of more than 5 BLEU scores over LASER, when the resulting datasets were used with MAFAND-MT dataset to train translation models. Our code and data are available for research purposes here (https://github.com/abumafrim/Cohere-Align).
翻訳日:2023-11-23 02:57:02 公開日:2023-11-20
# LABELMAKER:RGB-D軌道からの自動セマンティックラベル生成

LABELMAKER: Automatic Semantic Label Generation from RGB-D Trajectories ( http://arxiv.org/abs/2311.12174v1 )

ライセンス: Link先を確認
Silvan Weder, Hermann Blum, Francis Engelmann, Marc Pollefeys(参考訳) セマンティックアノテーションは知覚モデルの訓練や評価には不可欠だが、取得には非常にコストがかかる。 この作業は、完全に自動化された2D/3Dラベリングフレームワークを導入し、人間の介入なしに、ScanNetのような手動アノテーション付きデータセットと同等(あるいはそれ以上)の精度でRGB-Dスキャンのラベルを生成することができる。 我々のアプローチは、最先端のセグメンテーションモデルとニューラルレンダリングによる3Dリフトのアンサンブルに基づいている。 我々は、scannetデータセットのラベルを生成し、以前ラベルなしだったarkitscenesデータセットを自動的にラベル付けすることにより、 labelmakerパイプラインの有効性を実証する。 コードとモデルはhttps://labelmaker.orgで入手できる。

Semantic annotations are indispensable to train or evaluate perception models, yet very costly to acquire. This work introduces a fully automated 2D/3D labeling framework that, without any human intervention, can generate labels for RGB-D scans at equal (or better) level of accuracy than comparable manually annotated datasets such as ScanNet. Our approach is based on an ensemble of state-of-the-art segmentation models and 3D lifting through neural rendering. We demonstrate the effectiveness of our LabelMaker pipeline by generating significantly better labels for the ScanNet datasets and automatically labelling the previously unlabeled ARKitScenes dataset. Code and models are available at https://labelmaker.org
翻訳日:2023-11-23 02:56:40 公開日:2023-11-20
# ランダム木におけるノード分類

Node classification in random trees ( http://arxiv.org/abs/2311.12167v1 )

ライセンス: Link先を確認
Wouter W. L. Nuijten, Vlado Menkovski(参考訳) ランダムな木として構造化されたオブジェクトの分類法を提案する。 本研究の目的は,木構造がノード属性(典型的には高次元埋め込み)に関連付けられた設定において,ノードラベル割り当ての分布をモデル化することである。 ツリートポロジーは規定されておらず、推論中にラベルの割り当ては存在しない。 木(あるいは一般にグラフ)におけるノードラベル割り当ての分布を生成する他の方法は、ラベル割り当ての条件付き独立性を仮定するか、固定されたグラフトポロジーで操作するか、ノードラベルの一部を観察する必要がある。 本手法では,ランダム木のトポロジーと関連するgibbs分布を持つマルコフネットワークを定義する。 ランダムツリーとノード埋め込みで動作するグラフニューラルネットワークを用いてギブス分布をパラメータ化する。 これにより、与えられたランダムツリーに対するノード割り当ての確率を推定し、MCMCを用いてノード割り当ての分布からサンプリングすることができる。 本研究では,Stanford Sentiment Treebank データセットのノード分類タスクについて評価を行った。 本手法は,このデータセットのベースラインを上回り,ランダム木におけるノードラベルの結合分布のモデル化に有効性を示す。

We propose a method for the classification of objects that are structured as random trees. Our aim is to model a distribution over the node label assignments in settings where the tree data structure is associated with node attributes (typically high dimensional embeddings). The tree topology is not predetermined and none of the label assignments are present during inference. Other methods that produce a distribution over node label assignment in trees (or more generally in graphs) either assume conditional independence of the label assignment, operate on a fixed graph topology, or require part of the node labels to be observed. Our method defines a Markov Network with the corresponding topology of the random tree and an associated Gibbs distribution. We parameterize the Gibbs distribution with a Graph Neural Network that operates on the random tree and the node embeddings. This allows us to estimate the likelihood of node assignments for a given random tree and use MCMC to sample from the distribution of node assignments. We evaluate our method on the tasks of node classification in trees on the Stanford Sentiment Treebank dataset. Our method outperforms the baselines on this dataset, demonstrating its effectiveness for modeling joint distributions of node labels in random trees.
翻訳日:2023-11-23 02:56:24 公開日:2023-11-20
# 物理対応GANを用いた時間相関高分解能注入プロファイルの作成

Creating Temporally Correlated High-Resolution Power Injection Profiles Using Physics-Aware GAN ( http://arxiv.org/abs/2311.12166v1 )

ライセンス: Link先を確認
Hritik Gopal Shah, Behrouz Azimian, Anamitra Pal(参考訳) 従来のスマートメーターは、リアルタイムな意思決定に必要な粒度を欠いている。 この現実的な問題に対処するため,凸最適化層を用いて高解像度出力に時間的一貫性を強制する生成逆ネットワーク(GAN)モデルを構築した。 GANモデルのユニークな特徴は、歴史的スマートメーターデータから得られる遅い時間スケール集約電力情報のみに基づいて訓練されていることである。 その結果,15分間の平均消費電力情報から時間的に相関した瞬時電力注入プロファイルを作成することができた。 この革新的なアプローチは、ニューロン間制約を強調し、分散システムにおける高速状態推定を改善するための有望な方法を提供し、そのようなシステムを監視するためのデータ駆動ソリューションの適用性を高める。

Traditional smart meter measurements lack the granularity needed for real-time decision-making. To address this practical problem, we create a generative adversarial networks (GAN) model that enforces temporal consistency on its high-resolution outputs via hard inequality constraints using a convex optimization layer. A unique feature of our GAN model is that it is trained solely on slow timescale aggregated power information obtained from historical smart meter data. The results demonstrate that the model can successfully create minutely interval temporally-correlated instantaneous power injection profiles from 15-minute average power consumption information. This innovative approach, emphasizing inter-neuron constraints, offers a promising avenue for improved high-speed state estimation in distribution systems and enhances the applicability of data-driven solutions for monitoring such systems.
翻訳日:2023-11-23 02:56:05 公開日:2023-11-20
# 量子開始スコア

Quantum Inception Score ( http://arxiv.org/abs/2311.12163v1 )

ライセンス: Link先を確認
Akira Sone and Naoki Yamamoto(参考訳) 機械学習における古典的生成モデルの成功に触発されて、量子バージョンの熱心な探索が最近始まった。 この旅に出発するためには、量子生成モデルの質を評価するための関連する計量を開発することが重要である。 本稿では、与えられたデータセットを分類する量子チャネルの古典的容量と品質を関連付ける量子開始スコアを提案する。 この提案した尺度の下では、量子生成モデルは量子コヒーレンスと絡み合いの存在により、従来のモデルよりも優れた品質を提供する。 最後に、量子ゆらぎ定理を用いて、量子生成モデルの品質の物理的制限を特徴づける。

Motivated by the great success of classical generative models in machine learning, enthusiastic exploration of their quantum version has recently started. To depart on this journey, it is important to develop a relevant metric to evaluate the quality of quantum generative models; in the classical case, one such examples is the inception score. In this paper, we propose the quantum inception score, which relates the quality to the classical capacity of the quantum channel that classifies a given dataset. We prove that, under this proposed measure, the quantum generative models provide better quality than their classical counterparts because of the presence of quantum coherence and entanglement. Finally, we harness the quantum fluctuation theorem to characterize the physical limitation of the quality of quantum generative models.
翻訳日:2023-11-23 02:55:52 公開日:2023-11-20
# 部分観測型強化学習のための効率的な計画付き確率表現

Provable Representation with Efficient Planning for Partially Observable Reinforcement Learning ( http://arxiv.org/abs/2311.12244v1 )

ライセンス: Link先を確認
Hongming Zhang, Tongzheng Ren, Chenjun Xiao, Dale Schuurmans, Bo Dai(参考訳) 実世界の強化学習問題では、状態情報は部分的にのみ観測可能であり、マルコフ決定過程の基本的な仮定を破り、結果として性能が低下する。 部分的に観察可能なマルコフ決定プロセスは、この問題を学習、探索、計画に明示的に考慮するために導入されたが、重要な計算および統計上の課題を提示している。 これらの課題に対処するために,表現ビューを活用し,部分的観察を効果的に適用可能な強化学習アルゴリズムのためのコヒーレントな設計枠組みを提案する。 提案手法の統計的効率を正当化するための理論的解析を行う。 また,提案アルゴリズムは,様々なベンチマークに偏り部分的な観察を行うことで,最先端の性能を超えることができることを示す。

In real-world reinforcement learning problems, the state information is often only partially observable, which breaks the basic assumption in Markov decision processes, and thus, leads to inferior performances. Partially Observable Markov Decision Processes have been introduced to explicitly take the issue into account for learning, exploration, and planning, but presenting significant computational and statistical challenges. To address these difficulties, we exploit the representation view, which leads to a coherent design framework for a practically tractable reinforcement learning algorithm upon partial observations. We provide a theoretical analysis for justifying the statistical efficiency of the proposed algorithm. We also empirically demonstrate the proposed algorithm can surpass state-of-the-art performance with partial observations across various benchmarks, therefore, pushing reliable reinforcement learning towards more practical applications.
翻訳日:2023-11-23 02:46:45 公開日:2023-11-20
# InteraSSort: 大規模言語モデルを用いた対話型アソシエーション計画

InteraSSort: Interactive Assortment Planning Using Large Language Models ( http://arxiv.org/abs/2311.12241v1 )

ライセンス: Link先を確認
Saketh Reddy Karra, Theja Tulabandhula(参考訳) 複数の商用製品に不可欠なアソシエーションプランニングは、eコマースと小売のセッティングで研究されている重要な問題である。 問題の多くの変種とビジネスソリューションへの統合は、既存の文献で徹底的に研究されている。 しかし、店内計画の煩雑な複雑さと、強力なドメイン知識を持つ店内プランナーの間での最適化能力の欠如はほとんど見落とされ続けている。 これらの課題は、しばしば複数のステークホルダーとの協力的な取り組みを必要とします。 これらの課題を緩和し,Large Language Models (LLMs) の進歩に乗じるために,対話型対話による意思決定を支援するために,LLMを最適化ツールで拡張するインターアソート(InteraSSort)を提案する。 具体的には,ユーザフレンドリーなインターフェースを特徴とするソリューションを開発した。入力テキストが相互にソートし,最適化したソリューションを出力として受信するように,最適化目標を表現できる。 我々のフレームワークは、対話的な会話を通じて追加の制約を加えることを可能にし、正確かつ高度にカスタマイズされた意思決定を容易にする。 広範囲にわたる運用管理課題に対する我々のフレームワークと潜在的な拡張の有効性を示す大規模な実験を行った。

Assortment planning, integral to multiple commercial offerings, is a key problem studied in e-commerce and retail settings. Numerous variants of the problem along with their integration into business solutions have been thoroughly investigated in the existing literature. However, the nuanced complexities of in-store planning and a lack of optimization proficiency among store planners with strong domain expertise remain largely overlooked. These challenges frequently necessitate collaborative efforts with multiple stakeholders which often lead to prolonged decision-making processes and significant delays. To mitigate these challenges and capitalize on the advancements of Large Language Models (LLMs), we propose an interactive assortment planning framework, InteraSSort that augments LLMs with optimization tools to assist store planners in making decisions through interactive conversations. Specifically, we develop a solution featuring a user-friendly interface that enables users to express their optimization objectives as input text prompts to InteraSSort and receive tailored optimized solutions as output. Our framework extends beyond basic functionality by enabling the inclusion of additional constraints through interactive conversation, facilitating precise and highly customized decision-making. Extensive experiments demonstrate the effectiveness of our framework and potential extensions to a broad range of operations management challenges.
翻訳日:2023-11-23 02:46:30 公開日:2023-11-20
# 物理化学のための量子情報の基礎

Foundations of Quantum Information for Physical Chemistry ( http://arxiv.org/abs/2311.12238v1 )

ライセンス: Link先を確認
Weijun Wu and Gregory D. Scholes(参考訳) 量子情報(quantum information)は、過去数十年で大きな進歩を遂げた分野であり、現在では化学の機会を提供している。 進歩への道のり、特に実験化学科学では、新しい概念と技術的な定義を学ぶ必要がある。 本稿では,量子力学の数学的定式化に基づく量子情報の基本的な概念を概説する。 量子ビットとその密度行列形式性,量子演算としての量子計測,情報理論,絡み合いなどについて述べる。 量子コンテキストの概念と古典的なコンテキストの違いに注目します。 また,絡み合い,相関,コヒーレンスの関係と区別についても論じる。 これらの概念の厳密な定義を明確にし、物理化学のいくつかの例を示すことを目的としている。

Quantum information, a field in which great advances have been made in the past decades, now presents opportunities for chemistry. One roadblock to progress, especially for experimental chemical science, is that new concepts and technical definitions need to be learned. In this paper, we review some basic, but sometimes misunderstood, concepts of quantum information based on the mathematical formulation of quantum mechanics that will be useful for chemists interested in discovering ways that chemistry can contribute to the quantum information field. We cover topics including qubits and their density matrix formalism, quantum measurement as a quantum operation, information theory, and entanglement. We focus on the difference between the concepts in the quantum context and the classic context. We also discuss the relation and distinction among entanglement, correlation, and coherence. We aim to clarify the rigorous definition of these concepts, and then indicate some examples in physical chemistry.
翻訳日:2023-11-23 02:46:10 公開日:2023-11-20
# ストリーミング型アーキテクチャのためのShyおよびWarded Datalog$+/$に関するオントロジー推論(技術報告)

Ontological Reasoning over Shy and Warded Datalog$+/-$ for Streaming-based Architectures (technical report) ( http://arxiv.org/abs/2311.12236v1 )

ライセンス: Link先を確認
Teodoro Baldazzi, Luigi Bellomarini, Marco Favorito, Emanuel Sallinger(参考訳) 近年、学界と産業の両方において、データログに基づくオントロジ推論システムへの関心が高まっている。 これらのシステムは、しばしばdatalog$+/-$の集団名で共有される言語を採用し、存在量化の本質的な特徴でdatalogを拡張する一方で、推論決定可能性を維持するための構文的制限を導入し、表現力と計算複雑性の間の良好なトレードオフを達成する。 実装の観点からは、現代の推論者は、限られたメモリフットプリントと優れたスケーラビリティを維持できる火山イテレータアーキテクチャのようなストリーミングベースのデータ処理システムの開発において、データベースコミュニティの膨大な経験を借りている。 本稿では,非常に有望で表現力に富み,扱いやすい2つの言語,すなわち shy と warded datalog$+/-$ に焦点を当てる。 理論的基盤を利用して、ストリーミングベースのアーキテクチャにおいて特に効率的な推論に適合する、新しい推論技術、技術的には「分岐変種」を導入する。 次に、実環境設定上のオントロジ推論タスクを効率的に解決するために、参照ストリーミングベースのエンジンであるVadalogでそれらを実装します。

Recent years witnessed a rising interest towards Datalog-based ontological reasoning systems, both in academia and industry. These systems adopt languages, often shared under the collective name of Datalog$+/-$, that extend Datalog with the essential feature of existential quantification, while introducing syntactic limitations to sustain reasoning decidability and achieve a good trade-off between expressive power and computational complexity. From an implementation perspective, modern reasoners borrow the vast experience of the database community in developing streaming-based data processing systems, such as volcano-iterator architectures, that sustain a limited memory footprint and good scalability. In this paper, we focus on two extremely promising, expressive, and tractable languages, namely, Shy and Warded Datalog$+/-$. We leverage their theoretical underpinnings to introduce novel reasoning techniques, technically, "chase variants", that are particularly fit for efficient reasoning in streaming-based architectures. We then implement them in Vadalog, our reference streaming-based engine, to efficiently solve ontological reasoning tasks over real-world settings.
翻訳日:2023-11-23 02:45:54 公開日:2023-11-20
# 遺伝的アルゴリズムによるcnn加速器の層間配管の改善

Improvements in Interlayer Pipelining of CNN Accelerators Using Genetic Algorithms ( http://arxiv.org/abs/2311.12235v1 )

ライセンス: Link先を確認
Mark Horeni, Siddharth Joshi(参考訳) エッジプラットフォームへの畳み込みニューラルネットワーク(cnns)のデプロイは、効率的なハードウェアアクセラレーションを必要とする。 このようなアクセラレーターで不要なデータ移動は、パフォーマンスと効率を不可避的に低下させる可能性がある。 そこで我々は,CNNを対象とする層融合技術を開発し,グラフベースのトポロジソートに適用した遺伝的アルゴリズム(GA)を用いてチップ外データ通信を低減する。 その結果、SIMBAのようなモバイルアーキテクチャ上でのMobileNet-v3のエネルギー効率の1.8$\times$上昇と1.9$\times$改善を示す。 このアプローチは、ワークロードのパフォーマンスを一貫して改善し、平均1.4$\times$をsimbaで、1.4$\times$をeyerisで1.12$\times$で改善します。

Deploying Convolutional Neural Networks (CNNs) on edge platforms necessitates efficient hardware acceleration. Any unnecessary data movement in such accelerators can unacceptably degrade performance and efficiency. To address this, we develop a layer fusion technique targeting CNNs, that reduces off-chip data communication using a Genetic Algorithm (GA) applied to graph-based topological sort. Results show a 1.8$\times$ increase in energy efficiency and 1.9$\times$ improvement in energy-delay product (EDP) for MobileNet-v3 on a SIMBA-like mobile architecture. Our approach consistently improves workload performance, averaging 1.4$\times$ improvement to EDP for SIMBA and 1.12$\times$ for Eyeriss.
翻訳日:2023-11-23 02:45:34 公開日:2023-11-20
# 大規模言語モデルにおける共起的・寄与的属性の統一

Unifying Corroborative and Contributive Attributions in Large Language Models ( http://arxiv.org/abs/2311.12233v1 )

ライセンス: Link先を確認
Theodora Worledge, Judy Hanwen Shen, Nicole Meister, Caleb Winston, Carlos Guestrin(参考訳) 企業、製品、サービスが大きな言語モデルを中心に出現するにつれ、これらのモデルの信頼性は、アウトプットの妥当性にかかっている。 しかし、言語モデルアウトプットを説明する手法は、2つの異なる研究分野に大別され、どちらも「属性」という言葉を使って、引用生成と学習データアトリビューションという全く別のテクニックを指している。 法的文書生成や医療質問応答など、現代の多くの応用において、両方の属性が重要である。 本研究では,大規模言語モデル属性の統一フレームワークについて論じ,提示する。 異なるタイプの属性の既存のメソッドが、統一されたフレームワークに該当することを示す。 また、このフレームワークを使って、1つまたは両方の属性が必要な実世界のユースケースについて議論します。 この統一フレームワークは,両タイプの帰属と評価の標準化を活用した,ユースケース駆動型のシステム開発をガイドするものだと考えています。

As businesses, products, and services spring up around large language models, the trustworthiness of these models hinges on the verifiability of their outputs. However, methods for explaining language model outputs largely fall across two distinct fields of study which both use the term "attribution" to refer to entirely separate techniques: citation generation and training data attribution. In many modern applications, such as legal document generation and medical question answering, both types of attributions are important. In this work, we argue for and present a unified framework of large language model attributions. We show how existing methods of different types of attribution fall under the unified framework. We also use the framework to discuss real-world use cases where one or both types of attributions are required. We believe that this unified framework will guide the use case driven development of systems that leverage both types of attribution, as well as the standardization of their evaluation.
翻訳日:2023-11-23 02:45:22 公開日:2023-11-20
# 適応非線形制御のためのデータ誘導レギュレータ

Data-Guided Regulator for Adaptive Nonlinear Control ( http://arxiv.org/abs/2311.12230v1 )

ライセンス: Link先を確認
Niyousha Rahimi and Mehran Mesbahi(参考訳) 本稿では, 複雑な非線形力学系のためのデータ駆動型フィードバックコントローラを, 未知のダイナミクスを持つ時間変動障害の存在下で設計する問題に対処する。 このような障害はシステムダイナミクスの"未知の"部分としてモデル化される。 目標は、直接ポリシー更新によるシステム状態の有限時間制御を実現すると同時に、データ駆動安定化やシステム識別に使用できる情報データを生成することだ。 まず,「レギュラライザ性」の概念を拡張し,局所境界を持つ高次項を持つ非線形システムの線形時変表現に対して,このシステム特性を特徴付ける。 そして「ラピッド・レギュラライザビリティ」は、漸近的な振る舞いとは対照的に、システムが有限時間で制御できる範囲を計測する。 次に,適応非線形制御(dg-ran)アルゴリズムのためのデータガイドレギュレーションを提案し,システム状態の制御と外乱ダイナミクスの同定に1つの軌道からの離散時系列データを利用するオンライン反復合成手法を提案する。 本手法の有効性は, 有害な環境障害の存在下での6-DOF電力降下誘導問題において実証された。

This paper addresses the problem of designing a data-driven feedback controller for complex nonlinear dynamical systems in the presence of time-varying disturbances with unknown dynamics. Such disturbances are modeled as the "unknown" part of the system dynamics. The goal is to achieve finite-time regulation of system states through direct policy updates while also generating informative data that can subsequently be used for data-driven stabilization or system identification. First, we expand upon the notion of "regularizability" and characterize this system characteristic for a linear time-varying representation of the nonlinear system with locally-bounded higher-order terms. "Rapid-regularizability" then gauges the extent by which a system can be regulated in finite time, in contrast to its asymptotic behavior. We then propose the Data-Guided Regulation for Adaptive Nonlinear Control ( DG-RAN) algorithm, an online iterative synthesis procedure that utilizes discrete time-series data from a single trajectory for regulating system states and identifying disturbance dynamics. The effectiveness of our approach is demonstrated on a 6-DOF power descent guidance problem in the presence of adverse environmental disturbances.
翻訳日:2023-11-23 02:45:07 公開日:2023-11-20
# neuroprompts:テキストから画像へのプロンプトを最適化する適応フレームワーク

NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation ( http://arxiv.org/abs/2311.12229v1 )

ライセンス: Link先を確認
Shachar Rosenman, Vasudev Lal, and Phillip Howard(参考訳) 近年のテキストから画像への拡散モデルの発展にもかかわらず、高品質な画像を得るには、それらを使う専門知識を身につけた人間による迅速な技術が必要となる。 本稿では,テキストから画像へのモデルによって生成される世代の品質を向上させるために,ユーザのプロンプトを自動的に強化する適応フレームワークであるneuropromptsを提案する。 我々のフレームワークは,人間のプロンプトエンジニアが生成したようなプロンプトを生成するために,事前訓練された言語モデルを用いて制約付きテキストデコードを利用する。 このアプローチは高品質なテキストから画像への生成を可能にし、制約セット仕様によるスタイリスティックな機能に対するユーザコントロールを提供する。 安定拡散を用いた画像生成を促進・促進するための対話型アプリケーションを作成することで,フレームワークの有用性を実証する。 さらに,人間工学的プロンプトの大規模なデータセットを用いたテキスト・画像生成実験を行い,提案手法が画像品質の向上につながる拡張プロンプトを自動生成することを示す。 私たちのコード、スクリーンキャストビデオデモ、neuropromptsのライブデモインスタンスを公開しています。

Despite impressive recent advances in text-to-image diffusion models, obtaining high-quality images often requires prompt engineering by humans who have developed expertise in using them. In this work, we present NeuroPrompts, an adaptive framework that automatically enhances a user's prompt to improve the quality of generations produced by text-to-image models. Our framework utilizes constrained text decoding with a pre-trained language model that has been adapted to generate prompts similar to those produced by human prompt engineers. This approach enables higher-quality text-to-image generations and provides user control over stylistic features via constraint set specification. We demonstrate the utility of our framework by creating an interactive application for prompt enhancement and image generation using Stable Diffusion. Additionally, we conduct experiments utilizing a large dataset of human-engineered prompts for text-to-image generation and show that our approach automatically produces enhanced prompts that result in superior image quality. We make our code, a screencast video demo and a live demo instance of NeuroPrompts publicly available.
翻訳日:2023-11-23 02:44:48 公開日:2023-11-20
# 公約問題に対する可算多項式階層

A Collapsible Polynomial Hierarchy for Promise Problems ( http://arxiv.org/abs/2311.12228v1 )

ライセンス: Link先を確認
Chirag Falor, Shu Ge and Anand Natarajan(参考訳) 多項式階層は古典的複雑性理論において広く研究されている。 本稿では,多項式階層についてよく知られた結果を,promise問題に拡張された階層のバージョンに一般化する。 本稿では,promise問題のクラスに対する存在および普遍作用素の新しい定義を提案する。 これらをBQPに適用し、Gharibianらによって提案された階層を復元する(MFCS 2018)。 さらに、我々の定義を用いて、この階層がカルプ・リプトンのようなシナリオの下で崩壊するという簡単な証明を与える。

The polynomial hierarchy has been widely studied in classical complexity theory. In this paper, we will generalize some commonly known results about the polynomial hierarchy to a version of the hierarchy extended to promise problems. This paper proposes new definitions of existential and universal operators for classes of promise problems. Applying these to BQP, we recover the hierarchy proposed by Gharibian et al. (MFCS 2018). Moreover, using our definition, we give an easy proof of the collapse of this hierarchy under a Karp-Lipton-like scenario, which was an open question for the original definition of Gharibian et al.
翻訳日:2023-11-23 02:44:29 公開日:2023-11-20
# 指を装着したカメラで衣服の色とテクスチャを分類する「deceaf & improved fisher vectors」

HandSight: DeCAF & Improved Fisher Vectors to Classify Clothing Color and Texture with a Finger-Mounted Camera ( http://arxiv.org/abs/2311.12225v1 )

ライセンス: Link先を確認
Alexander J. Medeiros, Lee Stearns, Jon E. Froehlich(参考訳) 着衣のテクスチャを分類するために,decaf とfisher vector 画像の特徴を改良した。 服を選ぶ問題は、毎日盲目の人にとって問題です。 この研究は、フィンガーマウントカメラと最先端の分類アルゴリズムでこの問題を解決する。 ソリューションを評価するために,29種類の衣服で520枚のクローズアップ画像を収集した。 我々は,(1)NanEyeGSカメラで撮影した画像データセットHCTD,(2)指に装着可能な小型カメラ,(2)我々のデータセットに適用した最先端認識アルゴリズムの評価を行い,95%の精度を実現した。 論文全体を通して,これまでの作業について議論し,現在の作業を評価し,最後に,プロジェクトの今後の方向性を示唆する。

We demonstrate the use of DeCAF and Improved Fisher Vector image features to classify clothing texture. The issue of choosing clothes is a problem for the blind every day. This work attempts to solve the issue with a finger-mounted camera and state-of-the-art classification algorithms. To evaluate our solution, we collected 520 close-up images across 29 pieces of clothing. We contribute (1) the HCTD, an image dataset taken with a NanEyeGS camera, a camera small enough to be mounted on the finger, and (2) evaluations of state-of-the-art recognition algorithms applied to our dataset - achieving an accuracy >95%. Throughout the paper, we will discuss previous work, evaluate the current work, and finally, suggest the project's future direction.
翻訳日:2023-11-23 02:44:20 公開日:2023-11-20
# ディープニューラルネットワーク加速器のための高速内積アルゴリズムとアーキテクチャ

Fast Inner-Product Algorithms and Architectures for Deep Neural Network Accelerators ( http://arxiv.org/abs/2311.12224v1 )

ライセンス: Link先を確認
Trevor E. Pogue, Nicola Nicolici(参考訳) 我々は、1968年にウィノグラードが提案したFIP(Free-pipeline Fast Inner Product)と呼ばれる新しいアルゴリズムとそのハードウェアアーキテクチャを導入する。 畳み込み層に対する無関係なウィノグラード最小フィルタリングアルゴリズムとは異なり、fipは、完全連結、畳み込み、リカレント、注意/変換層を含むマトリックス乗算に主に分解できるすべての機械学習(ml)モデル層に適用できる。 MLアクセラレータで初めてFIPを実装し、FFIPアルゴリズムと一般化アーキテクチャを提示し、FIPのクロック周波数を本質的に改善し、結果として、同様のハードウェアコストのスループットを向上する。 最後に、FIPおよびFFIPアルゴリズムおよびアーキテクチャに対するML固有の最適化に貢献する。 FFIPは従来の固定点列MLアクセラレーターにシームレスに組み込むことができ、乗算累積(MAC)ユニットの半数のスループットで同じスループットを達成することができるか、固定ハードウェア予算でデバイスに収まる最大シストリック配列サイズを2倍にすることができることを示す。 8ビットから16ビットの固定点入力を持つ非スパースMLモデルに対するFFIP実装は、同じタイプの計算プラットフォーム上でのクラス内最良解よりも高いスループットと計算効率を実現する。

We introduce a new algorithm called the Free-pipeline Fast Inner Product (FFIP) and its hardware architecture that improve an under-explored fast inner-product algorithm (FIP) proposed by Winograd in 1968. Unlike the unrelated Winograd minimal filtering algorithms for convolutional layers, FIP is applicable to all machine learning (ML) model layers that can mainly decompose to matrix multiplication, including fully-connected, convolutional, recurrent, and attention/transformer layers. We implement FIP for the first time in an ML accelerator then present our FFIP algorithm and generalized architecture which inherently improve FIP's clock frequency and, as a consequence, throughput for a similar hardware cost. Finally, we contribute ML-specific optimizations for the FIP and FFIP algorithms and architectures. We show that FFIP can be seamlessly incorporated into traditional fixed-point systolic array ML accelerators to achieve the same throughput with half the number of multiply-accumulate (MAC) units, or it can double the maximum systolic array size that can fit onto devices with a fixed hardware budget. Our FFIP implementation for non-sparse ML models with 8 to 16-bit fixed-point inputs achieves higher throughput and compute efficiency than the best-in-class prior solutions on the same type of compute platform.
翻訳日:2023-11-23 02:44:04 公開日:2023-11-20
# 統合センシングとコミュニケーションにおけるデジタルツインベースユーザ中心エッジ連続学習

Digital Twin-Based User-Centric Edge Continual Learning in Integrated Sensing and Communication ( http://arxiv.org/abs/2311.12223v1 )

ライセンス: Link先を確認
Shisheng Hu, Jie Gao, Xinyu Huang, Mushu Li, Kaige Qu, Conghao Zhou, and Xuemin (Sherman) Shen(参考訳) 本稿では,統合センシング通信(ISAC)システムにおけるセンサデータを高精度かつ効率的な資源利用で処理するための,ディジタルツイン(DT)ベースのユーザ中心型アプローチを提案する。 検討されたシナリオは、軽量なディープニューラルネットワーク(DNN)を備えたISACデバイスと、大きなDNNを備えたモバイルエッジコンピューティング(MEC)サーバである。 センシングデータを収集した後、ISACデバイスはデータをローカルに処理するか、より高精度なデータ処理のためにサーバにアップロードする。 データドリフトに対処するために、サーバは、連続学習(continual learning)と呼ばれる、必要に応じて軽量なdnnを更新する。 本研究の目的は,DNN更新におけるデータオフロードとデータ選択の2つの決定を最適化することで,MECサーバの長期平均計算コストを最小化することである。 ISAC装置のDTは、決定をクローズドフォーム式で行うサーバの長期計算コストに対する潜在的な決定の影響を予測するために構築される。 DNNに基づく人間動作認識タスクの実行実験を行い、計算コスト最小化における提案手法の優れた性能を示す。

In this paper, we propose a digital twin (DT)-based user-centric approach for processing sensing data in an integrated sensing and communication (ISAC) system with high accuracy and efficient resource utilization. The considered scenario involves an ISAC device with a lightweight deep neural network (DNN) and a mobile edge computing (MEC) server with a large DNN. After collecting sensing data, the ISAC device either processes the data locally or uploads them to the server for higher-accuracy data processing. To cope with data drifts, the server updates the lightweight DNN when necessary, referred to as continual learning. Our objective is to minimize the long-term average computation cost of the MEC server by optimizing two decisions, i.e., sensing data offloading and sensing data selection for the DNN update. A DT of the ISAC device is constructed to predict the impact of potential decisions on the long-term computation cost of the server, based on which the decisions are made with closed-form formulas. Experiments on executing DNN-based human motion recognition tasks are conducted to demonstrate the outstanding performance of the proposed DT-based approach in computation cost minimization.
翻訳日:2023-11-23 02:43:39 公開日:2023-11-20
# 機械学習による中性原子量子ビットの強化計測

Enhanced Measurement of Neutral Atom Qubits with Machine Learning ( http://arxiv.org/abs/2311.12217v1 )

ライセンス: Link先を確認
L. Phuttitarn, B. M. Becker, R. Chinnarasu, T. M. Graham, and M. Saffman(参考訳) 中性原子量子プロセッサにおいて,教師付き畳み込みニューラルネットワーク(cnn)によって支援される量子ビット状態の測定を示す。 我々は中性原子量子ビットの読み出しデータを解析するための2つのCNNアーキテクチャ:コンパクトな5層シングルキュービットCNNアーキテクチャと6層マルチキュービットCNNアーキテクチャを提案する。 両アーキテクチャを従来のガウスしきい値解析法と比較する。 無視可能なクロストークを経験するスパースアレイ (9 {\mu}m 原子分離) では, ベンチマークと比較すると, マルチキュービットアーキテクチャとシングルキュービットアーキテクチャの誤差を最大32%, 56%低減した。 クロストークの読み出しに苦しむ密集した配列(5 {\mu}m原子分離)では、ベンチマークと比較して、マルチキュービットとシングルキュービットのcnnアーキテクチャにおいて、それぞれ43%と32%のエラー低減が観察された。 隣接量子ビットの予測状態間の相関を調べた結果,マルチキュービットCNNアーキテクチャはクロストーク相関を78.5%まで低減することがわかった。 この研究は、中性原子量子コンピュータ上でリアルタイム読み出し処理として実装されるCNNネットワークの概念実証を行い、より高速な読み出し時間と忠実さの向上を可能にする。

We demonstrate qubit state measurements assisted by a supervised convolutional neural network (CNN) in a neutral atom quantum processor. We present two CNN architectures for analyzing neutral atom qubit readout data: a compact 5-layer single-qubit CNN architecture and a 6-layer multi-qubit CNN architecture. We benchmark both architectures against a conventional Gaussian threshold analysis method. In a sparse array (9 {\mu}m atom separation) which experiences negligible crosstalk, we observed up to 32% and 56% error reduction for the multi-qubit and single-qubit architectures respectively, as compared to the benchmark. In a tightly spaced array (5 {\mu}m atom separation), which suffers from readout crosstalk, we observed up to 43% and 32% error reduction in the multi-qubit and single-qubit CNN architectures respectively, as compared to the benchmark. By examining the correlation between the predicted states of neighboring qubits, we found that the multi-qubit CNN architecture reduces the crosstalk correlation up to 78.5%. This work demonstrates a proof of concept for a CNN network to be implemented as a real-time readout processing method on a neutral atom quantum computer, enabling faster readout time and improved fidelity.
翻訳日:2023-11-23 02:43:20 公開日:2023-11-20
# ランダムなフーリエシグネチャの特徴

Random Fourier Signature Features ( http://arxiv.org/abs/2311.12214v1 )

ライセンス: Link先を確認
Csaba Toth, Harald Oberhauser, Zoltan Szabo(参考訳) テンソル代数は、確率解析による魅力的な理論的保証を伴う符号核と呼ばれる任意の長さの列に対する最も強力な類似性の尺度の一つである。 シグネチャカーネルを計算する以前のアルゴリズムは、長さとシーケンス数で二乗的にスケールする。 この深刻な計算ボトルネックを緩和するため,本論文では,シーケンスの非ユークリッド領域に作用するシグネチャカーネルのランダムなフーリエ特徴に基づく高速化を開発した。 提案したシグネチャカーネルの非バイアス推定器に対して,その計算をシーケンス長と数に線形に保ちながら均一な近似保証を示す。 さらに,近年のテンソル射影の進歩と相まって,よりスケーラブルな2つの時系列特徴を導出した。 実験の結果,中規模データセットにおける計算コストの削減は,精度の面では無視できない価格で実現され,最大100万時系列までの大規模データセットへのスケールアップが可能となった。

Tensor algebras give rise to one of the most powerful measures of similarity for sequences of arbitrary length called the signature kernel accompanied with attractive theoretical guarantees from stochastic analysis. Previous algorithms to compute the signature kernel scale quadratically in terms of the length and the number of the sequences. To mitigate this severe computational bottleneck, we develop a random Fourier feature-based acceleration of the signature kernel acting on the inherently non-Euclidean domain of sequences. We show uniform approximation guarantees for the proposed unbiased estimator of the signature kernel, while keeping its computation linear in the sequence length and number. In addition, combined with recent advances on tensor projections, we derive two even more scalable time series features with favourable concentration properties and computational complexity both in time and memory. Our empirical results show that the reduction in computational cost comes at a negligible price in terms of accuracy on moderate-sized datasets, and it enables one to scale to large datasets up to a million time series.
翻訳日:2023-11-23 02:42:57 公開日:2023-11-20
# sparsityによる深層ニューラルネットワークの一般化推定

Estimating the Generalization in Deep Neural Networks via Sparsity ( http://arxiv.org/abs/2104.00851v3 )

ライセンス: Link先を確認
Yang Zhao and Hao Zhang(参考訳) 一般化はディープニューラルネットワーク(DNN)の重要な機能である。 しかし、DNNの一般化能力の信頼性は、その性質のみを通して評価することは困難である。 本稿では,ネットワークスパーシティに基づく一般化ギャップを推定する新しい手法を提案する。 提案手法では,まず2つの鍵量を提案する。 それらは一般化能力と密接な関係を持ち、トレーニング結果から直接計算することができる。 次に、2つのキー量を含む単純な線形モデルを構築し、一般化ギャップを正確に推定する。 一般的なデータセット上で幅広い一般化ギャップを持つDNNを訓練することにより、DNNの一般化ギャップを推定する上で、我々の重要な量と線形モデルが効率的なツールであることを示す。

Generalization is the key capability for deep neural networks (DNNs). However, it is challenging to give a reliable measure of the generalization ability of a DNN via only its nature. In this paper, we propose a novel method for estimating the generalization gap based on network sparsity. In our method, two key quantities are proposed first. They have close relationship with the generalization ability and can be calculated directly from the training results alone. Then a simple linear model involving two key quantities are constructed to give accurate estimation of the generalization gap. By training DNNs with a wide range of generalization gap on popular datasets, we show that our key quantities and linear model could be efficient tools for estimating the generalization gap of DNNs.
翻訳日:2023-11-22 21:37:54 公開日:2023-11-20
# スケール調整による画像マッチング

Image Matching with Scale Adjustment ( http://arxiv.org/abs/2012.05582v2 )

ライセンス: Link先を確認
Yves Dufournaud, Cordelia Schmid, and Radu Horaud(参考訳) 本稿では,高分解能画像と低分解能画像の2つの異なる解像度とのマッチングの問題に対処する。 2つの画像間の解像度の差は分かっておらず、一般性を失うことなく1つの画像が高解像度画像であると仮定する。 解像度変化がスケール変化と同等の平滑化として働くことを前提として、高解像度画像のスケール空間表現を作成する。 したがって、1対1の古典画像マッチングパラダイムは、低解像度画像が高解像度画像のすべてのスケール空間表現と比較されるため、一対多となる。 このようなプロセスの成功の鍵は、スケールスペースでマッチする機能の適切な表現である。 可変スケールでの利得点の表現と抽出方法を示し、2つの異なる解像度で2つの画像を比較する方法を提案する。 本発明の方法は、測光および回転不変ディスクリプタの使用と、高分解能画像を低解像度の画像領域にマッピングする幾何学モデルと、局所的な制約と、この幾何学モデルのロバストな推定に基づく画像マッチング戦略とを含む。 大規模な実験により, 一致法は6。

In this paper we address the problem of matching two images with two different resolutions: a high-resolution image and a low-resolution one. The difference in resolution between the two images is not known and without loss of generality one of the images is assumed to be the high-resolution one. On the premise that changes in resolution act as a smoothing equivalent to changes in scale, a scale-space representation of the high-resolution image is produced. Hence the one-to-one classical image matching paradigm becomes one-to-many because the low-resolution image is compared with all the scale-space representations of the high-resolution one. Key to the success of such a process is the proper representation of the features to be matched in scale-space. We show how to represent and extract interest points at variable scales and we devise a method allowing the comparison of two images at two different resolutions. The method comprises the use of photometric- and rotation-invariant descriptors, a geometric model mapping the high-resolution image onto a low-resolution image region, and an image matching strategy based on local constraints and on the robust estimation of this geometric model. Extensive experiments show that our matching method can be used for scale changes up to a factor of 6.
翻訳日:2023-11-22 21:37:45 公開日:2023-11-20
# 関節面を3次元点と正規値に登録した人間の運動追跡

Human Motion Tracking by Registering an Articulated Surface to 3-D Points and Normals ( http://arxiv.org/abs/2012.04514v2 )

ライセンス: Link先を確認
Radu Horaud, Matti Niskanen, Guillaume Dewaele, and Edmond Boyer(参考訳) 表面を3次元データに登録することで,人間の運動追跡の問題に対処する。 本研究では,人体表象の運動パラメータと自由運動パラメータの両方の最大推定値と,そのデータが体の一部か外れたクラスタに割り当てられる確率の2つを反復的に計算する手法を提案する。 観測された点と正規点の間の新しい計量と、もう一方の面のパラメータ化曲面を導入し、後者は楕円体の集合上のブレンドとして定義される。 この測定基準は、視界と視界のどちらの観察にも適していると我々は主張する。 本手法は,不完全なシルエットから収集したスパースな視覚形状データ(3次元表面点と正規値)を用いて,人間の動きを追跡する手法である。

We address the problem of human motion tracking by registering a surface to 3-D data. We propose a method that iteratively computes two things: Maximum likelihood estimates for both the kinematic and free-motion parameters of a kinematic human-body representation, as well as probabilities that the data are assigned either to a body part, or to an outlier cluster. We introduce a new metric between observed points and normals on one side, and a parameterized surface on the other side, the latter being defined as a blending over a set of ellipsoids. We claim that this metric is well suited when one deals with either visual-hull or visual-shape observations. We illustrate the method by tracking human motions using sparse visual-shape data (3-D surface points and normals) gathered from imperfect silhouettes.
翻訳日:2023-11-22 21:37:25 公開日:2023-11-20
# ディープニューラルネットワークにおけるユニットの役割分類

Role Taxonomy of Units in Deep Neural Networks ( http://arxiv.org/abs/2011.00789v2 )

ライセンス: Link先を確認
Yang Zhao, Hao Zhang and Xiuyuan Hu(参考訳) ディープニューラルネットワーク(DNN)におけるネットワークユニットの役割を特定することは、DNNのメカニズムの理解や、ディープラーニングと神経科学の基本的なつながりの構築など、多くの面で重要である。 しかし、一般化能力の異なるDNNのユニットがどのような役割を果たせるかは不明である。 この目的のために,DNNにおけるユニットの役割分類を,トレーニングセットとテストセットを別々に選択した上で,ユニットを4つのタイプに分類する機能検索テストを導入することで行う。 これら4つのカテゴリーの比率は、2つの異なる視点からDNNの一般化能力と強く関連していることを示し、これをよく一般化したDNNの兆候を示す。

Identifying the role of network units in deep neural networks (DNNs) is critical in many aspects including giving understandings on the mechanisms of DNNs and building basic connections between deep learning and neuroscience. However, there remains unclear on which roles the units in DNNs with different generalization ability could present. To this end, we give role taxonomy of units in DNNs via introducing the retrieval-of-function test, where units are categorized into four types in terms of their functional preference on separately the training set and testing set. We show that ratios of the four categories are highly associated with the generalization ability of DNNs from two distinct perspectives, based on which we give signs of DNNs with well generalization.
翻訳日:2023-11-22 21:36:43 公開日:2023-11-20
# timeXplain -- 時系列分類器の予測を説明するフレームワーク

timeXplain -- A Framework for Explaining the Predictions of Time Series Classifiers ( http://arxiv.org/abs/2007.07606v2 )

ライセンス: Link先を確認
Felix Mujkanovic, Vanja Dosko\v{c}, Martin Schirneck, Patrick Sch\"afer, Tobias Friedrich(参考訳) 現代の時系列分類器は印象的な予測能力を示すが、その決定過程はユーザにとってブラックボックスのままである。 同時に、最近提案されたSHAPのようなモデルに依存しない説明者は、十分に設計されたドメインマッピングがあれば、機械学習モデルの予測を解釈できるようにする。 両世界をタイムXplainフレームワークにまとめて、説明可能な人工知能の範囲を時系列の分類と価値予測にまで広げる。 本稿では,時間領域,周波数領域,時系列統計の新たな領域マッピングを提案し,それらの拡張力とその限界を分析する。 我々は、時系列分類器のモデル固有の説明手法を実験的に比較するために、新しい評価基準を用いる。

Modern time series classifiers display impressive predictive capabilities, yet their decision-making processes mostly remain black boxes to the user. At the same time, model-agnostic explainers, such as the recently proposed SHAP, promise to make the predictions of machine learning models interpretable, provided there are well-designed domain mappings. We bring both worlds together in our timeXplain framework, extending the reach of explainable artificial intelligence to time series classification and value prediction. We present novel domain mappings for the time domain, frequency domain, and time series statistics and analyze their explicative power as well as their limits. We employ a novel evaluation metric to experimentally compare timeXplain to several model-specific explanation approaches for state-of-the-art time series classifiers.
翻訳日:2023-11-22 21:35:25 公開日:2023-11-20
# 単一光子検出器問題の解法

Solve single photon detector problems ( http://arxiv.org/abs/2203.02905v7 )

ライセンス: Link先を確認
Hao Shu(参考訳) 単一光子検出器(SPD)問題は、ほとんどの量子タスク、特に高損失チャネルを通過する状態を測定するために発生する。 量子鍵分布(qkd、quantum key distribution)は、量子情報理論において最も重要な応用である。 近年、QKD距離は劇的に改善されているが、SPDダークカウントによるビット誤り率(QBER)は、距離が増加するにつれて制御不能になるため、依然として制限されている。 この問題を解くことができれば、QKDは任意に長距離で実装できる。 しかし、以前の解はしばしば超伝導体のような非現実的な要求をもたらすが、暗カウントレートを有限の低レベルまで下げることができる。 本稿では,今日の技術のみによるSPD問題の解決について述べる。 より信頼性の高い結果を得るために状態が複数回測定されるのを防ぐ非閉化定理であるが、あるタスクにおける非閉化定理を回避し、1つの状態が複数回使用されるようにするスキームを提案する。 この手法は、不完全な検出器がほぼ完全な結果をもたらすことを示しており、暗黒数によるqberを任意に低くすることができる一方で、探偵効率を任意に高めることができる。 その結果、QKD距離は不完全なSPDによって制限されず、数百kmから数千kmまで高技術検出器を使わずに改善できる。 さらに、同様のスキームを測定誤差の低減やソースの性能向上に応用することができる。 最後に、本論文は主にQKDの文脈で論じられているが、我々のスキームはSPDが採用されている他のプロトコルでも利用できる独立したスキームである。

Single photon detector(SPD) problems arise in most quantum tasks, especially for measuring states going through high-lost channels. They are particularly prominent in quantum key distribution(QKD), which could be the most significant application in quantum information theory. In recent years, QKD distance has been improved dramatically but is still restricted because the bit error rate(QBER) caused by SPD dark counts will be out of control as the distance increases. If this problem can be solved, QKD can be implemented over arbitrarily long distances. However, previous solutions often result in impractical requirements such as superconductors while they can only reduce the dark count rate to finite low levels. In this paper, we solve SPD problems with today's technologies only. Although it is the no-cloning theorem that prevents a state from being measured multiple times to obtain a more reliable result, we propose a scheme circumventing the no-cloning theorem in certain tasks to allow a single state to be employed several times. The scheme demonstrates that imperfect detectors can provide nearly perfect results, namely, the QBER caused by dark counts can be reduced to arbitrarily low while in the meantime, detective efficiency can be improved to arbitrarily high. Consequently, QKD distance is not limited by the imperfect SPD anymore and can be improved from hundreds of kilometers to thousands without high-technology detectors. Furthermore, similar schemes can be applied for reducing measurement errors or improving the performance of sources. Finally, it is worth noting that although the paper is mainly discussed in the context of QKD, our scheme is an independent scheme that could be employed in other protocols wherever SPD are employed.
翻訳日:2023-11-22 21:28:55 公開日:2023-11-20
# スピンモデルの超低温リドバーグ原子量子シミュレータにおける運動デコヒーレンス

Motional decoherence in ultracold Rydberg atom quantum simulators of spin models ( http://arxiv.org/abs/2201.08463v4 )

ライセンス: Link先を確認
Zewen Zhang, Ming Yuan, Bhuvanesh Sundar and Kaden R. A. Hazzard(参考訳) Ultracold Rydberg atom arraysは量子シミュレーションと計算のための新興プラットフォームである。 しかし、これらのシステムにおけるデコヒーレンスは完全に理解されていない。 最近の実験(guardado-sanchez et al. phys. rev. x 8, 021069 (2018))では、光学格子中のリチウム-6リドベルグ原子によって実現された二次元イジングモデルのクエンチと縦-フィールド-スウィープの強いデコヒーレンスが観測された。 このデコヒーレンスはスピンモーション結合から生じると推測された。 そこで, スピン運動結合は, 定性的, しばしば定量的に, 実験データと一致し, 離散的切断ウィグナー近似法を用いて, 難しいスピン運動結合問題を扱っていることを示す。 また,光格子およびマイクロトラップアレイにおけるライドバーグ原子の今後の実験において,この非一貫性が考慮すべき重要な要素であることを示し,より重い原子やより深いトラップを用いた動きの影響を軽減する方法について論じる。

Ultracold Rydberg atom arrays are an emerging platform for quantum simulation and computing. However, decoherence in these systems remains incompletely understood. Recent experiments [Guardado-Sanchez et al. Phys. Rev. X 8, 021069 (2018)] observed strong decoherence in the quench and longitudinal-field-sweep dynamics of two-dimensional Ising models realized with Lithium-6 Rydberg atoms in optical lattices. This decoherence was conjectured to arise from spin-motion coupling. Here we show that spin-motion coupling indeed leads to decoherence in qualitative, and often quantitative, agreement with the experimental data, treating the difficult spin-motion coupled problem using the discrete truncated Wigner approximation method. We also show that this decoherence will be an important factor to account for in future experiments with Rydberg atoms in optical lattices and microtrap arrays, and discuss methods to mitigate the effect of motion, such as using heavier atoms or deeper traps.
翻訳日:2023-11-22 21:28:19 公開日:2023-11-20
# swat:トークン内とトークン間の空間構造

SWAT: Spatial Structure Within and Among Tokens ( http://arxiv.org/abs/2111.13677v3 )

ライセンス: Link先を確認
Kumara Kahatapitiya and Michael S. Ryoo(参考訳) 近年,注意機構,フィードフォワードネットワーク,畳み込みを用いたトークン(画像パッチ)としての視覚データのモデリングが盛んに行われている。 このようなメソッドは通常共通のパイプラインを持ち、トークン化メソッドに続いて、トークン内およびトークン間の情報混合のためのレイヤ/ブロックのセットが続く。 イメージパッチがトークンに変換されると、しばしばフラット化され、各パッチ内の空間構造を捨てる。 その結果、後続の処理(例えば、マルチヘッドの自己注意)は、そのような情報から回復または/または利益を得ることができない。 本稿では,モデルがトークン化期間中に空間構造が保存され,混合段階で明示的に使用される場合,大きな利益が得られることを論じる。 1) 構造認識トークン化と, (2) 構造認識混合とを組み合わせることで, 既存のモデルと最小限の労力で組み合わせることができる。 我々は、ImageNet分類やADE20Kセグメンテーションを含む複数のベンチマークにおいて、DeiT、MLP-Mixer、Swin Transformerなどよりも改善されたモデル群(SWAT)を紹介する。 私たちのコードはhttps://github.com/kkahatapitiya/SWAT.comから入手可能です。

Modeling visual data as tokens (i.e., image patches) using attention mechanisms, feed-forward networks or convolutions has been highly effective in recent years. Such methods usually have a common pipeline: a tokenization method, followed by a set of layers/blocks for information mixing, both within and among tokens. When image patches are converted into tokens, they are often flattened, discarding the spatial structure within each patch. As a result, any processing that follows (eg: multi-head self-attention) may fail to recover and/or benefit from such information. In this paper, we argue that models can have significant gains when spatial structure is preserved during tokenization, and is explicitly used during the mixing stage. We propose two key contributions: (1) Structure-aware Tokenization and, (2) Structure-aware Mixing, both of which can be combined with existing models with minimal effort. We introduce a family of models (SWAT), showing improvements over the likes of DeiT, MLP-Mixer and Swin Transformer, across multiple benchmarks including ImageNet classification and ADE20K segmentation. Our code is available at https://github.com/kkahatapitiya/SWAT.
翻訳日:2023-11-22 21:27:32 公開日:2023-11-20
# Transcript to Video: テキストからの効率的なクリップシークエンシング

Transcript to Video: Efficient Clip Sequencing from Texts ( http://arxiv.org/abs/2107.11851v2 )

ライセンス: Link先を確認
Yu Xiong, Fabian Caba Heilbron, Dahua Lin(参考訳) Web上で共有される多くのビデオの中で、よく編集されたビデオが常に注目を集めている。 しかし、専門知識と膨大な手作業を必要とするため、未熟な利用者がうまく編集された動画を作成することは困難である。 非専門家の要求を満たすために、私たちはTranscript-to-Videoという、テキストを入力として使用する弱い教師付きフレームワークを紹介します。 具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。 高速推定のために,リアルタイムビデオクリップシーケンシングのための効率的な検索戦略を提案する。 定量的な結果とユーザスタディにより,提案する学習フレームワークが,スタイルの観点でもっともらしい映像シーケンスを作成しながら,コンテンツ関連ショットを検索できることが実証された。 さらに、ランタイムパフォーマンス分析によって、フレームワークが現実世界のアプリケーションをサポートできることが分かりました。

Among numerous videos shared on the web, well-edited ones always attract more attention. However, it is difficult for inexperienced users to make well-edited videos because it requires professional expertise and immense manual labor. To meet the demands for non-experts, we present Transcript-to-Video -- a weakly-supervised framework that uses texts as input to automatically create video sequences from an extensive collection of shots. Specifically, we propose a Content Retrieval Module and a Temporal Coherent Module to learn visual-language representations and model shot sequencing styles, respectively. For fast inference, we introduce an efficient search strategy for real-time video clip sequencing. Quantitative results and user studies demonstrate empirically that the proposed learning framework can retrieve content-relevant shots while creating plausible video sequences in terms of style. Besides, the run-time performance analysis shows that our framework can support real-world applications.
翻訳日:2023-11-22 21:25:29 公開日:2023-11-20
# StyleTTS: 自然・多言語テキスト音声合成のためのスタイルベース生成モデル

StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis ( http://arxiv.org/abs/2205.15439v2 )

ライセンス: Link先を確認
Yinghao Aaron Li, Cong Han, Nima Mesgarani(参考訳) テキスト・トゥ・スペーチ(TTS)は最近、並列TSシステムの急速な発展による高品質な音声の合成において大きな進歩を見せているが、自然主義的韻律的バリエーション、話し方、感情的トーンによる音声の生成は依然として困難なままである。 さらに、時間と音声は別々に生成されるため、並列TSモデルは、自然な音声合成に不可欠な最良の単調アライメントを見つけるのに問題がある。 そこで本研究では,並列TTSのためのスタイルベース生成モデルであるStyleTTSを提案する。 トランスファーブル・モノトニック・アリグナー(TMA)と持続不変データ拡張方式により,本手法は音声の自然性および話者類似性の主観的テストにおいて,単一話者および複数話者データセットの最先端モデルよりも有意に優れる。 発話スタイルを自己教師付きで学習することで,これらのカテゴリーを明示的にラベル付けすることなく,任意の参照音声と同じ韻律的・感情的トーンで音声を合成できる。

Text-to-Speech (TTS) has recently seen great progress in synthesizing high-quality speech owing to the rapid development of parallel TTS systems, but producing speech with naturalistic prosodic variations, speaking styles and emotional tones remains challenging. Moreover, since duration and speech are generated separately, parallel TTS models still have problems finding the best monotonic alignments that are crucial for naturalistic speech synthesis. Here, we propose StyleTTS, a style-based generative model for parallel TTS that can synthesize diverse speech with natural prosody from a reference speech utterance. With novel Transferable Monotonic Aligner (TMA) and duration-invariant data augmentation schemes, our method significantly outperforms state-of-the-art models on both single and multi-speaker datasets in subjective tests of speech naturalness and speaker similarity. Through self-supervised learning of the speaking styles, our model can synthesize speech with the same prosodic and emotional tone as any given reference speech without the need for explicitly labeling these categories.
翻訳日:2023-11-22 21:15:01 公開日:2023-11-20
# 知識強化機械学習と自動運転への応用:調査

Knowledge Augmented Machine Learning with Applications in Autonomous Driving: A Survey ( http://arxiv.org/abs/2205.04712v3 )

ライセンス: Link先を確認
Julian W\"ormann, Daniel Bogdoll, Christian Brunner, Etienne B\"uhrle, Han Chen, Evaristus Fuh Chuo, Kostadin Cvejoski, Ludger van Elst, Philip Gottschall, Stefan Griesche, Christian Hellert, Christian Hesels, Sebastian Houben, Tim Joseph, Niklas Keil, Johann Kelsch, Mert Keser, Hendrik K\"onigshof, Erwin Kraft, Leonie Kreuser, Kevin Krone, Tobias Latka, Denny Mattern, Stefan Matthes, Franz Motzkus, Mohsin Munir, Moritz Nekolla, Adrian Paschke, Stefan Pilar von Pilchau, Maximilian Alexander Pintz, Tianming Qiu, Faraz Qureishi, Syed Tahseen Raza Rizvi, J\"org Reichardt, Laura von Rueden, Alexander Sagel, Diogo Sasdelli, Tobias Scholl, Gerhard Schunk, Gesina Schwalbe, Hao Shen, Youssef Shoeb, Hendrik Stapelbroek, Vera Stehr, Gurucharan Srinivas, Anh Tuan Tran, Abhishek Vivekanandan, Ya Wang, Florian Wasserrab, Tino Werner, Christian Wirth, Stefan Zwicklbauer(参考訳) 代表的データセットの可用性は多くの成功した人工知能と機械学習モデルにとって必須の前提である。 しかし、実際のアプリケーションでは、これらのモデルはしばしばトレーニングに使用するデータで不十分に表現されるシナリオに遭遇する。 十分なデータがないことには、時間やコストの制約から倫理的な考慮まで、さまざまな理由がある。 その結果、特に安全クリティカルなアプリケーションにおけるこれらのモデルの信頼性の高い使用は、依然として大きな課題である。 追加で既存の知識ソースを活用することは、純粋データ駆動アプローチの制限を克服するための鍵である。 知識強化機械学習アプローチは、データの欠陥、エラー、曖昧さを補う可能性を提供し、適用されたモデルの一般化能力を高める。 さらに、知識に適合する予測は、不十分なシナリオにおいても信頼できる安全な決定を下すのに不可欠です。 この研究は、データ駆動モデルと既存の知識を組み合わせた文献における既存の技術と手法の概要を提供する。 同定されたアプローチは、知識の統合、抽出、整合性に応じて構成される。 特に,自動運転分野における提案手法の適用について論じる。

The availability of representative datasets is an essential prerequisite for many successful artificial intelligence and machine learning models. However, in real life applications these models often encounter scenarios that are inadequately represented in the data used for training. There are various reasons for the absence of sufficient data, ranging from time and cost constraints to ethical considerations. As a consequence, the reliable usage of these models, especially in safety-critical applications, is still a tremendous challenge. Leveraging additional, already existing sources of knowledge is key to overcome the limitations of purely data-driven approaches. Knowledge augmented machine learning approaches offer the possibility of compensating for deficiencies, errors, or ambiguities in the data, thus increasing the generalization capability of the applied models. Even more, predictions that conform with knowledge are crucial for making trustworthy and safe decisions even in underrepresented scenarios. This work provides an overview of existing techniques and methods in the literature that combine data-driven models with existing knowledge. The identified approaches are structured according to the categories knowledge integration, extraction and conformity. In particular, we address the application of the presented methods in the field of autonomous driving.
翻訳日:2023-11-22 21:14:00 公開日:2023-11-20
# 不均質な時間・経年データのための変分オートエンコーダ

A Variational Autoencoder for Heterogeneous Temporal and Longitudinal Data ( http://arxiv.org/abs/2204.09369v2 )

ライセンス: Link先を確認
Mine \"O\u{g}retir, Siddharth Ramchandran, Dimitrios Papatheodorou and Harri L\"ahdesm\"aki(参考訳) 変分オートエンコーダ(VAE)は、高次元データセットを低次元の潜時表現を学習して解析するために使われる、一般的な潜時変数モデルである。 生成モデルと推論ネットワークを同時に学習し、近似後部推論を行う。 近年,経時的および経時的データを処理可能なVAEの拡張は,医療,行動モデリング,予測保守に応用されている。 しかし、これらの拡張は不均質なデータ(すなわち、連続的および離散的な属性からなるデータ)を考慮せず、多くの実生活アプリケーションで一般的である。 本研究では,既存の時空間および時空間VAEをヘテロジニアスデータに拡張するヘテロジニアス縦型VAE(HL-VAE)を提案する。 HL-VAEは高次元データセットに対する効率的な推論を提供し、欠落した観測を考慮しつつ、連続、カウント、カテゴリー、順序データのための可能性モデルを含む。 本モデルの有効性をシミュレーションおよび臨床データセットを用いて実証し,提案モデルが欠落した値インプテーションと予測精度で競合性能を達成することを示す。

The variational autoencoder (VAE) is a popular deep latent variable model used to analyse high-dimensional datasets by learning a low-dimensional latent representation of the data. It simultaneously learns a generative model and an inference network to perform approximate posterior inference. Recently proposed extensions to VAEs that can handle temporal and longitudinal data have applications in healthcare, behavioural modelling, and predictive maintenance. However, these extensions do not account for heterogeneous data (i.e., data comprising of continuous and discrete attributes), which is common in many real-life applications. In this work, we propose the heterogeneous longitudinal VAE (HL-VAE) that extends the existing temporal and longitudinal VAEs to heterogeneous data. HL-VAE provides efficient inference for high-dimensional datasets and includes likelihood models for continuous, count, categorical, and ordinal data while accounting for missing observations. We demonstrate our model's efficacy through simulated as well as clinical datasets, and show that our proposed model achieves competitive performance in missing value imputation and predictive accuracy.
翻訳日:2023-11-22 21:13:11 公開日:2023-11-20
# 注意結合ボリュームによる精度と効率のよいステレオマッチング

Accurate and Efficient Stereo Matching via Attention Concatenation Volume ( http://arxiv.org/abs/2209.12699v3 )

ライセンス: Link先を確認
Gangwei Xu, Yun Wang, Junda Cheng, Jinhui Tang, Xin Yang(参考訳) ステレオマッチングは多くのビジョンとロボティクスアプリケーションのための基本的なビルディングブロックである。 高い精度と効率のステレオマッチングには,情報的かつ簡潔なコストボリューム表現が不可欠である。 本稿では,相関手がかりから注意重みを発生させ,冗長な情報を抑圧し,連結量におけるマッチング関連情報を強化する新しいコストボリューム構築法である注意重み付け量(acv)を提案する。 ACVはほとんどのステレオマッチングネットワークにシームレスに埋め込み、その結果のネットワークはより軽量なアグリゲーションネットワークを使用し、高い精度を達成することができる。 ACVの高速バージョンであるFast-ACVを設計し、低分解能相関手がかりから高い確率差の仮説と対応する注意重みを生成し、計算とメモリのコストを大幅に削減し、良好な精度を維持する。 我々のFast-ACVのコアアイデアはボリュームアテンション伝搬(VAP)であり、アップサンプリングされた相関ボリュームから正確な相関値を自動で選択し、不明瞭な相関ヒントでそれらの正確な値を周辺ピクセルに伝搬する。 さらに,我々は,acv と fast-acv をベースとする高精度ネットワーク acvnet とリアルタイムネットワーク fast-acvnet をそれぞれ設計し,いくつかのベンチマークで最先端のパフォーマンスを実現している(すなわち,acvnet は kitti 2015 と scene flow で 2 位,kitti 2012 では 3 位,eth3d では 3 位,fast-acvnet では scene flow,kitti 2012 と 2015 で最先端のリアルタイムメソッドをほぼすべて上回っており,さらに一般化能力も向上している)。

Stereo matching is a fundamental building block for many vision and robotics applications. An informative and concise cost volume representation is vital for stereo matching of high accuracy and efficiency. In this paper, we present a novel cost volume construction method, named attention concatenation volume (ACV), which generates attention weights from correlation clues to suppress redundant information and enhance matching-related information in the concatenation volume. The ACV can be seamlessly embedded into most stereo matching networks, the resulting networks can use a more lightweight aggregation network and meanwhile achieve higher accuracy. We further design a fast version of ACV to enable real-time performance, named Fast-ACV, which generates high likelihood disparity hypotheses and the corresponding attention weights from low-resolution correlation clues to significantly reduce computational and memory cost and meanwhile maintain a satisfactory accuracy. The core idea of our Fast-ACV is volume attention propagation (VAP) which can automatically select accurate correlation values from an upsampled correlation volume and propagate these accurate values to the surroundings pixels with ambiguous correlation clues. Furthermore, we design a highly accurate network ACVNet and a real-time network Fast-ACVNet based on our ACV and Fast-ACV respectively, which achieve the state-of-the-art performance on several benchmarks (i.e., our ACVNet ranks the 2nd on KITTI 2015 and Scene Flow, and the 3rd on KITTI 2012 and ETH3D among all the published methods; our Fast-ACVNet outperforms almost all state-of-the-art real-time methods on Scene Flow, KITTI 2012 and 2015 and meanwhile has better generalization ability)
翻訳日:2023-11-22 21:04:48 公開日:2023-11-20
# イタリアの言語変種 : 技術的課題と機会

Language Varieties of Italy: Technology Challenges and Opportunities ( http://arxiv.org/abs/2209.09757v2 )

ライセンス: Link先を確認
Alan Ramponi(参考訳) イタリアはヨーロッパ一流の言語多様性の風景を特徴とし、現地の知識、文化の伝統、芸術表現、話者の歴史を暗黙的にエンコードしている。 しかし、イタリアのほとんどの地方言語や方言は数世代以内に消滅する恐れがある。 NLPコミュニティは最近、イタリアを含む絶滅危惧言語との関わりを始めている。 しかし、ほとんどの試みは、これらの多様体は、確立された書式と同質な機能と要求を持つ未資源言語モノリスであり、互いに高度に交換可能であり、高リソースの標準化された言語であると考えている。 本稿では、イタリアの言語文脈を紹介し、イタリアの言語変種に対するNLPのデフォルトの機械中心仮定に挑戦する。 我々は、機械中心から話者中心のnlpへの移行を提唱し、技術的進歩よりも言語とその話者を優先する仕事の推奨と機会を提供する。 そこで,我々は,イタリアの言語や方言の活力支援を目的とした,責任ある参加活動に向けた地域コミュニティの構築を提案する。

Italy is characterized by a one-of-a-kind linguistic diversity landscape in Europe, which implicitly encodes local knowledge, cultural traditions, artistic expressions and history of its speakers. However, most local languages and dialects in Italy are at risk of disappearing within few generations. The NLP community has recently begun to engage with endangered languages, including those of Italy. Yet, most efforts assume that these varieties are under-resourced language monoliths with an established written form and homogeneous functions and needs, and thus highly interchangeable with each other and with high-resource, standardized languages. In this paper, we introduce the linguistic context of Italy and challenge the default machine-centric assumptions of NLP for Italy's language varieties. We advocate for a shift in the paradigm from machine-centric to speaker-centric NLP, and provide recommendations and opportunities for work that prioritizes languages and their speakers over technological advances. To facilitate the process, we finally propose building a local community towards responsible, participatory efforts aimed at supporting vitality of languages and dialects of Italy.
翻訳日:2023-11-22 21:04:09 公開日:2023-11-20
# 近似測地線を用いた教師なし意見要約

Unsupervised Opinion Summarization Using Approximate Geodesics ( http://arxiv.org/abs/2209.07496v3 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Nicholas Monath, Avinava Dubey, Amr Ahmed, Snigdha Chaturvedi(参考訳) 意見要約は、ユーザレビューから人気のある意見を収集する要約を作成するタスクである。 本稿では,未指導の抽出的意見要約を行う新しいシステムであるGeoSummについて紹介する。 GeoSummはエンコーダ-デコーダに基づく表現学習モデルで、潜在意味単位上の分布としてテキストの表現を生成する。 geosummは、複数のデコーダ層で事前学習されたテキスト表現で辞書学習を行うことで、これらの表現を生成する。 次に,これらの表現を用いて,新しい測地線距離に基づくスコアリング機構を用いて,レビュー文の妥当性を定量化する。 関連スコアを用いて一般的な意見とアスペクト固有の要約を構成する。 提案するモデルgeosummは3つの意見要約データセットで最先端のパフォーマンスを実現する。 我々は、モデルの機能を解析し、異なる領域にわたる {\X} の一般化能力を示すための追加実験を行う。

Opinion summarization is the task of creating summaries capturing popular opinions from user reviews. In this paper, we introduce Geodesic Summarizer (GeoSumm), a novel system to perform unsupervised extractive opinion summarization. GeoSumm involves an encoder-decoder based representation learning model, that generates representations of text as a distribution over latent semantic units. GeoSumm generates these representations by performing dictionary learning over pre-trained text representations at multiple decoder layers. We then use these representations to quantify the relevance of review sentences using a novel approximate geodesic distance based scoring mechanism. We use the relevance scores to identify popular opinions in order to compose general and aspect-specific summaries. Our proposed model, GeoSumm, achieves state-of-the-art performance on three opinion summarization datasets. We perform additional experiments to analyze the functioning of our model and showcase the generalization ability of {\X} across different domains.
翻訳日:2023-11-22 21:03:48 公開日:2023-11-20
# 時系列情報を用いた非線形予測モデルの効率的な学習

Efficient learning of nonlinear prediction models with time-series privileged information ( http://arxiv.org/abs/2209.07067v4 )

ライセンス: Link先を確認
Bastian Jung and Fredrik D Johansson(参考訳) サンプルサイズが限られている領域では、効率的な学習アルゴリズムが重要である。 特権情報(LuPI)を用いた学習は、モデルの使用時に利用できない訓練時に補助情報にアクセス可能な予測モデルを提供することにより、サンプル効率を高める。 近年の研究では、線形ガウス力学系において、中間時系列データにアクセス可能なLuPI学習者は、偏りのない古典的学習者よりも予測が悪く、予測が優れていることが示されている。 この解析に新たな知見を与え, 潜在力学系における非線形予測タスクに一般化し, 潜在変数と観測を連結する写像が線形変換まで知られている場合への理論的保証を拡張した。 さらに,この地図が未知である場合のランダム特徴と表現学習に基づくアルゴリズムを提案する。 一連の実験結果が理論的知見を検証し、非線形予測における特権時系列情報の利用の可能性を示す。

In domains where sample sizes are limited, efficient learning algorithms are critical. Learning using privileged information (LuPI) offers increased sample efficiency by allowing prediction models access to auxiliary information at training time which is unavailable when the models are used. In recent work, it was shown that for prediction in linear-Gaussian dynamical systems, a LuPI learner with access to intermediate time series data is never worse and often better in expectation than any unbiased classical learner. We provide new insights into this analysis and generalize it to nonlinear prediction tasks in latent dynamical systems, extending theoretical guarantees to the case where the map connecting latent variables and observations is known up to a linear transform. In addition, we propose algorithms based on random features and representation learning for the case when this map is unknown. A suite of empirical results confirm theoretical findings and show the potential of using privileged time-series information in nonlinear prediction.
翻訳日:2023-11-22 21:03:33 公開日:2023-11-20
# Universal Quantum Electron Microscopy: Provable Advantage を用いた小型量子コンピューティングアプリケーション

Universal Quantum Electron Microscopy: A Small-Scale Quantum Computing Application with Provable Advantage ( http://arxiv.org/abs/2209.04819v2 )

ライセンス: Link先を確認
Hiroshi Okamoto(参考訳) 本稿では,生体試料などのビーム感受性相オブジェクトを量子計算の一部として'queries'する量子電子顕微鏡の簡単な設計法を提案する。 量子アルゴリズムの時間的複雑さではなく、低い量子クエリの複雑さは、標本の損傷が少なく、標本から抽出されたより多くのデータに変換される。 したがって、小規模量子コンピューティングはこの文脈で証明可能な量子優位性を提供する。 提案した顕微鏡の応用は、候補構造からなる真の構造をグロバーが探索することである。

We propose a simple design of a quantum electron microscope that ``queries'' a beam-sensitive phase object, such as a biological specimen, as part of quantum computation. Lower quantum query complexity, not the time complexity, of a quantum algorithm means less specimen damage, which translates to more data extracted from the specimen. Hence small-scale quantum computing offers provable quantum advantage in this context. A possible application of the proposed microscope is the Grover search for a true structure, out of a set of candidate structures.
翻訳日:2023-11-22 21:03:18 公開日:2023-11-20
# 動的メモリベースの好奇心:探索のためのブートストラップアプローチ

Dynamic Memory-based Curiosity: A Bootstrap Approach for Exploration ( http://arxiv.org/abs/2208.11349v2 )

ライセンス: Link先を確認
Zijian Gao, YiYing Li, Kele Xu, Yuanzhao Zhai, Dawei Feng, Bo Ding, XinJun Mao, Huaimin Wang(参考訳) 極端な報酬のスパース性は、強化学習(rl)に深刻な挑戦をもたらす。 現在では、効果的な探索のための代表的な本質的な報酬を提供する好奇心に多くの取り組みがなされている。 しかし、課題はまだ解決されていない。 本稿では,動的記憶に基づく好奇心を表すdymecuという,rlの新たな好奇心について述べる。 人間の好奇心と情報理論に触発されたDyMeCuは、動的メモリと双対オンライン学習者で構成される。 好奇心は、記憶された情報が現在の状態に対処できないことを喚起し、二重学習者間の情報ギャップをエージェント固有の報酬として定式化し、そのような状態情報を動的メモリに統合することができる。 従来のキュリオシティ手法と比較して、dymecuは人間の好奇心を動的メモリで模倣し、メモリモジュールは二重学習者によるブートストラップパラダイムに基づいて動的に成長させることができる。 DeepMind Control Suite や Atari Suite などの複数のベンチマークにおいて,DyMeCu は外因性報酬の有無で競合好奇性に基づく手法より優れていることを示す。 再現性を高めるためにコードを公開します。

The sparsity of extrinsic rewards poses a serious challenge for reinforcement learning (RL). Currently, many efforts have been made on curiosity which can provide a representative intrinsic reward for effective exploration. However, the challenge is still far from being solved. In this paper, we present a novel curiosity for RL, named DyMeCu, which stands for Dynamic Memory-based Curiosity. Inspired by human curiosity and information theory, DyMeCu consists of a dynamic memory and dual online learners. The curiosity arouses if memorized information can not deal with the current state, and the information gap between dual learners can be formulated as the intrinsic reward for agents, and then such state information can be consolidated into the dynamic memory. Compared with previous curiosity methods, DyMeCu can better mimic human curiosity with dynamic memory, and the memory module can be dynamically grown based on a bootstrap paradigm with dual learners. On multiple benchmarks including DeepMind Control Suite and Atari Suite, large-scale empirical experiments are conducted and the results demonstrate that DyMeCu outperforms competitive curiosity-based methods with or without extrinsic rewards. We will release the code to enhance reproducibility.
翻訳日:2023-11-22 21:01:24 公開日:2023-11-20
# マルチエージェント強化学習におけるチームワーク適応のための学習タスク埋め込み

Learning Task Embeddings for Teamwork Adaptation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2207.02249v2 )

ライセンス: Link先を確認
Lukas Sch\"afer, Filippos Christianos, Amos Storkey, Stefano V. Albrecht(参考訳) マルチエージェント強化学習を成功させるには,エージェントが行動に適応する必要がある場合が多い。 本稿では,エージェントのチームが,新しいタスクを微調整して解決するための方針を適応させる必要があるチームワーク適応の問題について議論する。 エージェントはタスクの動作を現在のタスクに適応させるためにタスクを識別し識別する必要があるという直感から、マルチエージェントタスクの埋め込み(MATE)を学ぶことを提案する。 これらのタスク埋め込みは、タスクを一意に識別するトランジッションと報酬関数の再構築に最適化されたエンコーダ-デコーダアーキテクチャを使って訓練される。 エージェントのチームは、タスク埋め込みが提供されたとき、新しいタスクに適応できることを示します。 本稿では,タスクエンコーディングに使用する情報によって異なる,独立したMATE,集中型MATE,混合MATEの3つの訓練パラダイムを提案する。 MATEが学習した埋め込みはタスクを特定し、新しいタスクへの適応中にエージェントが活用する有用な情報を提供する。

Successful deployment of multi-agent reinforcement learning often requires agents to adapt their behaviour. In this work, we discuss the problem of teamwork adaptation in which a team of agents needs to adapt their policies to solve novel tasks with limited fine-tuning. Motivated by the intuition that agents need to be able to identify and distinguish tasks in order to adapt their behaviour to the current task, we propose to learn multi-agent task embeddings (MATE). These task embeddings are trained using an encoder-decoder architecture optimised for reconstruction of the transition and reward functions which uniquely identify tasks. We show that a team of agents is able to adapt to novel tasks when provided with task embeddings. We propose three MATE training paradigms: independent MATE, centralised MATE, and mixed MATE which vary in the information used for the task encoding. We show that the embeddings learned by MATE identify tasks and provide useful information which agents leverage during adaptation to novel tasks.
翻訳日:2023-11-22 20:58:56 公開日:2023-11-20
# ホモフレンドリグラフとヘテロフレンドリグラフのためのシングルパスコントラスト学習

Single-Pass Contrastive Learning Can Work for Both Homophilic and Heterophilic Graph ( http://arxiv.org/abs/2211.10890v4 )

ライセンス: Link先を確認
Haonan Wang, Jieyu Zhang, Qi Zhu, Wei Huang, Kenji Kawaguchi, Xiaokui Xiao(参考訳) 既存のグラフコントラスト学習(gcl)技術では、1つのインスタンスでコントラスト損失を構築するために2つのフォワードパスが必要であり、ノードの特徴の低周波信号を捉えるのに有効である。 このような二重パス設計はホモ親和グラフにおいて経験的成功を示しているが、直結したノードが通常異なるラベルを持つヘテロ親和グラフの有効性は分かっていない。 加えて、既存のgclアプローチは強力なパフォーマンス保証を提供しない。 異種グラフに対するGCLアプローチの不予測性と相まって、実世界の文脈における適用性は限定的である。 そして、自然な疑問が生まれます: 性能保証のあるホモフィルグラフとヘテロフィルグラフの両方で機能するGCL法を設計できますか? この疑問に答えるために, 近辺集計により得られたホモ親和グラフおよびヘテロ親和グラフ上の特徴の集中特性を理論的に検討し, 特徴量に基づく単パス拡張なしグラフコントラスト学習損失を導入し, 下流課題における損失を最小限に抑えるための性能保証を提供する。 分析の結果,Single-Pass Graph Contrastive Learning法(SP-GCL)を実装した。 経験的に、14のベンチマークデータセットにおいて、sp-gclによって得られた機能は、既存の強力なベースラインと非常に少ない計算オーバーヘッドでマッチしたり、性能を上回ったりすることができる。

Existing graph contrastive learning (GCL) techniques typically require two forward passes for a single instance to construct the contrastive loss, which is effective for capturing the low-frequency signals of node features. Such a dual-pass design has shown empirical success on homophilic graphs, but its effectiveness on heterophilic graphs, where directly connected nodes typically have different labels, is unknown. In addition, existing GCL approaches fail to provide strong performance guarantees. Coupled with the unpredictability of GCL approaches on heterophilic graphs, their applicability in real-world contexts is limited. Then, a natural question arises: Can we design a GCL method that works for both homophilic and heterophilic graphs with a performance guarantee? To answer this question, we theoretically study the concentration property of features obtained by neighborhood aggregation on homophilic and heterophilic graphs, introduce the single-pass augmentation-free graph contrastive learning loss based on the property, and provide performance guarantees for the minimizer of the loss on downstream tasks. As a direct consequence of our analysis, we implement the Single-Pass Graph Contrastive Learning method (SP-GCL). Empirically, on 14 benchmark datasets with varying degrees of homophily, the features learned by the SP-GCL can match or outperform existing strong baselines with significantly less computational overhead, which demonstrates the usefulness of our findings in real-world cases.
翻訳日:2023-11-22 20:51:18 公開日:2023-11-20
# MEAL:Few-Shot Promptingのための安定的でアクティブな学習

MEAL: Stable and Active Learning for Few-Shot Prompting ( http://arxiv.org/abs/2211.08358v3 )

ライセンス: Link先を確認
Abdullatif K\"oksal, Timo Schick, Hinrich Sch\"utze(参考訳) プライミングとプロンプトを通じて、非常に効果的な数発学習者となる基礎モデルにより、ほとんどショット分類は大きな進歩を遂げた。 しかし、このアプローチは、わずかなショット(データ選択)の異なるセットと異なる微調整実行(実行のバラツキ)の両方で高いばらつきがある。 これは、異なるアプローチの公正な比較を妨げるだけでなく、特に現実世界の多くのアプリケーションでは、少なからぬ学習が信頼できないからである。 これらの課題を緩和するため,我々は,より安定かつ効果的なマイナショット学習に2つの貢献をする。 第2に,データ選択のための新たなアクティブラーニング(al)基準を導入し,プロンプトベース学習に特化した最初のalベースアプローチを提案する。 本研究では,本手法の組み合わせであるMEAL(Multiprompt Finetuning and Prediction Ensembling with Active Learning)により,5つのタスクにおいて2.3ポイントのプロンプトベースファインタニングの全体的な性能が向上することを示す。 私たちはコードとデータの分割をhttps://github.com/akoksal/mealで公開しています。

Few-shot classification has made great strides due to foundation models that, through priming and prompting, are highly effective few-shot learners. However, this approach has high variance both across different sets of few shots (data selection) and across different finetuning runs (run variability). This is problematic not only because it impedes the fair comparison of different approaches, but especially because it makes few-shot learning too unreliable for many real-world applications. To alleviate these issues, we make two contributions for more stable and effective few-shot learning: First, we propose novel ensembling methods and show that they substantially reduce run variability. Second, we introduce a new active learning (AL) criterion for data selection and present the first AL-based approach specifically tailored towards prompt-based learning. In our experiments, we show that our combined method, MEAL (Multiprompt finetuning and prediction Ensembling with Active Learning), improves overall performance of prompt-based finetuning by 2.3 points on five diverse tasks. We publicly share our code and data splits in https://github.com/akoksal/MEAL.
翻訳日:2023-11-22 20:50:35 公開日:2023-11-20
# コヒーレンス生成による低温量子温度測定

Low-temperature quantum thermometry boosted by coherence generation ( http://arxiv.org/abs/2211.05461v4 )

ライセンス: Link先を確認
Asghar Ullah, M. Tahir Naseem, and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 物理過程の基本的な理解と技術応用の両方において、低温の正確な測定は重要である。 本研究では,温度計プローブに量子コヒーレンスを生成することで,温度範囲と感度を向上させる低温測定法を提案する。 通常、温度測定では、プローブは試料を測定して熱化する。 しかし、我々は2レベル量子システム(qubit)をプローブとして使用し、ancilla qubitsのセットをインターフェースとして導入することにより、サンプルへの直接プローブアクセスを防止する。 大域的マスター方程式を用いてプローブの開系力学を記述し、アンシラ-プローブ系が試料と熱分解する一方、プローブ \textit{per se} は非局所散逸チャネルにより非熱定常状態へと発展することを示した。 この定常状態の個体数とコヒーレンスはサンプル温度に依存するため、高精度で広い範囲の低温推定が可能となる。 量子フィッシャー情報を用いて,本手法の温度測定性能を特徴付け, 量子コヒーレンスの増加とアンシラ量子ビット数の増加により, 異なる低温で複数の高いピークを示すことができることを示す。 提案手法は, 温度依存性の量子コヒーレンスを持つ非熱クビット温度計プローブを用いて, 温度推定の感度を高め, 測定可能な低温範囲を拡大できることを示す。

The precise measurement of low temperatures is significant for both the fundamental understanding of physical processes and technological applications. In this work, we present a method for low-temperature measurement that improves thermal range and sensitivity by generating quantum coherence in a thermometer probe. Typically, in temperature measurements, the probes thermalize with the sample being measured. However, we use a two-level quantum system, or qubit, as our probe and prevent direct probe access to the sample by introducing a set of ancilla qubits as an interface. We describe the open system dynamics of the probe using a global master equation and demonstrate that while the ancilla-probe system thermalizes with the sample, the probe \textit{per se} evolves into a nonthermal steady state due to nonlocal dissipation channels. The populations and coherences of this steady state depend on the sample temperature, allowing for precise and wide-range low-temperature estimation. We characterize the thermometric performance of the method using quantum Fisher information and show that the quantum Fisher information can exhibit multiple and higher peaks at different low temperatures with increasing quantum coherence and the number of ancilla qubits. Our analysis reveals that the proposed approach, using a nonthermal qubit thermometer probe with temperature-dependent quantum coherence generated by a multiple qubit interface between a thermal sample and the probe qubit, can enhance the sensitivity of temperature estimation and broaden the measurable low-temperature range.
翻訳日:2023-11-22 20:49:22 公開日:2023-11-20
# パーソナリティが要求工学活動に及ぼす影響 : 混合手法による研究

The Impact of Personality on Requirements Engineering Activities: A Mixed-Methods Study ( http://arxiv.org/abs/2210.07807v3 )

ライセンス: Link先を確認
Dulaji Hidellaarachchi, John Grundy, Rashina Hoda, Ingo Mueller(参考訳) コンテキスト: 要求工学(RE)はソフトウェア工学(SE)の重要な部分であり、さまざまな役割の頻繁なコラボレーションを必要とするさまざまな人間中心のアクティビティで構成されています。 以前の研究では、パーソナリティはソフトウェアプロジェクトの成功に大きな影響を与えるような人間的側面の1つであることが示されている。 しかし,re活動に対するパーソナリティの影響に焦点をあてた実証研究が少なからず存在する。 目的:本研究の目的は,RE活動におけるパーソナリティの影響を探求し,特定し,これらの影響をよりよく理解し,REにおけるこれらの影響をよりよく扱うためのガイダンスを提供することである。 方法: パーソナリティテストに基づく調査(50名)と,リアクティビティに関わる世界中のソフトウェア実践者との詳細なインタビュー調査(15名)を含む,混合手法を用いた。 結果: パーソナリティテスト分析の結果, 被験者の大多数は, 一致性, 良心性, および外向性, 神経症性について, 平均スコアが高かった。 インタビューの分析を通じて、ソフトウェア実践者、チームメンバー、および外部ステークホルダーの性格特性に関連するさまざまな影響が明らかになった。 これらの影響は、REアクティビティ、ソフトウェア開発プロセス全体、そしてこれらのアクティビティに関わる人々によって、肯定的あるいは否定的なものになり得る。 さらに,RE活動に対する性格のネガティブな影響を軽減するために,一連の戦略が適用できることがわかった。 結論: RE活動に対するパーソナリティの影響と緩和戦略は,RE活動に対するこのようなパーソナリティの影響に対処する上で,ソフトウェア実践者にガイダンスを提供する上で有効である。

Context: Requirements engineering (RE) is an important part of Software Engineering (SE), consisting of various human-centric activities that require the frequent collaboration of a variety of roles. Prior research has shown that personality is one such human aspect that has a huge impact on the success of a software project. However, a limited number of empirical studies exist focusing on the impact of personality on RE activities. Objective: The objective of this study is to explore and identify the impact of personality on RE activities, provide a better understanding of these impacts, and provide guidance on how to better handle these impacts in RE. Method: We used a mixed-methods approach, including a personality test-based survey (50 participants) and an in-depth interview study (15 participants) with software practitioners from around the world involved in RE activities. Results: Through personality test analysis, we found a majority of the practitioners have a high score on agreeableness and conscientiousness traits and an average score on extraversion and neuroticism traits. Through analysis of the interviews, we found a range of impacts related to the personality traits of software practitioners, their team members, and external stakeholders. These impacts can be positive or negative, depending on the RE activities, the overall software development process, and the people involved in these activities. Moreover, we found a set of strategies that can be applied to mitigate the negative impact of personality on RE activities. Conclusion: Our identified impacts of personality on RE activities and mitigation strategies serve to provide guidance to software practitioners on handling such possible personality impacts on RE activities and for researchers to investigate these impacts in greater depth in future.
翻訳日:2023-11-22 20:47:39 公開日:2023-11-20
# テキスト誘導ビデオ生成によるユニバーサルポリシーの学習

Learning Universal Policies via Text-Guided Video Generation ( http://arxiv.org/abs/2302.00111v3 )

ライセンス: Link先を確認
Yilun Du, Mengjiao Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Joshua B. Tenenbaum, Dale Schuurmans, Pieter Abbeel(参考訳) 人工知能の目標は、さまざまなタスクを解決できるエージェントを構築することである。 テキスト誘導画像合成の最近の進歩は、複雑な新しい画像を生成する能力を持つ印象的なモデルを生み出した。 この成功に動機づけられたツールが、より汎用的なエージェントを構築するのに使えるかどうかを調査した。 具体的には、所望のゴールのテキスト符号化仕様を前提として、計画者は、将来計画されたアクションを記述した将来のフレームを合成し、生成したビデオから制御アクションを抽出する、テキスト条件付きビデオ生成問題としてシーケンシャル意思決定問題を論じる。 テキストを基礎となる目標仕様として活用することにより、自然かつ組合せ的に新しい目標に一般化することができる。 提案するポリシ・アズ・ビデオの定式化は,画像の統一空間における状態と動作空間の異なる環境を,例えば様々なロボット操作タスクにおける学習と一般化を可能にする。 最後に、事前訓練された言語埋め込みとインターネットから広く利用可能なビデオを活用することで、実際のロボットに対して非常に現実的なビデオプランを予測することによって、知識伝達を可能にする。

A goal of artificial intelligence is to construct an agent that can solve a wide variety of tasks. Recent progress in text-guided image synthesis has yielded models with an impressive ability to generate complex novel images, exhibiting combinatorial generalization across domains. Motivated by this success, we investigate whether such tools can be used to construct more general-purpose agents. Specifically, we cast the sequential decision making problem as a text-conditioned video generation problem, where, given a text-encoded specification of a desired goal, a planner synthesizes a set of future frames depicting its planned actions in the future, after which control actions are extracted from the generated video. By leveraging text as the underlying goal specification, we are able to naturally and combinatorially generalize to novel goals. The proposed policy-as-video formulation can further represent environments with different state and action spaces in a unified space of images, which, for example, enables learning and generalization across a variety of robot manipulation tasks. Finally, by leveraging pretrained language embeddings and widely available videos from the internet, the approach enables knowledge transfer through predicting highly realistic video plans for real robots.
翻訳日:2023-11-22 20:39:10 公開日:2023-11-20
# OneDNN Graph Compiler: 高性能ディープラーニングコンパイルのためのハイブリッドアプローチ

oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation ( http://arxiv.org/abs/2301.01333v2 )

ライセンス: Link先を確認
Jianhui Li, Zhennan Qin, Yijie Mei, Jingze Cui, Yunfei Song, Ciyong Chen, Yifei Zhang, Longsheng Du, Xianhang Cheng, Baihui Jin, Yan Zhang, Igor Safonov, Jason Ye, Eric Lin, Dan Lavery(参考訳) ディープラーニングモデルの急速な発展と高密度コンピューティングのハードウェアサポートにより、ディープラーニングのワークロード特性は、計算集約型オペレーションのいくつかのホットスポットから、モデル全体に散在する幅広いオペレーションへと大きく変化した。 プリミティブのエキスパートチューニングによる実装を使用して、いくつかの計算集約的な操作を加速することは、aiハードウェアのパフォーマンスポテンシャルを完全には活用しない。 フルディープニューラルネットワーク(DNN)グラフのコンパイルには,さまざまな取り組みが行われている。 計算集約型演算のエキスパートレベルパフォーマンスコードを生成し,DNN計算グラフの範囲内で複数の演算集約型演算に最適化を適用することで,高性能なテンソルコンパイルを実現する。 本稿では,1DNN Graph Compilerを提案する。1DNN Graph Compilerは,コンパイラ最適化とエキスパートチューニングカーネルを併用して,ディープニューラルネットワークグラフの高速コード生成を行うテンソルコンパイラである。 oneDNN Graph Compilerは、低精度の計算、グラフ操作のアグレッシブ融合、静的テンソル形状とメモリレイアウトの最適化、定数重み付け最適化、メモリバッファ再利用など、ディープラーニング領域におけるユニークな最適化課題に対処する。 実験の結果,既存のテンソルコンパイラやプリミティブライブラリに比べて,パフォーマンスクリティカルなDNN計算グラフやIntel Xeon Scalable Processorsのエンドツーエンドモデルに対して,大幅な性能向上が示された。

With the rapid development of deep learning models and hardware support for dense computing, the deep learning workload characteristics changed significantly from a few hot spots on compute-intensive operations to a broad range of operations scattered across the models. Accelerating a few compute-intensive operations using the expert-tuned implementation of primitives does not fully exploit the performance potential of AI hardware. Various efforts have been made to compile a full deep neural network (DNN) graph. One of the biggest challenges is to achieve high-performance tensor compilation by generating expert level performance code for the dense compute-intensive operations and applying compilation optimization at the scope of DNN computation graph across multiple compute-intensive operations. We present oneDNN Graph Compiler, a tensor compiler that employs a hybrid approach of using techniques from both compiler optimization and expert-tuned kernels for high performance code generation of the deep neural network graph. oneDNN Graph Compiler addresses unique optimization challenges in the deep learning domain, such as low-precision computation, aggressive fusion of graph operations, optimization for static tensor shapes and memory layout, constant weight optimization, and memory buffer reuse. Experimental results demonstrate significant performance gains over existing tensor compiler and primitives library for performance-critical DNN computation graphs and end-to-end models on Intel Xeon Scalable Processors.
翻訳日:2023-11-22 20:37:55 公開日:2023-11-20
# 散逸一般化流体力学方程式とその数値解法

The dissipative Generalized Hydrodynamic equations and their numerical solution ( http://arxiv.org/abs/2212.12349v2 )

ライセンス: Link先を確認
Frederik M{\o}ller, Nicolas Besse, Igor E. Mazets, Hans-Peter Stimming, Norbert J. Mauser(参考訳) 一般流体力学(generalized hydrodynamics,ghd)とは、超低温原子やスピン鎖など、量子物理学における一次元 \textit{integrable} 系を記述するモデルを指す。 数学的には、GHDは運動型の非線形方程式に対応しており、主な未知の統計分布関数 $f(t,z,\theta)$ は1次元の位置変数 $z$ と1次元の「運動的」変数 $\theta$ で構成された位相空間に存在し、「ラピディティ」と呼ばれる波動ベクトルである。 ghd方程式の2つの重要な特徴は、第一にアドベクション項における非局所結合と非線形結合、第二に保存された量の無限集合である。 これを超えるために、GHD方程式の右辺を非局所・非線形拡散作用素あるいはボルツマン型衝突積分で補足することで得られる散逸GHD方程式を考える。 本稿では,これらの方程式を効率的に解くための新しい高次数値解法について述べる。 特に, 逐次時間微分が帰納的手続きによって得られるアドベクション場に対する高次時間テイラー級数展開を用いて, 随伴部分(いわゆるヴラソフ方程式)を解くための新しい逆半ラグランジアン法を考案する。 このadvectionフィールドの高次時間近似は、アダムス・モールトン半ラグランジアンスキームと比較される新しい暗黙的/探索的ランジュ・クッタ半ラグランジアン法を設計するために用いられる。 拡散・衝突演算子によって構成される音源項の解法について,文献の異なる数値法を用いて比較する。

"Generalized Hydrodynamics" (GHD) stands for a model that describes one-dimensional \textit{integrable} systems in quantum physics, such as ultra-cold atoms or spin chains. Mathematically, GHD corresponds to nonlinear equations of kinetic type, where the main unknown, a statistical distribution function $f(t,z,\theta)$, lives in a phase space which is constituted by a one-dimensional position variable $z$, and a one-dimensional "kinetic" variable $\theta$, actually a wave-vector, called "rapidity". Two key features of GHD equations are first a non-local and nonlinear coupling in the advection term, and second an infinite set of conserved quantities, which prevent the system from thermalizing. To go beyond this, we consider the dissipative GHD equations, which are obtained by supplementing the right-hand side of the GHD equations with a non-local and nonlinear diffusion operator or a Boltzmann-type collision integral. In this paper, we deal with new high-order numerical methods to efficiently solve these kinetic equations. In particular, we devise novel backward semi-Lagrangian methods for solving the advective part (the so-called Vlasov equation) by using a high-order time-Taylor series expansion for the advection fields, whose successive time derivatives are obtained by a recursive procedure. This high-order temporal approximation of the advection fields are used to design new implicit/explicit Runge-Kutta semi-Lagrangian methods, which are compared to Adams-Moulton semi-Lagrangian schemes. For solving the source terms, constituted by the diffusion and collision operators, we use and compare different numerical methods of the literature.
翻訳日:2023-11-22 20:37:00 公開日:2023-11-20
# 平均場ランゲヴィンダイナミクスのためのカオスの一様時間伝播

Uniform-in-time propagation of chaos for mean field Langevin dynamics ( http://arxiv.org/abs/2212.03050v3 )

ライセンス: Link先を確認
Fan Chen, Zhenjie Ren and Songbo Wang(参考訳) 平均場ランゲヴィン力学と関連する粒子系について検討する。 エネルギーの関数的凸性を仮定することにより、平均場力学のユニークな不変測度に対する辺分布の$L^p$-収束が得られる。 さらに、l^2$-wasserstein計量と相対エントロピーの両方におけるカオスの均一な時間内伝播を証明する。

We study the mean field Langevin dynamics and the associated particle system. By assuming the functional convexity of the energy, we obtain the $L^p$-convergence of the marginal distributions towards the unique invariant measure for the mean field dynamics. Furthermore, we prove the uniform-in-time propagation of chaos in both the $L^2$-Wasserstein metric and relative entropy.
翻訳日:2023-11-22 20:34:02 公開日:2023-11-20
# 悪意ノードのサブセットを持つ情報理論セキュア量子鍵分布ネットワーク

Information-theoretical Secure quantum key distribution Networks with a subset of malicious nodes ( http://arxiv.org/abs/2302.07688v4 )

ライセンス: Link先を確認
Yi Luo, Qiong Li, Hao-Kun Mao and Nan Chen(参考訳) 量子鍵分布(QKD)ネットワークは,大規模ネットワーク上でのITS通信を可能にすることが期待されている。 リレーベースのQKDネットワークに関するほとんどの研究は、すべてのリレーやノードが完全に信頼できると仮定している。 しかし、単一ノードの悪意ある振る舞いは、QKDネットワークのセキュリティを損なう可能性がある。 qkd(quantum key distribution)ネットワークに関する現在の研究は、主に悪意のあるノードによる盗聴などの受動的攻撃に対処している。 アクティブアタックに対抗するために、多数決やポイントツーポイントQKDシステムの秘密共有のようなソリューションが提案されているが、セキュリティ要件が異なるため、これらの戦略はQKDネットワーク研究に直接転送することはできない。 本稿では,QKDネットワークのセキュリティ要件に対する新たなパラダイムを提案し,悪意のあるノードの協調によるアクティブアタックに対処する。 まず、セキュリティに関して、QKDネットワークに2つの重要なセキュリティ特性を提供する分散認証方式であるITSを導入する。 第2に,正確性に関して,分散認証に基づくフォールトトレラントコンセンサススキームを提案し,グローバル一貫性を保証し,参加者のノードがより実用的な方法で正しく連携できるようにする。 シミュレーションにより,本手法は従来の鍵共有方式に比べてキー使用量の増加傾向が著しく低いことを示した。 例えば、ノード番号が80であるような大きなネットワークでは、我々のスキームのキー消費は、事前共有されたキースキームの13.1\%に過ぎません。

Quantum key distribution (QKD) networks are expected to enable information-theoretical secure (ITS) communication over a large-scale network. Most researches on relay-based QKD network assume that all relays or nodes are completely trustworthy. However, the malicious behavior of any single node can undermine security of QKD networks. Current research on Quantum Key Distribution (QKD) networks primarily addresses passive attacks, such as eavesdropping, conducted by malicious nodes. Although there are proposed solutions like majority voting and secret sharing for point-to-point QKD systems to counter active attacks, these strategies are not directly transferable to QKD network research due to different security requirements. We propose the a new paradigm for the security requirements of QKD networks and addresses the active attack by collaborate malicious nodes. Firstly, regarding security, we introduce the ITS distributed authentication scheme, which additionally offers two crucial security properties to QKD networks: identity unforgeability and non-repudiation. Secondly, concerning correctness, we propose an ITS fault-tolerant consensus scheme based on our ITS distributed authentication to ensure global consistency, enabling participating nodes to collaborate correctly in a more practical manner. Through our simulation, we have shown that our scheme exhibits a significantly lower growth trend in key consumption compared to the original pre-shared keys scheme. For instance, in larger networks such as when the nodes number is 80, our scheme's key consumption is only 13.1\% of the pre-shared keys scheme.
翻訳日:2023-11-22 20:24:20 公開日:2023-11-20
# 粒子散乱による2点計測エネルギー統計

Two-point measurement energy statistics from particle scattering ( http://arxiv.org/abs/2302.06516v2 )

ライセンス: Link先を確認
Samuel L. Jacob, Gabriel T. Landi, Massimiliano Esposito, Felipe Barra(参考訳) 我々は、時間依存駆動プロトコルに基づく孤立量子系の2点測定から得られるエネルギー統計を、同じ系を適宜準備された入射粒子と衝突させることで探究可能であることを示す。 これは、粒子が外部駆動と量子系のエネルギー測定装置の両方として作用し、エネルギーのゆらぎが完全に自律的に定義できることを意味する。

We show that the energy statistics resulting from a two-point measurement of an isolated quantum system subject to a time-dependent driving protocol can be probed by subjecting the same system to a collision with a suitably prepared incoming particle. This means that the particle acts both as an external drive and as an energy measurement device for the quantum system and that energy fluctuations can be defined within a fully autonomous setting.
翻訳日:2023-11-22 20:23:54 公開日:2023-11-20
# Explicit3D:Single Image 3D Object Detectionのための空間推論付きグラフネットワーク

Explicit3D: Graph Network with Spatial Inference for Single Image 3D Object Detection ( http://arxiv.org/abs/2302.06494v3 )

ライセンス: Link先を確認
Yanjun Liu and Wenming Yang(参考訳) 屋内の3d物体検出は、単一の画像シーン理解において必須の課題であり、視覚推論において基本的に空間認知に影響を与える。 単一の画像からの3dオブジェクト検出に関する既存の作業は、各オブジェクトの独立した予測を通じてこの目標を追求するか、すべての可能なオブジェクトを暗黙的に推論し、オブジェクト間の関係幾何学的情報を活用できないかのどちらかである。 この問題に対処するために,オブジェクトの幾何学的特徴と意味論的特徴に基づくExplicit3Dという動的スパースグラフパイプラインを提案する。 効率を考慮し、関連性スコアを定義し、新しい動的プルーニングアルゴリズムを設計し、続いてスパースシーングラフの生成と更新のためのクラスタサンプリング手法を設計する。 さらに, 対象対間の空間差を明示的にモデル化するために, 均質行列を導入し, 新しい相対損失とコーナー損失を定義した。 接地トラスラベルを直接監督する代わりに、我々の相対損失とコーナー損失は、物体間の幾何的整合性を学ぶためのモデルである同質な変換から導かれる。 SUN RGB-Dデータセットの実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。

Indoor 3D object detection is an essential task in single image scene understanding, impacting spatial cognition fundamentally in visual reasoning. Existing works on 3D object detection from a single image either pursue this goal through independent predictions of each object or implicitly reason over all possible objects, failing to harness relational geometric information between objects. To address this problem, we propose a dynamic sparse graph pipeline named Explicit3D based on object geometry and semantics features. Taking the efficiency into consideration, we further define a relatedness score and design a novel dynamic pruning algorithm followed by a cluster sampling method for sparse scene graph generation and updating. Furthermore, our Explicit3D introduces homogeneous matrices and defines new relative loss and corner loss to model the spatial difference between target pairs explicitly. Instead of using ground-truth labels as direct supervision, our relative and corner loss are derived from the homogeneous transformation, which renders the model to learn the geometric consistency between objects. The experimental results on the SUN RGB-D dataset demonstrate that our Explicit3D achieves better performance balance than the-state-of-the-art.
翻訳日:2023-11-22 20:23:47 公開日:2023-11-20
# 相関ガウス関数によるオンライン任意型クラスタリング

Online Arbitrary Shaped Clustering through Correlated Gaussian Functions ( http://arxiv.org/abs/2302.06335v2 )

ライセンス: Link先を確認
Ole Christian Eidheim(参考訳) バックプロパゲーションが生物学的に妥当なメカニズムであることは確実な証拠はなく、代替学習方法のさらなる研究が必要である。 新規なオンラインクラスタリングアルゴリズムは、教師なしの方法で入力から任意の形状のクラスタを生成することができ、入力データ内のクラスタ数の事前知識を必要としない。 これは、一般的に発生する入力パターンをキャプチャする関数から相関した出力を見つけることで達成される。 このアルゴリズムは、バックプロパゲーションによるモデル最適化よりも生物学的に妥当であると見なすことができる。 しかし、この方法は注目すべきハイパーパラメータの範囲でいくつかのトイデータセットで十分な結果が得られる。

There is no convincing evidence that backpropagation is a biologically plausible mechanism, and further studies of alternative learning methods are needed. A novel online clustering algorithm is presented that can produce arbitrary shaped clusters from inputs in an unsupervised manner, and requires no prior knowledge of the number of clusters in the input data. This is achieved by finding correlated outputs from functions that capture commonly occurring input patterns. The algorithm can be deemed more biologically plausible than model optimization through backpropagation, although practical applicability may require additional research. However, the method yields satisfactory results on several toy datasets on a noteworthy range of hyperparameters.
翻訳日:2023-11-22 20:23:03 公開日:2023-11-20
# 非直交多重アクセス強化多ユーザセマンティックコミュニケーション

Non-Orthogonal Multiple Access Enhanced Multi-User Semantic Communication ( http://arxiv.org/abs/2303.06597v2 )

ライセンス: Link先を確認
Weizhi Li, Haotai Liang, Chen Dong, Xiaodong Xu, Ping Zhang and Kaijun Liu(参考訳) 意味コミュニケーションは新しいパラダイムであり、研究者の幅広い関心を惹きつけている。 その重要な側面の1つは、実用的ネットワーク環境への応用をさらに促進できるマルチユーザー意味コミュニケーション理論である。 エンド・ツー・エンドの単一ユーザ・セマンティック・トランスミッションの設計に焦点が当てられているが,NOMASC(Non-orthogonal multiple access)に基づくマルチユーザ・セマンティック・コミュニケーションシステムを提案する。 提案システムは,ソース情報の多様なモダリティを持つ複数ユーザの意味変換をサポートする。 ハードウェアの高要求を回避するため、セマンティックエンコーダの最後に非対称量子化器を用い、連続した全解像度セマンティック特徴を識別する。 さらに、離散特徴を自己学習シンボルにマッピングし、受信機でインテリジェントマルチユーザ検出(mud)を実現するために、ニューラルネットワークモデルを提案する。 シミュレーションの結果,提案方式は複数のユーザ信号の非直交伝送において良好に動作し,他の手法,特にSNRにおいて性能に優れていた。 さらに、様々なシミュレーション設定とミスマッチテストシナリオにおいて高いロバスト性を有する。

Semantic communication serves as a novel paradigm and attracts the broad interest of researchers. One critical aspect of it is the multi-user semantic communication theory, which can further promote its application to the practical network environment. While most existing works focused on the design of end-to-end single-user semantic transmission, a novel non-orthogonal multiple access (NOMA)-based multi-user semantic communication system named NOMASC is proposed in this paper. The proposed system can support semantic tranmission of multiple users with diverse modalities of source information. To avoid high demand for hardware, an asymmetric quantizer is employed at the end of the semantic encoder for discretizing the continuous full-resolution semantic feature. In addition, a neural network model is proposed for mapping the discrete feature into self-learned symbols and accomplishing intelligent multi-user detection (MUD) at the receiver. Simulation results demonstrate that the proposed system holds good performance in non-orthogonal transmission of multiple user signals and outperforms the other methods, especially at low-to-medium SNRs. Moreover, it has high robustness under various simulation settings and mismatched test scenarios.
翻訳日:2023-11-22 20:13:28 公開日:2023-11-20
# ERUDITE: 適応型パーソナライズドラーニングシステムのためのロボットIoT

ERUDITE: Human-in-the-Loop IoT for an Adaptive Personalized Learning System ( http://arxiv.org/abs/2303.04292v2 )

ライセンス: Link先を確認
Mojtaba Taherisadr and Mohammad Abdullah Al Faruque and Salma Elmalaki(参考訳) ウェアラブル技術の急速な成長と、最近の機械学習と信号処理の進歩により、複雑な人間のコンテキストの監視は実現可能となり、人間と環境に自律的に適応するために自然に進化する、ループ内IoTシステムを開発するための道を開いた。 それでも、これらのIoTシステムを設計する上での中心的な課題は、意図、ストレス、認知負荷、学習能力など、人間の精神状態を予測することにある。 異なる人間のコンテキストは、特定の精神状態と相関する様々なセンサーモダリティの融合から推測できるが、人間の脳はよりリッチなセンサーモダリティを提供し、必要な人間のコンテキストに関する洞察を与えてくれる。 本稿では、最近のウェアラブルニューロテクノロジーを活用して脳信号をデコードする、学習環境のためのヒューマン・イン・ザ・ループIoTシステムであるERUDITEを提案する。 概念学習理論からの洞察により、ERUDITEは人間の学習状態を推測し、人間の学習が増加するか低下するかを理解することができる。 入力感覚信号として人間の学習を定量化することにより、学習環境において人間に適切なパーソナライズされたフィードバックを提供し、学習経験を向上させることができる。 ERUDITEは15ドルの参加者を対象に評価し,人間の学習状態を推定し,学習環境に適応するためのセンサモダリティとして脳信号を用いることで,参加者の学習性能を平均26%向上させることを示した。 さらに,ERUDITEをエッジベースのプロトタイプにデプロイして,実用性やスケーラビリティを評価する方法を示した。

Thanks to the rapid growth in wearable technologies and recent advancement in machine learning and signal processing, monitoring complex human contexts becomes feasible, paving the way to develop human-in-the-loop IoT systems that naturally evolve to adapt to the human and environment state autonomously. Nevertheless, a central challenge in designing many of these IoT systems arises from the requirement to infer the human mental state, such as intention, stress, cognition load, or learning ability. While different human contexts can be inferred from the fusion of different sensor modalities that can correlate to a particular mental state, the human brain provides a richer sensor modality that gives us more insights into the required human context. This paper proposes ERUDITE, a human-in-the-loop IoT system for the learning environment that exploits recent wearable neurotechnology to decode brain signals. Through insights from concept learning theory, ERUDITE can infer the human state of learning and understand when human learning increases or declines. By quantifying human learning as an input sensory signal, ERUDITE can provide adequate personalized feedback to humans in a learning environment to enhance their learning experience. ERUDITE is evaluated across $15$ participants and showed that by using the brain signals as a sensor modality to infer the human learning state and providing personalized adaptation to the learning environment, the participants' learning performance increased on average by $26\%$. Furthermore, we showed that ERUDITE can be deployed on an edge-based prototype to evaluate its practicality and scalability.
翻訳日:2023-11-22 20:12:29 公開日:2023-11-20
# 拡散モデルによる行動クローニング

Diffusion Model-Augmented Behavioral Cloning ( http://arxiv.org/abs/2302.13335v3 )

ライセンス: Link先を確認
Hsiang-Chun Wang, Shang-Fu Chen, Ming-Hao Hsu, Chun-Mao Lai, Shao-Hua Sun(参考訳) 模倣学習は、環境からの報奨信号にアクセスせずに専門家のデモンストレーションを観察して学習の課題に対処する。 環境と相互作用する必要のない既存の模倣学習法は、専門家分布を条件付き確率p(a|s)(例えば、行動的クローニング、BC)または共同確率p(s,a)としてモデル化する。 その単純さにもかかわらず、条件付き確率のモデル化は通常一般化に苦しむ。 ジョイント確率のモデル化は一般化性能の向上に繋がるが、推論手順はしばしば時間がかかり、モデルは多様体の過剰フィットに苦しむ。 本研究は,専門家分布の条件付き確率と合同確率の両方をモデル化することで得られる模倣学習フレームワークを提案する。 提案する拡散モデル提示行動クローニング(dbc)は,専門家の行動のモデル化を訓練した拡散モデルを採用し,bc損失(条件)と提案拡散モデル損失(joint)の両方を最適化する方針を学習する。 dbcはナビゲーション、ロボットアーム操作、デクスタース操作、ロコモーションといった様々な連続制御タスクにおいてベースラインを上回る。 我々は,条件付き確率と専門家分布のジョイント確率のどちらかをモデル化する限界を検証するための追加実験を設計し,異なる生成モデルと比較する。 アブレーション研究は設計選択の有効性を正当化する。

Imitation learning addresses the challenge of learning by observing an expert's demonstrations without access to reward signals from environments. Most existing imitation learning methods that do not require interacting with environments either model the expert distribution as the conditional probability p(a|s) (e.g., behavioral cloning, BC) or the joint probability p(s, a). Despite its simplicity, modeling the conditional probability with BC usually struggles with generalization. While modeling the joint probability can lead to improved generalization performance, the inference procedure is often time-consuming and the model can suffer from manifold overfitting. This work proposes an imitation learning framework that benefits from modeling both the conditional and joint probability of the expert distribution. Our proposed diffusion model-augmented behavioral cloning (DBC) employs a diffusion model trained to model expert behaviors and learns a policy to optimize both the BC loss (conditional) and our proposed diffusion model loss (joint). DBC outperforms baselines in various continuous control tasks in navigation, robot arm manipulation, dexterous manipulation, and locomotion. We design additional experiments to verify the limitations of modeling either the conditional probability or the joint probability of the expert distribution as well as compare different generative models. Ablation studies justify the effectiveness of our design choices.
翻訳日:2023-11-22 20:10:05 公開日:2023-11-20
# Fairer Weak Supervisionのソースバイアスの緩和

Mitigating Source Bias for Fairer Weak Supervision ( http://arxiv.org/abs/2303.17713v2 )

ライセンス: Link先を確認
Changho Shin, Sonia Cromp, Dyah Adila, Frederic Sala(参考訳) 弱い監督は、基底真理ラベルの必要性を減らすことによって、トレーニングセットの効率的な開発を可能にする。 しかし、未知のラベルを推定するために信号源を統合するなど、弱い監督を魅力的にする技術は、生成した疑似ラベルが非常に偏っている危険性も伴う。 驚いたことに、日常の使用とバイアスの増加の可能性を考えると、公正の観点からは、弱い監督は研究されていない。 本研究は,接地ラベルへのアクセスが可能なデータセットから公平なモデルを構築することができる場合でも,弱い監督によってラベル付けされた対応するデータセットは任意に不公平である,という観察から開始する。 これに対処するために,弱い監督下でのソースの不公平さのモデルを提案し,実証的に検証し,これらのバイアスを軽減できる単純な反事実的公平性に基づく手法を導入する。 理論的には、トレードオフに苦しむ標準的な公正なアプローチとは対照的に、精度と公平性の両方を同時に改善することが可能である。 実験により,本手法は,弱監視ベースラインの精度を最大32\%向上させるとともに,人口格差を82.5\%低減することを示した。 WRENCHベンチマークの10つのデータセットのうち5つにおいて,性能の最大化を目的とした簡単な拡張を行った。

Weak supervision enables efficient development of training sets by reducing the need for ground truth labels. However, the techniques that make weak supervision attractive -- such as integrating any source of signal to estimate unknown labels -- also entail the danger that the produced pseudolabels are highly biased. Surprisingly, given everyday use and the potential for increased bias, weak supervision has not been studied from the point of view of fairness. We begin such a study, starting with the observation that even when a fair model can be built from a dataset with access to ground-truth labels, the corresponding dataset labeled via weak supervision can be arbitrarily unfair. To address this, we propose and empirically validate a model for source unfairness in weak supervision, then introduce a simple counterfactual fairness-based technique that can mitigate these biases. Theoretically, we show that it is possible for our approach to simultaneously improve both accuracy and fairness -- in contrast to standard fairness approaches that suffer from tradeoffs. Empirically, we show that our technique improves accuracy on weak supervision baselines by as much as 32\% while reducing demographic parity gap by 82.5\%. A simple extension of our method aimed at maximizing performance produces state-of-the-art performance in five out of ten datasets in the WRENCH benchmark.
翻訳日:2023-11-22 20:00:41 公開日:2023-11-20
# アナログニューロモルフィックハードウェアにおけるモデルパラメータ化のためのシミュレーションベース推論

Simulation-based Inference for Model Parameterization on Analog Neuromorphic Hardware ( http://arxiv.org/abs/2303.16056v2 )

ライセンス: Link先を確認
Jakob Kaiser, Raphael Stock, Eric M\"uller, Johannes Schemmel, Sebastian Schmitt(参考訳) BrainScaleS-2 (BSS-2) システムは、ニューロンの物理的モデルとシナプスを実装し、エネルギー効率が高く高速な生体ニューロンのエミュレーションを目指している。 BSS-2で神経科学実験を複製する場合、適切なモデルパラメータを見つけることが大きな課題である。 本研究では,BSS-2アナログニューロモルフィックシステム上でエミュレートされた多成分ニューロンモデルのパラメータ化のためのSNPEアルゴリズムの有効性について検討した。 SNPEアルゴリズムはシミュレーションに基づく推論手法のクラスに属し,モデルパラメータの後方分布を推定する。 マルチコンパートメンタルモデルでは、近似後部は実験結果と一致し、パラメータ間の相関が理論的な期待に適合していることが示される。 さらに、ソフトウェアシミュレーションで示されているように、BSS-2のエミュレーションによってデータが生成される際には、高次元の観測やパラメータ空間を扱うことができる。 これらの結果から,SNPEアルゴリズムは,特に試行錯誤や限定パラメータ範囲などの類似ニューロモルフィック基板の特性を扱う場合,複雑なモデルのパラメータ化と解析を自動化する上で有望な手法であることが示唆された。

The BrainScaleS-2 (BSS-2) system implements physical models of neurons as well as synapses and aims for an energy-efficient and fast emulation of biological neurons. When replicating neuroscientific experiments on BSS-2, a major challenge is finding suitable model parameters. This study investigates the suitability of the sequential neural posterior estimation (SNPE) algorithm for parameterizing a multi-compartmental neuron model emulated on the BSS-2 analog neuromorphic system. The SNPE algorithm belongs to the class of simulation-based inference methods and estimates the posterior distribution of the model parameters; access to the posterior allows quantifying the confidence in parameter estimations and unveiling correlation between model parameters. For our multi-compartmental model, we show that the approximated posterior agrees with experimental observations and that the identified correlation between parameters fits theoretical expectations. Furthermore, as already shown for software simulations, the algorithm can deal with high-dimensional observations and parameter spaces when the data is generated by emulations on BSS-2. These results suggest that the SNPE algorithm is a promising approach for automating the parameterization and the analyzation of complex models, especially when dealing with characteristic properties of analog neuromorphic substrates, such as trial-to-trial variations or limited parameter ranges.
翻訳日:2023-11-22 19:58:44 公開日:2023-11-20
# 非マルコフデコヒーレンスによる量子演算の性能最適化-トルトーズかハレか?

Optimizing performance of quantum operations with non-Markovian decoherence: the tortoise or the hare? ( http://arxiv.org/abs/2303.16002v2 )

ライセンス: Link先を確認
Eoin P. Butler, Gerald E. Fux, Carlos Ortega-Taberner, Brendon W. Lovett, Jonathan Keeling, Paul R. Eastham(参考訳) 量子システムと環境の間の相互作用は、それを制御し、その上で量子演算を実行する能力を制限する。 目的関数の勾配を計算するためにプロセステンソルを用いて,非マルコフ環境に結合した量子システムの最適制御を求める効率的な方法を提案する。 ボソニック環境に結合した駆動型2レベルシステムの状態伝達を考慮し,速度と忠実性の観点から性能を特徴付ける。 したがって、最善の達成可能な忠実度をプロセス持続時間の関数として決定する。 速度と忠実度の間にはトレードオフがあり、非マルコフ効果を利用して遅いプロセスの方が忠実度が高いことを示す。

The interaction between a quantum system and its environment limits our ability to control it and perform quantum operations on it. We present an efficient method to find optimal controls for quantum systems coupled to non-Markovian environments, by using the process tensor to compute the gradient of an objective function. We consider state transfer for a driven two-level system coupled to a bosonic environment, and characterize performance in terms of speed and fidelity. We thus determine the best achievable fidelity as a function of process duration. We show there is a trade-off between speed and fidelity, and that slower processes can have higher fidelity by exploiting non-Markovian effects.
翻訳日:2023-11-22 19:58:02 公開日:2023-11-20
# スピンバスと相互作用する系の断熱的操作

Adiabatic manipulation of a system interacting with a spin-bath ( http://arxiv.org/abs/2305.08209v3 )

ライセンス: Link先を確認
Benedetto Militello and Anna Napoli(参考訳) 計算された物理系がスピン浴と相互作用している場合、アディバティック定理に基づいて量子系を操作する非常に効率的な手法であるStimulated Raman Adiabatic Passageを解析した。 回転波近似の爆発により、解析処理と数値処理の両方を単純化する運動定数の同定が可能となり、システムと浴の総ユニタリ進化を評価することができる。 人口移動プロセスの効率性は, 環境との弱い強い結合や非共鳴など, いくつかの制度で検討されている。 適切なゼノ部分空間の形成は、強い減衰状態における効率の低下を説明する。

Stimulated Raman Adiabatic Passage, a very efficient technique for manipulating a quantum system based on the adiabatic theorem, is analyzed in the case where the manipulated physical system is interacting with a spin bath. Exploitation of the rotating wave approximation allows for the identification of a constant of motion which simplifies both the analytical and the numerical treatment, which allows for evaluating the total unitary evolution of system and bath. The efficiency of the population transfer process is investigated in several regimes, including the weak and strong coupling with the environment and the off-resonance. The formation of appropriate Zeno subspaces explains the lowering of the efficiency in the strong damping regime.
翻訳日:2023-11-22 19:51:01 公開日:2023-11-20
# 実践的ロバスト強化学習について:実用的不確実性セットとダブルエージェントアルゴリズム

On Practical Robust Reinforcement Learning: Practical Uncertainty Set and Double-Agent Algorithm ( http://arxiv.org/abs/2305.06657v3 )

ライセンス: Link先を確認
Ukjo Hwang, Songnam Hong(参考訳) ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。 このセットには、トレーニングのためのサンプルを生成する名目MDP(N-MDP)からの摂動MDPが含まれており、トレーニング(N-MDP)と真の環境の間の潜在的なミスマッチを反映している。 本稿では,既存の集合から不確実な MDP を除いた,精巧な不確実性セットを提案する。 この不確実性セットの下で,サンプルベースRRLアルゴリズム(ARQ-Learning)を開発し,その有限時間誤差境界を特徴付ける。 また、ARQ-Learningは標準Q-LearningとロバストQ-Learningと同等の速度で収束し、ロバスト性を確保した。 大規模あるいは連続的な状態空間を持つ場合へのARQ学習の拡張のボトルネックに対処できる悲観的エージェントを新たに導入する。 このアイデアをRLアルゴリズムに組み込んだモデルフリーRRLのための二重エージェントアルゴリズムを提案する。 実験により,提案アルゴリズムの有効性を実証した。

Robust reinforcement learning (RRL) aims at seeking a robust policy to optimize the worst case performance over an uncertainty set of Markov decision processes (MDPs). This set contains some perturbed MDPs from a nominal MDP (N-MDP) that generate samples for training, which reflects some potential mismatches between training (i.e., N-MDP) and true environments. In this paper we present an elaborated uncertainty set by excluding some implausible MDPs from the existing sets. Under this uncertainty set, we develop a sample-based RRL algorithm (named ARQ-Learning) for tabular setting and characterize its finite-time error bound. Also, it is proved that ARQ-Learning converges as fast as the standard Q-Learning and robust Q-Learning while ensuring better robustness. We introduce an additional pessimistic agent which can tackle the major bottleneck for the extension of ARQ-Learning into the cases with larger or continuous state spaces. Incorporating this idea into RL algorithms, we propose double-agent algorithms for model-free RRL. Via experiments, we demonstrate the effectiveness of the proposed algorithms.
翻訳日:2023-11-22 19:50:34 公開日:2023-11-20
# アバターの知識蒸留:不確かさを自称する教師パラダイム

Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with Uncertainty ( http://arxiv.org/abs/2305.02722v4 )

ライセンス: Link先を確認
Yuan Zhang, Weihua Chen, Yichen Lu, Tao Huang, Xiuyu Sun, Jian Cao(参考訳) 知識蒸留はpocket-sizeモデルのパフォーマンスを高める効果的なパラダイムであり、特に複数の教師モデルが利用可能であれば、生徒は再び上限を破る。 しかし、使い捨て蒸留のために多様な教師モデルを訓練するのは経済的ではない。 本稿では,教師から導かれた推論アンサンブルモデルである蒸留用アバターという新しい概念を提案する。 具体的には,(1)蒸留訓練の各イテレーションにおいて,摂動変換によって様々なアバターが生成される。 我々は,教師モデルから多様で受容的な知識の視点を学習する学生モデルを支援するために,アバターが作業能力と教育能力の上限が高いことを検証した。 2) 蒸留において, バニラ教師とアバターの統計的差異のばらつきから, アバターの知識伝達に対する貢献を適応的に調整する不確実性認識因子を提案する。 Avatar Knowledge Distillation AKDは、既存の方法や洗練と根本的に異なる。 包括的実験により,高濃度予測のための最先端蒸留法を,計算コストを増すことなく洗練するアバター機構の有効性が実証された。 AKDはCOCO 2017では0.7AP、セマンティックセグメンテーションでは1.83mIoU、セマンティックセグメンテーションでは1.83mIoUとなっている。 コードはhttps://github.com/Gumpest/AvatarKDで入手できる。

Knowledge distillation is an effective paradigm for boosting the performance of pocket-size model, especially when multiple teacher models are available, the student would break the upper limit again. However, it is not economical to train diverse teacher models for the disposable distillation. In this paper, we introduce a new concept dubbed Avatars for distillation, which are the inference ensemble models derived from the teacher. Concretely, (1) For each iteration of distillation training, various Avatars are generated by a perturbation transformation. We validate that Avatars own higher upper limit of working capacity and teaching ability, aiding the student model in learning diverse and receptive knowledge perspectives from the teacher model. (2) During the distillation, we propose an uncertainty-aware factor from the variance of statistical differences between the vanilla teacher and Avatars, to adjust Avatars' contribution on knowledge transfer adaptively. Avatar Knowledge Distillation AKD is fundamentally different from existing methods and refines with the innovative view of unequal training. Comprehensive experiments demonstrate the effectiveness of our Avatars mechanism, which polishes up the state-of-the-art distillation methods for dense prediction without more extra computational cost. The AKD brings at most 0.7 AP gains on COCO 2017 for Object Detection and 1.83 mIoU gains on Cityscapes for Semantic Segmentation, respectively. Code is available at https://github.com/Gumpest/AvatarKD.
翻訳日:2023-11-22 19:49:20 公開日:2023-11-20
# フェデレーション・マルチアームバンドのためのリワード指導

Reward Teaching for Federated Multi-armed Bandits ( http://arxiv.org/abs/2305.02441v2 )

ライセンス: Link先を確認
Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang(参考訳) 既存のfederated multi-armed bandits (fmab) の設計のほとんどは、クライアントがサーバと協調するために指定された設計を実装するという仮定に基づいている。 しかし実際には、クライアントの既存のプロトコルを変更することは不可能かもしれない。 この課題に対処するため、本研究では、個々の累積報酬を常に最大化するクライアントに注目し、サーバが暗黙のローカル報酬調整を通じて、クライアントをグローバル最適へと導く‘reward teaching’という斬新なアイデアを導入している。 このフレームワークでは、サーバはバンド学習と目標教育という2つの密結合されたタスクに直面します。 teaching-After-Learning (TAL) と呼ばれる段階的なアプローチは、まずクライアントの探索を個別に奨励し、妨げるように設計されている。 talの一般的な性能分析は、クライアントの戦略が一定の穏やかな要求を満たすときに確立される。 バンディットアルゴリズムのウォームスタート動作を解析する新たな技術的アプローチが開発され, UCBやepsilon-greedy戦略を実行するクライアントによるTALの特定保証が得られた。 これらの結果から、TALは対数的不備を達成し、対数的調整コストのみを発生させることが示されている。 さらに、TWLアルゴリズムは、TBの非適応位相分離を断ち切るために、連続したアームの除去という考え方で開発されている。 厳密な分析は、UTB1でクライアントと向き合う場合、TWLはその適応設計により、サブ最適性ギャップへの依存性の観点からTALより優れていることを示した。 実験により提案アルゴリズムの有効性と汎用性を示す。

Most of the existing federated multi-armed bandits (FMAB) designs are based on the presumption that clients will implement the specified design to collaborate with the server. In reality, however, it may not be possible to modify the clients' existing protocols. To address this challenge, this work focuses on clients who always maximize their individual cumulative rewards, and introduces a novel idea of ``reward teaching'', where the server guides the clients towards global optimality through implicit local reward adjustments. Under this framework, the server faces two tightly coupled tasks of bandit learning and target teaching, whose combination is non-trivial and challenging. A phased approach, called Teaching-After-Learning (TAL), is first designed to encourage and discourage clients' explorations separately. General performance analyses of TAL are established when the clients' strategies satisfy certain mild requirements. With novel technical approaches developed to analyze the warm-start behaviors of bandit algorithms, particularized guarantees of TAL with clients running UCB or epsilon-greedy strategies are then obtained. These results demonstrate that TAL achieves logarithmic regrets while only incurring logarithmic adjustment costs, which is order-optimal w.r.t. a natural lower bound. As a further extension, the Teaching-While-Learning (TWL) algorithm is developed with the idea of successive arm elimination to break the non-adaptive phase separation in TAL. Rigorous analyses demonstrate that when facing clients with UCB1, TWL outperforms TAL in terms of the dependencies on sub-optimality gaps thanks to its adaptive design. Experimental results demonstrate the effectiveness and generality of the proposed algorithms.
翻訳日:2023-11-22 19:48:52 公開日:2023-11-20
# コモンセンスのタスクにまたがる手続き的知識の伝達

Transferring Procedural Knowledge across Commonsense Tasks ( http://arxiv.org/abs/2304.13867v3 )

ライセンス: Link先を確認
Yifan Jiang, Filip Ilievski, Kaixin Ma(参考訳) 日常的な状況に関するストーリーは人間のコミュニケーションの重要な部分であり、これらのストーリーを確実に理解できるAIエージェントを開発する必要性を動機付けている。 ストーリー補完と手続き的理解のための教師付きメソッドの長いリストにもかかわらず、現在のAIには、目に見えないストーリーの手順を自動的に追跡し説明するメカニズムがない。 このギャップを埋めるために、我々は、AIモデルが手続き的知識を透明な方法で新しい物語課題に伝達する能力について研究する。 LEAP: 最先端のモデリングアーキテクチャ、トレーニング体制、自然なストーリーと合成ストーリーの両方に基づいた拡張戦略を統合する包括的なフレームワークを設計します。 高度に注釈付けされたトレーニングデータの欠如に対処するため,数発のプロンプトに基づく堅牢な自動ラベルラを考案し,拡張データを強化する。 ドメイン内および外部タスクによる我々の実験は、異なるアーキテクチャの相互作用、トレーニング体制、拡張戦略に関する洞察を明らかにします。 LEAPのラベルには、ドメイン外のデータセットに明確なポジティブな影響がある。

Stories about everyday situations are an essential part of human communication, motivating the need to develop AI agents that can reliably understand these stories. Despite the long list of supervised methods for story completion and procedural understanding, current AI has no mechanisms to automatically track and explain procedures in unseen stories. To bridge this gap, we study the ability of AI models to transfer procedural knowledge to novel narrative tasks in a transparent manner. We design LEAP: a comprehensive framework that integrates state-of-the-art modeling architectures, training regimes, and augmentation strategies based on both natural and synthetic stories. To address the lack of densely annotated training data, we devise a robust automatic labeler based on few-shot prompting to enhance the augmented data. Our experiments with in- and out-of-domain tasks reveal insights into the interplay of different architectures, training regimes, and augmentation strategies. LEAP's labeler has a clear positive impact on out-of-domain datasets, while the resulting dense annotation provides native explainability.
翻訳日:2023-11-22 19:47:44 公開日:2023-11-20
# 光励起分子集合体におけるカシャ則のスケーリング則

Scaling law for Kasha's rule in photoexcited molecular aggregates ( http://arxiv.org/abs/2304.10236v2 )

ライセンス: Link先を確認
Raphael Holzinger, Nico S. Bassler, Helmut Ritsch and Claudiu Genes(参考訳) 分子集合体の光物理学を量子光学の観点から研究し、カシャの規則と呼ばれる集団電子励起の高速非放射緩和のためのスケーリング法則の導出に焦点を当てた。 深いサブ波長分離では、量子エミッタの配列は集合状態のエネルギー的に広い多様体を示し、非局在電子励起はアグリゲートのモノマー間の近接場双極子-双極子交換に由来する。 可視光アドレスによる光励起は、ほとんど対称な集合状態であり、これはH-アグリゲートと呼ばれる配列では、上向きのハイパーソクロミックシフトを示す。 分子内振動モードを経由する超高速の非放射緩和は、低エネルギー、低ラジカル状態、すなわち蛍光の効果的な抑制をもたらす。 本処理により, この緩和過程の近似線形スケーリング則を, 利用可能な低エネルギー振動モードの数で導出し, 隣接するモノマー間の双極子-双極子相互作用強度と直接比例することを示す。

We study the photophysics of molecular aggregates from a quantum optics perspective, with emphasis on deriving scaling laws for the fast non-radiative relaxation of collective electronic excitations, referred to as Kasha's rule. At deep subwavelength separations, arrays of quantum emitters exhibit an energetically broad manifold of collective states with delocalized electronic excitations originating from near field dipole-dipole exchanges between the aggregate's monomers. Photo-excitation with visible light addresses almost exclusively symmetric collective states, which for an arrangement known as H-aggregate, show an upward hypsochromic shift. The extremely fast subsequent non-radiative relaxation via intramolecular vibrational modes then populates lower energy, subradiant states which results in the effective inhibition of fluorescence. Our treatment allows for the derivation of an approximate linear scaling law of this relaxation process with the number of available low energy vibrational modes and reveals its direct proportionality to the dipole-dipole interaction strength between neighbouring monomers.
翻訳日:2023-11-22 19:45:26 公開日:2023-11-20
# バイアス検出を伴う言語モデルにおける言語非依存バイアス検出

Language-Agnostic Bias Detection in Language Models with Bias Probing ( http://arxiv.org/abs/2305.13302v2 )

ライセンス: Link先を確認
Abdullatif K\"oksal, Omer Faruk Yalcin, Ahmet Akbiyik, M. Tahir Kilavuz, Anna Korhonen, Hinrich Sch\"utze(参考訳) プレトレーニング言語モデル(PLM)はNLPの主要な構成要素であるが、強い社会的バイアスを含んでいる。 これらのバイアスの定量化は、現在の方法が入力のわずかな変化に敏感であるため、難しい。 そこで本研究では,plmにおける社会的バイアスを頑健で言語非依存な手法で評価する手法であるlabdetを提案する。 ケーススタディでは,非国籍感情検出において,凍結したPLM上の分類器を訓練することにより,LABDetの「表面的」国籍バイアスが示される。 歴史的・政治的文脈に整合した6つの言語において,一貫した民族性バイアスのパターンがモノリンガル PLM 全体に現れる。 また,labdetが表わすバイアスは,事前学習データのバイアスとよく相関していることを示し,本研究は,事前学習データとplm行動を直接関連付ける数少ない研究の一つである。 最後に、LABDetの信頼性と異なるテンプレートや言語への適用性を、広範囲の堅牢性チェックを通じて検証する。 私たちはコードとデータセットをhttps://github.com/akoksal/LABDet.comで公開しています。

Pretrained language models (PLMs) are key components in NLP, but they contain strong social biases. Quantifying these biases is challenging because current methods focusing on fill-the-mask objectives are sensitive to slight changes in input. To address this, we propose a bias probing technique called LABDet, for evaluating social bias in PLMs with a robust and language-agnostic method. For nationality as a case study, we show that LABDet `surfaces' nationality bias by training a classifier on top of a frozen PLM on non-nationality sentiment detection. We find consistent patterns of nationality bias across monolingual PLMs in six languages that align with historical and political context. We also show for English BERT that bias surfaced by LABDet correlates well with bias in the pretraining data; thus, our work is one of the few studies that directly links pretraining data to PLM behavior. Finally, we verify LABDet's reliability and applicability to different templates and languages through an extensive set of robustness checks. We publicly share our code and dataset in https://github.com/akoksal/LABDet.
翻訳日:2023-11-22 19:37:55 公開日:2023-11-20
# 6次元オブジェクトの回帰に対する教師なしドメイン適応のためのマニフォールド対応自己学習

Manifold-Aware Self-Training for Unsupervised Domain Adaptation on Regressing 6D Object Pose ( http://arxiv.org/abs/2305.10808v2 )

ライセンス: Link先を確認
Yichen Zhang, Jiehong Lin, Ke Chen, Zelin Xu, Yaowei Wang and Kui Jia(参考訳) 視覚回帰(例えば6次元ポーズ推定)における合成データと実データの間の領域ギャップは、対象空間における離散アンカークラスの粗い分類に関する大域的特徴アライメントと局所的細分化によって橋渡しされる。 具体的には,各領域間の一貫した累積的対象依存性を明らかにする明示的な自己教師付き多様体正規化を自己学習スキームに組み込み,より識別可能な回帰タスクの表現を促進する。 さらに、目標の相対的方向と最寄りのクラスビンまでの距離を推定するために、統一的な暗黙的な神経関数を学習することは、ターゲット分類予測を洗練することを目的としている。 課題6次元ポーズ推定タスクの3つの公開ベンチマークにおける実験結果から,提案手法の有効性を検証し,6次元ポーズ推定におけるudaの最先端性能を一貫して達成した。

Domain gap between synthetic and real data in visual regression (e.g. 6D pose estimation) is bridged in this paper via global feature alignment and local refinement on the coarse classification of discretized anchor classes in target space, which imposes a piece-wise target manifold regularization into domain-invariant representation learning. Specifically, our method incorporates an explicit self-supervised manifold regularization, revealing consistent cumulative target dependency across domains, to a self-training scheme (e.g. the popular Self-Paced Self-Training) to encourage more discriminative transferable representations of regression tasks. Moreover, learning unified implicit neural functions to estimate relative direction and distance of targets to their nearest class bins aims to refine target classification predictions, which can gain robust performance against inconsistent feature scaling sensitive to UDA regressors. Experiment results on three public benchmarks of the challenging 6D pose estimation task can verify the effectiveness of our method, consistently achieving superior performance to the state-of-the-art for UDA on 6D pose estimation.
翻訳日:2023-11-22 19:35:54 公開日:2023-11-20
# セレスタルホログラフィーとウェッジ様ホログラフィーにおける混合境界条件と二重トラス様変形

Mixed boundary conditions and Double-trace like deformations in Celestial holography and Wedge-like holography ( http://arxiv.org/abs/2305.10779v2 )

ライセンス: Link先を確認
Machiko Fukada and Akihiro Miyata(参考訳) AdS/CFT辞書によると、ホログラフィック CFT アクションに関連するダブルトレース変形 $f\int O^2$ を加えることは、場が AdS において$O$ になるような混合ノイマン/ディリクレ境界条件を課すことと二重である。 我々は,2次元平らな空間ホログラフィーで同様の挙動を観察した。 平面空間における境界条件の変形を, 平面空間共次元2ホログラフィ, 天体ホログラフィ, くさび状ホログラフィで検討する。 従来の天体ホログラフィー法では散乱の初期および最終バルク状態に境界条件を課した。 バルク内におけるこれらの非自明な境界条件はセレスタルCFT側の「二重変形」を誘導し、通常のAdS/CFTにおける二重トレース変形のアナロジーとして理解することができる。 非自明な変形境界条件下で2点バルク散乱振幅を計算する。 後者のwedge-like holographyアプローチでは、光円錐のヌル無限大上の混合ノイマン/ディリクレ境界条件を考える。 この混合は、通常のAdS/CFTのように、ウェッジホログラフィーの下で二重ウェッジCFT側の再正規化フローを引き起こす。 ウェッジ2点関数とセレスタル2点関数の相違は、バルク質量場からの正則化パラメータへの感度に起因し、通常のAdS/CFT技術を使用する。

According to the AdS/CFT dictionary, adding a relevant double-trace deformation $f\int O^2$ to a holographic CFT action is dual to imposing mixed Neumann/Dirichlet boundary conditions for the field dual to $O$ in AdS. We observed similar behaviour in codimension-two flat space holographies. We consider deformations of boundary conditions in flat spacetimes under flat space co-dimension-two holographies, celestial holography and Wedge-like holography. In the former celestial-holographic approach, we imposed boundary conditions on initial and final bulk states in the scattering. We find that these non-trivial boundary conditions in the bulk induce ``double deformations" on the Celestial CFT side, which can be understood as an analogy of double trace deformations in the usual AdS/CFT. We compute two-point bulk scattering amplitudes under the non-trivial deformed boundary conditions. In the latter Wedge-like holography approach, we consider mixed Neumann/Dirichlet boundary conditions on the null infinity of the light-cone. We find that this mixing induces a renormalization flow in the dual Wedge CFT side under the Wedge holography, as in the usual AdS/CFT. We argue that the discrepancy between the Wedge two-point function and the Celestial two-point function originates from a sensitivity of bulk massless fields to a regularization parameter to use the usual AdS/CFT techniques.
翻訳日:2023-11-22 19:35:32 公開日:2023-11-20
# ブラインド計測に基づく量子計算におけるグラフ状態のロバストかつ効率的な検証

Robust and efficient verification of graph states in blind measurement-based quantum computation ( http://arxiv.org/abs/2305.10742v2 )

ライセンス: Link先を確認
Zihao Li, Huangjun Zhu, Masahito Hayashi(参考訳) Blind Quantum Computing (BQC) は、クライアントのプライバシを保護するセキュアな量子計算手法である。 測定ベースの量子計算(MBQC)は、BQCを実現するための有望なアプローチである。 ブラインドMBQCにおける信頼性の高い結果を得るためには、資源グラフ状態が敵のシナリオで正確に準備されているかどうかを検証することが重要である。 しかし、このタスクの以前の検証プロトコルはリソース消費やノイズの影響を受けやすく、実際には適用できない。 本稿では,対向シナリオにおいて任意の素局所次元で任意のグラフ状態を検証するためのロバストで効率的なプロトコルを提案し,ブラインドmbqcにおける資源状態の検証のためのロバストで効率的なプロトコルを提案する。 我々のプロトコルは局所的なpauli測定のみを必要とするため、現在の技術で容易に実現できる。 それにもかかわらず、システムサイズと目標精度に関して、これまで達成されたことのない不確かさと重要性のレベルによって定量化された最適なスケーリング動作を達成することができる。 特に,本プロトコルは,重要度レベルでのスケーリング動作を指数関数的に向上させることができる。

Blind quantum computation (BQC) is a secure quantum computation method that protects the privacy of clients. Measurement-based quantum computation (MBQC) is a promising approach for realizing BQC. To obtain reliable results in blind MBQC, it is crucial to verify whether the resource graph states are accurately prepared in the adversarial scenario. However, previous verification protocols for this task are too resource consuming or noise susceptible to be applied in practice. Here, we propose a robust and efficient protocol for verifying arbitrary graph states with any prime local dimension in the adversarial scenario, which leads to a robust and efficient protocol for verifying the resource state in blind MBQC. Our protocol requires only local Pauli measurements and is thus easy to realize with current technologies. Nevertheless, it can achieve the optimal scaling behaviors with respect to the system size and the target precision as quantified by the infidelity and significance level, which has never been achieved before. Notably, our protocol can exponentially enhance the scaling behavior with the significance level.
翻訳日:2023-11-22 19:35:03 公開日:2023-11-20
# 原子レーザーの周波数コムスペクトルのモンテカルロシミュレーション

Monte-Carlo simulation for the frequency comb spectrum of an atom laser ( http://arxiv.org/abs/2305.19722v3 )

ライセンス: Link先を確認
A. Schelle(参考訳) 超低温におけるコヒーレント原子レーザー場のシナリオに対して,想像時間の概念に基づく理論粒子数保存量子場理論を示し,適用した。 提案理論モデルでは, 捕捉されたボース・アインシュタイン凝縮体から放出されるコヒーレント原子線と非凝縮量子場成分を, 所定の繰り返し位相と周波数でモデル化して実現した原子レーザーの周波数コムスペクトルの解析的導出を記述する。 原子蒸気の凝縮部は、周囲の熱的原子雲の温度によって誘起される熱ノイズを受けると仮定される。 この新しい量子アプローチは、複素数値量子場表現における時間周期性および直交分解を用いて、量子場の前方および後方の伝播成分を有限温度における定量的特異性なしで同じ一意の時間および温度領域における定常波場として導出しモデル化する。 モンテカルロサンプリング法において、外閉じ込めの温度とトラップ周波数の関数として、複素値原子レーザー場、その結果の周波数コム、および封筒の形状の異なる繰り返し周波数分布を数値的に監視する。

A theoretical particle-number conserving quantum field theory based on the concept of imaginary time is presented and applied to the scenario of a coherent atomic laser field at ultra-cold temperatures. The proposed theoretical model describes the analytical derivation of the frequency comb spectrum for an atomic laser realized from modeling a coherent atomic beam of condensate and non-condensate quantum field components released from a trapped Bose-Einstein condensate at a given repetition phase and frequency. The condensate part of the atomic vapor is assumed to be subjected to thermal noise induced by the temperature of the surrounding thermal atomic cloud. This new quantum approach uses time periodicity and an orthogonal decomposition of the quantum field in a complex-valued quantum field representation to derive and model the quantum field's forward- and backward-propagating components as a standing wave field in the same unique time and temperature domain without quantitative singularities at finite temperatures. The complex-valued atom laser field, the resulting frequency comb, and the repetition frequency distribution with the varying shape of envelopes are numerically monitored within a Monte-Carlo sampling method, as a function of temperature and trap frequency of the external confinement.
翻訳日:2023-11-22 19:25:09 公開日:2023-11-20
# 幾何代数変換器

Geometric Algebra Transformer ( http://arxiv.org/abs/2305.18415v3 )

ライセンス: Link先を確認
Johann Brehmer, Pim de Haan, S\"onke Behrends, Taco Cohen(参考訳) 幾何学的データに関わる問題は、物理学、化学、ロボティクス、コンピュータビジョン、その他多くの分野で発生する。 このようなデータは、例えば点、方向ベクトル、翻訳、回転といった多くの形式を取ることができるが、これまでは、それらの対称性を尊重しながら、そのような様々な幾何学的タイプに適用できる単一のアーキテクチャは存在しない。 本稿では,幾何学データのための汎用アーキテクチャであるGeometric Algebra Transformer (GATr)を紹介する。 GATr は射影幾何学(またはクリフォード)代数における入力、出力、隠れ状態を表し、共通幾何学的対象の16次元ベクトル空間表現とそれらに作用する作用素を提供する。 GATr は E(3) に対して同変であり、3次元ユークリッド空間の対称性群である。 Transformerとしては、GATrは汎用性、効率的、スケーラブルである。 大規模動脈メッシュのn体モデリングから壁ハーストストレス推定,ロボット運動計画まで,gatrの問題点を実証する。 GATrは、エラー、データ効率、スケーラビリティの点で、非幾何学的ベースラインと等変ベースラインの両方を一貫して上回っている。

Problems involving geometric data arise in physics, chemistry, robotics, computer vision, and many other fields. Such data can take numerous forms, for instance points, direction vectors, translations, or rotations, but to date there is no single architecture that can be applied to such a wide variety of geometric types while respecting their symmetries. In this paper we introduce the Geometric Algebra Transformer (GATr), a general-purpose architecture for geometric data. GATr represents inputs, outputs, and hidden states in the projective geometric (or Clifford) algebra, which offers an efficient 16-dimensional vector-space representation of common geometric objects as well as operators acting on them. GATr is equivariant with respect to E(3), the symmetry group of 3D Euclidean space. As a Transformer, GATr is versatile, efficient, and scalable. We demonstrate GATr in problems from n-body modeling to wall-shear-stress estimation on large arterial meshes to robotic motion planning. GATr consistently outperforms both non-geometric and equivariant baselines in terms of error, data efficiency, and scalability.
翻訳日:2023-11-22 19:24:35 公開日:2023-11-20
# ボール代替品におけるヒストグラムによる一様性検査におけるミニマックスリスク

The Minimax Risk in Histogram-Based Uniformity Testing under Missing Ball Alternatives ( http://arxiv.org/abs/2305.18111v5 )

ライセンス: Link先を確認
Alon Kipnis(参考訳) 本研究では,多くのカテゴリからカテゴリ上の一様分布への離散サンプルの適合性をテストする問題について検討する。 代替仮説のクラスとして、半径$\epsilon$ の $\ell_p$ の球を、$p \leq 2$ の均一レート列の周りに取り除くことを考える。 サンプル数$n$とカテゴリ数$N$が無限大へ、$\epsilon$が小さければ、サンプルのヒストグラム(不備なカテゴリ数、シングルトン数、衝突数、...)に基づくテストにおいて、ミニマックスリスク$R_\epsilon^*$が2\Phi(-n N^{2-2/p} \epsilon^2/\sqrt{8N})$;$\Phi(x)$は通常のCDFである。 この結果により、リスクの収束率やサンプルの複雑さのスケーリング順序よりも、この問題に対して以前に提案された多くの推定器を一定レベルで比較することができる。 ミニマックステストは、非常に小さなサンプル限界での衝突に大きく依存するが、それ以外はチフタッドテストのように振る舞う。 種々の問題パラメータに関する実証的な研究により、我々の推定は有限標本において正確であり、最小値検定はチフタッド検定や衝突のみを用いる検定よりもはるかに優れていることが示された。 本解析は,ヒストグラム順序の漸近的正規性,ミニマックス設定とベイズ設定の等価性,および多次元最適化問題を1次元問題に還元することにより,最善の優先条件のキャラクタリゼーションに依存する。

We study the problem of testing the goodness of fit of a discrete sample from many categories to the uniform distribution over the categories. As a class of alternative hypotheses, we consider the removal of an $\ell_p$ ball of radius $\epsilon$ around the uniform rate sequence for $p \leq 2$. When the number of samples $n$ and number of categories $N$ go to infinity while $\epsilon$ is small, the minimax risk $R_\epsilon^*$ in testing based on the sample's histogram (number of absent categories, singletons, collisions, ...) asymptotes to $2\Phi(-n N^{2-2/p} \epsilon^2/\sqrt{8N})$; $\Phi(x)$ is the normal CDF. This result allows the comparison of the many estimators previously proposed for this problem at the constant level, rather than at the rate of convergence of the risk or the scaling order of the sample complexity. The minimax test mostly relies on collisions in the very small sample limit but otherwise behaves like the chisquared test. Empirical studies over a range of problem parameters show that our estimate is accurate in finite samples and that the minimax test is significantly better than the chisquared test or a test that only uses collisions. Our analysis relies on the asymptotic normality of histogram ordinates, the equivalence between the minimax setting and a Bayesian setting, and the characterization of the least favorable prior by reducing a multi-dimensional optimization problem to a one-dimensional problem.
翻訳日:2023-11-22 19:24:02 公開日:2023-11-20
# let the flow tell: gflownetsによるグラフ組合せ最適化問題を解く

Let the Flows Tell: Solving Graph Combinatorial Optimization Problems with GFlowNets ( http://arxiv.org/abs/2305.17010v3 )

ライセンス: Link先を確認
Dinghuai Zhang, Hanjun Dai, Nikolay Malkin, Aaron Courville, Yoshua Bengio, Ling Pan(参考訳) 組合せ最適化(CO)問題はしばしばNPハードであり、正確なアルゴリズムでは到達できないため、機械学習手法を適用する誘惑的な領域となっている。 これらの問題における高度に構造化された制約は、最適化またはソリューション空間でのサンプリングを妨げうる。 一方、gflownetsは最近、複合非正規化密度から効率的にサンプリングし、coにおけるそのような解探索過程を償却し、多様な解候補を生成する強力な機械として登場している。 本稿では,異なる組合せ問題に対するマルコフ決定過程(MDP)を設計し,条件付きGFlowNetを学習して解空間からサンプルを作成することを提案する。 長距離クレジットの割り当てに有効な訓練技術も開発されている。 合成および現実的なデータを用いた様々なCOタスクに関する広範な実験を通じて、GFlowNetポリシが高品質なソリューションを効率的に見つけることができることを示す。 我々の実装はhttps://github.com/zdhNarsil/GFlowNet-CombOptでオープンソース化されています。

Combinatorial optimization (CO) problems are often NP-hard and thus out of reach for exact algorithms, making them a tempting domain to apply machine learning methods. The highly structured constraints in these problems can hinder either optimization or sampling directly in the solution space. On the other hand, GFlowNets have recently emerged as a powerful machinery to efficiently sample from composite unnormalized densities sequentially and have the potential to amortize such solution-searching processes in CO, as well as generate diverse solution candidates. In this paper, we design Markov decision processes (MDPs) for different combinatorial problems and propose to train conditional GFlowNets to sample from the solution space. Efficient training techniques are also developed to benefit long-range credit assignment. Through extensive experiments on a variety of different CO tasks with synthetic and realistic data, we demonstrate that GFlowNet policies can efficiently find high-quality solutions. Our implementation is open-sourced at https://github.com/zdhNarsil/GFlowNet-CombOpt.
翻訳日:2023-11-22 19:22:06 公開日:2023-11-20
# オーバーザ・エアフェデレーション学習のためのチャネルおよびグラデーション・インポータンス・アウェア・スケジューリング

Channel and Gradient-Importance Aware Device Scheduling for Over-the-Air Federated Learning ( http://arxiv.org/abs/2305.16854v2 )

ライセンス: Link先を確認
Yuchang Sun and Zehong lin and Yuyi Mao and Shi Jin and Jun Zhang(参考訳) Federated Learning(FL)は、複数のデバイスが協力して、ローカルモデルの更新をアップロードすることで機械学習モデルをトレーニングする、一般的なプライバシ保護分散トレーニングスキームである。 通信効率を向上させるため、flはアナログ変調を利用して電波の重ね合わせ特性を利用して、多数のデバイスがモデル更新をアグリゲーションに同時にアップロードできるように、aircomp(over-the-air computation)を適用している。 しかし、アップリンクチャネルノイズは、デバイススケジューリングによって決定的に決定され、学習したモデル性能を損なうかなりのモデル凝集歪みを引き起こす。 本稿では,ある確率に応じて各デバイスをスケジュールし,そのモデル更新をこのアグリゲーションの確率を用いて再重み付けする,チャネルノイズの負の影響を軽減するために,PO-FLと呼ばれるオーバーザエアFLの確率的デバイススケジューリングフレームワークを提案する。 この凝集スキームの不偏性を証明し、凸損失関数と非凸損失関数の両方におけるpo-flの収束を実証する。 我々の収束限界は、デバイススケジューリングがコミュニケーションの歪みとグローバル更新のばらつきを通じて学習性能に影響することを明かした。 収束解析に基づいて、PO-FLにおけるデバイススケジューリング確率を最適化するチャネルと勾配重要度認識アルゴリズムをさらに開発する。 広範なシミュレーション結果から,提案手法は,提案手法がベースライン法よりも高速に収束し,より優れたモデルを生成することを示す。

Federated learning (FL) is a popular privacy-preserving distributed training scheme, where multiple devices collaborate to train machine learning models by uploading local model updates. To improve communication efficiency, over-the-air computation (AirComp) has been applied to FL, which leverages analog modulation to harness the superposition property of radio waves such that numerous devices can upload their model updates concurrently for aggregation. However, the uplink channel noise incurs considerable model aggregation distortion, which is critically determined by the device scheduling and compromises the learned model performance. In this paper, we propose a probabilistic device scheduling framework for over-the-air FL, named PO-FL, to mitigate the negative impact of channel noise, where each device is scheduled according to a certain probability and its model update is reweighted using this probability in aggregation. We prove the unbiasedness of this aggregation scheme and demonstrate the convergence of PO-FL on both convex and non-convex loss functions. Our convergence bounds unveil that the device scheduling affects the learning performance through the communication distortion and global update variance. Based on the convergence analysis, we further develop a channel and gradient-importance aware algorithm to optimize the device scheduling probabilities in PO-FL. Extensive simulation results show that the proposed PO-FL framework with channel and gradient-importance awareness achieves faster convergence and produces better models than baseline methods.
翻訳日:2023-11-22 19:21:48 公開日:2023-11-20
# ランドマーク注意:トランスフォーマーのランダムアクセス無限コンテキスト長

Landmark Attention: Random-Access Infinite Context Length for Transformers ( http://arxiv.org/abs/2305.16300v2 )

ライセンス: Link先を確認
Amirkeivan Mohtashami, Martin Jaggi(参考訳) トランスフォーマーは自然言語処理において顕著な成功を収めているが、その注意力機構の大きなメモリ要件は、長いコンテキストを扱う能力に制限がある。 リカレントメモリや検索ベースの拡張といった以前のアプローチは、注意のランダムアクセスの柔軟性(すなわち、コンテキスト全体において任意のトークンを選択できる能力)を損なうか、モデルの注意と互換性のない、関連するコンテキスト検索のための別のメカニズムに依存するかのどちらかである。 本稿では,ランダムアクセスの柔軟性を維持しつつ,完全なコンテキストへのアクセスを可能にする新しい手法を提案する。 本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注意を訓練し,別の機構に頼るのではなく,注意機構を通じて直接ブロックを検索できるようにする。 提案手法は,特殊なデータ構造とシステムのメモリ階層とシームレスに統合され,任意の長さのコンテキストを処理できる。 提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。 最後に,提案手法を用いた微調整LLaMA 7Bは,コンテキスト長を32k以上のトークンに拡張し,GPT-4のコンテキスト長での推論を可能にする。 我々はランドマーク注意の実装と実験を再現するためのコードをhttps://github.com/epfml/landmark-attention/でリリースします。

While Transformers have shown remarkable success in natural language processing, their attention mechanism's large memory requirements have limited their ability to handle longer contexts. Prior approaches, such as recurrent memory or retrieval-based augmentation, have either compromised the random-access flexibility of attention (i.e., the capability to select any token in the entire context) or relied on separate mechanisms for relevant context retrieval, which may not be compatible with the model's attention. In this paper, we present a novel approach that allows access to the complete context while retaining random-access flexibility, closely resembling running attention on the entire context. Our method uses a landmark token to represent each block of the input and trains the attention to use it for selecting relevant blocks, enabling retrieval of blocks directly through the attention mechanism instead of by relying on a separate mechanism. Our approach seamlessly integrates with specialized data structures and the system's memory hierarchy, enabling processing of arbitrarily long context lengths. We demonstrate that our method can obtain comparable performance with Transformer-XL while significantly reducing the number of retrieved tokens in each step. Finally, we show that fine-tuning LLaMA 7B with our method successfully extends its context length capacity to over 32k tokens, allowing for inference at the context lengths of GPT-4. We release the implementation of landmark attention and the code to reproduce our experiments at https://github.com/epfml/landmark-attention/.
翻訳日:2023-11-22 19:21:21 公開日:2023-11-20
# StyleTTS 2: 大規模言語モデルを用いた対話学習とスタイル拡散による人間レベルテキスト音声へのアプローチ

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models ( http://arxiv.org/abs/2306.07691v2 )

ライセンス: Link先を確認
Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima Mesgarani(参考訳) 本稿では,大規模な音声言語モデル(SLM)を用いたスタイル拡散と対角訓練を利用して,人レベルのTS合成を実現するテキスト音声合成(TTS)モデルであるStyleTTS 2を提案する。 styletts 2は、スタイルを拡散モデルを通じて潜在確率変数としてモデル化し、参照音声を必要とせずにテキストに最適なスタイルを生成し、拡散モデルが提供する多様な音声合成の恩恵を受けながら効率的な潜在拡散を実現する。 さらに、WavLMのような大規模事前学習SLMを差別化要因として使用し、エンドツーエンドトレーニングのための微分可能な時間モデルを作成し、音声の自然性を向上させる。 StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。 さらに,LibriTTSデータセットを用いたトレーニングでは,従来のゼロショット話者適応モデルよりも優れていた。 この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。 オーディオデモとソースコードはhttps://styletts2.github.io/で入手できる。

In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling styles as a latent random variable through diffusion models to generate the most suitable style for the text without requiring reference speech, achieving efficient latent diffusion while benefiting from the diverse speech synthesis offered by diffusion models. Furthermore, we employ large pre-trained SLMs, such as WavLM, as discriminators with our novel differentiable duration modeling for end-to-end training, resulting in improved speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by native English speakers. Moreover, when trained on the LibriTTS dataset, our model outperforms previous publicly available models for zero-shot speaker adaptation. This work achieves the first human-level TTS on both single and multispeaker datasets, showcasing the potential of style diffusion and adversarial training with large SLMs. The audio demos and source code are available at https://styletts2.github.io/.
翻訳日:2023-11-22 19:13:57 公開日:2023-11-20
# SparseTrack:擬似深度に基づくシーン分解による多目的追跡

SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth ( http://arxiv.org/abs/2306.05238v2 )

ライセンス: Link先を確認
Zelin Liu, Xinggang Wang, Cheng Wang, Wenyu Liu, Xiang Bai(参考訳) 多目的追跡(MOT)において、ロバストで効率的なアソシエーション手法の探索は常に重要な問題であった。 既存の追跡手法は目覚ましい性能を示しているが、混雑や頻繁な閉塞は、マルチオブジェクト追跡において依然として困難な問題となっている。 密集したシーンでスパース分解を行うことは、隠蔽対象の関連性を高めるための重要なステップである。 そこで本研究では,2次元画像からターゲットの相対深度を求める擬似深度推定法を提案する。 第二に、得られた深度情報を用いて、密集したターゲットセットを複数のスパースターゲットサブセットに変換し、これらのスパースターゲットサブセットに関するデータアソシエーションを行うディープカスケードマッチング(DCM)アルゴリズムを設計する。 擬似深度法とDCM戦略をデータアソシエーションプロセスに統合することにより、SparseTrackと呼ばれる新しいトラッカーを提案する。 SparseTrackは、困難なシーンMOT問題を解決するための新しい視点を提供する。 IoUマッチングのみを使用するSparseTrackは、MOT17とMOT20ベンチマークの最先端(SOTA)メソッドと同等のパフォーマンスを実現する。 コードとモデルは \url{https://github.com/hustvl/SparseTrack} で公開されている。

Exploring robust and efficient association methods has always been an important issue in multiple-object tracking (MOT). Although existing tracking methods have achieved impressive performance, congestion and frequent occlusions still pose challenging problems in multi-object tracking. We reveal that performing sparse decomposition on dense scenes is a crucial step to enhance the performance of associating occluded targets. To this end, we propose a pseudo-depth estimation method for obtaining the relative depth of targets from 2D images. Secondly, we design a depth cascading matching (DCM) algorithm, which can use the obtained depth information to convert a dense target set into multiple sparse target subsets and perform data association on these sparse target subsets in order from near to far. By integrating the pseudo-depth method and the DCM strategy into the data association process, we propose a new tracker, called SparseTrack. SparseTrack provides a new perspective for solving the challenging crowded scene MOT problem. Only using IoU matching, SparseTrack achieves comparable performance with the state-of-the-art (SOTA) methods on the MOT17 and MOT20 benchmarks. Code and models are publicly available at \url{https://github.com/hustvl/SparseTrack}.
翻訳日:2023-11-22 19:10:42 公開日:2023-11-20
# 動的カメラを用いた3次元環境におけるアバターの5次元時間回帰

TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D Environments ( http://arxiv.org/abs/2306.02850v2 )

ライセンス: Link先を確認
Yu Sun, Qian Bao, Wu Liu, Tao Mei, Michael J. Black(参考訳) 人間の3次元ポーズと形状(HPS)の推定は急速に進んでいるが、現在の方法では、多くのアプリケーションにとって重要なグローバル座標における人間の移動を確実に推定することはできない。 カメラが動き、人間とカメラの動きが絡み合っている場合、これは特に難しい。 これらの問題に対処するために、私たちは、シーン内の人々に関するエンドツーエンドの推論を可能にする新しい5D表現(空間、時間、アイデンティティ)を採用する。 TRACEと呼ばれるこの手法は,いくつかの新しいアーキテクチャ要素を導入している。 一番重要なのは、カメラと世界座標で3Dの軌跡を判断するために2つの新しい「マップ」を使っていることです。 追加のメモリユニットは、長時間の閉塞時にも、人々の継続的な追跡を可能にする。 TRACEは、ダイナミックカメラからグローバル座標における3D人間の共同回収と追跡を行う最初のワンステージ手法である。 エンドツーエンドにトレーニングし、フルイメージ情報を使用することで、TRACEはトラッキングとHPSベンチマークの最先端のパフォーマンスを達成する。 コードとデータセットは研究目的でリリースされている。

Although the estimation of 3D human pose and shape (HPS) is rapidly progressing, current methods still cannot reliably estimate moving humans in global coordinates, which is critical for many applications. This is particularly challenging when the camera is also moving, entangling human and camera motion. To address these issues, we adopt a novel 5D representation (space, time, and identity) that enables end-to-end reasoning about people in scenes. Our method, called TRACE, introduces several novel architectural components. Most importantly, it uses two new "maps" to reason about the 3D trajectory of people over time in camera, and world, coordinates. An additional memory unit enables persistent tracking of people even during long occlusions. TRACE is the first one-stage method to jointly recover and track 3D humans in global coordinates from dynamic cameras. By training it end-to-end, and using full image information, TRACE achieves state-of-the-art performance on tracking and HPS benchmarks. The code and dataset are released for research purposes.
翻訳日:2023-11-22 19:09:35 公開日:2023-11-20
# DragonDiffusion:拡散モデルによるドラッグスタイルの操作の実現

DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models ( http://arxiv.org/abs/2307.02421v2 )

ライセンス: Link先を確認
Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang(参考訳) 既存の大規模テキスト・トゥ・イメージ(T2I)モデルで詳細なテキスト記述から高品質な画像を生成する能力があるにもかかわらず、生成された画像や実際の画像を正確に編集する能力に欠けることが多い。 本稿では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。 具体的には,拡散モデルにおける中間特徴の強い対応に基づく分類器のガイダンスを構築する。 編集信号を特徴対応損失によって勾配に変換し、拡散モデルの中間表現を変更することができる。 このガイダンス戦略に基づいて、意味的および幾何学的アライメントの両方を考慮したマルチスケールガイダンスを構築する。 さらに、原画像と編集結果との整合性を維持するために、クロスブランチ自己注意を追加する。 効率的な設計により,オブジェクトの移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツのドラッグなど,生成画像や実画像の様々な編集モードを実現する。 すべての編集およびコンテンツ保存信号は、画像自体から来るものであり、モデルは微調整や追加のモジュールを必要としないことに注意する必要がある。 ソースコードはhttps://github.com/mc-e/dragondiffusionから入手できます。

Despite the ability of existing large-scale text-to-image (T2I) models to generate high-quality images from detailed textual descriptions, they often lack the ability to precisely edit the generated or real images. In this paper, we propose a novel image editing method, DragonDiffusion, enabling Drag-style manipulation on Diffusion models. Specifically, we construct classifier guidance based on the strong correspondence of intermediate features in the diffusion model. It can transform the editing signals into gradients via feature correspondence loss to modify the intermediate representation of the diffusion model. Based on this guidance strategy, we also build a multi-scale guidance to consider both semantic and geometric alignment. Moreover, a cross-branch self-attention is added to maintain the consistency between the original image and the editing result. Our method, through an efficient design, achieves various editing modes for the generated or real images, such as object moving, object resizing, object appearance replacement, and content dragging. It is worth noting that all editing and content preservation signals come from the image itself, and the model does not require fine-tuning or additional modules. Our source code will be available at https://github.com/MC-E/DragonDiffusion.
翻訳日:2023-11-22 19:01:36 公開日:2023-11-20
# ユニタリ複雑性とウルマン変換問題

Unitary Complexity and the Uhlmann Transformation Problem ( http://arxiv.org/abs/2306.13073v2 )

ライセンス: Link先を確認
John Bostanci, Yuval Efron, Tony Metger, Alexander Poremba, Luowen Qian, Henry Yuen(参考訳) 量子情報の圧縮や量子コミットメントの破りといった状態変換問題は、基本的な量子タスクである。 しかし、それらの計算困難さは古典的な入力と出力を持つタスクに焦点を当てた従来の複雑性理論では容易には特徴づけられない。 このような状態変換タスクの複雑性を研究するために,リダクションの概念やユニタリ複雑性クラスを含むユニタリ合成問題の枠組みを提案する。 このフレームワークを使用して、ある絡み合った状態をローカル操作によって別の状態に変換する複雑さを研究する。 これをウルマン変換問題(uulmann transformation problem, uhlmann's theorem)と定式化する。 次に,ユルマン変換問題,多項式空間量子計算,ゼロ知識プロトコルの複雑さに関する構造的結果を示す。 uhlmann変換問題により、ノイズのある量子チャネルの復号化、検証可能な量子暗号の仮定の破断、量子インタラクティブな証明における最適証明戦略の実装、ブラックホールのホーキング放射の復号など、量子情報処理における様々なタスクの複雑さを特徴付けることができる。 そこで我々は,多くの自然量子情報処理タスクの計算複雑性を研究するための新しい手法を提案する。

State transformation problems such as compressing quantum information or breaking quantum commitments are fundamental quantum tasks. However, their computational difficulty cannot easily be characterized using traditional complexity theory, which focuses on tasks with classical inputs and outputs. To study the complexity of such state transformation tasks, we introduce a framework for unitary synthesis problems, including notions of reductions and unitary complexity classes. We use this framework to study the complexity of transforming one entangled state into another via local operations. We formalize this as the Uhlmann Transformation Problem, an algorithmic version of Uhlmann's theorem. Then, we prove structural results relating the complexity of the Uhlmann Transformation Problem, polynomial space quantum computation, and zero knowledge protocols. The Uhlmann Transformation Problem allows us to characterize the complexity of a variety of tasks in quantum information processing, including decoding noisy quantum channels, breaking falsifiable quantum cryptographic assumptions, implementing optimal prover strategies in quantum interactive proofs, and decoding the Hawking radiation of black holes. Our framework for unitary complexity thus provides new avenues for studying the computational complexity of many natural quantum information processing tasks.
翻訳日:2023-11-22 19:00:28 公開日:2023-11-20
# 1ニューロンあたり0.3スパイクの高速ディープスパイクニューラルネットワーク

High-performance deep spiking neural networks with 0.3 spikes per neuron ( http://arxiv.org/abs/2306.08744v2 )

ライセンス: Link先を確認
Ana Stanojevic, Stanis{\l}aw Wo\'zniak, Guillaume Bellec, Giovanni Cherubini, Angeliki Pantazi and Wulfram Gerstner(参考訳) 稀な二分スパイクによるコミュニケーションは、生物学的脳のエネルギー効率の重要な要素である。 しかし、生物にインスパイアされたスパイクニューラルネットワーク(snn)は、ニューラルネットワーク(anns)よりも訓練が難しい。 ANNからSNNへの正確なマッピングアルゴリズムをTTFS(Time-to-first-Spike)コーディングで提供するという理論的な結果から、これは厄介である。 本稿では,TTFS-networksの学習力学の理論とシミュレーションを解析し,消滅・拡大勾配問題の特定事例を特定する。 SNNマッピングの2つの選択は、初期化時にこの問題を解決するが、閾値におけるニューロン膜電位の一定の傾きを持つものだけが、正線形単位を持つSNNとANN間のトレーニング軌道の等価性を保証する。 我々は、MNIST/Fashion-MNIST、CIFAR10/CIFAR100、PLACES365などの画像分類データセットにおいて、深部SNNモデルのトレーニングがANNと全く同じ性能を達成することを示した。 我々のSNNは1ニューロンあたり0.3スパイク以下で高性能な分類を行い、エネルギー効率の良い実装に役立てる。 我々は,ロバストな勾配降下アルゴリズムを用いたsnsの微調整により,低レイテンシと雑音と量子化に対するレジリエンスを有するハードウェア実装の最適化が可能となることを示す。

Communication by rare, binary spikes is a key factor for the energy efficiency of biological brains. However, it is harder to train biologically-inspired spiking neural networks (SNNs) than artificial neural networks (ANNs). This is puzzling given that theoretical results provide exact mapping algorithms from ANNs to SNNs with time-to-first-spike (TTFS) coding. In this paper we analyze in theory and simulation the learning dynamics of TTFS-networks and identify a specific instance of the vanishing-or-exploding gradient problem. While two choices of SNN mappings solve this problem at initialization, only the one with a constant slope of the neuron membrane potential at threshold guarantees the equivalence of the training trajectory between SNNs and ANNs with rectified linear units. We demonstrate that training deep SNN models achieves the exact same performance as that of ANNs, surpassing previous SNNs on image classification datasets such as MNIST/Fashion-MNIST, CIFAR10/CIFAR100 and PLACES365. Our SNN accomplishes high-performance classification with less than 0.3 spikes per neuron, lending itself for an energy-efficient implementation. We show that fine-tuning SNNs with our robust gradient descent algorithm enables their optimization for hardware implementations with low latency and resilience to noise and quantization.
翻訳日:2023-11-22 18:56:33 公開日:2023-11-20
# TinyTracker: 視線推定のための超高速かつ超低消費電力エッジビジョンインセンサー

TinyTracker: Ultra-Fast and Ultra-Low-Power Edge Vision In-Sensor for Gaze Estimation ( http://arxiv.org/abs/2307.07813v5 )

ライセンス: Link先を確認
Pietro Bonazzi, Thomas Ruegg, Sizhen Bian, Yawei Li, Michele Magno(参考訳) インテリジェントエッジビジョンタスクは、エッジプラットフォームに課される計算負荷が通常重いため、電力とレイテンシの効率を確保するという重要な課題に直面する。この作業は、Sonyによる最初の"センサー内のAI"ビジョンプラットフォームであるIMX500を活用して、超高速で超低消費電力のエッジビジョンアプリケーションを実現する。 imx500を評価し、google coral dev microやsony spresenseといった他のエッジプラットフォームと比較し、視線の推定をケーススタディとして検討した。 本研究では,エッジビジョンシステムの性能を最大化するために設計された2次元視線推定のための高効率,完全量子化モデルであるtinytrackerを提案する。 tinytracker は itracker [1] と比較して41倍のサイズ削減 (600kb) を達成し、視線推定精度(全量子化時最大 0.16 cm)を損なうことはない。 TinyTrackerのSony IMX500ビジョンセンサーへの展開により、エンドツーエンドのレイテンシは約19ミリ秒になる。 カメラは17.9ミリ秒で読み出し、処理し、加速器に送信する。 ネットワークの推論時間は 0.86ms で、センサから結果を取得するのに 0.24 ms を追加する。 エンド・ツー・エンドのシステム全体のエネルギー消費は4.9 mJであり、推論は0.06 mJである。 エンドツーエンドの調査では、IMX500はCoralMicro(19ms vs 34.4ms)より1.7倍高速で、電力効率は7倍(4.9mJ VS 34.2mJ)である。

Intelligent edge vision tasks encounter the critical challenge of ensuring power and latency efficiency due to the typically heavy computational load they impose on edge platforms.This work leverages one of the first "AI in sensor" vision platforms, IMX500 by Sony, to achieve ultra-fast and ultra-low-power end-to-end edge vision applications. We evaluate the IMX500 and compare it to other edge platforms, such as the Google Coral Dev Micro and Sony Spresense, by exploring gaze estimation as a case study. We propose TinyTracker, a highly efficient, fully quantized model for 2D gaze estimation designed to maximize the performance of the edge vision systems considered in this study. TinyTracker achieves a 41x size reduction (600Kb) compared to iTracker [1] without significant loss in gaze estimation accuracy (maximum of 0.16 cm when fully quantized). TinyTracker's deployment on the Sony IMX500 vision sensor results in end-to-end latency of around 19ms. The camera takes around 17.9ms to read, process and transmit the pixels to the accelerator. The inference time of the network is 0.86ms with an additional 0.24 ms for retrieving the results from the sensor. The overall energy consumption of the end-to-end system is 4.9 mJ, including 0.06 mJ for inference. The end-to-end study shows that IMX500 is 1.7x faster than CoralMicro (19ms vs 34.4ms) and 7x more power efficient (4.9mJ VS 34.2mJ)
翻訳日:2023-11-22 18:49:20 公開日:2023-11-20
# MEDVQA-GI 2023 における UIT-Saviors: 画像強調によるマルチモーダル学習の改善

UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image Enhancement for Gastrointestinal Visual Question Answering ( http://arxiv.org/abs/2307.02783v2 )

ライセンス: Link先を確認
Triet M. Thai, Anh T. Vo, Hao K. Tieu, Linh N.P. Bui, Thien T.B. Nguyen(参考訳) 近年、人工知能は医学や疾患の診断において重要な役割を担い、その1つはMedVQA(MedVQA)である。 コンピュータビジョンと自然言語処理を組み合わせることで、MedVQAシステムは、与えられた質問に基づいて医療画像から関連情報を抽出し、正確な診断回答を提供する専門家を支援することができる。 ImageCLEFmed-MEDVQA-GI-2023は胃内視鏡および大腸内視鏡画像を含む消化管領域の視覚的質問応答タスクを実行した。 我々のチームは,胃腸画像上のVQA性能を改善するために,画像強調によるマルチモーダル学習手法を提案することで課題1にアプローチした。 マルチモーダルアーキテクチャは、BERTエンコーダと、畳み込みニューラルネットワーク(CNN)とトランスフォーマーアーキテクチャに基づいて、質問や内視鏡画像から特徴抽出のための様々な事前訓練されたビジョンモデルを備える。 本研究は,CNN上でのトランスフォーマーベース視覚モデルの優位性を強調し,F1スコアが向上した8つの視覚モデルのうち6つを用いて,画像強調処理の有効性を示した。 BERT+BEiT融合と画像強調の利点を生かし, 開発テストセット上で最大87.25%の精度と91.85%のF1スコアを達成するとともに, 82.01%の精度でプライベートテストセット上で良好な結果が得られる。

In recent years, artificial intelligence has played an important role in medicine and disease diagnosis, with many applications to be mentioned, one of which is Medical Visual Question Answering (MedVQA). By combining computer vision and natural language processing, MedVQA systems can assist experts in extracting relevant information from medical image based on a given question and providing precise diagnostic answers. The ImageCLEFmed-MEDVQA-GI-2023 challenge carried out visual question answering task in the gastrointestinal domain, which includes gastroscopy and colonoscopy images. Our team approached Task 1 of the challenge by proposing a multimodal learning method with image enhancement to improve the VQA performance on gastrointestinal images. The multimodal architecture is set up with BERT encoder and different pre-trained vision models based on convolutional neural network (CNN) and Transformer architecture for features extraction from question and endoscopy image. The result of this study highlights the dominance of Transformer-based vision models over the CNNs and demonstrates the effectiveness of the image enhancement process, with six out of the eight vision models achieving better F1-Score. Our best method, which takes advantages of BERT+BEiT fusion and image enhancement, achieves up to 87.25% accuracy and 91.85% F1-Score on the development test set, while also producing good result on the private test set with accuracy of 82.01%.
翻訳日:2023-11-22 18:46:42 公開日:2023-11-20
# 統計ジャコビ近似によるフェルミの黄金律を超えて

Beyond Fermi's golden rule with the statistical Jacobi approximation ( http://arxiv.org/abs/2306.16457v4 )

ライセンス: Link先を確認
David M. Long, Dominik Hahn, Marin Bukov, Anushya Chandran(参考訳) 量子力学における多くの問題は、単一量子状態の連続体への崩壊として考えられる。 時間に依存した初期状態との重なりは忠実性と呼ばれ、この崩壊を特徴づける。 エルゴード・ハミルトニアンへのクエンチ後の忠実性の解析的表現を導出する。 この表現は弱クエンチェと強クエンチェの両方で有効であり、ヒルベルト空間の有限性以前の時間スケールは忠実性を制限する。 初期の二次的崩壊と漸近的指数的崩壊を再現し、強いクエンチェではフェルミの黄金律とは異なる速度で再現する。 この分析は、もともとほぼ局所的なシステムに応用された統計的ヤコビ近似(SJA)に依存しており、ここでは熱処理系に適応する。 本結果は,SJAが量子力学の異なる状態において予測可能であることを示す。

Many problems in quantum dynamics can be cast as the decay of a single quantum state into a continuum. The time-dependent overlap with the initial state, called the fidelity, characterizes this decay. We derive an analytic expression for the fidelity after a quench to an ergodic Hamiltonian. The expression is valid for both weak and strong quenches, and timescales before finiteness of the Hilbert space limits the fidelity. It reproduces initial quadratic decay and asymptotic exponential decay with a rate which, for strong quenches, differs from Fermi's golden rule. The analysis relies on the statistical Jacobi approximation (SJA), which was originally applied in nearly localized systems, and which we here adapt to well-thermalizing systems. Our results demonstrate that the SJA is predictive in disparate regimes of quantum dynamics.
翻訳日:2023-11-22 18:44:38 公開日:2023-11-20
# BOURNE: 統一グラフ異常検出のための自己教師付き学習フレームワーク

BOURNE: Bootstrapped Self-supervised Learning Framework for Unified Graph Anomaly Detection ( http://arxiv.org/abs/2307.15244v2 )

ライセンス: Link先を確認
Jie Liu, Mengting He, Xuequn Shang, Jieming Shi, Bin Cui, Hongzhi Yin(参考訳) グラフ異常検出(GAD)は,近年,ソーシャルネットワークや金融リスク管理,交通分析など,幅広い分野において重要な応用がなされているため,注目を集めている。 既存のgad法は、検出されるグラフオブジェクトの種類に基づいて、ノードおよびエッジ異常検出モデルに分類することができる。 しかし、これらの手法は通常、ノードとエッジの異常を別個のタスクとして扱い、それらの関連や、現実世界のグラフにおける頻繁な共起を見渡す。 その結果、ノードとエッジの異常によって提供される相補的な情報を相互検出に利用できない。 さらに、colaやsl-gadのような最先端gad法は、コントラスト学習における負のペアサンプリングに大きく依存しており、高い計算コストをもたらし、大規模グラフへのスケーラビリティを阻害している。 これらの制限に対処するために,自己教師付き学習(bourne)に基づく新しい統一グラフ異常検出フレームワークを提案する。 対象ノードを中心にしたサブグラフ(グラフビュー)をノードコンテキストとして抽出し,エッジコンテキストとしてデュアルハイパーグラフ(ハイパーグラフビュー)に変換する。 これらのビューはグラフとハイパーグラフニューラルネットワークを使用して符号化され、ノード、エッジ、および関連するコンテキストの表現をキャプチャする。 ノードとエッジ間のコンテキスト埋め込みを交換し、埋め込み空間における一致を測定することにより、ノードとエッジ異常の相互検出を可能にする。 さらに、BOURNEは負サンプリングの必要性を排除し、大きなグラフを扱う際の効率を高めることができる。 6つのベンチマークデータセットで行った広範囲な実験は、ノードとエッジの異常を検出する上で、bourneの優れた有効性と効率を示している。

Graph anomaly detection (GAD) has gained increasing attention in recent years due to its critical application in a wide range of domains, such as social networks, financial risk management, and traffic analysis. Existing GAD methods can be categorized into node and edge anomaly detection models based on the type of graph objects being detected. However, these methods typically treat node and edge anomalies as separate tasks, overlooking their associations and frequent co-occurrences in real-world graphs. As a result, they fail to leverage the complementary information provided by node and edge anomalies for mutual detection. Additionally, state-of-the-art GAD methods, such as CoLA and SL-GAD, heavily rely on negative pair sampling in contrastive learning, which incurs high computational costs, hindering their scalability to large graphs. To address these limitations, we propose a novel unified graph anomaly detection framework based on bootstrapped self-supervised learning (named BOURNE). We extract a subgraph (graph view) centered on each target node as node context and transform it into a dual hypergraph (hypergraph view) as edge context. These views are encoded using graph and hypergraph neural networks to capture the representations of nodes, edges, and their associated contexts. By swapping the context embeddings between nodes and edges and measuring the agreement in the embedding space, we enable the mutual detection of node and edge anomalies. Furthermore, BOURNE can eliminate the need for negative sampling, thereby enhancing its efficiency in handling large graphs. Extensive experiments conducted on six benchmark datasets demonstrate the superior effectiveness and efficiency of BOURNE in detecting both node and edge anomalies.
翻訳日:2023-11-22 18:35:33 公開日:2023-11-20
# ファジィ順序ソート特徴論理

Fuzzy order-sorted feature logic ( http://arxiv.org/abs/2307.14669v2 )

ライセンス: Link先を確認
Gian Carlo Milanese, Gabriella Pasi(参考訳) Order-Sorted Feature (OSF) 論理は、関数記述型特徴記号と集合記述型ソート記号に基づく知識表現および推論言語である。 osf論理は、エンティティのクラスを表現し、それ自身を仮定関係で順序付けするレコードライクな用語の構成を可能にする。 このような構造に対する統一アルゴリズムは、計算言語学に応用され、LOGINやLIFEのような制約論理プログラミング言語やCEDARのような自動推論言語で実装された、型置換の効率的な計算を提供する。 この作業はOSFロジックをファジィ設定に一般化する。 ファジィ集合間のザデの包含を一般化するファジィ仮定関係の柔軟な定義を与える。 この定義に基づいて、ソートシンボルとOSF項がファジィ集合を表すOSF論理のファジィ意味論を定義する。 我々は OSF 項に対する仮定関係を拡張し、それが 2 つの OSF 項が crisp の意味において互いに仮定される性質を持つファジィ部分順序を構成することを証明する。 2つのOSF項の最大下界を求める方法と、2つのOSF項間の仮定度を計算する方法を示し、これらの演算の複雑さを提供する。

Order-Sorted Feature (OSF) logic is a knowledge representation and reasoning language based on function-denoting feature symbols and set-denoting sort symbols ordered in a subsumption lattice. OSF logic allows the construction of record-like terms that represent classes of entities and that are themselves ordered in a subsumption relation. The unification algorithm for such structures provides an efficient calculus of type subsumption, which has been applied in computational linguistics and implemented in constraint logic programming languages such as LOGIN and LIFE and automated reasoners such as CEDAR. This work generalizes OSF logic to a fuzzy setting. We give a flexible definition of a fuzzy subsumption relation which generalizes Zadeh's inclusion between fuzzy sets. Based on this definition we define a fuzzy semantics of OSF logic where sort symbols and OSF terms denote fuzzy sets. We extend the subsumption relation to OSF terms and prove that it constitutes a fuzzy partial order with the property that two OSF terms are subsumed by one another in the crisp sense if and only if their subsumption degree is greater than 0. We show how to find the greatest lower bound of two OSF terms by unifying them and how to compute the subsumption degree between two OSF terms, and we provide the complexity of these operations.
翻訳日:2023-11-22 18:35:07 公開日:2023-11-20
# アルミジョ線探索による確率勾配降下の非凸最適化に必要なバッチサイズとステップ数の関係

Relationship between Batch Size and Number of Steps Needed for Nonconvex Optimization of Stochastic Gradient Descent using Armijo Line Search ( http://arxiv.org/abs/2307.13831v3 )

ライセンス: Link先を確認
Yuki Tsukada, Hideaki Iiduka(参考訳) 確率勾配降下(SGD)は、ディープニューラルネットワークをトレーニングする最も単純なディープラーニングオプティマイザである。 SGDは、定数や減少率などの様々な学習率を使用することができるが、以前の数値結果は、ラインサーチ法で与えられた学習率を使用する場合、他のディープラーニングオプティマイザよりも優れた性能を示した。 本稿では,非凸最適化のためのArmijoライン探索によって与えられる学習率を用いて,SGDの収束解析を行う。 解析の結果,ステップ数とバッチサイズが大きいと,全勾配の2乗ノルムの期待値の上限が小さくなることがわかった。 次に、Armijo-line-search 学習率を持つSGDの場合、非凸最適化に必要なステップの数は、バッチサイズの単調減少凸関数であり、非凸最適化に必要なステップの数は、バッチサイズが大きくなるにつれて減少することを示す。 さらに、確率的勾配計算コストである確率的一階オラクル(SFO)の複雑性は、バッチサイズの凸関数であり、すなわち、SFOの複雑性を最小限に抑える重要なバッチサイズが存在することを示す。 最後に、理論的結果を支持する数値結果を提供する。 計算結果から,ディープニューラルネットワークの訓練に必要なステップ数は,バッチサイズの増加に伴って減少し,理論結果から推定可能なクリティカルバッチサイズが存在することが示された。

Stochastic gradient descent (SGD) is the simplest deep learning optimizer with which to train deep neural networks. While SGD can use various learning rates, such as constant or diminishing rates, the previous numerical results showed that SGD performs better than other deep learning optimizers using when it uses learning rates given by line search methods. In this paper, we perform a convergence analysis on SGD with a learning rate given by an Armijo line search for nonconvex optimization. The analysis indicates that the upper bound of the expectation of the squared norm of the full gradient becomes small when the number of steps and the batch size are large. Next, we show that, for SGD with the Armijo-line-search learning rate, the number of steps needed for nonconvex optimization is a monotone decreasing convex function of the batch size; that is, the number of steps needed for nonconvex optimization decreases as the batch size increases. Furthermore, we show that the stochastic first-order oracle (SFO) complexity, which is the stochastic gradient computation cost, is a convex function of the batch size; that is, there exists a critical batch size that minimizes the SFO complexity. Finally, we provide numerical results that support our theoretical results. The numerical results indicate that the number of steps needed for training deep neural networks decreases as the batch size increases and that there exist the critical batch sizes that can be estimated from the theoretical results.
翻訳日:2023-11-22 18:34:45 公開日:2023-11-20
# 深部グラフを用いた神経持続の注意点

Addressing caveats of neural persistence with deep graph persistence ( http://arxiv.org/abs/2307.10865v3 )

ライセンス: Link先を確認
Leander Girrbach, Anders Christensen, Ole Winther, Zeynep Akata, A. Sophia Koepke(参考訳) ニューラルパーシスタンス(Neural Persistence)は、ディープラーニングにおけるトポロジカルデータ分析の新たな分野において提案される、ニューラルネットワークの複雑性を定量化する重要な尺度である。 しかし、本研究では、ネットワーク重みのばらつきと大きな重みの空間集中が神経の持続性に影響を与える主な要因であることを理論的および実証的に見出した。 これは線形分類器の有用な情報をキャプチャする一方で、深層ニューラルネットワークの後の層には関連する空間構造が存在しておらず、ニューラルネットワークの永続性は重みの分散とほぼ同値である。 さらに、ディープニューラルネットワークのための層間平均化手順は、層間の相互作用を考慮しない。 そこで本研究では,1つの行列上でのニューラルネットワークの永続性を計算するのに等価である単一層ではなく,ニューラルネットワーク全体に対するニューラルネットワークの永続性に基づくフィルタリングの拡張を提案する。 これは、ネットワークを通した永続的なパスを暗黙的に取り入れ、標準化を通じて分散に関連する問題を軽減します。 コードはhttps://github.com/ExplainableML/Deep-Graph-Persistenceで入手できる。

Neural Persistence is a prominent measure for quantifying neural network complexity, proposed in the emerging field of topological data analysis in deep learning. In this work, however, we find both theoretically and empirically that the variance of network weights and spatial concentration of large weights are the main factors that impact neural persistence. Whilst this captures useful information for linear classifiers, we find that no relevant spatial structure is present in later layers of deep neural networks, making neural persistence roughly equivalent to the variance of weights. Additionally, the proposed averaging procedure across layers for deep neural networks does not consider interaction between layers. Based on our analysis, we propose an extension of the filtration underlying neural persistence to the whole neural network instead of single layers, which is equivalent to calculating neural persistence on one particular matrix. This yields our deep graph persistence measure, which implicitly incorporates persistent paths through the network and alleviates variance-related issues through standardisation. Code is available at https://github.com/ExplainableML/Deep-Graph-Persistence .
翻訳日:2023-11-22 18:33:31 公開日:2023-11-20
# 深部グラフを用いた神経持続の注意点

Addressing caveats of neural persistence with deep graph persistence ( http://arxiv.org/abs/2307.10865v2 )

ライセンス: Link先を確認
Leander Girrbach, Anders Christensen, Ole Winther, Zeynep Akata, A. Sophia Koepke(参考訳) ニューラルパーシスタンス(Neural Persistence)は、ディープラーニングにおけるトポロジカルデータ分析の新たな分野において提案される、ニューラルネットワークの複雑性を定量化する重要な尺度である。 しかし、本研究では、ネットワーク重みのばらつきと大きな重みの空間集中が神経の持続性に影響を与える主な要因であることを理論的および実証的に見出した。 これは線形分類器の有用な情報をキャプチャする一方で、深層ニューラルネットワークの後の層には関連する空間構造が存在しておらず、ニューラルネットワークの永続性は重みの分散とほぼ同値である。 さらに、ディープニューラルネットワークのための層間平均化手順は、層間の相互作用を考慮しない。 そこで本研究では,1つの行列上でのニューラルネットワークの永続性を計算するのに等価である単一層ではなく,ニューラルネットワーク全体に対するニューラルネットワークの永続性に基づくフィルタリングの拡張を提案する。 これは、ネットワークを通した永続的なパスを暗黙的に取り入れ、標準化を通じて分散に関連する問題を軽減します。 コードはhttps://github.com/ExplainableML/Deep-Graph-Persistenceで入手できる。

Neural Persistence is a prominent measure for quantifying neural network complexity, proposed in the emerging field of topological data analysis in deep learning. In this work, however, we find both theoretically and empirically that the variance of network weights and spatial concentration of large weights are the main factors that impact neural persistence. Whilst this captures useful information for linear classifiers, we find that no relevant spatial structure is present in later layers of deep neural networks, making neural persistence roughly equivalent to the variance of weights. Additionally, the proposed averaging procedure across layers for deep neural networks does not consider interaction between layers. Based on our analysis, we propose an extension of the filtration underlying neural persistence to the whole neural network instead of single layers, which is equivalent to calculating neural persistence on one particular matrix. This yields our deep graph persistence measure, which implicitly incorporates persistent paths through the network and alleviates variance-related issues through standardisation. Code is available at https://github.com/ExplainableML/Deep-Graph-Persistence .
翻訳日:2023-11-22 18:32:53 公開日:2023-11-20
# TokenFlow: 一貫性のあるビデオ編集機能

TokenFlow: Consistent Diffusion Features for Consistent Video Editing ( http://arxiv.org/abs/2307.10373v3 )

ライセンス: Link先を確認
Michal Geyer and Omer Bar-Tal and Shai Bagon and Tali Dekel(参考訳) 生成的AI革命は、最近ビデオにまで拡大した。 それでも、現在の最先端のビデオモデルは、生成したコンテンツの視覚的品質とユーザコントロールの観点から、画像モデルに遅れを取っている。 本稿では,テキストから画像への拡散モデルのパワーをテキスト駆動ビデオ編集のタスクに活用するフレームワークを提案する。 具体的には、ソースビデオとターゲットテキストプロンプトを与えられた場合、入力ビデオの空間レイアウトと動きを維持しながら、対象テキストに準拠した高品質な映像を生成する。 本手法は, 拡散特徴空間の一貫性を強制することにより, 編集映像の一貫性が得られることを示す。 モデルで容易に利用できるフレーム間対応に基づいて拡散特徴を明示的に伝播することにより、これを実現できる。 したがって,本フレームワークはトレーニングや微調整を一切必要とせず,市販のテキスト画像編集手法と併用できる。 実世界の様々なビデオで最先端の編集結果を示す。 Webページ: https://diffusion-tokenflow.github.io/

The generative AI revolution has recently expanded to videos. Nevertheless, current state-of-the-art video models are still lagging behind image models in terms of visual quality and user control over the generated content. In this work, we present a framework that harnesses the power of a text-to-image diffusion model for the task of text-driven video editing. Specifically, given a source video and a target text-prompt, our method generates a high-quality video that adheres to the target text, while preserving the spatial layout and motion of the input video. Our method is based on a key observation that consistency in the edited video can be obtained by enforcing consistency in the diffusion feature space. We achieve this by explicitly propagating diffusion features based on inter-frame correspondences, readily available in the model. Thus, our framework does not require any training or fine-tuning, and can work in conjunction with any off-the-shelf text-to-image editing method. We demonstrate state-of-the-art editing results on a variety of real-world videos. Webpage: https://diffusion-tokenflow.github.io/
翻訳日:2023-11-22 18:32:34 公開日:2023-11-20
# 二項分類のための分類エンコーダのベンチマーク

A benchmark of categorical encoders for binary classification ( http://arxiv.org/abs/2307.09191v3 )

ライセンス: Link先を確認
Federico Matteucci, Vadim Arzamasov, Klemens Boehm(参考訳) 分類エンコーダは、幅広い機械学習モデルに欠かせない分類的特徴を数値表現に変換する。 既存のエンコーダベンチマークでは,(1)エンコーダ,(2)実験因子,(3)データセットの選択が限定されているため,一般化性に欠ける。 さらに、さまざまな集約戦略を採用することで矛盾が生じる。 本論文は,これまで最も包括的なカテゴリエンコーダのベンチマークであり,多種多様な家族のエンコーダ構成32種,実験因子36種,データセット50種について広範な評価を行った。 この研究では、データセットの選択、実験的な要因、集約戦略がベンチマークの結論に深く影響していることが示されている。

Categorical encoders transform categorical features into numerical representations that are indispensable for a wide range of machine learning models. Existing encoder benchmark studies lack generalizability because of their limited choice of (1) encoders, (2) experimental factors, and (3) datasets. Additionally, inconsistencies arise from the adoption of varying aggregation strategies. This paper is the most comprehensive benchmark of categorical encoders to date, including an extensive evaluation of 32 configurations of encoders from diverse families, with 36 combinations of experimental factors, and on 50 datasets. The study shows the profound influence of dataset selection, experimental factors, and aggregation strategies on the benchmark's conclusions -- aspects disregarded in previous encoder benchmarks.
翻訳日:2023-11-22 18:31:59 公開日:2023-11-20
# 階層型地域変圧器ベースマルチインスタンス学習に向けて

Towards Hierarchical Regional Transformer-based Multiple Instance Learning ( http://arxiv.org/abs/2308.12634v2 )

ライセンス: Link先を確認
Josef Cersovsky, Sadegh Mohammadi, Dagmar Kainmueller and Johannes Hoehne(参考訳) 深層多重学習モデルを用いたギガピクセルの病理像の分類は,デジタル病理学や精密医療において重要な課題となっている。 本研究では,従来の学習アテンション機構を地域的視覚トランスフォーマーにインスパイアされた自己アテンション機構に置き換えるトランスフォーマーベースの複数インスタンス学習手法を提案する。 本稿では,地域パッチ情報を融合してスライドレベル予測を導出し,この地域アグリゲーションを積み重ねて,異なる距離レベルの特徴を階層的に処理する方法を提案する。 予測精度を高めるため,特に局所形態特徴の小さいデータセットに対して,推論中の高注目領域に画像処理を集中させる手法を提案する。 我々のアプローチは、2つの病理組織学データセットのベースラインのパフォーマンスを著しく向上させ、さらなる研究のための有望な方向に向かっている。

The classification of gigapixel histopathology images with deep multiple instance learning models has become a critical task in digital pathology and precision medicine. In this work, we propose a Transformer-based multiple instance learning approach that replaces the traditional learned attention mechanism with a regional, Vision Transformer inspired self-attention mechanism. We present a method that fuses regional patch information to derive slide-level predictions and show how this regional aggregation can be stacked to hierarchically process features on different distance levels. To increase predictive accuracy, especially for datasets with small, local morphological features, we introduce a method to focus the image processing on high attention regions during inference. Our approach is able to significantly improve performance over the baseline on two histopathology datasets and points towards promising directions for further research.
翻訳日:2023-11-22 18:23:07 公開日:2023-11-20
# Spresense による視線推定

Gaze Estimation on Spresense ( http://arxiv.org/abs/2308.12313v2 )

ライセンス: Link先を確認
Thomas Ruegg, Pietro Bonazzi, Andrea Ronco(参考訳) 視線推定は、人間とコンピュータの相互作用、仮想現実、医学などの分野に多くの応用がある貴重な技術である。 本稿では,sony spresenseマイクロコントローラを用いた視線推定システムの実装と,そのレイテンシ,mac/cycle,電力消費における性能について検討する。 レポートはまた、使用する視線推定モデルを含むシステムのアーキテクチャに関する洞察も提供する。 さらに、システムのデモがあり、機能とパフォーマンスを示している。 我々の軽量モデルTinyTrackerSは、85.8kパラメータを使用してわずか169Kbの大きさで、Spresenseプラットフォーム上で3FPSで動作する。

Gaze estimation is a valuable technology with numerous applications in fields such as human-computer interaction, virtual reality, and medicine. This report presents the implementation of a gaze estimation system using the Sony Spresense microcontroller board and explores its performance in latency, MAC/cycle, and power consumption. The report also provides insights into the system's architecture, including the gaze estimation model used. Additionally, a demonstration of the system is presented, showcasing its functionality and performance. Our lightweight model TinyTrackerS is a mere 169Kb in size, using 85.8k parameters and runs on the Spresense platform at 3 FPS.
翻訳日:2023-11-22 18:22:52 公開日:2023-11-20
# 3dポイントクラウドビジュアライゼーションのための統一フレームワーク

A Unified Framework for 3D Point Cloud Visual Grounding ( http://arxiv.org/abs/2308.11887v2 )

ライセンス: Link先を確認
Haojia Lin, Yongdong Luo, Xiawu Zheng, Lijiang Li, Fei Chao, Taisong Jin, Donghao Luo, Yan Wang, Liujuan Cao, Rongrong Ji(参考訳) 正確な空間参照により、3D参照式理解(3DREC)とセグメンテーション(3DRES)を含む3D環境における深い理解と動的相互作用に、3Dポイント・クラウド・グラウンドリングが不可欠である。 3DRECと3DRESは一つのフレームワークに統合されるべきであり、これはコミュニティの自然な進展でもある。 3DRECは3DRESが参照者を見つけるのに役立ち、3DRESはよりきめ細かな言語と視覚のアライメントによって3DRECを促進する。 そこで本研究では,3DRECと3DRESを統合した3D Referring Transformer(3DRefTR)を提案する。 その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。 特に,2つの目的を果たすスーパーポイントマスクブランチを提案する。 一 スーパーポイントとポイントクラウドの固有の関連性を利用して、アップサンプリングのための高解像度視覚的特徴の計算上のオーバーヘッドをなくす。 二 異種CPU-GPU並列性を活用することにより、GPUは視覚的および言語的トークンを生成する一方、CPUはスーパーポイントを同時に生成し、アップサンプリング計算を同等に達成する。 この精巧な設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。 3DRefTRの優位性が確認された。 具体的には、ScanReferデータセットにおいて、3DRefTRは最先端の3DRES法を12.43%mIoUで上回り、SOTA 3DREC法を0.6%Acc@0.25IoUで改善する。 コードとモデルはまもなくリリースされる予定だ。

Thanks to its precise spatial referencing, 3D point cloud visual grounding is essential for deep understanding and dynamic interaction in 3D environments, encompassing 3D Referring Expression Comprehension (3DREC) and Segmentation (3DRES). We argue that 3DREC and 3DRES should be unified in one framework, which is also a natural progression in the community. To explain, 3DREC help 3DRES locate the referent, while 3DRES also facilitate 3DREC via more fine-grained language-visual alignment. To achieve this, this paper takes the initiative step to integrate 3DREC and 3DRES into a unified framework, termed 3D Referring Transformer (3DRefTR). Its key idea is to build upon a mature 3DREC model and leverage ready query embeddings and visual tokens from the 3DREC model to construct a dedicated mask branch. Specially, we propose Superpoint Mask Branch, which serves a dual purpose: i) By harnessing on the inherent association between the superpoints and point cloud, it eliminates the heavy computational overhead on the high-resolution visual features for upsampling; ii) By leveraging the heterogeneous CPU-GPU parallelism, while the GPU is occupied generating visual and language tokens, the CPU concurrently produces superpoints, equivalently accomplishing the upsampling computation. This elaborate design enables 3DRefTR to achieve both well-performing 3DRES and 3DREC capacities with only a 6% additional latency compared to the original 3DREC model. Empirical evaluations affirm the superiority of 3DRefTR. Specifically, on the ScanRefer dataset, 3DRefTR surpasses the state-of-the-art 3DRES method by 12.43% in mIoU and improves upon the SOTA 3DREC method by 0.6% Acc@0.25IoU. The codes and models will be released soon.
翻訳日:2023-11-22 18:22:41 公開日:2023-11-20
# GPTを活用した「ギターピッグトライアル」 : 企業競争と協力研究のための新しいスマートエージェントベースモデリングアプローチ

"Guinea Pig Trials" Utilizing GPT: A Novel Smart Agent-Based Modeling Approach for Studying Firm Competition and Collusion ( http://arxiv.org/abs/2308.10974v3 )

ライセンス: Link先を確認
Xu Han, Zengqing Wu, Chuan Xiao(参考訳) 企業間のコミュニケーションを考えるとき、企業競争と共謀は複雑なダイナミクスを伴う。 このような問題は複雑なシステムの問題としてモデル化することができ、伝統的に人体やエージェントベースのモデリング手法を含む実験を通じてアプローチされる。 我々は,gpt-4技術が支援するスマートエージェントが企業を代表し,相互に対話する,smart agent-based modeling(sabm)という革新的なフレームワークを提案する。 様々な条件下で企業価格競争と結束行動を研究するための制御実験を行った。 SABMは、人間の被験者による実験よりもコスト効率が高く、柔軟である。 スマートエージェントは意思決定のための広範な知識基盤を持ち、従来のABMエージェントを超越した人間のような戦略能力を示す。 さらに、スマートエージェントは人間の会話をシミュレートしてパーソナライズすることができ、コミュニケーションに関わる複雑な状況を研究するのに最適である。 その結果, コミュニケーションの欠如により, スマートエージェントは相変わらず暗黙の結束に到達し, 価格がベルトランド均衡価格よりも高く, モノポリーやカルテル価格よりも低い水準で収束することが示された。 通信が許可されると、スマートエージェントはカルテル価格に近い価格で高いレベルの共謀を達成する。 協調はコミュニケーションによってより速く形成され、価格収束はそれなしではよりスムーズである。 これらの結果から,企業間の信頼関係が向上し,高水準の勝敗状況の機会を探究し,価格戦争を引き起こす可能性を低減するため,頻繁な価格変動を促すことが示唆された。 また,行動の差異を分析するために,企業に対して異なるペルソナを割り当て,多様な市場構造の下でモデルの検証を行った。 この結果はSABMの有効性と堅牢性を示し,競争と共謀に関する興味深い洞察を与える。

Firm competition and collusion involve complex dynamics, particularly when considering communication among firms. Such issues can be modeled as problems of complex systems, traditionally approached through experiments involving human subjects or agent-based modeling methods. We propose an innovative framework called Smart Agent-Based Modeling (SABM), wherein smart agents, supported by GPT-4 technologies, represent firms, and interact with one another. We conducted a controlled experiment to study firm price competition and collusion behaviors under various conditions. SABM is more cost-effective and flexible compared to conducting experiments with human subjects. Smart agents possess an extensive knowledge base for decision-making and exhibit human-like strategic abilities, surpassing traditional ABM agents. Furthermore, smart agents can simulate human conversation and be personalized, making them ideal for studying complex situations involving communication. Our results demonstrate that, in the absence of communication, smart agents consistently reach tacit collusion, leading to prices converging at levels higher than the Bertrand equilibrium price but lower than monopoly or cartel prices. When communication is allowed, smart agents achieve a higher-level collusion with prices close to cartel prices. Collusion forms more quickly with communication, while price convergence is smoother without it. These results indicate that communication enhances trust between firms, encouraging frequent small price deviations to explore opportunities for a higher-level win-win situation and reducing the likelihood of triggering a price war. We also assigned different personas to firms to analyze behavioral differences and tested variant models under diverse market structures. The findings showcase the effectiveness and robustness of SABM and provide intriguing insights into competition and collusion.
翻訳日:2023-11-22 18:21:25 公開日:2023-11-20
# データの出現:因果的出現は動的学習にインスピレーションを与える

Finding emergence in data: causal emergence inspired dynamics learning ( http://arxiv.org/abs/2308.09952v2 )

ライセンス: Link先を確認
Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, Yingqi Rong, Bing Yuan, Jiang Zhang(参考訳) データ駆動方式で複雑な力学系をモデル化することは、マイクロレベルの観測データでは直接捕捉できない創発的挙動や特性の存在により困難である。 したがって、マクロレベルでの創発的ダイナミクスを効果的に捉え、利用可能なデータに基づいて出現を定量化できるモデルを開発することが重要である。 因果発生の理論から着想を得て,創発的潜在空間内でマクロ力学を学ぶことを目的とした機械学習フレームワークを提案する。 このフレームワークは、有効情報(EI)を最大化し、より強力な因果効果を持つマクロ力学モデルを得る。 シミュレーションおよび実データによる実験結果から,提案手法の有効性が示された。 創発的なパターンをうまく捉えるだけでなく、粗粒化戦略を学習し、データ内の因果発生の度合いを定量化する。 さらに,トレーニングデータセットとは異なる環境で行った実験では,モデルの優れた一般化能力が強調された。

Modelling complex dynamical systems in a data-driven manner is challenging due to the presence of emergent behaviors and properties that cannot be directly captured by micro-level observational data. Therefore, it is crucial to develop a model that can effectively capture emergent dynamics at the macro-level and quantify emergence based on the available data. Drawing inspiration from the theory of causal emergence, this paper introduces a machine learning framework aimed at learning macro-dynamics within an emergent latent space. The framework achieves this by maximizing the effective information (EI) to obtain a macro-dynamics model with stronger causal effects. Experimental results on both simulated and real data demonstrate the effectiveness of the proposed framework. Not only does it successfully capture emergent patterns, but it also learns the coarse-graining strategy and quantifies the degree of causal emergence in the data. Furthermore, experiments conducted on environments different from the training dataset highlight the superior generalization ability of our model.
翻訳日:2023-11-22 18:20:34 公開日:2023-11-20
# 人間ラベリングのための効果的なプロキシ--大規模nlp言語モデルにおけるアンサンブル不一致点

Effective Proxy for Human Labeling: Ensemble Disagreement Scores in Large Language Models for Industrial NLP ( http://arxiv.org/abs/2309.05619v2 )

ライセンス: Link先を確認
Wei Du, Laksh Advani, Yashmeet Gambhir, Daniel J Perry, Prashant Shiralkar, Zhengzheng Xing, and Aaron Colak(参考訳) 大規模言語モデル(LLM)は、多数のNLPタスクにまたがる一般化能力を示す。 業界アプリケーションでは、実世界の環境での検証のために、ラベルのない製品データに対するllmのパフォーマンスを評価することが不可欠である。 モデルエラーを評価するには、かなりのコストと時間を要する。 本稿では,kpe(keyphrase extraction)タスクの評価に基づいて,ゼロショット,少数ショット,微調整設定における言語モデルのヒューマンラベリングのプロキシとして,アンサンブル不一致スコアが有効であることを示す。 我々は、人間のラベル付き基底真理から測定した真の誤りと比較し、結果の忠実度を測定する。 他のllmをマシンラベルやシルバーラベルのソースとして使用する方法とは対照的です。 様々な言語やドメインにわたる結果から、平均誤差(MAE)が0.4%、平均13.8%のモデル性能が銀ラベルよりも優れているという評価結果が得られた。

Large language models (LLMs) have demonstrated significant capability to generalize across a large number of NLP tasks. For industry applications, it is imperative to assess the performance of the LLM on unlabeled production data from time to time to validate for a real-world setting. Human labeling to assess model error requires considerable expense and time delay. Here we demonstrate that ensemble disagreement scores work well as a proxy for human labeling for language models in zero-shot, few-shot, and fine-tuned settings, per our evaluation on keyphrase extraction (KPE) task. We measure fidelity of the results by comparing to true error measured from human labeled ground truth. We contrast with the alternative of using another LLM as a source of machine labels, or silver labels. Results across various languages and domains show disagreement scores provide a better estimation of model performance with mean average error (MAE) as low as 0.4% and on average 13.8% better than using silver labels.
翻訳日:2023-11-22 18:11:28 公開日:2023-11-20
# 大規模言語モデルを活用したテキスト間SQL:ベンチマーク評価

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation ( http://arxiv.org/abs/2308.15363v4 )

ライセンス: Link先を確認
Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, Jingren Zhou(参考訳) 大規模言語モデル(LLM)は、テキストからSQLタスクの新しいパラダイムとして登場した。 しかし、体系的なベンチマークがないため、効率的なLLMベースのテキスト・トゥ・SQLソリューションの設計が阻害される。 この課題に対処するため,本稿では,質問表現,サンプル選択,サンプル組織など既存のプロンプトエンジニアリング手法を体系的かつ広範囲に比較し,これらの実験結果をもとに,その長所と短所を詳述する。 これらの結果に基づき,新たな統合ソリューションであるdail-sqlを提案し,86.6%の実行精度でスパイダーリーダボードをリフレッシュし,新たなバーを設定する。 オープンソース LLM の可能性を探るため,様々なシナリオで検討し,教師付き微調整による性能向上を図る。 我々の調査では、Text-to-SQLにおけるオープンソースのLLMの可能性と、教師付き微調整の利点とデメリットを強調しています。 さらに, LLMをベースとしたテキスト・トゥ・SQLの効率的かつ経済的なソリューションを目指して, プロンプトエンジニアリングにおけるトークンの効率を強調し, この指標に基づく先行研究を比較した。 LLMによるText-to-SQLのより深い理解を提供し、さらなる調査や広範な応用を促すことを願っています。

Large language models (LLMs) have emerged as a new paradigm for Text-to-SQL task. However, the absence of a systematical benchmark inhibits the development of designing effective, efficient and economic LLM-based Text-to-SQL solutions. To address this challenge, in this paper, we first conduct a systematical and extensive comparison over existing prompt engineering methods, including question representation, example selection and example organization, and with these experimental results, we elaborate their pros and cons. Based on these findings, we propose a new integrated solution, named DAIL-SQL, which refreshes the Spider leaderboard with 86.6% execution accuracy and sets a new bar. To explore the potential of open-source LLM, we investigate them in various scenarios, and further enhance their performance with supervised fine-tuning. Our explorations highlight open-source LLMs' potential in Text-to-SQL, as well as the advantages and disadvantages of the supervised fine-tuning. Additionally, towards an efficient and economic LLM-based Text-to-SQL solution, we emphasize the token efficiency in prompt engineering and compare the prior studies under this metric. We hope that our work provides a deeper understanding of Text-to-SQL with LLMs, and inspires further investigations and broad applications.
翻訳日:2023-11-22 18:07:19 公開日:2023-11-20
# 準同型数を持つ構造ノード埋め込み

Structural Node Embeddings with Homomorphism Counts ( http://arxiv.org/abs/2308.15283v2 )

ライセンス: Link先を確認
Hinrikus Wolf, Luca Oeljeklaus, Pascal K\"uhner, Martin Grohe(参考訳) 1967年にLov\'aszによって初めて発見されたグラフ準同型数は、グラフベースの機械学習において強力なツールとして関心を集めている。 grohe (pods 2020) はグラフレベルの機械学習やノードレベルのタスクで準同型数を使用するための理論的基礎を提案した。 その性質上、局所的な構造情報を取り込み、堅牢な構造埋め込みを作成することができる。 グラフレベルのタスクに対する最初のアプローチは、Nguyen と Maehara (ICML 2020) によるものであるが、同型数に基づくノード埋め込みの有効性を実験的に示す。 ノードラベル、ノードウェイト、エッジウェイトに富んだこれらは、グラフデータの解釈可能な表現を提供し、機械学習モデルの説明可能性を高める。 本稿では, 様々な下流タスクに適した準同型不変準同型数に基づく埋め込みに関する理論的枠組みを提案する。 本手法は有界木幅グラフクラスに対するグラフ準同型カウントの効率的な計算可能性に基いて,実世界のアプリケーションのための実用的なソリューションとなる。 ベンチマークデータセットで実験を行い,その表現性を示す。 我々の結果は最先端のニューラルネットワークアーキテクチャの精度に合わないが、他の高度なグラフ学習モデルに匹敵する。 注目すべきは、各機能の説明可能性を保証することで、我々のアプローチは相違することです。 SVMやRandom Forestsのような解釈可能な機械学習アルゴリズムを統合することで、シームレスでエンドツーエンドで説明可能なパイプラインを構築します。 本研究は,性能と解釈可能性の両方を提供するグラフベースの技術の発展に寄与する。

Graph homomorphism counts, first explored by Lov\'asz in 1967, have recently garnered interest as a powerful tool in graph-based machine learning. Grohe (PODS 2020) proposed the theoretical foundations for using homomorphism counts in machine learning on graph level as well as node level tasks. By their very nature, these capture local structural information, which enables the creation of robust structural embeddings. While a first approach for graph level tasks has been made by Nguyen and Maehara (ICML 2020), we experimentally show the effectiveness of homomorphism count based node embeddings. Enriched with node labels, node weights, and edge weights, these offer an interpretable representation of graph data, allowing for enhanced explainability of machine learning models. We propose a theoretical framework for isomorphism-invariant homomorphism count based embeddings which lend themselves to a wide variety of downstream tasks. Our approach capitalises on the efficient computability of graph homomorphism counts for bounded treewidth graph classes, rendering it a practical solution for real-world applications. We demonstrate their expressivity through experiments on benchmark datasets. Although our results do not match the accuracy of state-of-the-art neural architectures, they are comparable to other advanced graph learning models. Remarkably, our approach demarcates itself by ensuring explainability for each individual feature. By integrating interpretable machine learning algorithms like SVMs or Random Forests, we establish a seamless, end-to-end explainable pipeline. Our study contributes to the advancement of graph-based techniques that offer both performance and interpretability.
翻訳日:2023-11-22 18:06:55 公開日:2023-11-20
# SALSA-CLRS: アルゴリズム推論のためのスパースでスケーラブルなベンチマーク

SALSA-CLRS: A Sparse and Scalable Benchmark for Algorithmic Reasoning ( http://arxiv.org/abs/2309.12253v2 )

ライセンス: Link先を確認
Julian Minder, Florian Gr\"otschla, Jo\"el Mathys, Roger Wattenhofer(参考訳) 我々はCLRSアルゴリズム学習ベンチマークの拡張を導入し、スケーラビリティとスパース表現の利用を優先する。 CLRSの多くのアルゴリズムは、その実行モデルに反映されたグローバルメモリや情報交換を必要とし、根底にある問題に基づいて完全に連結された(スパースではない)グラフを構成する。 clrは、学習したアルゴリズムがいかに効果的に大規模インスタンスに一般化できるかを評価することを目的としているが、既存の実行モデルは、メモリ要求とランタイム(スケールが難しい)のために重大な制約となる。 しかし、多くの重要なアルゴリズムは完全連結グラフを必要としない。これらのアルゴリズムは本質的に分散しており、グラフニューラルネットワークが採用するメッセージパッシングパラダイムと密接に関連している。 したがって、スケーラビリティとスパース性を念頭に置いて、現在のCLRSベンチマークの拡張であるSALSA-CLRSを提案する。 我々のアプローチには、オリジナルのCLRSベンチマークからの適応アルゴリズムが含まれ、分散およびランダム化アルゴリズムの新たな問題が導入されている。 さらに,ベンチマークを徹底的に評価した。 コードはhttps://github.com/jkminder/SALSA-CLRSで公開されている。

We introduce an extension to the CLRS algorithmic learning benchmark, prioritizing scalability and the utilization of sparse representations. Many algorithms in CLRS require global memory or information exchange, mirrored in its execution model, which constructs fully connected (not sparse) graphs based on the underlying problem. Despite CLRS's aim of assessing how effectively learned algorithms can generalize to larger instances, the existing execution model becomes a significant constraint due to its demanding memory requirements and runtime (hard to scale). However, many important algorithms do not demand a fully connected graph; these algorithms, primarily distributed in nature, align closely with the message-passing paradigm employed by Graph Neural Networks. Hence, we propose SALSA-CLRS, an extension of the current CLRS benchmark specifically with scalability and sparseness in mind. Our approach includes adapted algorithms from the original CLRS benchmark and introduces new problems from distributed and randomized algorithms. Moreover, we perform a thorough empirical evaluation of our benchmark. Code is publicly available at https://github.com/jkminder/SALSA-CLRS.
翻訳日:2023-11-22 17:57:03 公開日:2023-11-20
# 大規模言語モデルから得られた確率に基づく特許請求の範囲測定のための新しいアプローチ

A novel approach to measuring patent claim scope based on probabilities obtained from (large) language models ( http://arxiv.org/abs/2309.10003v3 )

ライセンス: Link先を確認
S\'ebastien Ragot(参考訳) 本研究は,特許クレームの範囲を,このクレームに含まれる自己情報の相互性として測定することを提案する。 言語モデルからクレームの発生確率を求め、この確率を用いて自己情報を算出する。 情報理論の根底にあるこのアプローチは、不可能な概念が通常の概念よりも情報的である、という仮定に基づいている。 逆に、クレームを定義するのに必要な情報が驚くほど、その範囲は狭くなる。 最も単純なモデル(各単語または文字が同一の確率で割り当てられる)から中間モデル(平均語または文字の周波数を使用する)から大きな言語モデル(GPT2)まで、5つの言語モデルが検討されている。 興味深いことに、最も単純な言語モデルから得られるスコープは、クレームに関連する単語や文字の数の相互関係に比例する。 異なる発明に向けられた複数の特許クレームに適用され、各シリーズは徐々に減少する範囲を持つように考案されたクレームからなる。 言語モデルの性能は、いくつかのアドホックテストに対して評価される。 モデルが洗練すればするほど、結果は良くなる。 すなわち、GPT2確率モデルは単語と文字の周波数に基づくモデルよりも優れており、それ自身は単語または文字数に基づく最も単純なモデルより優れている。 それでも、文字数の方が単語数よりも信頼性の高い指標であるようだ。

This work proposes to measure the scope of a patent claim as the reciprocal of the self-information contained in this claim. A probability of occurrence of the claim is obtained from a language model and this probability is used to compute the self-information. Grounded in information theory, this approach is based on the assumption that an unlikely concept is more informative than a usual concept, insofar as it is more surprising. In turn, the more surprising the information required to defined the claim, the narrower its scope. Five language models are considered, ranging from simplest models (each word or character is assigned an identical probability) to intermediate models (using average word or character frequencies), to a large language model (GPT2). Interestingly, the scope resulting from the simplest language models is proportional to the reciprocal of the number of words or characters involved in the claim, a metric already used in previous works. Application is made to multiple series of patent claims directed to distinct inventions, where each series consists of claims devised to have a gradually decreasing scope. The performance of the language models is assessed with respect to several ad hoc tests. The more sophisticated the model, the better the results. I.e., the GPT2 probability model outperforms models based on word and character frequencies, which themselves outdo the simplest models based on word or character counts. Still, the character count appears to be a more reliable indicator than the word count.
翻訳日:2023-11-22 17:56:07 公開日:2023-11-20
# 3d sa-unet: white matter hyperintensities segmentationのための3d asppを用いた3d空間注意unet

3D SA-UNet: 3D Spatial Attention UNet with 3D ASPP for White Matter Hyperintensities Segmentation ( http://arxiv.org/abs/2309.08402v3 )

ライセンス: Link先を確認
Changlu Guo(参考訳) ホワイトマター・ハイパーインテンシティ(White Matter Hyperintensity, WMH)は、認知症や脳卒中などの様々な疾患に関連する画像特徴である。 コンピュータ技術を用いたWMHの正確なセグメンテーションは早期診断に不可欠である。 しかし、コントラストが低く、画像に不連続な小さな病変があり、文脈情報や空間情報も限られているため、この課題は依然として困難である。 この課題に対処するために,Fluid Attenuation Inversion Recovery (FLAIR) スキャンのみを用いた自動WMHセグメンテーションのための3次元空間注意U-Net(3D SA-UNet)というディープラーニングモデルを提案する。 3D SA-UNetは、重要でない領域を抑えながら、WMHのような重要な病変の特徴を強調する3D空間注意モジュールを導入した。 さらに,異なるスケールで特徴をキャプチャするために,atrous spatial pyramid pooling (aspp) モジュールを3dバージョンに拡張し,ネットワークのセグメンテーション性能を向上させる。 提案手法を公開データセット上で評価し,WMHセグメンテーションにおける3次元空間注意モジュールと3次元ASPPの有効性を実証した。 実験の結果,提案した3D SA-UNetモデルは,他の最先端の3D畳み込みニューラルネットワークと比較して精度が高いことがわかった。

White Matter Hyperintensity (WMH) is an imaging feature related to various diseases such as dementia and stroke. Accurately segmenting WMH using computer technology is crucial for early disease diagnosis. However, this task remains challenging due to the small lesions with low contrast and high discontinuity in the images, which contain limited contextual and spatial information. To address this challenge, we propose a deep learning model called 3D Spatial Attention U-Net (3D SA-UNet) for automatic WMH segmentation using only Fluid Attenuation Inversion Recovery (FLAIR) scans. The 3D SA-UNet introduces a 3D Spatial Attention Module that highlights important lesion features, such as WMH, while suppressing unimportant regions. Additionally, to capture features at different scales, we extend the Atrous Spatial Pyramid Pooling (ASPP) module to a 3D version, enhancing the segmentation performance of the network. We evaluate our method on publicly available dataset and demonstrate the effectiveness of 3D spatial attention module and 3D ASPP in WMH segmentation. Through experimental results, it has been demonstrated that our proposed 3D SA-UNet model achieves higher accuracy compared to other state-of-the-art 3D convolutional neural networks.
翻訳日:2023-11-22 17:54:57 公開日:2023-11-20
# 咬合下の3次元関節物体操作のための学習環境

Learning Environment-Aware Affordance for 3D Articulated Object Manipulation under Occlusions ( http://arxiv.org/abs/2309.07510v4 )

ライセンス: Link先を確認
Kai Cheng, Ruihai Wu, Yan Shen, Chuanruo Ning, Guanqi Zhan, Hao Dong(参考訳) 多様な環境における3次元関節物体の知覚と操作は, ロボットにとって不可欠である。 近年の研究では、ポイントレベルのアフォーダンスが下流操作タスクに実行可能な事前設定を提供していることが示されている。 しかし、既存の研究は主に、環境によって課される現実的な制約やエージェントの形態、例えばオクルージョンや物理的な制限を見渡す、均質なエージェントによる単一対象シナリオに焦点を当てている。 本稿では,オブジェクトレベルの動作可能なプリミティブと環境制約の両方を組み込んだ環境対応アプライアンスフレームワークを提案する。 オブジェクト中心のアフォーダンスアプローチとは異なり、学習環境を意識したアフォーダンスは、様々なオクルージョンの複雑さのために、その量、ジオメトリ、位置、ポーズによって特徴付けられる組合せ爆発の課題に直面している。 そこで本研究では,1つのオクルーダーを含むシーンを訓練し,複雑なオクルーダーの組み合わせを持つシーンに一般化できる,新しいコントラスト・アフォーアンス学習フレームワークを提案する。 環境制約を考慮した学習における提案手法の有効性を示す実験を行った。 プロジェクトページ: https://chengkaiacademycity.github.io/envawareafford/

Perceiving and manipulating 3D articulated objects in diverse environments is essential for home-assistant robots. Recent studies have shown that point-level affordance provides actionable priors for downstream manipulation tasks. However, existing works primarily focus on single-object scenarios with homogeneous agents, overlooking the realistic constraints imposed by the environment and the agent's morphology, e.g., occlusions and physical limitations. In this paper, we propose an environment-aware affordance framework that incorporates both object-level actionable priors and environment constraints. Unlike object-centric affordance approaches, learning environment-aware affordance faces the challenge of combinatorial explosion due to the complexity of various occlusions, characterized by their quantities, geometries, positions and poses. To address this and enhance data efficiency, we introduce a novel contrastive affordance learning framework capable of training on scenes containing a single occluder and generalizing to scenes with complex occluder combinations. Experiments demonstrate the effectiveness of our proposed approach in learning affordance considering environment constraints. Project page at https://chengkaiacademycity.github.io/EnvAwareAfford/
翻訳日:2023-11-22 17:54:27 公開日:2023-11-20
# 連続学習における安定性と可塑性のバランス--活性化変化の読み出し分解(RDAC)フレームワーク

Balancing stability and plasticity in continual learning: the readout-decomposition of activation change (RDAC) framework ( http://arxiv.org/abs/2310.04741v3 )

ライセンス: Link先を確認
Daniel Anthes and Sushrut Thorat and Peter K\"onig and Tim C. Kietzmann(参考訳) 継続学習(CL)アルゴリズムは、事前情報を保持しながら新しい知識を獲得しようとする。 しかし、この安定性と可塑性のトレードオフは依然として大きな課題である。 本稿では、このトレードオフを識別するフレームワークを紹介し、CLアルゴリズムに関する貴重な洞察を提供する。 Readout-Decomposition of Activation Change (RDAC) フレームワークは、まず安定性・塑性ジレンマと破滅的な忘れ物との関係に対処する。 学習によって引き起こされる事前読み出し範囲の活性化変化と、安定性の度合いとヌル空間の可塑性の度合いに関するものである。 スプリット-cifar-110タスクに取り組むディープ非線形ネットワークにおいて、このフレームワークは、人気のある正規化アルゴリズムシナプス知能(si)、弾性重み強化(ewc)、学習無忘れ(lwf)、リプレイベースのアルゴリズム勾配エピソディックメモリ(gem)、データリプレイの安定性と可塑性のトレードオフを明確にする。 GEMとデータ再生は安定性と可塑性を保ち、SI、EWC、LwFは安定性のために可塑性を交換した。 可塑性を維持するための正規化アルゴリズムの欠如は、事前の読み出しのヌル空間におけるアクティベーションの変化を制限するものである。 さらに,単層線形ニューラルネットワークでは,事前読み出し範囲のみの活性化変化を制限し,可塑性を犠牲にすることなく高い安定性を維持する勾配分解アルゴリズムを考案した。 その結果, 可塑性損失を伴わない安定性が得られた。 RDACフレームワークは、既存のCLアルゴリズムの振る舞いを知らせ、新しいCLアプローチの道を開く。 最後に、学習によって引き起こされる活性化/表現の変化と安定性と可塑性のジレンマの関係に光を当て、生体システムの表現ドリフトに関する洞察を提供する。

Continual learning (CL) algorithms strive to acquire new knowledge while preserving prior information. However, this stability-plasticity trade-off remains a central challenge. This paper introduces a framework that dissects this trade-off, offering valuable insights into CL algorithms. The Readout-Decomposition of Activation Change (RDAC) framework first addresses the stability-plasticity dilemma and its relation to catastrophic forgetting. It relates learning-induced activation changes in the range of prior readouts to the degree of stability and changes in the null space to the degree of plasticity. In deep non-linear networks tackling split-CIFAR-110 tasks, the framework clarifies the stability-plasticity trade-offs of the popular regularization algorithms Synaptic intelligence (SI), Elastic-weight consolidation (EWC), and learning without Forgetting (LwF), and replay-based algorithms Gradient episodic memory (GEM), and data replay. GEM and data replay preserved stability and plasticity, while SI, EWC, and LwF traded off plasticity for stability. The inability of the regularization algorithms to maintain plasticity was linked to them restricting the change of activations in the null space of the prior readout. Additionally, for one-hidden-layer linear neural networks, we derived a gradient decomposition algorithm to restrict activation change only in the range of the prior readouts, to maintain high stability while not further sacrificing plasticity. Results demonstrate that the algorithm maintained stability without significant plasticity loss. The RDAC framework informs the behavior of existing CL algorithms and paves the way for novel CL approaches. Finally, it sheds light on the connection between learning-induced activation/representation changes and the stability-plasticity dilemma, also offering insights into representational drift in biological systems.
翻訳日:2023-11-22 17:46:46 公開日:2023-11-20
# 対向訓練におけるロバスト表現の強化--アライメントと排除基準

Enhancing Robust Representation in Adversarial Training: Alignment and Exclusion Criteria ( http://arxiv.org/abs/2310.03358v2 )

ライセンス: Link先を確認
Nuoyan Zhou, Nannan Wang, Decheng Liu, Dawei Zhou, Xinbo Gao(参考訳) ディープニューラルネットワークは、敵のノイズに弱い。 敵訓練(AT)は、ニューラルネットワークが騙されるのを防ぐ最も効果的な防衛戦略であることが示されている。 しかし、ATは頑健な特徴の学習を省略し、敵の頑健さの低下を招いた。 この問題に対処するために、(1)排除: \emph{例の特徴が他のクラスの特徴から遠ざかる; (2)アライメント: \emph{自然と対応する敵の例の特徴は互いに近い}という2つのロバストな表現の基準を強調する。 これらのことは、非対称な負のコントラストと逆の注意によって、堅牢な表現を得るためのATの一般的なフレームワークを提案する動機である。 具体的には、予測確率に基づく非対称な負のコントラストを設計し、特徴空間における異なるクラスの例を除去する。 さらに,線形分類器のパラメータを逆の注意として重み付けし,クラス認識機能を取得し,同一クラスの特徴を引き出す。 3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。

Deep neural networks are vulnerable to adversarial noise. Adversarial Training (AT) has been demonstrated to be the most effective defense strategy to protect neural networks from being fooled. However, we find AT omits to learning robust features, resulting in poor performance of adversarial robustness. To address this issue, we highlight two criteria of robust representation: (1) Exclusion: \emph{the feature of examples keeps away from that of other classes}; (2) Alignment: \emph{the feature of natural and corresponding adversarial examples is close to each other}. These motivate us to propose a generic framework of AT to gain robust representation, by the asymmetric negative contrast and reverse attention. Specifically, we design an asymmetric negative contrast based on predicted probabilities, to push away examples of different classes in the feature space. Moreover, we propose to weight feature by parameters of the linear classifier as the reverse attention, to obtain class-aware feature and pull close the feature of the same class. Empirical evaluations on three benchmark datasets show our methods greatly advance the robustness of AT and achieve state-of-the-art performance.
翻訳日:2023-11-22 17:45:42 公開日:2023-11-20
# マルチリレーショナルグラフニューラルネットワークのためのメタパス学習

Meta-Path Learning for Multi-relational Graph Neural Networks ( http://arxiv.org/abs/2309.17113v2 )

ライセンス: Link先を確認
Francesco Ferrini, Antonio Longa, Andrea Passerini, Manfred Jaeger(参考訳) 既存のマルチリレーショナルグラフニューラルネットワークは、情報的関係を特定するための2つの戦略の1つを使っている。 しかし、前者のアプローチは多くの関係(例えば知識グラフ)の存在下での課題に直面し、後者は関連するメタパスを特定するためにかなりのドメインの専門知識を必要とする。 本研究では,少数の情報的メタパスに基づいて,高精度なメタパスとメタパスGNNの学習手法を提案する。 提案手法の鍵となる要素は,メタパスの漸進的構築における関係の潜在的情報性を測定するスコアリング機能である。 実験結果から,本手法は多数の関係を持つ場合でも適切なメタパスを同定でき,合成および実世界実験において既存のマルチリレーショナルgnnを実質的に上回っていることが示された。

Existing multi-relational graph neural networks use one of two strategies for identifying informative relations: either they reduce this problem to low-level weight learning, or they rely on handcrafted chains of relational dependencies, called meta-paths. However, the former approach faces challenges in the presence of many relations (e.g., knowledge graphs), while the latter requires substantial domain expertise to identify relevant meta-paths. In this work we propose a novel approach to learn meta-paths and meta-path GNNs that are highly accurate based on a small number of informative meta-paths. Key element of our approach is a scoring function for measuring the potential informativeness of a relation in the incremental construction of the meta-path. Our experimental evaluation shows that the approach manages to correctly identify relevant meta-paths even with a large number of relations, and substantially outperforms existing multi-relational GNNs on synthetic and real-world experiments.
翻訳日:2023-11-22 17:42:01 公開日:2023-11-20
# 帰属パッチは自動回路発見に勝る

Attribution Patching Outperforms Automated Circuit Discovery ( http://arxiv.org/abs/2310.10348v2 )

ライセンス: Link先を確認
Aaquib Syed, Can Rager, Arthur Conmy(参考訳) 自動解釈可能性の研究は、ニューラルネットワークの振る舞いを大規模モデルに拡張する研究の方向性として、最近注目を集めている。 既存の自動回路発見作業では、アクティベーションパッチを適用して特定のタスク(回路)を解決するサブネットワークを特定する。 本研究では,属性パッチに基づく単純な手法が,2つの前方パスと1つの後方パスを必要としながら,既存のすべての手法より優れていることを示す。 アクティベーションパッチングに線形近似を適用し,計算サブグラフにおける各エッジの重要性を推定する。 この近似を用いて、ネットワークの最も重要でないエッジを推定する。 我々は,本手法の性能と限界を調査し,我々の手法が回路回復からAUCが他の手法よりも大きいことを確かめた。

Automated interpretability research has recently attracted attention as a potential research direction that could scale explanations of neural network behavior to large models. Existing automated circuit discovery work applies activation patching to identify subnetworks responsible for solving specific tasks (circuits). In this work, we show that a simple method based on attribution patching outperforms all existing methods while requiring just two forward passes and a backward pass. We apply a linear approximation to activation patching to estimate the importance of each edge in the computational subgraph. Using this approximation, we prune the least important edges of the network. We survey the performance and limitations of this method, finding that averaged over all tasks our method has greater AUC from circuit recovery than other methods.
翻訳日:2023-11-22 17:33:41 公開日:2023-11-20
# 再検討による数学単語問題の解法

Solving Math Word Problems with Reexamination ( http://arxiv.org/abs/2310.09590v2 )

ライセンス: Link先を確認
Yi Bin, Wenhao Shi, Yujuan Ding, Yang Yang, See-Kiong Ng(参考訳) 数学語問題 (MWP) は、記述的な数学問題を理解し、その結果を計算することを目的としている。 本稿では,MWP問題解決のための擬似双対タスクを導入することにより,トレーニング中の「textit{reexamination process}」の異なる視点を提供する。 そこで本研究では,モデルに依存しない擬似双対学習方式を提案し,既存のMWP解法に適用可能である。 擬似双対タスクは、表現の数値を元の単語問題にマスクした数字で埋めることとして、特に定義される。 さらに,2つのタスクの効果的な共同学習を容易にするために,数値埋込みタスクの計画的融合戦略を設計し,その結果から予測されたタスクへの入力を円滑に切り替える。 提案手法は,複数の代表MWPソルバを実証実験により適用した場合に有効であることが確認された。 \textit{The codes and trained model are available at:} \url{https://github.com/steven640pixel/PsedualMWP}. \end{abstract}

Math word problem (MWP) solving aims to understand the descriptive math problem and calculate the result, for which previous efforts are mostly devoted to upgrade different technical modules. This paper brings a different perspective of \textit{reexamination process} during training by introducing a pseudo-dual task to enhance the MWP solving. We propose a pseudo-dual (PseDual) learning scheme to model such process, which is model-agnostic thus can be adapted to any existing MWP solvers. The pseudo-dual task is specifically defined as filling the numbers in the expression back into the original word problem with numbers masked. To facilitate the effective joint learning of the two tasks, we further design a scheduled fusion strategy for the number infilling task, which smoothly switches the input from the ground-truth math expressions to the predicted ones. Our pseudo-dual learning scheme has been tested and proven effective when being equipped in several representative MWP solvers through empirical studies. \textit{The codes and trained models are available at:} \url{https://github.com/steven640pixel/PsedualMWP}. \end{abstract}
翻訳日:2023-11-22 17:32:51 公開日:2023-11-20
# Lag-Llama: 時系列予測の基礎モデルを目指して

Lag-Llama: Towards Foundation Models for Time Series Forecasting ( http://arxiv.org/abs/2310.08278v2 )

ライセンス: Link先を確認
Kashif Rasul, Arjun Ashok, Andrew Robert Williams, Arian Khorasani, George Adamopoulos, Rishika Bhagwatkar, Marin Bilo\v{s}, Hena Ghonia, Nadhir Vincent Hassen, Anderson Schneider, Sahil Garg, Alexandre Drouin, Nicolas Chapados, Yuriy Nevmyvaka, Irina Rish(参考訳) 時系列予測の基礎モデルの構築と,そのスケーリング行動の研究を目的として,大規模な時系列データに基づいてトレーニングされた汎用的単変量確率的時系列予測モデルであるLag-Llamaについて述べる。 このモデルは、教師付きベースラインよりも優れており、見当たらない「分散外」時系列データセット上で優れたゼロショット予測能力を示す。 モデルのスケーリング動作を適度に予測するために,スムースに破断されたパワールールを使用します。 ソースコードはhttps://github.com/kashif/pytorch-transformer-tsで入手できる。

Aiming to build foundation models for time-series forecasting and study their scaling behavior, we present here our work-in-progress on Lag-Llama, a general-purpose univariate probabilistic time-series forecasting model trained on a large collection of time-series data. The model shows good zero-shot prediction capabilities on unseen "out-of-distribution" time-series datasets, outperforming supervised baselines. We use smoothly broken power-laws to fit and predict model scaling behavior. The open source code is made available at https://github.com/kashif/pytorch-transformer-ts.
翻訳日:2023-11-22 17:30:49 公開日:2023-11-20
# ノード回帰/分類のための無限幅グラフニューラルネットワーク

Infinite Width Graph Neural Networks for Node Regression/ Classification ( http://arxiv.org/abs/2310.08176v4 )

ライセンス: Link先を確認
Yunus Cobanoglu(参考訳) 本研究は,グラフ構造化データ上の完全連結深層ニューラルネットワークの一般化であるグラフニューラルネットワークの解析を行う。 Infinite Width Neural NetworksはDeep LearningをGaussian ProcessesとKernelsに接続している。 Gaussian ProcessesとKernelsは、ニューラルネットワークのハイパーパラメータをはるかに少なくし、不確実性推定に使用できるため、アプリケーションに対してよりユーザフレンドリである。 この研究は、ガウス過程とカーネルをニューラルネットワークに接続する研究の量を増やしている。 Kernel と Gaussian Process のクローズドフォームは、標準の Graph Neural Network、Skip-Concatenate Connections を備えた Graph Neural Network、Graph Attention Neural Network など、さまざまなアーキテクチャから派生している。 すべてのアーキテクチャは、トランスダクティブノードの回帰と分類のタスクにおいて、さまざまなデータセット上で評価される。 さらに、効果的な抵抗として知られるスペクトルスパーシフィケーション手法は、ランタイムとメモリ要求を改善するために使用される。 インダクティブグラフ学習タスク(グラフ回帰/分類)への設定の拡張は簡単であり、3.5で簡単に議論される。

This work analyzes Graph Neural Networks, a generalization of Fully-Connected Deep Neural Nets on Graph structured data, when their width, that is the number of nodes in each fullyconnected layer is increasing to infinity. Infinite Width Neural Networks are connecting Deep Learning to Gaussian Processes and Kernels, both Machine Learning Frameworks with long traditions and extensive theoretical foundations. Gaussian Processes and Kernels have much less hyperparameters then Neural Networks and can be used for uncertainty estimation, making them more user friendly for applications. This works extends the increasing amount of research connecting Gaussian Processes and Kernels to Neural Networks. The Kernel and Gaussian Process closed forms are derived for a variety of architectures, namely the standard Graph Neural Network, the Graph Neural Network with Skip-Concatenate Connections and the Graph Attention Neural Network. All architectures are evaluated on a variety of datasets on the task of transductive Node Regression and Classification. Additionally, a Spectral Sparsification method known as Effective Resistance is used to improve runtime and memory requirements. Extending the setting to inductive graph learning tasks (Graph Regression/ Classification) is straightforward and is briefly discussed in 3.5.
翻訳日:2023-11-22 17:30:37 公開日:2023-11-20
# slash:静的な構成-論理同定手法

slash: A Technique for Static Configuration-Logic Identification ( http://arxiv.org/abs/2310.06758v2 )

ライセンス: Link先を確認
Mohannad Alhanahnah, Philipp Schubert, Thomas Reps, Somesh Jha, and Eric Bodden(参考訳) ソフトウェアをデブロ化し、設定エラーを検出するツールが最近開発された。 これらのツールのいくつかは、プログラムが初期化フェーズと主計算フェーズからなるという観察に依存している。 これらのツールのユーザは、これらのフェーズを分離する境界を手動でアノテートする必要がある。 エラーはツールの正確性と機能を損なう可能性があるため、手動アノテーション要件はツールを大規模に適用する能力を妨げる。 本稿では,広く使われている24のc/c++プログラムのフィールドスタディを行い,96\%の共通境界特性を同定した。 次に、識別されたプロパティに基づいて境界を見つける自動ツールである \textit{slash}を導入する。 \textit{slash} は87.5\%のプログラムの境界を8.5\分以内で識別し、最大4.4\GBのメモリを使用する。 独立テストでは、 \textit{slash}が開発され、21の人気のあるC/C++ GitHubリポジトリのデータセットの85.7\%で境界が特定された。 最後に、ソフトウェアデブローミングおよびエラー検出ツールの境界識別プロセスを合理化する、 \textit{slash} の可能性を示す。

Researchers have recently devised tools for debloating software and detecting configuration errors. Several of these tools rely on the observation that programs are composed of an initialization phase followed by a main-computation phase. Users of these tools are required to manually annotate the boundary that separates these phases, a task that can be time-consuming and error-prone (typically, the user has to read and understand the source code or trace executions with a debugger). Because errors can impair the tool's accuracy and functionality, the manual-annotation requirement hinders the ability to apply the tools on a large scale. In this paper, we present a field study of 24 widely-used C/C++ programs, identifying common boundary properties in 96\% of them. We then introduce \textit{slash}, an automated tool that locates the boundary based on the identified properties. \textit{slash} successfully identifies the boundary in 87.5\% of the studied programs within 8.5\ minutes, using up to 4.4\ GB memory. In an independent test, carried out after \textit{slash} was developed, \textit{slash} identified the boundary in 85.7\% of a dataset of 21 popular C/C++ GitHub repositories. Finally, we demonstrate \textit{slash}'s potential to streamline the boundary-identification process of software-debloating and error-detection tools.
翻訳日:2023-11-22 17:29:25 公開日:2023-11-20
# SAM-CLIP:意味的・空間的理解に向けた視覚基礎モデルの融合

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding ( http://arxiv.org/abs/2310.15308v2 )

ライセンス: Link先を確認
Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari(参考訳) CLIP や Segment Anything Model (SAM) など,一般公開されたビジョンファウンデーションモデル (VFM) の展望は急速に拡大している。 vfmには、訓練前の目的から生じる異なる能力が与えられている。 例えば、CLIPは意味理解に優れ、SAMはセグメンテーションのための空間理解に特化している。 本研究では,VFMを効率よく統合したモデルにマージする簡単なレシピを提案する。 本手法は,マルチタスク学習,連続学習,蒸留技術を統合する。 さらに、スクラッチから行う従来のマルチタスクトレーニングに比べて計算コストが大幅に削減され、個々のモデルのトレーニングに使用された事前トレーニングデータセットのごく一部しか必要としない。 本手法をSAMおよびCLIPに適用することにより,SAMとCLIPの機能を組み合わせた一元モデルであるSAM-CLIPを単一視覚変換器に適用する。 SAMとCLIPを独立してデプロイするのに比べ、SAM-CLIPはストレージと推論の計算コストを削減し、エッジデバイスアプリケーションに適している。 SAM-CLIPはSAMとCLIPの基礎的強みを保っているだけでなく、特にゼロショットセマンティックセマンティックセグメンテーションにおいて相乗的機能を導入し、SAM-CLIPは5つのベンチマークで新しい最先端結果を確立する。 これは、pascal-voc と coco-stuff データセットでそれぞれ +6.8% と +5.9% の平均 iou 改善を含む、このタスク用に特別に設計された以前のモデルを上回る。

The landscape of publicly available vision foundation models (VFMs), such as CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed with distinct capabilities stemming from their pre-training objectives. For instance, CLIP excels in semantic understanding, while SAM specializes in spatial understanding for segmentation. In this work, we introduce a simple recipe to efficiently merge VFMs into a unified model that absorbs their expertise. Our method integrates techniques of multi-task learning, continual learning, and distillation. Further, it demands significantly less computational cost compared to traditional multi-task training from scratch, and it only needs a small fraction of the pre-training datasets that were initially used to train individual models. By applying our method to SAM and CLIP, we obtain SAM-CLIP: a unified model that combines the capabilities of SAM and CLIP into a single vision transformer. Compared with deploying SAM and CLIP independently, our merged model, SAM-CLIP, reduces storage and compute costs for inference, making it well-suited for edge device applications. We show that SAM-CLIP not only retains the foundational strengths of SAM and CLIP, but also introduces synergistic functionalities, notably in zero-shot semantic segmentation, where SAM-CLIP establishes new state-of-the-art results on 5 benchmarks. It outperforms previous models that are specifically designed for this task by a large margin, including +6.8% and +5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.
翻訳日:2023-11-22 17:22:28 公開日:2023-11-20
# メモリ拡張大言語モデルを用いたオープンエンディング型インストラクタブル・エボダイドエージェント

Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models ( http://arxiv.org/abs/2310.15127v2 )

ライセンス: Link先を確認
Gabriel Sarch, Yue Wu, Michael J. Tarr, Katerina Fragkiadaki(参考訳) LLM(Pre-trained and frozen large language model)は、単純なシーンアレンジメント命令をロボットのビジュモータ関数上のプログラムに効果的にマッピングする。 オープンドメインの自然言語を解析し、迅速なエンジニアリング時間中に未知のユーザの慣用的手順に適応させるには、固定プロンプトが不足する。 本稿では,言語プログラムペアの外部メモリを備えたエンボディエージェントであるHELPERを紹介し,LLMクエリの現在の対話,命令,修正,VLM記述に基づいて関連する記憶を検索し,LLMクエリのインコンテクストプロンプトの例として利用する。 メモリはデプロイメント中に拡張され、ユーザの言語とアクションプランのペアが含まれ、将来の推論を支援し、ユーザの言語とルーチンにパーソナライズする。 HELPERは、ダイアログヒストリー(EDH)とトラジェクトリ・オブ・ダイアログ(TfD)の両方でTEAChベンチマークに新しい最先端を設定しており、以前のTfDの最先端よりも1.7倍改善されている。 私たちのモデル、コード、ビデオの結果は、プロジェクトのWebサイト(https://helper-agent-llm.github.io)で確認できます。

Pre-trained and frozen large language models (LLMs) can effectively map simple scene rearrangement instructions to programs over a robot's visuomotor functions through appropriate few-shot example prompting. To parse open-domain natural language and adapt to a user's idiosyncratic procedures, not known during prompt engineering time, fixed prompts fall short. In this paper, we introduce HELPER, an embodied agent equipped with an external memory of language-program pairs that parses free-form human-robot dialogue into action programs through retrieval-augmented LLM prompting: relevant memories are retrieved based on the current dialogue, instruction, correction, or VLM description, and used as in-context prompt examples for LLM querying. The memory is expanded during deployment to include pairs of user's language and action plans, to assist future inferences and personalize them to the user's language and routines. HELPER sets a new state-of-the-art in the TEACh benchmark in both Execution from Dialog History (EDH) and Trajectory from Dialogue (TfD), with a 1.7x improvement over the previous state-of-the-art for TfD. Our models, code, and video results can be found in our project's website: https://helper-agent-llm.github.io.
翻訳日:2023-11-22 17:21:30 公開日:2023-11-20
# デュアルストリームニューラルネットワークによる脳の背側および腹側視覚経路の機能的偏析

A Dual-Stream Neural Network Explains the Functional Segregation of Dorsal and Ventral Visual Pathways in Human Brains ( http://arxiv.org/abs/2310.13849v2 )

ライセンス: Link先を確認
Minkyu Choi, Kuan Han, Xiaokai Wang, Yizhen Zhang, Zhongming Liu(参考訳) ヒトの視覚システムは空間処理と物体認識に2つの並列経路を用いる。 対照的に、コンピュータビジョンシステムは単一のフィードフォワード経路を使い、人間の視覚よりも堅牢、適応性、効率的ではない。 このギャップを埋めるために、人間の目と脳に触発されたデュアルストリーム視覚モデルを開発した。 入力レベルでは、人間の目が脳への網膜入力を分離するためにマグノセルとパルボセルの網膜神経節細胞をどのように使うかを模した2つの相補的な視覚パターンをサンプリングする。 バックエンドでは、モデルは2つの分岐した畳み込みニューラルネットワーク(CNN)を通して別々の入力パターンを処理し、人間の脳が平行な視覚処理のために背側および腹側皮質経路をどのように使っているかを模倣する。 第1分枝(WhereCNN)は、空間的注意を学習し、眼球運動を制御するグローバルビューをサンプリングする。 第2のブランチ(WhatCNN)は、固定周辺のオブジェクトを表現するためにローカルビューをサンプリングする。 時間とともに、2つのブランチは反復的に対話し、移動固定からシーン表現を構築する。 我々は,このモデルとヒト脳で同じ映画を処理し,その機能的アライメントを線形変換により評価した。 WhereCNNとWhatCNNの枝は、主に学習目的が異なるため、それぞれ視覚野の背側と腹側経路に相違があることが判明した。 これらのモデルに基づく結果は、網膜入力の特定のバイアスや選択性よりも、腹側および背側ストリームの異なる反応と表現が視覚的注意と物体認識の異なる目標に影響されていると推測する。 このデュアルストリームモデルは、脳にインスパイアされたコンピュータビジョンのさらなる一歩を踏み出し、並列ニューラルネットワークが視覚環境を積極的に探索し理解できるようにする。

The human visual system uses two parallel pathways for spatial processing and object recognition. In contrast, computer vision systems tend to use a single feedforward pathway, rendering them less robust, adaptive, or efficient than human vision. To bridge this gap, we developed a dual-stream vision model inspired by the human eyes and brain. At the input level, the model samples two complementary visual patterns to mimic how the human eyes use magnocellular and parvocellular retinal ganglion cells to separate retinal inputs to the brain. At the backend, the model processes the separate input patterns through two branches of convolutional neural networks (CNN) to mimic how the human brain uses the dorsal and ventral cortical pathways for parallel visual processing. The first branch (WhereCNN) samples a global view to learn spatial attention and control eye movements. The second branch (WhatCNN) samples a local view to represent the object around the fixation. Over time, the two branches interact recurrently to build a scene representation from moving fixations. We compared this model with the human brains processing the same movie and evaluated their functional alignment by linear transformation. The WhereCNN and WhatCNN branches were found to differentially match the dorsal and ventral pathways of the visual cortex, respectively, primarily due to their different learning objectives. These model-based results lead us to speculate that the distinct responses and representations of the ventral and dorsal streams are more influenced by their distinct goals in visual attention and object recognition than by their specific bias or selectivity in retinal inputs. This dual-stream model takes a further step in brain-inspired computer vision, enabling parallel neural networks to actively explore and understand the visual surroundings.
翻訳日:2023-11-22 17:18:50 公開日:2023-11-20
# 複合密結合モデルの解析的進化:量子光マニピュレーションへの応用

Analytic Evolution for Complex Coupled Tight-Binding Models: Applications to Quantum Light Manipulation ( http://arxiv.org/abs/2310.12366v2 )

ライセンス: Link先を確認
Santiago Rojas-Rojas and Camila Mu\~noz and Edgar Barriga and Pablo Solano and Aldo Delgado and Carla Hermann-Avigliano(参考訳) 一般化された強結合モデルにおいて、等振幅および任意の位相を持つ複素第一近傍結合を考察する。 本研究は,計算が困難であるシステム内の期待値と相関を効率的に計算するための強力なツールを提供する。 我々は,Nポートリニアカプタを用いた量子光操作の関連事例に適用し,単一(多重)モードのスクイーズ,単一光子付加(置換)ガウス状態,および2次サイト-サイト-サイト-フォトン相関について述べる。 解析結果は標準数値計算より優れている。 本研究は、強結合モデルによって制御される幅広い物理系における量子状態の空間的進化を記述する包括的数学的枠組みへの道を開くものである。

We present analytic solutions to the evolution in generalized tight-binding models, which consider complex first-neighbor couplings with equal amplitude and arbitrary phases. Our findings provide a powerful tool for efficiently calculating expectation values and correlations within the system, which are otherwise difficult to compute numerically. We apply our results to relevant examples in quantum light manipulation using N-port linear couplers, describing the evolution of single(multi)-mode squeezing, single photon added (subtracted) Gaussian states, and second-order site-to-site photon correlations. Significantly, our analytic results outperform standard numerical calculations. Our study paves the way for a comprehensive mathematical framework describing the spatial evolution of quantum states across a wide range of physical systems governed by the tight-binding model.
翻訳日:2023-11-22 17:17:46 公開日:2023-11-20
# 敵の例は本当の特徴ではない

Adversarial Examples Are Not Real Features ( http://arxiv.org/abs/2310.18936v2 )

ライセンス: Link先を確認
Ang Li, Yifei Wang, Yiwen Guo, Yisen Wang(参考訳) 敵対的な例の存在は長年の謎であり、多くの関心を惹きつけてきた。 citet{ilyas2019adversarial} のよく知られた理論は、敵対的な例から非破壊的特徴を抽出できることを示し、これらの特徴だけで分類に有用であることを示し、データの観点から敵対的脆弱性を説明する。 しかし、非破壊的な特徴は主に人間にとってのノイズの特徴であるため、この説明はかなり直感的ではない。 本稿では,複数の学習パラダイムを取り入れた理論を,より広い文脈から再検討する。 特に,教師付き学習における有用性とは裏腹に,コントラスト学習やマスク画像モデリング,拡散モデルなど,他の自己教師付き学習パラダイムに移行する際には,非破壊的特徴が有用性に欠けることがわかった。 非ロバスト機能は、これらのパラダイム間の優れた転送可能性を楽しむロバストあるいは自然な機能ほど役に立たない。 一方、ロバスト性については、ロバストな特徴を持つ自然に訓練されたエンコーダがAutoAttackではほとんど損なわれていないことも示している。 我々のパラダイム横断試験は、非破壊機能は実際には有用ではなく、パラダイム的なショートカットに似ており、堅牢な機能だけで信頼性の高いモデルロバスト性を達成するには不十分であることを示している。 コードは \url{https://github.com/PKU-ML/AdvNotRealFeatures} で入手できる。

The existence of adversarial examples has been a mystery for years and attracted much interest. A well-known theory by \citet{ilyas2019adversarial} explains adversarial vulnerability from a data perspective by showing that one can extract non-robust features from adversarial examples and these features alone are useful for classification. However, the explanation remains quite counter-intuitive since non-robust features are mostly noise features to humans. In this paper, we re-examine the theory from a larger context by incorporating multiple learning paradigms. Notably, we find that contrary to their good usefulness under supervised learning, non-robust features attain poor usefulness when transferred to other self-supervised learning paradigms, such as contrastive learning, masked image modeling, and diffusion models. It reveals that non-robust features are not really as useful as robust or natural features that enjoy good transferability between these paradigms. Meanwhile, for robustness, we also show that naturally trained encoders from robust features are largely non-robust under AutoAttack. Our cross-paradigm examination suggests that the non-robust features are not really useful but more like paradigm-wise shortcuts, and robust features alone might be insufficient to attain reliable model robustness. Code is available at \url{https://github.com/PKU-ML/AdvNotRealFeatures}.
翻訳日:2023-11-22 17:09:56 公開日:2023-11-20
# マルチタイムスケール世界モデル

Multi Time Scale World Models ( http://arxiv.org/abs/2310.18534v2 )

ライセンス: Link先を確認
Vaisakh Shaj, Saleh Gholam Zadeh, Ozan Demir, Luiz Ricardo Douat, Gerhard Neumann(参考訳) インテリジェントエージェントは、内部世界モデルを使用して、さまざまな行動コースを多くのスケールで推論し、予測する。 複雑な不確実性予測を処理しながら、複数のレベルの時間的抽象化で動作する世界モデルを学ぶことができる学習パラダイムとアーキテクチャの開発は、大きな技術的ハードルである。 本研究では,多時間スケール状態空間(mts3)モデルと呼ぶ多時間スケール世界モデルを学ぶための確率論的形式を提案する。 本モデルでは,複数時間スケールでの計算効率のよい推論手法を用いて,高精度な長距離予測と数秒間の不確実性推定を行う。 MTS3は, 複雑なシミュレーションや実世界の力学系を含むいくつかのシステム識別ベンチマークにおいて, 最近の手法よりも優れていることを示す。

Intelligent agents use internal world models to reason and make predictions about different courses of their actions at many scales. Devising learning paradigms and architectures that allow machines to learn world models that operate at multiple levels of temporal abstractions while dealing with complex uncertainty predictions is a major technical hurdle. In this work, we propose a probabilistic formalism to learn multi-time scale world models which we call the Multi Time Scale State Space (MTS3) model. Our model uses a computationally efficient inference scheme on multiple time scales for highly accurate long-horizon predictions and uncertainty estimates over several seconds into the future. Our experiments, which focus on action conditional long horizon future predictions, show that MTS3 outperforms recent methods on several system identification benchmarks including complex simulated and real-world dynamical systems.
翻訳日:2023-11-22 17:09:09 公開日:2023-11-20
# ベイズ最適化による持続可能なコンクリート

Sustainable Concrete via Bayesian Optimization ( http://arxiv.org/abs/2310.18288v3 )

ライセンス: Link先を確認
Sebastian Ament, Andrew Witte, Nishant Garg, Julius Kusuma(参考訳) 世界の二酸化炭素排出量の8%は、データセンター建設におけるco2排出源でもあるコンクリートの主要成分であるセメントの生産に起因する可能性がある。 したがって、低炭素コンクリート式の発見は持続可能性にとって非常に重要である。 しかし、新しいコンクリートの公式を実験することは時間がかかり、労働集約的であるため、通常、コンクリートの28日間の圧縮強度を記録するのを待たなければならない。 これにより、ベイズ最適化(BO)のような実験的な設計手法が、強力で持続可能なコンクリート公式の探索を加速する機会を提供する。 ここでは 1) 実測値が比較的少ないガウス過程モデルにより, コンクリート強度を精度良く予測できるモデリング手順を提案する。 2【多目的最適化問題としての持続可能なコンクリートの探索】 3)提案したモデルを用いて,アルゴリズムにより提案した混合体の実世界強度測定を行う。 実験の結果, 地球温暖化ポテンシャル(GWP)と関連する圧縮強度とのトレードオフは, 現在の産業プラクティスに基づく混合よりも改善した。 私たちのメソッドはgithub.com/facebookresearch/sustainableconcreteでオープンソースです。

Eight percent of global carbon dioxide emissions can be attributed to the production of cement, the main component of concrete, which is also the dominant source of CO2 emissions in the construction of data centers. The discovery of lower-carbon concrete formulae is therefore of high significance for sustainability. However, experimenting with new concrete formulae is time consuming and labor intensive, as one usually has to wait to record the concrete's 28-day compressive strength, a quantity whose measurement can by its definition not be accelerated. This provides an opportunity for experimental design methodology like Bayesian Optimization (BO) to accelerate the search for strong and sustainable concrete formulae. Herein, we 1) propose modeling steps that make concrete strength amenable to be predicted accurately by a Gaussian process model with relatively few measurements, 2) formulate the search for sustainable concrete as a multi-objective optimization problem, and 3) leverage the proposed model to carry out multi-objective BO with real-world strength measurements of the algorithmically proposed mixes. Our experimental results show improved trade-offs between the mixtures' global warming potential (GWP) and their associated compressive strengths, compared to mixes based on current industry practices. Our methods are open-sourced at github.com/facebookresearch/SustainableConcrete.
翻訳日:2023-11-22 17:08:05 公開日:2023-11-20
# 宇宙論における絡み合い

Entanglement in Cosmology ( http://arxiv.org/abs/2310.17208v2 )

ライセンス: Link先を確認
Konstantinos Boutivas, Dimitrios Katsinis, Georgios Pastras and Nikolaos Tetradis(参考訳) 膨張期とその後の放射線支配の期間を通じて,Bunch-Davies真空から始まる,球状領域内の無質量場の絡み合いエントロピーの進化を計算した。 インフレーション時の地平線出口時のスクイーズ状態への各モードの遷移と、放射線ドーミネーションがエントロピーのエントロピーを増大させる際の追加スクイーズ。 放射能支配時代への移行後まもなく、体積項が発達し、圧縮状態にある系でよく見られるように、後期のエントロピーへの主要な貢献となる。 エントロピーの大きさを推定し、インフレーション中に地平線を出るモードの量子から古典への遷移の観点からその解釈について議論する。 我々の結果は、インフレーション中にテンソルモードから生じる重力波のような弱い相互作用する場の量子的性質が、今日の宇宙で検出できる可能性を高める。 一方、地平線を超えて自由度を知らない観測者はエントロピーを熱的と解釈する。 この観点からすると、インフレーション後の再加熱は量子的絡み合いの結果である。

We compute the evolution of the entanglement entropy for a massless field within a spherical region throughout the inflationary period and the subsequent era of radiation domination, starting from the Bunch-Davies vacuum. The transition of each mode towards a squeezed state upon horizon exit during inflation and the additional squeezing when radiation domination sets in enhance the entanglement entropy. Shortly after the transition to the radiation-dominated era, a volume term develops and becomes the leading contribution to the entropy at late times, as is common for systems lying in squeezed states. We estimate the magnitude of the entropy and discuss its interpretation in the light of the quantum to classical transition for modes exiting the horizon during inflation. Our results raise the possibility that the quantum nature of weakly interacting fields, such as gravitational waves resulting from tensor modes during inflation, may be detectable in today's universe. On the other hand, an observer with no knowledge of the degrees of freedom beyond the horizon would interpret the entropy as thermal. From this point of view, the reheating after inflation would be a result of quantum entanglement.
翻訳日:2023-11-22 17:07:28 公開日:2023-11-20
# mriスキャンで患者のプライバシーを守る:3dマスク付きオートエンコーダによる包括的アプローチ

Preserving Patient Privacy in MRI Scans: A Comprehensive Approach with 3D Masked Autoencoders ( http://arxiv.org/abs/2310.15778v2 )

ライセンス: Link先を確認
Lennart Alexander Van der Goten and Kevin Smith(参考訳) MRIスキャンは貴重な医療情報を提供するが、保護すべき機密かつ個人識別可能な情報(PII)も含む。 MRIメタデータは容易にサニタイズされるが、MRI画像データは患者の頭部の高現実的な3Dヴィジュアライゼーションをレンダリングする情報を含んでいるため、データベースを相互参照することで、悪意あるアクターが被検体を特定できるため、プライバシー上のリスクである。 データ匿名化と非識別化は個人の個人情報のプライバシーと機密性の確保に関係している。 従来のMRI鑑定法では、特定のスキャンからプライバシーに敏感な部分(目、鼻など)を取り除く。 これは、ダウンストリーム分析をオフにできるドメインシフトの導入に費やされる。 近年,GANをベースとしたアプローチが提案され,部分を取り除くのではなく,患者の顔(顔)を改造してスキャンを識別する手法が提案されている。 本研究では,マスク付きオートエンコーダを用いて顔を非識別するモデルcp-maeを提案する。 この方法では、ボクセル数を8倍に増やす256^3$(以前は128^3$)までの解像度のスキャンを合成できる。 構築した構成を使って、非常に堅牢なトレーニングステージを示すシステムを設計することができ、ネットワークを新しいデータに適合させるのが容易になりました。

MRI scans provide valuable medical information, however they also contain sensitive and personally identifiable information (PII) that needs to be protected. Whereas MRI metadata is easily sanitized, MRI image data is a privacy risk because it contains information to render highly-realistic 3D visualizations of a patient's head, enabling malicious actors to possibly identify the subject by cross-referencing a database. Data anonymization and de-identification is concerned with ensuring the privacy and confidentiality of individuals' personal information. Traditional MRI de-identification methods remove privacy-sensitive parts (e.g. eyes, nose etc.) from a given scan. This comes at the expense of introducing a domain shift that can throw off downstream analyses. Recently, a GAN-based approach was proposed to de-identify a patient's scan by remodeling it (\eg changing the face) rather than by removing parts. In this work, we propose CP-MAE, a model that de-identifies the face using masked autoencoders and that outperforms all previous approaches in terms of downstream task performance as well as de-identification. With our method we are able to synthesize scans of resolution up to $256^3$ (previously $128^3$) which constitutes an eight-fold increase in the number of voxels. Using our construction we were able to design a system that exhibits a highly robust training stage, making it easy to fit the network on novel data.
翻訳日:2023-11-22 17:05:52 公開日:2023-11-20
# 負荷依存コストによる中国のポストマン問題を解決するためのグラフ注意に基づく深層強化学習

Graph Attention-based Deep Reinforcement Learning for solving the Chinese Postman Problem with Load-dependent costs ( http://arxiv.org/abs/2310.15516v2 )

ライセンス: Link先を確認
Truong Son Hy, Cong Dao Tran(参考訳) 近年,深い強化学習(DRL)モデルがルーティング問題を解く上で有望な結果を示している。 しかしながら、ほとんどのDRLソルバは、トラベリングセールスマン問題(TSP)のようなノードルーティング問題を解決するために一般的に提案されている。 一方、中国ポストマン問題(CPP)のようなアークルーティング問題に対するニューラルネットワークの適用については、TSPと比較して不規則で複雑な解空間がしばしばあるため、限定的な研究がなされている。 これらのギャップを埋めるために,負荷制約を伴う複雑なアークルーティング問題であるCPP-LC(Corberan et al., 2018)に対処する新しいDRLフレームワークを提案する。 この手法の目新しさは2つある。 まず、CPP-LCをマルコフ決定過程(MDP)シーケンシャルモデルとして定式化する。 次に、CPP-LC課題に効果的に対応するために、エンコーダとデコーダからなるDRL、すなわちArc-DRLに基づく自己回帰モデルを導入する。 このようなフレームワークにより、DRLモデルはルーティング問題に対して効率よく、かつ、辛抱強く動作する。 さらに,CPP-LCのための進化的アルゴリズム(EA)に基づくバイオインスパイアされた新しいメタヒューリスティックソリューションを提案する。 大規模な実験により、Arc-DRLは、(Corberanらによって提案された)CPP-LCの大規模なベンチマークデータセットにおいて、反復局所探索(ILS)や可変近傍探索(VNS)のような既存のメタヒューリスティックな手法よりも、ソリューションの品質と実行時間の両方に関して優れていることが示された。 EA、ILS、VNSといったメタヒューリスティクスのためのC++実装と、データ生成のためのコード、生成されたデータはhttps://github.com/HySonLab/ Chinese_Postman_Problemでリリースしています。

Recently, Deep reinforcement learning (DRL) models have shown promising results in solving routing problems. However, most DRL solvers are commonly proposed to solve node routing problems, such as the Traveling Salesman Problem (TSP). Meanwhile, there has been limited research on applying neural methods to arc routing problems, such as the Chinese Postman Problem (CPP), since they often feature irregular and complex solution spaces compared to TSP. To fill these gaps, this paper proposes a novel DRL framework to address the CPP with load-dependent costs (CPP-LC) (Corberan et al., 2018), which is a complex arc routing problem with load constraints. The novelty of our method is two-fold. First, we formulate the CPP-LC as a Markov Decision Process (MDP) sequential model. Subsequently, we introduce an autoregressive model based on DRL, namely Arc-DRL, consisting of an encoder and decoder to address the CPP-LC challenge effectively. Such a framework allows the DRL model to work efficiently and scalably to arc routing problems. Furthermore, we propose a new bio-inspired meta-heuristic solution based on Evolutionary Algorithm (EA) for CPP-LC. Extensive experiments show that Arc-DRL outperforms existing meta-heuristic methods such as Iterative Local Search (ILS) and Variable Neighborhood Search (VNS) proposed by (Corberan et al., 2018) on large benchmark datasets for CPP-LC regarding both solution quality and running time; while the EA gives the best solution quality with much more running time. We release our C++ implementations for metaheuristics such as EA, ILS and VNS along with the code for data generation and our generated data at https://github.com/HySonLab/Chinese_Postman_Problem
翻訳日:2023-11-22 17:04:58 公開日:2023-11-20
# Scattering Vision Transformer: スペクトル混合物質

Scattering Vision Transformer: Spectral Mixing Matters ( http://arxiv.org/abs/2311.01310v2 )

ライセンス: Link先を確認
Badri N. Patro and Vijay Srinivas Agneeswaran(参考訳) 視覚変換器は、画像分類、インスタンスセグメンテーション、オブジェクト検出など、様々なコンピュータビジョンタスクにおいて最先端のパフォーマンスを達成した。 しかし、注意の複雑さに対処し、画像内のきめ細かな情報を効果的に捉えることが課題である。 既存のソリューションは、計算コストを削減するために、プールのようなダウンサンプリング操作を利用することが多い。 残念ながら、そのような操作は非可逆的であり、情報損失をもたらす可能性がある。 本稿では,これらの課題に対処するために,Scattering Vision Transformer (SVT) という新しいアプローチを提案する。 SVTにはスペクトル散乱ネットワークがあり、複雑な画像の詳細をキャプチャできる。 SVTは低周波成分と高周波成分を分離することにより、ダウンサンプリング操作に伴う可逆性を克服する。 さらに、SVTは、トークンとチャネルの混合にアインシュタイン乗算を利用する独自のスペクトルゲーティングネットワークを導入し、複雑さを効果的に低減する。 SVT は ImageNet データセット上での最先端性能を実現し,パラメータや FLOPS の大幅な削減を実現している。 SVT は LiTv2 と iFormer よりも 2 % 改善されている。 SVT-H-Sは84.2\%、SVT-H-Bは85.2\%、SVT-H-Lは85.7\%である。 SVTはまた、インスタンスセグメンテーションのような他のビジョンタスクで同等の結果を示す。 SVTは、CIFAR10、CIFAR100、Oxford Flower、Stanford Carデータセットといった標準データセットでの転送学習において、他のトランスフォーマーよりも優れています。 プロジェクトページはこのwebページで閲覧できます。 https://badripatro.github.io/svt/} です。

Vision transformers have gained significant attention and achieved state-of-the-art performance in various computer vision tasks, including image classification, instance segmentation, and object detection. However, challenges remain in addressing attention complexity and effectively capturing fine-grained information within images. Existing solutions often resort to down-sampling operations, such as pooling, to reduce computational cost. Unfortunately, such operations are non-invertible and can result in information loss. In this paper, we present a novel approach called Scattering Vision Transformer (SVT) to tackle these challenges. SVT incorporates a spectrally scattering network that enables the capture of intricate image details. SVT overcomes the invertibility issue associated with down-sampling operations by separating low-frequency and high-frequency components. Furthermore, SVT introduces a unique spectral gating network utilizing Einstein multiplication for token and channel mixing, effectively reducing complexity. We show that SVT achieves state-of-the-art performance on the ImageNet dataset with a significant reduction in a number of parameters and FLOPS. SVT shows 2\% improvement over LiTv2 and iFormer. SVT-H-S reaches 84.2\% top-1 accuracy, while SVT-H-B reaches 85.2\% (state-of-art for base versions) and SVT-H-L reaches 85.7\% (again state-of-art for large versions). SVT also shows comparable results in other vision tasks such as instance segmentation. SVT also outperforms other transformers in transfer learning on standard datasets such as CIFAR10, CIFAR100, Oxford Flower, and Stanford Car datasets. The project page is available on this webpage.\url{https://badripatro.github.io/svt/}.
翻訳日:2023-11-22 16:55:39 公開日:2023-11-20
# 学習相関潜在空間によるベイズ最適化の進展

Advancing Bayesian Optimization via Learning Correlated Latent Space ( http://arxiv.org/abs/2310.20258v3 )

ライセンス: Link先を確認
Seunghun Lee, Jaewon Chu, Sihyeon Kim, Juyeon Ko, Hyunwoo J. Kim(参考訳) ベイズ最適化は機能評価を限定したブラックボックス関数を最適化する強力な手法である。 近年の研究では、可変オートエンコーダのような深い生成モデルによる潜在空間での最適化は、構造化データや離散データのベイズ最適化を効果的かつ効率的に導くことが示されている。 しかし、最適化は入力空間では行われないので、潜在的に最適でない解をもたらす固有のギャップに繋がる。 この差を緩和するために,潜在空間の距離と目的関数内の距離との強い相関関係を特徴とする関連潜時空間の学習に焦点を当てた相関潜時空間ベイズ最適化(CoBO)を提案する。 特に,本手法では,期待領域周辺の固有ギャップを最小限に抑えるために,リプシッツ正則化,損失重み付け,信頼領域調整を導入する。 分子設計や算術式適合などの離散データにおける複数の最適化タスクにおいて,提案手法の有効性を実証し,少ない予算で高い性能を実現する。

Bayesian optimization is a powerful method for optimizing black-box functions with limited function evaluations. Recent works have shown that optimization in a latent space through deep generative models such as variational autoencoders leads to effective and efficient Bayesian optimization for structured or discrete data. However, as the optimization does not take place in the input space, it leads to an inherent gap that results in potentially suboptimal solutions. To alleviate the discrepancy, we propose Correlated latent space Bayesian Optimization (CoBO), which focuses on learning correlated latent spaces characterized by a strong correlation between the distances in the latent space and the distances within the objective function. Specifically, our method introduces Lipschitz regularization, loss weighting, and trust region recoordination to minimize the inherent gap around the promising areas. We demonstrate the effectiveness of our approach on several optimization tasks in discrete data, such as molecule design and arithmetic expression fitting, and achieve high performance within a small budget.
翻訳日:2023-11-22 16:53:12 公開日:2023-11-20
# SURF:流体力学を予測するGNNの一般化ベンチマーク

SURF: A Generalization Benchmark for GNNs Predicting Fluid Dynamics ( http://arxiv.org/abs/2310.20049v3 )

ライセンス: Link先を確認
Stefan K\"unzli, Florian Gr\"otschla, Jo\"el Mathys and Roger Wattenhofer(参考訳) 流体力学のシミュレーションは、単純なバルブから複雑なターボ機械まで、設計と開発プロセスに不可欠である。 基礎となる物理方程式の正確な解法は計算に高価である。 したがって、メッシュ上のインタラクションをモデル化する学習ベースのソルバは、そのスピードアップが期待できるため関心を集めている。 しかし、これらのモデルが根底にある物理原理を真に理解し、補間よりも一般化できるかどうかは不明である。 一般化は、異なるトポロジー、解像度、熱力学的範囲に適応する汎用流体シミュレータの重要な要件である。 我々は、学習したグラフベースの流体シミュレータの$\textit{ Generalization}$をテストするために設計されたベンチマークSURFを提案する。 SURFは個々のデータセットで構成され、異なるモデルを評価し比較するための特定のパフォーマンスと一般化メトリクスを提供する。 我々は2つの最先端グラフベースモデルを徹底的に研究し、SURFの適用性を実証的に実証し、それらの一般化に新たな洞察を与える。

Simulating fluid dynamics is crucial for the design and development process, ranging from simple valves to complex turbomachinery. Accurately solving the underlying physical equations is computationally expensive. Therefore, learning-based solvers that model interactions on meshes have gained interest due to their promising speed-ups. However, it is unknown to what extent these models truly understand the underlying physical principles and can generalize rather than interpolate. Generalization is a key requirement for a general-purpose fluid simulator, which should adapt to different topologies, resolutions, or thermodynamic ranges. We propose SURF, a benchmark designed to test the $\textit{generalization}$ of learned graph-based fluid simulators. SURF comprises individual datasets and provides specific performance and generalization metrics for evaluating and comparing different models. We empirically demonstrate the applicability of SURF by thoroughly investigating the two state-of-the-art graph-based models, yielding new insights into their generalization.
翻訳日:2023-11-22 16:52:55 公開日:2023-11-20
# バックボーンの戦い - コンピュータビジョンタスク間で事前訓練されたモデルの大規模比較

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks ( http://arxiv.org/abs/2310.19909v2 )

ライセンス: Link先を確認
Micah Goldblum, Hossein Souri, Renkun Ni, Manli Shu, Viraj Prabhu, Gowthami Somepalli, Prithvijit Chattopadhyay, Mark Ibrahim, Adrien Bardes, Judy Hoffman, Rama Chellappa, Andrew Gordon Wilson, Tom Goldstein(参考訳) ニューラルネットワークベースのコンピュータビジョンシステムは一般的に、事前訓練またはランダムに初期化された特徴抽出器であるバックボーン上に構築される。 数年前、デフォルトオプションはimagenetがトレーニングした畳み込みニューラルネットワークだった。 しかし、最近は様々なアルゴリズムやデータセットを使って事前訓練された無数のバックボーンが出現している。 このような選択の多さは、さまざまなシステムのパフォーマンス向上に繋がる一方で、どのバックボーンを選択するべきかのインフォームドな決定を行うことは困難である。 battle of the backbones(bob)は、視覚言語モデル、自己教師付き学習で訓練されたモデル、安定した拡散バックボーンを含む、さまざまな事前学習されたモデルスイートを、分類からオブジェクト検出、ood一般化まで、さまざまなコンピュータビジョンタスクにまたがってベンチマークすることにより、この選択を簡単にする。 さらにBoBは、1500以上のトレーニングランで実施された総合的な分析を通じて、既存のアプローチの強みと弱みを照らすことによって、研究コミュニティがコンピュータビジョンを推し進めるための有望な方向性に光を当てている。 視覚トランスフォーマー(vits)と自己教師付き学習(ssl)はますます人気が高まっているが、大規模トレーニングセットで教師付きで事前学習された畳み込みニューラルネットワークは、我々が検討するモデルの中で、ほとんどのタスクで最高のパフォーマンスを保っている。 さらに、同じアーキテクチャと同じような大きさの事前トレーニングデータセットに対するリンゴとアプリケーションの比較では、SSLバックボーンは非常に競争力があり、将来の作業は高度なアーキテクチャとより大きな事前トレーニングデータセットでSSL事前トレーニングを実行するべきであることを示しています。 私たちは実験の生の結果をコードとともにリリースし、研究者が独自のバックボーンをgauntletに配置できるようにしました。

Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones
翻訳日:2023-11-22 16:52:39 公開日:2023-11-20
# 口紅を着る女性:物体と関連するジェンダーの間のバイアスを測定する

Women Wearing Lipstick: Measuring the Bias Between an Object and Its Related Gender ( http://arxiv.org/abs/2310.19130v2 )

ライセンス: Link先を確認
Ahmed Sabir, Llu\'is Padr\'o(参考訳) 本稿では,画像キャプションシステムにおける性別バイアスに対する対象の影響について検討する。 以上の結果から,性別に限定した対象のみが強い性別バイアス(女性-リップスティックなど)を持つことが示された。 さらに, 画像キャプションシステムにおいて, バイアスの度合いを計測し, プラグインとして使用できる視覚的意味に基づく性別スコアを提案する。 そこで本実験では,字幕とその関連性間のバイアス関係を計測できるため,既存のObject Gender Co-Occアプローチの付加指標として有効であることを示す。 コードとデータは \url{https://github.com/ahmedssabir/GenderScore} で公開されている。

In this paper, we investigate the impact of objects on gender bias in image captioning systems. Our results show that only gender-specific objects have a strong gender bias (e.g., women-lipstick). In addition, we propose a visual semantic-based gender score that measures the degree of bias and can be used as a plug-in for any image captioning system. Our experiments demonstrate the utility of the gender score, since we observe that our score can measure the bias relation between a caption and its related gender; therefore, our score can be used as an additional metric to the existing Object Gender Co-Occ approach. Code and data are publicly available at \url{https://github.com/ahmedssabir/GenderScore}.
翻訳日:2023-11-22 16:51:38 公開日:2023-11-20
# 非結合量子力学の代数的定式化

An algebraic formulation of nonassociative quantum mechanics ( http://arxiv.org/abs/2311.03647v2 )

ライセンス: Link先を確認
Peter Schupp, Richard J. Szabo(参考訳) 我々は、可観測物の非連想代数を扱える量子力学の好適な一般バージョンを開発し、従来の連想状態における標準量子理論に還元する。 我々の代数的アプローチは自然確率的であり、一般非結合代数の普遍包絡代数に基づいている。 状態の性質をトレースの概念とともに定式化し、それらを用いてGNS構造を開発する。 ハイゼンベルクとシュロディンガーの完全な正の力学の像を記述し、オクタニオン代数と同様に有限次元行列ジョルダン代数の明示的な例について形式論を述べる。

We develop a suitably general version of quantum mechanics that can handle nonassociative algebras of observables and which reduces to standard quantum theory in the traditional associative setting. Our algebraic approach is naturally probabilistic and is based on the universal enveloping algebra of a general nonassociative algebra. We formulate properties of states together with notions of trace, and use them to develop GNS constructions. We describe Heisenberg and Schrodinger pictures of completely positive dynamics, and we illustrate our formalism on the explicit examples of finite-dimensional matrix Jordan algebras as well as the octonion algebra.
翻訳日:2023-11-22 16:42:55 公開日:2023-11-20
# 安定な線形部分空間同定:機械学習アプローチ

Stable Linear Subspace Identification: A Machine Learning Approach ( http://arxiv.org/abs/2311.03197v2 )

ライセンス: Link先を確認
Loris Di Natale, Muhammad Zakwan, Bratislav Svetozarevic, Philipp Heer, Giancarlo Ferrari Trecate, Colin N. Jones(参考訳) 機械学習(ML)と線形システム同定(SI)は歴史的に独立に開発された。 本稿では、よく確立されたMLツール、特に自動微分フレームワークを活用し、バックプロパゲーションを用いた離散線形多段階状態空間SIメソッドであるSIMBaを導入する。 SIMBaは、同定されたモデルの安定性を確保するために、新しい線形行列-不等式に基づくシュア行列の自由パラメトリゼーションに依存する。 SIMBaは一般に従来の線形状態空間SI法よりも優れており,高い計算負担を伴っても顕著な性能を示す。 この性能差は, 安定保証の他のSI手法と比較して特に顕著であり, SIMBaが最先端の適合性能を同時に達成し, 安定性を強制する能力を示している。 興味深いことに、これらの観測は様々な入力出力システムとシミュレーションおよび実世界のデータに当てはまり、提案手法の柔軟性を示している。 この新たなSIパラダイムは、データから構造化非線形モデルを特定するための大きな拡張ポテンシャルを示し、https://github.com/Cemempamoi/simba上でSIMBaをオープンソース化する。

Machine Learning (ML) and linear System Identification (SI) have been historically developed independently. In this paper, we leverage well-established ML tools - especially the automatic differentiation framework - to introduce SIMBa, a family of discrete linear multi-step-ahead state-space SI methods using backpropagation. SIMBa relies on a novel Linear-Matrix-Inequality-based free parametrization of Schur matrices to ensure the stability of the identified model. We show how SIMBa generally outperforms traditional linear state-space SI methods, and sometimes significantly, although at the price of a higher computational burden. This performance gap is particularly remarkable compared to other SI methods with stability guarantees, where the gain is frequently above 25% in our investigations, hinting at SIMBa's ability to simultaneously achieve state-of-the-art fitting performance and enforce stability. Interestingly, these observations hold for a wide variety of input-output systems and on both simulated and real-world data, showcasing the flexibility of the proposed approach. We postulate that this new SI paradigm presents a great extension potential to identify structured nonlinear models from data, and we hence open-source SIMBa on https://github.com/Cemempamoi/simba.
翻訳日:2023-11-22 16:42:22 公開日:2023-11-20
# クラッツァー型ポテンシャルを持つ2次元シュル'{o}ディンガー方程式の境界状態解

Bound state solutions of the two--dimensional Schr\"{o}dinger equation with Kratzer--type potentials ( http://arxiv.org/abs/2311.02694v2 )

ライセンス: Link先を確認
Roman Ya. Kezerashvili, Jianning Luo, and Claudio R. Malvino(参考訳) 実際に解けるモデルは、多くの量子物理学の分野において非常に重要な役割を果たす。 本研究では,クラッツァーを用いて相互作用する2つの粒子の2次元(2次元)問題の解と,クラッツァーポテンシャルを修正したクラッツァーポテンシャルの解に対して,schr\"{o}dinger方程式を適用し,クラッツァー型ポテンシャルを持つ2次元schr\"{o}dinger方程式の厳密な境界状態解を求め,固有値と固有関数の解析式を提案する。 固有函数は関連するラゲール多項式の項で与えられる。

Exactly solvable models play an extremely important role in many fields of quantum physics. In this study, the Schr\"{o}dinger equation is applied for a solution of a two--dimensional (2D) problem for two particles interacting via Kratzer, and modified Kratzer potentials. We found the exact bound state solutions of the two--dimensional Schr\"{o}dinger equation with Kratzer--type potentials and present analytical expressions for the eigenvalues and eigenfunctions. The eigenfunctions are given in terms of the associated Laguerre polynomials.
翻訳日:2023-11-22 16:41:28 公開日:2023-11-20
# 画像超解像における潜時空間(DTLS)の領域移動-非分解モデル

Domain Transfer in Latent Space (DTLS) Wins on Image Super-Resolution -- a Non-Denoising Model ( http://arxiv.org/abs/2311.02358v3 )

ライセンス: Link先を確認
Chun-Chuen Hui, Wan-Chi Siu, Ngai-Fong Law(参考訳) 大規模な画像スーパーレゾリューションはコンピュータビジョンの課題であり、例えばforscale x16スーパーレゾリューションのような高度に劣化した画像には膨大な情報が欠落している。 拡散モデルは近年、超高分解能な応用において成功しており、ガウスノイズは潜在光写実空間を形成する手段として使われ、潜光写実空間と潜光写実空間の間のリンクとして機能する。 拡散モデルを成功させるガウス雑音の統計のマッピングには、かなり洗練された数学的導出がある。 本稿では,ガウス雑音を回避しつつ,画像の高分解能化に拡散モデルの基本構造を応用した簡易な手法を提案する。 基本的には,統計的性質の違いを学習し,適度な品質の結果として段階的な補間を容易にする,隣接領域間のドメイン転送を行うdnnを提案する。 入力LR画像を参照してドメイン転送を条件付けすることにより、さらなる品質向上を実現する。 実験結果から,本手法は最先端の大規模超解像モデルだけでなく,画像超解像に対する現在の拡散モデルよりも優れていた。 このアプローチは、画像の啓蒙、塗装、装飾など、他のイメージ・ツー・イメージタスクに容易に拡張できる。

Large scale image super-resolution is a challenging computer vision task, since vast information is missing in a highly degraded image, say for example forscale x16 super-resolution. Diffusion models are used successfully in recent years in extreme super-resolution applications, in which Gaussian noise is used as a means to form a latent photo-realistic space, and acts as a link between the space of latent vectors and the latent photo-realistic space. There are quite a few sophisticated mathematical derivations on mapping the statistics of Gaussian noises making Diffusion Models successful. In this paper we propose a simple approach which gets away from using Gaussian noise but adopts some basic structures of diffusion models for efficient image super-resolution. Essentially, we propose a DNN to perform domain transfer between neighbor domains, which can learn the differences in statistical properties to facilitate gradual interpolation with results of reasonable quality. Further quality improvement is achieved by conditioning the domain transfer with reference to the input LR image. Experimental results show that our method outperforms not only state-of-the-art large scale super resolution models, but also the current diffusion models for image super-resolution. The approach can readily be extended to other image-to-image tasks, such as image enlightening, inpainting, denoising, etc.
翻訳日:2023-11-22 16:40:45 公開日:2023-11-20
# $\textit{Labor Space}$: 大規模言語モデルによる労働市場の統一表現

$\textit{Labor Space}$: A Unifying Representation of the Labor Market via Large Language Models ( http://arxiv.org/abs/2311.06310v2 )

ライセンス: Link先を確認
Seongwoon Kim, Yong-Yeol Ahn, Jaehyuk Park(参考訳) 労働市場は、産業、職業、技能、企業など、多様な相互接続された組織からなる複雑なエコシステムである。 これらの異種エンティティをマッピングするための体系的な方法が欠如していることから、各エンティティは孤立的あるいはペア的な関係を通じてのみ分析され、エコシステム全体の包括的理解を阻害している。 ここでは,不均質な労働市場エンティティのベクトル空間埋め込みである$\textit{labor space}$を導入する。 労働空間は、産業、職業、技能、企業のコヒーレントな統合分析を促進するとともに、タイプ固有のクラスタリングを維持しながら、様々な労働市場の構成要素の複雑な関係構造を公開する。 我々は,「製造-医療」のような経済軸上で異質な実体を配置することを含む,前例のない分析能力を示す。 さらに、これらの実体のベクトル演算を可能にして、労働空間は複雑な単位間関係の探索を可能にし、その後、個々の単位に対する経済ショックの分岐と労働市場全体の波及効果を推定する。 労働空間は、政策立案者やビジネスリーダーに労働市場分析とシミュレーションのための包括的な統合枠組みを提供し、より曖昧で効果的な戦略的意思決定を促進すると仮定する。

The labor market is a complex ecosystem comprising diverse, interconnected entities, such as industries, occupations, skills, and firms. Due to the lack of a systematic method to map these heterogeneous entities together, each entity has been analyzed in isolation or only through pairwise relationships, inhibiting comprehensive understanding of the whole ecosystem. Here, we introduce $\textit{Labor Space}$, a vector-space embedding of heterogeneous labor market entities, derived through applying a large language model with fine-tuning. Labor Space exposes the complex relational fabric of various labor market constituents, facilitating coherent integrative analysis of industries, occupations, skills, and firms, while retaining type-specific clustering. We demonstrate its unprecedented analytical capacities, including positioning heterogeneous entities on an economic axes, such as `Manufacturing--Healthcare'. Furthermore, by allowing vector arithmetic of these entities, Labor Space enables the exploration of complex inter-unit relations, and subsequently the estimation of the ramifications of economic shocks on individual units and their ripple effect across the labor market. We posit that Labor Space provides policymakers and business leaders with a comprehensive unifying framework for labor market analysis and simulation, fostering more nuanced and effective strategic decision-making.
翻訳日:2023-11-22 16:29:41 公開日:2023-11-20
# データ汚染クイズ:大規模言語モデルにおける汚染の検出と推定ツール

Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models ( http://arxiv.org/abs/2311.06233v3 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu(参考訳) 本研究では,大規模言語モデル(LLM)におけるデータ汚染の簡易かつ効果的な検出手法であるData Contamination Quizを提案する。 具体的には、データの汚染検出を複数の質問にまとめる。 我々は、各データセットインスタンスの3つの摂動バージョンを作成するクイズフォーマットを考案する。 これらの変更は、単語レベルの摂動のみを含み、単語を文脈的同義語に置き換え、意味構造と文構造が元のインスタンスと全く同じであることを保証する。 元の例とともに、これらの摂動バージョンはクイズの選択を構成する。 これらの選択の中で唯一識別される信号は正確な単語であるllmであり、元のインスタンスを選択から識別するタスクを行うと、llmに固有の特徴である事前学習フェーズで記憶している場合、元の信号を選択する。 データセットのパーティションは、クイズ上のLCMのパフォーマンスがランダムな確率を超えると汚染されるとマークされる。 評価は, GPT-4 と GPT-3.5 の2つの最先端 LLM 上で, 7 つのデータセットとそれぞれの分割(トレインとテスト/バリデーション)にまたがる。 事前学習データへのアクセスを欠くが,本手法はデータ汚染の検出を向上させるだけでなく,汚染信号が弱い場合でもその範囲を正確に推定できることを示す。

We propose the Data Contamination Quiz, a simple and effective approach to detect data contamination in large language models (LLMs) and estimate the amount of it. Specifically, we frame data contamination detection as a series of multiple-choice questions. We devise a quiz format wherein three perturbed versions of each dataset instance are created. These changes only include word-level perturbations, replacing words with their contextual synonyms, ensuring both the semantic and sentence structure remain exactly the same as the original instance. Together with the original instance, these perturbed versions constitute the choices in the quiz. Given that the only distinguishing signal among these choices is the exact wording, an LLM, when tasked with identifying the original instance from the choices, opts for the original if it has memorized it in its pre-training phase--a trait intrinsic to LLMs. A dataset partition is then marked as contaminated if the LLM's performance on the quiz surpasses what random chance suggests. Our evaluation spans seven datasets and their respective splits (train and test/validation) on two state-of-the-art LLMs: GPT-4 and GPT-3.5. While lacking access to the pre-training data, our results suggest that our approach not only enhances the detection of data contamination but also provides an accurate estimation of its extent, even when the contamination signal is weak.
翻訳日:2023-11-22 16:29:17 公開日:2023-11-20
# データ汚染クイズ:大規模言語モデルにおける汚染の検出と推定ツール

Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models ( http://arxiv.org/abs/2311.06233v2 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu(参考訳) 本研究では,大規模言語モデル(LLM)におけるデータ汚染の簡易かつ効果的な検出手法であるData Contamination Quizを提案する。 具体的には、データの汚染検出を複数の質問にまとめる。 我々は、各データセットインスタンスの3つの摂動バージョンを作成するクイズフォーマットを考案する。 これらの変更は、単語レベルの摂動のみを含み、単語を文脈的同義語に置き換え、意味構造と文構造が元のインスタンスと全く同じであることを保証する。 元の例とともに、これらの摂動バージョンはクイズの選択を構成する。 これらの選択の中で唯一識別される信号は正確な単語であるllmであり、元のインスタンスを選択から識別するタスクを行うと、llmに固有の特徴である事前学習フェーズで記憶している場合、元の信号を選択する。 データセットのパーティションは、クイズ上のLCMのパフォーマンスがランダムな確率を超えると汚染されるとマークされる。 評価は, GPT-4 と GPT-3.5 の2つの最先端 LLM 上で, 7 つのデータセットとそれぞれの分割(トレインとテスト/バリデーション)にまたがる。 事前学習データへのアクセスを欠くが,本手法はデータ汚染の検出を向上させるだけでなく,汚染信号が弱い場合でもその範囲を正確に推定できることを示す。

We propose the Data Contamination Quiz, a simple and effective approach to detect data contamination in large language models (LLMs) and estimate the amount of it. Specifically, we frame data contamination detection as a series of multiple-choice questions. We devise a quiz format wherein three perturbed versions of each dataset instance are created. These changes only include word-level perturbations, replacing words with their contextual synonyms, ensuring both the semantic and sentence structure remain exactly the same as the original instance. Together with the original instance, these perturbed versions constitute the choices in the quiz. Given that the only distinguishing signal among these choices is the exact wording, an LLM, when tasked with identifying the original instance from the choices, opts for the original if it has memorized it in its pre-training phase--a trait intrinsic to LLMs. A dataset partition is then marked as contaminated if the LLM's performance on the quiz surpasses what random chance suggests. Our evaluation spans seven datasets and their respective splits (train and test/validation) on two state-of-the-art LLMs: GPT-4 and GPT-3.5. While lacking access to the pre-training data, our results suggest that our approach not only enhances the detection of data contamination but also provides an accurate estimation of its extent, even when the contamination signal is weak.
翻訳日:2023-11-22 16:28:55 公開日:2023-11-20
# SynthEnsemble: マルチラベル胸部X線分類のためのCNN, 視覚変換器, ハイブリッドモデルの融合

SynthEnsemble: A Fusion of CNN, Vision Transformer, and Hybrid Models for Multi-Label Chest X-Ray Classification ( http://arxiv.org/abs/2311.07750v2 )

ライセンス: Link先を確認
S.M. Nabil Ashraf, Md. Adyelullahil Mamun, Hasnat Md. Abdullah, Md. Golam Rabiul Alam(参考訳) 胸部X線は胸部疾患の診断に広く用いられているが、これらの異常に関する詳細な情報がないため、早期発見や治療に欠かせない正確な自動診断システムの開発が困難である。 この課題に対処するため,異なる疾患に対応する胸部X線パターンの同定にディープラーニングを用いた。 各種cnn,トランスフォーマー,ハイブリッド(cnn+transformer)モデル,古典モデルを用いて"chestx-ray14"データセットの実験を行った。 最も優れた個人モデルはCoAtNetで、受信機の動作特性曲線(AUROC)の84.2%の領域を達成した。 重み付き平均アンサンブルを用いて、各モデルの重みが微分進化によって決定される全ての訓練モデルの予測を組み合わせることにより、AUROCを85.4%に改善し、この分野における他の最先端手法よりも優れていた。 胸部x線から胸部疾患の自動診断の精度を向上させるため,深層学習技術,特に深層学習の可能性が示唆された。

Chest X-rays are widely used to diagnose thoracic diseases, but the lack of detailed information about these abnormalities makes it challenging to develop accurate automated diagnosis systems, which is crucial for early detection and effective treatment. To address this challenge, we employed deep learning techniques to identify patterns in chest X-rays that correspond to different diseases. We conducted experiments on the "ChestX-ray14" dataset using various pre-trained CNNs, transformers, hybrid(CNN+Transformer) models and classical models. The best individual model was the CoAtNet, which achieved an area under the receiver operating characteristic curve (AUROC) of 84.2%. By combining the predictions of all trained models using a weighted average ensemble where the weight of each model was determined using differential evolution, we further improved the AUROC to 85.4%, outperforming other state-of-the-art methods in this field. Our findings demonstrate the potential of deep learning techniques, particularly ensemble deep learning, for improving the accuracy of automatic diagnosis of thoracic diseases from chest X-rays.
翻訳日:2023-11-22 16:17:07 公開日:2023-11-20
# JaxMARL:JAXにおけるマルチエージェントRL環境

JaxMARL: Multi-Agent RL Environments in JAX ( http://arxiv.org/abs/2311.10090v3 )

ライセンス: Link先を確認
Alexander Rutherford, Benjamin Ellis, Matteo Gallici, Jonathan Cook, Andrei Lupu, Gardar Ingvarsson, Timon Willi, Akbir Khan, Christian Schroeder de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim Rocktaschel, Chris Lu, Jakob Nicolaus Foerster(参考訳) ベンチマークは、機械学習アルゴリズムの開発において重要な役割を果たす。 例えば、強化学習(RL)の研究は利用可能な環境やベンチマークに大きく影響されている。 しかし、RL環境は伝統的にCPU上で動作しており、典型的な学術計算ではスケーラビリティを制限している。 JAXの最近の進歩は、これらの計算ハードルを克服するためにハードウェアアクセラレーションを広く利用し、非常に並列なRLトレーニングパイプラインと環境を可能にしました。 これは特にマルチエージェント強化学習(MARL)研究に有用である。 第一に、複数のエージェントを各環境ステップで考慮し、計算負荷を加算し、第二に、非定常性、分散部分観測性、その他のMARL課題によりサンプルの複雑さが増大する。 本稿では,使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLについて紹介し,多くの一般的なMARL環境と一般的なベースラインアルゴリズムをサポートする。 ウォールクロック時間を考慮すると、JAXベースのトレーニングパイプラインの実行は既存のアプローチよりも最大で12500倍高速です。 これにより、効率よく徹底的な評価が可能となり、分野の評価危機を緩和する可能性がある。 また、スタークラフト・マルチエージェントチャレンジのベクトル化された簡易バージョンであるSMAXを導入し、ベンチマークを行い、スタークラフトIIのゲームエンジンを走らせる必要をなくした。 これはGPUアクセラレーションを可能にするだけでなく、より柔軟なMARL環境を提供する。 コードはhttps://github.com/flairox/jaxmarlで提供します。

Benchmarks play an important role in the development of machine learning algorithms. For example, research in reinforcement learning (RL) has been heavily influenced by available environments and benchmarks. However, RL environments are traditionally run on the CPU, limiting their scalability with typical academic compute. Recent advancements in JAX have enabled the wider use of hardware acceleration to overcome these computational hurdles, enabling massively parallel RL training pipelines and environments. This is particularly useful for multi-agent reinforcement learning (MARL) research. First of all, multiple agents must be considered at each environment step, adding computational burden, and secondly, the sample complexity is increased due to non-stationarity, decentralised partial observability, or other MARL challenges. In this paper, we present JaxMARL, the first open-source code base that combines ease-of-use with GPU enabled efficiency, and supports a large number of commonly used MARL environments as well as popular baseline algorithms. When considering wall clock time, our experiments show that per-run our JAX-based training pipeline is up to 12500x faster than existing approaches. This enables efficient and thorough evaluations, with the potential to alleviate the evaluation crisis of the field. We also introduce and benchmark SMAX, a vectorised, simplified version of the popular StarCraft Multi-Agent Challenge, which removes the need to run the StarCraft II game engine. This not only enables GPU acceleration, but also provides a more flexible MARL environment, unlocking the potential for self-play, meta-learning, and other future applications in MARL. We provide code at https://github.com/flairox/jaxmarl.
翻訳日:2023-11-22 16:07:52 公開日:2023-11-20
# LymphoML:リンパ腫の亜型と相関する形態学的特徴を解釈可能な人工知能に基づく同定法

LymphoML: An interpretable artificial intelligence-based method identifies morphologic features that correlate with lymphoma subtype ( http://arxiv.org/abs/2311.09574v3 )

ライセンス: Link先を確認
Vivek Shankar, Xiaoli Yang, Vrishab Krishna, Brent Tan, Oscar Silva, Rebecca Rojansky, Andrew Ng, Fabiola Valvert, Edward Briercheck, David Weinstock, Yasodha Natkunam, Sebastian Fernandez-Pol, Pranav Rajpurkar(参考訳) ヘマトキシリンおよびエオシン(H&E)染色組織を用いたリンパ腫サブタイプの正確な分類は、これらのがんが示す様々な形態学的特徴によって複雑である。 LymphoMLは,リンパ腫のサブタイプと相関する形態的特徴を識別する,解釈可能な機械学習手法である。 本手法は,h&e染色組織マイクロアレイコア,セグメント核および細胞を処理し,形態,テクスチャおよびアーキテクチャを包含する特徴を計算し,勾配強調モデルを訓練して診断予測を行う。 LymphoMLの解釈可能なモデルは、限られた量のH&E染色組織に基づいて開発され、グアテマラから8種類のリンパ腫の亜型にまたがる670件のデータセットで、全スライディング画像とブラックボックスの深層学習を用いて、病理医に非臨床診断精度を実現する。 shapley additive description (shap) 分析を用いて,各特徴のモデル予測への影響を評価し,dlbcl (f1-score: 78.7%) と古典的ホジキンリンパ腫 (f1-score: 74.5%) の核形態特徴を識別する。 最後に,H&E陽性組織の特徴と6つの免疫染色の標準化パネルの特徴を組み合わせたモデルが,同様の診断精度(85.3%)から46染色パネル(86.1%)に至ることを初めて示す。

The accurate classification of lymphoma subtypes using hematoxylin and eosin (H&E)-stained tissue is complicated by the wide range of morphological features these cancers can exhibit. We present LymphoML - an interpretable machine learning method that identifies morphologic features that correlate with lymphoma subtypes. Our method applies steps to process H&E-stained tissue microarray cores, segment nuclei and cells, compute features encompassing morphology, texture, and architecture, and train gradient-boosted models to make diagnostic predictions. LymphoML's interpretable models, developed on a limited volume of H&E-stained tissue, achieve non-inferior diagnostic accuracy to pathologists using whole-slide images and outperform black box deep-learning on a dataset of 670 cases from Guatemala spanning 8 lymphoma subtypes. Using SHapley Additive exPlanation (SHAP) analysis, we assess the impact of each feature on model prediction and find that nuclear shape features are most discriminative for DLBCL (F1-score: 78.7%) and classical Hodgkin lymphoma (F1-score: 74.5%). Finally, we provide the first demonstration that a model combining features from H&E-stained tissue with features from a standardized panel of 6 immunostains results in a similar diagnostic accuracy (85.3%) to a 46-stain panel (86.1%).
翻訳日:2023-11-22 16:04:29 公開日:2023-11-20
# healnet -- 異種生物医学データのためのハイブリッドマルチモーダル融合

HEALNet -- Hybrid Multi-Modal Fusion for Heterogeneous Biomedical Data ( http://arxiv.org/abs/2311.09115v2 )

ライセンス: Link先を確認
Konstantin Hemker, Nikola Simidjievski, Mateja Jamnik(参考訳) 高解像度の病理組織学や高スループットゲノムシークエンシングなどの医療データ収集の技術進歩は、画像、表、グラフデータなど、多要素バイオメディカルモデリングの要件の増大に寄与している。 多くのマルチモーダルディープラーニングアプローチでは、分離してトレーニングされたモダリティ固有のアーキテクチャを使用しており、異なるデータソースの統合を動機付ける重要なクロスモーダル情報をキャプチャできない。 本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるhybrid early-fusion attention learning network (healnet)を提案する。 a) モダリティ固有の構造情報を保存すること b) 共有潜在空間における異種間相互作用及び構造情報の取得 c)訓練及び推論中に欠落したモダリティを効果的に処理することができ、 d)不透明な埋め込みの代わりに生データ入力を学習することで直感的なモデル検査を可能にする。 The Cancer Genome Atlas (TCGA) の4つの癌コホートにおける全スライド画像と多モードデータの多モード生存解析を行った。 HEALNetは最先端のパフォーマンスを実現し、ユニモーダルと最近のマルチモーダルベースラインの両方よりも大幅に改善されている。

Technological advances in medical data collection such as high-resolution histopathology and high-throughput genomic sequencing have contributed to the rising requirement for multi-modal biomedical modelling, specifically for image, tabular, and graph data. Most multi-modal deep learning approaches use modality-specific architectures that are trained separately and cannot capture the crucial cross-modal information that motivates the integration of different data sources. This paper presents the Hybrid Early-fusion Attention Learning Network (HEALNet): a flexible multi-modal fusion architecture, which a) preserves modality-specific structural information, b) captures the cross-modal interactions and structural information in a shared latent space, c) can effectively handle missing modalities during training and inference, and d) enables intuitive model inspection by learning on the raw data input instead of opaque embeddings. We conduct multi-modal survival analysis on Whole Slide Images and Multi-omic data on four cancer cohorts of The Cancer Genome Atlas (TCGA). HEALNet achieves state-of-the-art performance, substantially improving over both uni-modal and recent multi-modal baselines, whilst being robust in scenarios with missing modalities.
翻訳日:2023-11-22 16:03:11 公開日:2023-11-20
# 観察的医療データに基づく移動可能な因果ネットワークモデルの構築

Towards a Transportable Causal Network Model Based on Observational Healthcare Data ( http://arxiv.org/abs/2311.08427v2 )

ライセンス: Link先を確認
Alice Bernasconi and Alessio Zanga and Peter J.F. Lucas and Marco Scutari and Fabio Stella(参考訳) 過去数十年間、人工知能技術に基づく多くの予後モデルが医療の詳細な予測に使われてきた。 残念なことに、これらのモデルのトレーニングと検証に使用される実世界の観測データは、結果の妥当性に強く影響を及ぼすバイアスによってほとんど常に影響を受ける。 それらに対処することは、輸送性を達成するための重要な要素であり、また、確率的関連に基づくより単純な統計的アプローチを超えて、臨床的意思決定において重要な因果関係の研究において重要である。 本研究では,乳がんを生き残った若年者および若年者の心血管性リスクを推定するために,選択図,欠失グラフ,因果発見,先行知識を単一のグラフィカルモデルに組み合わせた新しいアプローチを提案する。 2つの異なる患者のコホートからなるデータからこのモデルを学習する。 結果として得られた因果ネットワークモデルは、リスクアセスメント、正確性、説明可能性の観点から専門家臨床医によって検証され、競合する機械学習手法を上回る予測モデルを提供する。

Over the last decades, many prognostic models based on artificial intelligence techniques have been used to provide detailed predictions in healthcare. Unfortunately, the real-world observational data used to train and validate these models are almost always affected by biases that can strongly impact the outcomes validity: two examples are values missing not-at-random and selection bias. Addressing them is a key element in achieving transportability and in studying the causal relationships that are critical in clinical decision making, going beyond simpler statistical approaches based on probabilistic association. In this context, we propose a novel approach that combines selection diagrams, missingness graphs, causal discovery and prior knowledge into a single graphical model to estimate the cardiovascular risk of adolescent and young females who survived breast cancer. We learn this model from data comprising two different cohorts of patients. The resulting causal network model is validated by expert clinicians in terms of risk assessment, accuracy and explainability, and provides a prognostic model that outperforms competing machine learning methods.
翻訳日:2023-11-22 16:01:15 公開日:2023-11-20
# 言語とその次元:言語フラクタル構造の内在次元

A Language and Its Dimensions: Intrinsic Dimensions of Language Fractal Structures ( http://arxiv.org/abs/2311.10217v2 )

ライセンス: Link先を確認
Vasilii A. Gromov, Nikita S. Borodin, and Asel S. Yerbolova(参考訳) 本稿では,新しい研究対象である言語フラクタル構造について紹介する。 我々は、自然言語のすべての$n$-gramの埋め込みの集合がこのフラクタル集合の代表的なサンプルを構成することを仮定する。 (n$以上すべての言語フラクタル構造の合計を表すためにhaironakeaという用語を用いる。) この論文は、ロシア語と英語の言語フラクタル構造の内在的(元)次元を推定する。 この目的のために,(1)トポロジカルデータ解析に基づく手法と(2)考慮された点の雲に対するデータグラフの最小スパンニング木を用いる(Steele theorem)。 両方の言語について、すべての$n$の場合、内在次元は非整数値(典型的にはフラクタル集合)で、ロシア語と英語の両方で9に近い。

The present paper introduces a novel object of study - a language fractal structure. We hypothesize that a set of embeddings of all $n$-grams of a natural language constitutes a representative sample of this fractal set. (We use the term Hailonakea to refer to the sum total of all language fractal structures, over all $n$). The paper estimates intrinsic (genuine) dimensions of language fractal structures for the Russian and English languages. To this end, we employ methods based on (1) topological data analysis and (2) a minimum spanning tree of a data graph for a cloud of points considered (Steele theorem). For both languages, for all $n$, the intrinsic dimensions appear to be non-integer values (typical for fractal sets), close to 9 for both of the Russian and English language.
翻訳日:2023-11-22 15:24:48 公開日:2023-11-20
# 言語とその次元:言語フラクタル構造の内在次元

A Language and Its Dimensions: Intrinsic Dimensions of Language Fractal Structures ( http://arxiv.org/abs/2311.10217v1 )

ライセンス: Link先を確認
Vasilii A. Gromov, Nikita S. Borodin, and Asel S. Yerbolova(参考訳) 本稿では,新しい研究対象である言語フラクタル構造について紹介する。 我々は、自然言語のすべての$n$-gramの埋め込みの集合がこのフラクタル集合の代表的なサンプルを構成することを仮定する。 (n$以上すべての言語フラクタル構造の合計を表すためにhaironakeaという用語を用いる。) この論文は、ロシア語と英語の言語フラクタル構造の内在的(元)次元を推定する。 この目的のために,(1)トポロジカルデータ解析に基づく手法と(2)考慮された点の雲に対するデータグラフの最小スパンニング木を用いる(Steele theorem)。 両方の言語について、すべての$n$の場合、内在次元は非整数値(典型的にはフラクタル集合)で、ロシア語と英語の両方で9に近い。

The present paper introduces a novel object of study - a language fractal structure. We hypothesize that a set of embeddings of all $n$-grams of a natural language constitutes a representative sample of this fractal set. (We use the term Hailonakea to refer to the sum total of all language fractal structures, over all $n$). The paper estimates intrinsic (genuine) dimensions of language fractal structures for the Russian and English languages. To this end, we employ methods based on (1) topological data analysis and (2) a minimum spanning tree of a data graph for a cloud of points considered (Steele theorem). For both languages, for all $n$, the intrinsic dimensions appear to be non-integer values (typical for fractal sets), close to 9 for both of the Russian and English language.
翻訳日:2023-11-22 15:24:36 公開日:2023-11-20
# UniMOS:ラベル制約付きデータセット上でのマルチオーガンセグメンテーションのためのユニバーサルフレームワーク

UniMOS: A Universal Framework For Multi-Organ Segmentation Over Label-Constrained Datasets ( http://arxiv.org/abs/2311.10251v2 )

ライセンス: Link先を確認
Can Li, Sheng Shao, Junyi Qu, Shuchao Pang, Mehmet A. Orgun(参考訳) 医療画像のための機械学習モデルは、医師が病気を診断し管理するのに役立つ。 しかし、医用画像アノテーションには大量のマンパワーと専門知識が必要であり、臨床部門がタスク指向に基づいて画像アノテーションを行うという事実から、ラベルのないデータを持つ医用画像アノテーションデータが少なくなり、1つのオルガンだけを注釈する多くのデータセットを持つことが問題となっている。 本稿では,完全かつ部分的にラベル付けされた画像とラベル付けされていない画像の活用を実現するための,初のユニバーサルフレームワークUniMOSを提案する。 具体的には,マルチオーガンセグメンテーション(MOS)モジュールをベースネットとして完全かつ部分ラベル付きデータ上に構築し,新たなターゲット適応損失を設計する。 さらに,ラベルなしデータのセグメンテーションを大幅に改善する,一貫性のある正規化と擬似ラベル付け技術を組み合わせた半教師付きトレーニングモジュールを組み込んだ。 実験により、他の先進的な手法と比較して、いくつかの医用画像分割タスクにおいて優れた性能を示し、また、データ利用率を大幅に改善し、アノテーションコストを低減した。 コードとモデルは、https://github.com/lw8807001/UniMOSで入手できる。

Machine learning models for medical images can help physicians diagnose and manage diseases. However, due to the fact that medical image annotation requires a great deal of manpower and expertise, as well as the fact that clinical departments perform image annotation based on task orientation, there is the problem of having fewer medical image annotation data with more unlabeled data and having many datasets that annotate only a single organ. In this paper, we present UniMOS, the first universal framework for achieving the utilization of fully and partially labeled images as well as unlabeled images. Specifically, we construct a Multi-Organ Segmentation (MOS) module over fully/partially labeled data as the basenet and designed a new target adaptive loss. Furthermore, we incorporate a semi-supervised training module that combines consistent regularization and pseudolabeling techniques on unlabeled data, which significantly improves the segmentation of unlabeled data. Experiments show that the framework exhibits excellent performance in several medical image segmentation tasks compared to other advanced methods, and also significantly improves data utilization and reduces annotation cost. Code and models are available at: https://github.com/lw8807001/UniMOS.
翻訳日:2023-11-22 15:14:05 公開日:2023-11-20
# UniMOS:ラベル制約付きデータセット上でのマルチオーガンセグメンテーションのためのユニバーサルフレームワーク

UniMOS: A Universal Framework For Multi-Organ Segmentation Over Label-Constrained Datasets ( http://arxiv.org/abs/2311.10251v1 )

ライセンス: Link先を確認
Can Li, Sheng Shao, Junyi Qu, Shuchao Pang, Mehmet A. Orgun(参考訳) 医療画像のための機械学習モデルは、医師が病気を診断し管理するのに役立つ。 しかし、医用画像アノテーションには大量のマンパワーと専門知識が必要であり、臨床部門がタスク指向に基づいて画像アノテーションを行うという事実から、ラベルのないデータを持つ医用画像アノテーションデータが少なくなり、1つのオルガンだけを注釈する多くのデータセットを持つことが問題となっている。 本稿では,完全かつ部分的にラベル付けされた画像とラベル付けされていない画像の活用を実現するための,初のユニバーサルフレームワークUniMOSを提案する。 具体的には,マルチオーガンセグメンテーション(MOS)モジュールをベースネットとして完全かつ部分ラベル付きデータ上に構築し,新たなターゲット適応損失を設計する。 さらに,ラベルなしデータのセグメンテーションを大幅に改善する,一貫性のある正規化と擬似ラベル付け技術を組み合わせた半教師付きトレーニングモジュールを組み込んだ。 実験により、他の先進的な手法と比較して、いくつかの医用画像分割タスクにおいて優れた性能を示し、また、データ利用率を大幅に改善し、アノテーションコストを低減した。 コードとモデルは、https://github.com/lw8807001/UniMOSで入手できる。

Machine learning models for medical images can help physicians diagnose and manage diseases. However, due to the fact that medical image annotation requires a great deal of manpower and expertise, as well as the fact that clinical departments perform image annotation based on task orientation, there is the problem of having fewer medical image annotation data with more unlabeled data and having many datasets that annotate only a single organ. In this paper, we present UniMOS, the first universal framework for achieving the utilization of fully and partially labeled images as well as unlabeled images. Specifically, we construct a Multi-Organ Segmentation (MOS) module over fully/partially labeled data as the basenet and designed a new target adaptive loss. Furthermore, we incorporate a semi-supervised training module that combines consistent regularization and pseudolabeling techniques on unlabeled data, which significantly improves the segmentation of unlabeled data. Experiments show that the framework exhibits excellent performance in several medical image segmentation tasks compared to other advanced methods, and also significantly improves data utilization and reduces annotation cost. Code and models are available at: https://github.com/lw8807001/UniMOS.
翻訳日:2023-11-22 15:13:34 公開日:2023-11-20
# 気候変動におけるラクダ: tulu 2 による lm 適応強化

Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2 ( http://arxiv.org/abs/2311.10702v2 )

ライセンス: Link先を確認
Hamish Ivison, Yizhong Wang, Valentina Pyatkin, Nathan Lambert, Matthew Peters, Pradeep Dasigi, Joel Jang, David Wadden, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi(参考訳) T\"ULU [Wang et al., 2023b] のリリース以来, より優れたベースモデルから新しいファインタニング技術に至るまで, インストラクションチューニングのためのオープンリソースが急速に発展してきた。 T\"ULU 2は、訓練済みの言語モデルを下流のタスクやユーザの好みに適応させるための理解とベストプラクティスを向上するための改良されたT\"ULUモデルである。 具体的には、(1) t\"ulu-v2-mix、(2) t\"ulu 2 llama-2 モデルを v2 混合で微調整した高品質な命令データセットの集合、(3) t\"ulu 2+dpo, t\"ulu 2 モデルを直接優先最適化(dpo)でトレーニングしたモデル(t\"ulu 2+dpo 70b)、(4) code t\"ulu 2 コード llama モデルは、llama と命令調整されたバージョンである code llama-instruct よりも優れています。 複数の視点からの評価から、t\"ulu 2スイートはオープンモデル間で最先端のパフォーマンスを達成し、いくつかのベンチマークでgpt-3.5-turbo-0301のパフォーマンスを上回った。 すべてのチェックポイント、データ、トレーニング、評価コードをリリースし、将来の大規模言語モデルへのオープンな取り組みを促進します。

Since the release of T\"ULU [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into T\"ULU, resulting in T\"ULU 2, a suite of improved T\"ULU models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) T\"ULU-V2-mix, an improved collection of high-quality instruction datasets; (2) T\"ULU 2, LLAMA-2 models finetuned on the V2 mixture; (3) T\"ULU 2+DPO, T\"ULU 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (T\"ULU 2+DPO 70B); (4) CODE T\"ULU 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the T\"ULU 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.
翻訳日:2023-11-22 14:36:17 公開日:2023-11-20
# 視覚受容場に対する一般化ガウス微分モデルによる時空間受容場に対する幾何学的画像変換の共分散特性

Joint covariance property under geometric image transformations for spatio-temporal receptive fields according to the generalized Gaussian derivative model for visual receptive fields ( http://arxiv.org/abs/2311.10543v2 )

ライセンス: Link先を確認
Tony Lindeberg(参考訳) 自然な画像変換が受容野応答に与える影響は、コンピュータビジョンと生体視覚の視覚操作のモデリングに不可欠である。 この点において、視覚階層の最初期の層における幾何学的画像変換に関する共分散特性は、ロバストな画像操作の表現や、高レベルでの不変な視覚操作の定式化に不可欠である。 本稿では,空間的スケーリング変換,空間的アフィン変換,ガリレオ変換,時間的スケーリング変換といった構成下での結合共分散特性を定義し,両者の相互作用を特徴付ける。 具体的には、時空間の知覚場からの出力と時空間のイメージ変換とを一致させるために、受容場パラメータをどのように変換する必要があるかを示す。

The influence of natural image transformations on receptive field responses is crucial for modelling visual operations in computer vision and biological vision. In this regard, covariance properties with respect to geometric image transformations in the earliest layers of the visual hierarchy are essential for expressing robust image operations and for formulating invariant visual operations at higher levels. This paper defines and proves a joint covariance property under compositions of spatial scaling transformations, spatial affine transformations, Galilean transformations and temporal scaling transformations, which makes it possible to characterize how different types of image transformations interact with each other. Specifically, the derived relations show how the receptive field parameters need to be transformed, in order to match the output from spatio-temporal receptive fields with the underlying spatio-temporal image transformations.
翻訳日:2023-11-22 14:35:41 公開日:2023-11-20
# 重なり合う非対称データセットの処理 -- 2つのP-Splineアプローチ

Handling Overlapping Asymmetric Datasets -- A Twice Penalized P-Spline Approach ( http://arxiv.org/abs/2311.10489v2 )

ライセンス: Link先を確認
Matthew McTeer, Robin Henderson, Quentin M Anstee, Paolo Missier(参考訳) 重複する非対称データセットはデータサイエンスでは一般的であり、予測分析にどのように組み込むかという疑問を投げかける。 医療データセットでは、電子的な健康記録など、より多くの患者に利用可能な情報が少ないことが多いが、少数の患者がさらなる検査を行った可能性がある。 小さいコホートが大きなサンプルと大きく異なる場合, 計算能力の欠如などの共通解は, しばしば不適当であり, より大きなコホートも考慮しながら, 特定の応答に対してより小さなコホートをモデル化できる新しい手法を開発することを目的とする。 非パラメトリックモデル、特に一般化された加法モデルによる柔軟な平滑化手法により、より小さなコホートのオーバーアンダーフィットを第一に防止し、第二により大きなコホートを考えるために、2回ペナル化されたP-スプライン近似法をモデル化する。 この第二のペナルティは、より小さいコホートとより大きなコホートの両方に存在する共変量の限界値の不一致によって生み出される。 データシミュレーション、パラメータチューニング、モデル適応により、連続的および二元的応答を考慮することで、我々の2倍のペナルティ化アプローチは、線形b-スプラインと、かつてペナルティ化されたp-スプライン近似に適合する。 非アルコール性脂肪性肝炎発症リスクに関する実生活データに適用すると,モデル適合性が65%以上向上した。 この領域における今後の作業分野は、この手法を次元の縮小を必要としないよう適応させ、パラメトリックモデリング法も検討することを含む。 しかし、我々の知る限りでは、これは、データインプテーションの欠如なしに、非対称データセットを考慮できる大幅に改善されたモデル適合を報告できる柔軟な回帰において、追加の限界的ペナルティを提案する最初の仕事である。

Overlapping asymmetric datasets are common in data science and pose questions of how they can be incorporated together into a predictive analysis. In healthcare datasets there is often a small amount of information that is available for a larger number of patients such as an electronic health record, however a small number of patients may have had extensive further testing. Common solutions such as missing imputation can often be unwise if the smaller cohort is significantly different in scale to the larger sample, therefore the aim of this research is to develop a new method which can model the smaller cohort against a particular response, whilst considering the larger cohort also. Motivated by non-parametric models, and specifically flexible smoothing techniques via generalized additive models, we model a twice penalized P-Spline approximation method to firstly prevent over/under-fitting of the smaller cohort and secondly to consider the larger cohort. This second penalty is created through discrepancies in the marginal value of covariates that exist in both the smaller and larger cohorts. Through data simulations, parameter tunings and model adaptations to consider a continuous and binary response, we find our twice penalized approach offers an enhanced fit over a linear B-Spline and once penalized P-Spline approximation. Applying to a real-life dataset relating to a person's risk of developing Non-Alcoholic Steatohepatitis, we see an improved model fit performance of over 65%. Areas for future work within this space include adapting our method to not require dimensionality reduction and also consider parametric modelling methods. However, to our knowledge this is the first work to propose additional marginal penalties in a flexible regression of which we can report a vastly improved model fit that is able to consider asymmetric datasets, without the need for missing data imputation.
翻訳日:2023-11-22 14:35:24 公開日:2023-11-20
# ガウス補間流

Gaussian Interpolation Flows ( http://arxiv.org/abs/2311.11475v1 )

ライセンス: Link先を確認
Yuan Gao, Jian Huang, Yuling Jiao(参考訳) gaussian denoisingは生成モデリングのためのシミュレーションフリー連続正規化フローを構築するための強力な原則として登場した。 その経験的成功にもかかわらず、これらの流れの理論的性質とガウス分母の正規化効果は、ほとんど未発見のままである。 本研究では,gaussian denoising 上に構築したシミュレーションフリー連続正規化流の適切性を検討することにより,このギャップを解決することを目的とする。 ガウス補間流(gaussian interpolation flow)と呼ばれる統一的な枠組みにより、フロー速度場のリプシッツ正則性、フローの存在と一意性、フローマップのリプシッツ連続性、目標分布のリッチなクラスに対する時間反転フローマップを確立する。 この解析はまた、ガウス補間流の自己エンコーディングとサイクルコンシステンシー特性にも光を当てている。 さらに, 2次ワッサースタイン距離を計量として, 源分布と速度場の摂動におけるこれらの流れの安定性を考察した。 本研究は, ガウス補間流を用いた生成モデリングにおける学習手法に関する貴重な知見を提供し, 経験的観察による学習GIFの終端誤り解析のための理論的基礎を提供する。

Gaussian denoising has emerged as a powerful principle for constructing simulation-free continuous normalizing flows for generative modeling. Despite their empirical successes, theoretical properties of these flows and the regularizing effect of Gaussian denoising have remained largely unexplored. In this work, we aim to address this gap by investigating the well-posedness of simulation-free continuous normalizing flows built on Gaussian denoising. Through a unified framework termed Gaussian interpolation flow, we establish the Lipschitz regularity of the flow velocity field, the existence and uniqueness of the flow, and the Lipschitz continuity of the flow map and the time-reversed flow map for several rich classes of target distributions. This analysis also sheds light on the auto-encoding and cycle-consistency properties of Gaussian interpolation flows. Additionally, we delve into the stability of these flows in source distributions and perturbations of the velocity field, using the quadratic Wasserstein distance as a metric. Our findings offer valuable insights into the learning techniques employed in Gaussian interpolation flows for generative modeling, providing a solid theoretical foundation for end-to-end error analyses of learning GIFs with empirical observations.
翻訳日:2023-11-21 20:21:21 公開日:2023-11-20
# csgnn: 動的クラスワイズ選択によるノイズノードラベルの克服

CSGNN: Conquering Noisy Node labels via Dynamic Class-wise Selection ( http://arxiv.org/abs/2311.11473v1 )

ライセンス: Link先を確認
Yifan Li, Zhen Tan, Kai Shu, Zongsheng Cao, Yu Kong, Huan Liu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上での表現学習の強力なツールとして登場したが、特にデータが不足したり不均衡な場合に、過度な適合とラベルのノイズ問題に悩まされることが多い。 本稿では,単一ノード信頼度に依存する従来手法のパラダイムと異なり,異なるクラスにまたがる信頼性の高いノードを適応的に選択するために,隣接に集約された潜在空間を用いるcsgnnと呼ばれるグラフニューラルネットワークのクラス別選択手法を提案する。 具体的には 1) クラス不均衡問題に取り組むために, 隣り合う信頼度に基づいてクリーンノードを識別するクラスタリング技術を活用して, 動的クラス間選択機構を導入する。 このようにして,本手法は,グローバルしきい値法と共通するバイアスサンプリングの落とし穴を回避することができる。 2) 暗記効果の概念に基づくノイズラベルの問題を軽減するため,CSGNNは,ノイズよりもクリーンノードからの学習を優先し,ラベルノイズを緩和しながらモデル性能を反復的に向上させる。 実験により,CSGNNは,有効性とロバスト性の両方の観点から,最先端の手法よりも優れていることを示す。

Graph Neural Networks (GNNs) have emerged as a powerful tool for representation learning on graphs, but they often suffer from overfitting and label noise issues, especially when the data is scarce or imbalanced. Different from the paradigm of previous methods that rely on single-node confidence, in this paper, we introduce a novel Class-wise Selection for Graph Neural Networks, dubbed CSGNN, which employs a neighbor-aggregated latent space to adaptively select reliable nodes across different classes. Specifically, 1) to tackle the class imbalance issue, we introduce a dynamic class-wise selection mechanism, leveraging the clustering technique to identify clean nodes based on the neighbor-aggregated confidences. In this way, our approach can avoid the pitfalls of biased sampling which is common with global threshold techniques. 2) To alleviate the problem of noisy labels, built on the concept of the memorization effect, CSGNN prioritizes learning from clean nodes before noisy ones, thereby iteratively enhancing model performance while mitigating label noise. Through extensive experiments, we demonstrate that CSGNN outperforms state-of-the-art methods in terms of both effectiveness and robustness.
翻訳日:2023-11-21 20:20:39 公開日:2023-11-20
# 機械学習を用いた医療機器のポストマーケットモニタリングフレームワークに向けて:―ケーススタディ―

Towards a Post-Market Monitoring Framework for Machine Learning-based Medical Devices: A case study ( http://arxiv.org/abs/2311.11463v1 )

ライセンス: Link先を確認
Jean Feng, Adarsh Subbaswamy, Alexej Gossmann, Harvineet Singh, Berkman Sahiner, Mi-Ok Kim, Gene Pennello, Nicholas Petrick, Romain Pirracchio, Fan Xia(参考訳) 機械学習(ML)ベースのシステムが臨床実践に配備された後、パフォーマンスモニタリングはアルゴリズムの安全性と有効性を確保するために重要である。 この研究の目的は、監視戦略の設計の複雑さと、多数の監視オプションを比較する体系的なフレームワークの必要性を強調することである。 主な決定の1つは、現実世界(観測)と介入データの両方を選択することである。 前者は最も便利なモニタリングデータソースであるが、欠点、選択、欠如など、よく知られたバイアスを示す。 実際、MLアルゴリズムが環境と相互作用する場合、アルゴリズム自体がバイアスの主な原因になる可能性がある。 一方で、個人をランダム化するための注意深く設計された介入研究は、そのバイアスを明示的に排除することができるが、そのようなアプローチの倫理、実現可能性、コストを慎重に検討する必要がある。 データソースの決定以外にも、追跡するパフォーマンス基準、テスト統計の解釈可能性、仮定の強さ、パフォーマンス劣化を検出する速度など、監視戦略は様々である。 各種モニタリングオプションを比較するフレームワークを開発するための第一歩として,術後の吐き気・吐き気(PONV)に対するMLベースのリスク予測アルゴリズムを事例として検討する。 因果推論と統計的プロセス制御のツールを組み合わせて、候補監視基準を定義し、潜在的なバイアス源と因果モデルを説明し、候補監視手順を特定して比較する。 因果推論は他のバイアス源にも対処できるため、これらのステップはより一般的に適用できるという仮説を立てる。

After a machine learning (ML)-based system is deployed in clinical practice, performance monitoring is important to ensure the safety and effectiveness of the algorithm over time. The goal of this work is to highlight the complexity of designing a monitoring strategy and the need for a systematic framework that compares the multitude of monitoring options. One of the main decisions is choosing between using real-world (observational) versus interventional data. Although the former is the most convenient source of monitoring data, it exhibits well-known biases, such as confounding, selection, and missingness. In fact, when the ML algorithm interacts with its environment, the algorithm itself may be a primary source of bias. On the other hand, a carefully designed interventional study that randomizes individuals can explicitly eliminate such biases, but the ethics, feasibility, and cost of such an approach must be carefully considered. Beyond the decision of the data source, monitoring strategies vary in the performance criteria they track, the interpretability of the test statistics, the strength of their assumptions, and their speed at detecting performance decay. As a first step towards developing a framework that compares the various monitoring options, we consider a case study of an ML-based risk prediction algorithm for postoperative nausea and vomiting (PONV). Bringing together tools from causal inference and statistical process control, we walk through the basic steps of defining candidate monitoring criteria, describing potential sources of bias and the causal model, and specifying and comparing candidate monitoring procedures. We hypothesize that these steps can be applied more generally, as causal inference can address other sources of biases as well.
翻訳日:2023-11-21 20:20:17 公開日:2023-11-20
# Depth-based Variant Searchアルゴリズムに高度注意機構を組み込んだ肝腫瘍の予測

Liver Tumor Prediction with Advanced Attention Mechanisms Integrated into a Depth-Based Variant Search Algorithm ( http://arxiv.org/abs/2311.11520v1 )

ライセンス: Link先を確認
P. Kalaiselvi and S. Anusuya(参考訳) 近年,ディープラーニング(DL)技術は,機械学習や人工知能,コンピュータビジョンといった分野において,新たな転換を遂げている。 その後、研究者や産業は医療分野で高い支持を受け、特定の間隔で多様な病気を予測し、制御してきた。 肝腫瘍の予知は肝疾患の解析と治療に不可欠である。 本稿では,畳み込みニューラルネットワーク (cnn) とadvanced attention mechanism (cnn-ds-am) を用いた肝腫瘍予測法を提案する。 本研究は,肝疾患の診断・治療における精度と堅牢性の向上を目的とする。 予測されたモデルは良性肝腫瘍と悪性肝腫瘍の両方を含むctスキャンデータセットで評価される。 提案手法は肝腫瘍の予測に高い精度をもち,他の最先端法を上回った。 さらに,肝腫瘍の予測に最も関係したCTスキャン領域の同定と強調を可能にするため,CNNモデルに高度な注意機構が組み込まれた。 CNNモデルに注意機構と深度に基づく変種探索アルゴリズムを組み込むことにより,肝腫瘍予測の精度と堅牢性を向上させることが期待できる。 放射線科医の診断と治療計画を支援する。 提案システムは、肝腫瘍の予測において95.5%の精度を達成し、他の最先端の方法よりも優れていた。

In recent days, Deep Learning (DL) techniques have become an emerging transformation in the field of machine learning, artificial intelligence, computer vision, and so on. Subsequently, researchers and industries have been highly endorsed in the medical field, predicting and controlling diverse diseases at specific intervals. Liver tumor prediction is a vital chore in analyzing and treating liver diseases. This paper proposes a novel approach for predicting liver tumors using Convolutional Neural Networks (CNN) and a depth-based variant search algorithm with advanced attention mechanisms (CNN-DS-AM). The proposed work aims to improve accuracy and robustness in diagnosing and treating liver diseases. The anticipated model is assessed on a Computed Tomography (CT) scan dataset containing both benign and malignant liver tumors. The proposed approach achieved high accuracy in predicting liver tumors, outperforming other state-of-the-art methods. Additionally, advanced attention mechanisms were incorporated into the CNN model to enable the identification and highlighting of regions of the CT scans most relevant to predicting liver tumors. The results suggest that incorporating attention mechanisms and a depth-based variant search algorithm into the CNN model is a promising approach for improving the accuracy and robustness of liver tumor prediction. It can assist radiologists in their diagnosis and treatment planning. The proposed system achieved a high accuracy of 95.5% in predicting liver tumors, outperforming other state-of-the-art methods.
翻訳日:2023-11-21 20:09:01 公開日:2023-11-20
# 多言語綴り補正のためのマルチティーチャー蒸留

Multi-teacher Distillation for Multilingual Spelling Correction ( http://arxiv.org/abs/2311.11518v1 )

ライセンス: Link先を確認
Jingfen Zhang, Xuan Guo, Sravan Bodapati and Christopher Potts(参考訳) 正確な綴り補正は、現代の検索インターフェイス、特にモバイルデバイスや音声-テキストインターフェースの時代において重要なステップである。 世界中にデプロイされるサービスにとって、これは多言語NLPにとって大きな課題となる。スペルエラーは、すべての言語、さらには複数の言語を使用するクエリでもキャッチして修正する必要がある。 本稿では,この課題を多教師蒸留を用いて解決する。 提案手法では,各言語/ローカルに対して単言語型教師モデルを訓練し,これらのモデルを全言語/ローカルに提供するための単一多言語学生モデルに抽出する。 オープンソースデータと,世界規模の検索サービスからのユーザデータを用いた実験では,デプロイサービスのタイトなレイテンシ要件を満たすスペル補正モデルが極めて有効であることが示されている。

Accurate spelling correction is a critical step in modern search interfaces, especially in an era of mobile devices and speech-to-text interfaces. For services that are deployed around the world, this poses a significant challenge for multilingual NLP: spelling errors need to be caught and corrected in all languages, and even in queries that use multiple languages. In this paper, we tackle this challenge using multi-teacher distillation. On our approach, a monolingual teacher model is trained for each language/locale, and these individual models are distilled into a single multilingual student model intended to serve all languages/locales. In experiments using open-source data as well as user data from a worldwide search service, we show that this leads to highly effective spelling correction models that can meet the tight latency requirements of deployed services.
翻訳日:2023-11-21 20:08:39 公開日:2023-11-20
# データサイエンスにおけるGPT : モデル選択の実践的探索

GPT in Data Science: A Practical Exploration of Model Selection ( http://arxiv.org/abs/2311.11516v1 )

ライセンス: Link先を確認
Nathalia Nascimento, Cristina Tavares, Paulo Alencar, Donald Cowan(参考訳) 構造化データの管理やデータサイエンスプロセスの強化にLLM(Large Language Models)を活用することへの関心が高まっている。 潜在的な利点にもかかわらず、この統合は信頼性と意思決定の方法論に関して大きな疑問を呈する。 データの性質、問題タイプ、パフォーマンス指標、計算資源、解釈可能性対精度、データに関する仮定、倫理的考察など、モデル選択プロセスにおけるさまざまな要素の重要性を強調します。 本研究の目的は,GPT-4のモデル選択勧告を導く要因と仮定を解明し,表現することである。 我々は,これらの因子を表現できる可変性モデルを採用し,玩具データセットを用いて同定されたヒューリスティックのモデルと実装の両方を評価する。 これらの結果と他のプラットフォームからのヒューリスティックスを対比することにより,GPT-4の方法論の有効性と特異性を決定することを目的とする。 この研究は、AI意思決定プロセス、特にデータサイエンスにおけるモデル選択の領域における理解を深めることにコミットしています。 我々の取り組みは、より透明で理解可能なAIシステムの構築に向けられ、データサイエンスにおけるより責任深く効率的な実践に寄与します。

There is an increasing interest in leveraging Large Language Models (LLMs) for managing structured data and enhancing data science processes. Despite the potential benefits, this integration poses significant questions regarding their reliability and decision-making methodologies. It highlights the importance of various factors in the model selection process, including the nature of the data, problem type, performance metrics, computational resources, interpretability vs accuracy, assumptions about data, and ethical considerations. Our objective is to elucidate and express the factors and assumptions guiding GPT-4's model selection recommendations. We employ a variability model to depict these factors and use toy datasets to evaluate both the model and the implementation of the identified heuristics. By contrasting these outcomes with heuristics from other platforms, our aim is to determine the effectiveness and distinctiveness of GPT-4's methodology. This research is committed to advancing our comprehension of AI decision-making processes, especially in the realm of model selection within data science. Our efforts are directed towards creating AI systems that are more transparent and comprehensible, contributing to a more responsible and efficient practice in data science.
翻訳日:2023-11-21 20:08:25 公開日:2023-11-20
# マスクを通して見る:顔認識を分離するマルチタスク生成マスク

Seeing through the Mask: Multi-task Generative Mask Decoupling Face Recognition ( http://arxiv.org/abs/2311.11512v1 )

ライセンス: Link先を確認
Zhaohui Wang, Sufang Zhang, Jianteng Peng, Xinyi Wang, Yandong Guo(参考訳) 新型コロナウイルス(COVID-19)の感染拡大で、マスクを着用する人がこれまで以上に多い。 現在の顔認識システムは、目立たないシーンに遭遇すると深刻な性能低下に苦しむ。 潜在的な理由は、顔の特徴が重要な顔領域の閉塞によって損なわれるためである。 この問題に対処するため、以前の研究では、マスク予測の追加により特徴レベルのアイデンティティ関連埋め込みを抽出するか、生成モデルにより隠蔽顔部を復元する。 しかし、前者はモデル解釈の視覚的な結果に欠けており、後者は下流認識に影響を与える可能性のあるアーティファクトに苦しむ。 そこで本稿では,これら2つのタスクを協調的に処理するマルチタスクgEnerative mask dEcoupling Face Recognition (MEER)ネットワークを提案する。 まず,マスクと識別情報を分離する新しいマスクデカップリングモジュールを提案する。 そして、共同学習戦略により、未加工の顔が復元され、ID保存損失で認識ネットワークを洗練させる。 現実的および合成オクルージョンベンチマークによるマスク付き顔認識実験は、MEERが最先端の手法より優れていることを示した。

The outbreak of COVID-19 pandemic make people wear masks more frequently than ever. Current general face recognition system suffers from serious performance degradation,when encountering occluded scenes. The potential reason is that face features are corrupted by occlusions on key facial regions. To tackle this problem, previous works either extract identity-related embeddings on feature level by additional mask prediction, or restore the occluded facial part by generative models. However, the former lacks visual results for model interpretation, while the latter suffers from artifacts which may affect downstream recognition. Therefore, this paper proposes a Multi-task gEnerative mask dEcoupling face Recognition (MEER) network to jointly handle these two tasks, which can learn occlusionirrelevant and identity-related representation while achieving unmasked face synthesis. We first present a novel mask decoupling module to disentangle mask and identity information, which makes the network obtain purer identity features from visible facial components. Then, an unmasked face is restored by a joint-training strategy, which will be further used to refine the recognition network with an id-preserving loss. Experiments on masked face recognition under realistic and synthetic occlusions benchmarks demonstrate that the MEER can outperform the state-ofthe-art methods.
翻訳日:2023-11-21 20:08:07 公開日:2023-11-20
# 難易度対策と文脈情報に基づくToken-Level Adversarial Prompt Detection

Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information ( http://arxiv.org/abs/2311.11509v1 )

ライセンス: Link先を確認
Zhengmian Hu, Gang Wu, Saayan Mitra, Ruiyi Zhang, Tong Sun, Heng Huang, and Vishy Swaminathan(参考訳) 近年,様々なアプリケーションにおいて,Large Language Models (LLM) が重要なツールとして登場している。 しかし、これらのモデルは、攻撃者が望ましくない出力につながる入力文字列を慎重にキュレートできる、敵対的なプロンプト攻撃の影響を受けやすい。 LLMの固有の脆弱性は、特にOOD(out-of-distribution)入力が提示された場合に、入力出力機構に起因している。 本稿では,次のトークンの確率を予測するLLMの能力を利用して,逆方向のプロンプトを識別するトークンレベル検出手法を提案する。 モデルのパープレキシティを計測し、隣接するトークン情報を取り込んで、連続した敵のプロンプトシーケンスの検出を促進する。 その結果、各トークンを敵プロンプトの一部かそうでないかを識別する手法と、敵プロンプトの一部である各トークンの確率を推定する手法の2つの方法を提案する。

In recent years, Large Language Models (LLM) have emerged as pivotal tools in various applications. However, these models are susceptible to adversarial prompt attacks, where attackers can carefully curate input strings that lead to undesirable outputs. The inherent vulnerability of LLMs stems from their input-output mechanisms, especially when presented with intensely out-of-distribution (OOD) inputs. This paper proposes a token-level detection method to identify adversarial prompts, leveraging the LLM's capability to predict the next token's probability. We measure the degree of the model's perplexity and incorporate neighboring token information to encourage the detection of contiguous adversarial prompt sequences. As a result, we propose two methods: one that identifies each token as either being part of an adversarial prompt or not, and another that estimates the probability of each token being part of an adversarial prompt.
翻訳日:2023-11-21 20:07:46 公開日:2023-11-20
# 再帰的量子ユニタリプログラムの合成の場合

A Case for Synthesis of Recursive Quantum Unitary Programs ( http://arxiv.org/abs/2311.11503v1 )

ライセンス: Link先を確認
Haowei Deng, Runzhou Tao, Yuxiang Peng, Xiaodi Wu(参考訳) 量子プログラムは、直感的な量子知識が量子プログラミングに関連するため、プログラミングや検証が難しいことで悪名高い。 したがって、テジウムと低レベルの量子の詳細に関連したエラーを緩和する自動化ツールは非常に望ましい。 本稿では,既存の量子プログラミング言語で広く使われている入力サイズの異なるユニタリ回路群を再帰的に定義する量子ユニタリプログラムのプログラム合成に関する研究を開始する。 具体的には、新しい帰納的量子プログラム言語、その仕様、推論のための音響ロジック、SMTインスタンスへの推論手順の符号化を含む、最初の量子プログラム合成フレームワークであるQSynthを紹介する。 既存のSMTソルバを利用することで、QSynthは量子加算器回路、量子固有値反転回路、量子フーリエ変換を含む10個の量子ユニタリプログラムをうまく合成し、Q#、IBM Qiskit、AWS Braketなどの主要な量子プラットフォーム上の実行可能プログラムに容易に変換できる。

Quantum programs are notoriously difficult to code and verify due to unintuitive quantum knowledge associated with quantum programming. Automated tools relieving the tedium and errors associated with low-level quantum details would hence be highly desirable. In this paper, we initiate the study of program synthesis for quantum unitary programs that recursively define a family of unitary circuits for different input sizes, which are widely used in existing quantum programming languages. Specifically, we present QSynth, the first quantum program synthesis framework, including a new inductive quantum programming language, its specification, a sound logic for reasoning, and an encoding of the reasoning procedure into SMT instances. By leveraging existing SMT solvers, QSynth successfully synthesizes ten quantum unitary programs including quantum adder circuits, quantum eigenvalue inversion circuits and Quantum Fourier Transformation, which can be readily transpiled to executable programs on major quantum platforms, e.g., Q#, IBM Qiskit, and AWS Braket.
翻訳日:2023-11-21 20:07:29 公開日:2023-11-20
# MultiLoRA: マルチタスク学習を改善するためにLoRAを民主化する

MultiLoRA: Democratizing LoRA for Better Multi-Task Learning ( http://arxiv.org/abs/2311.11501v1 )

ライセンス: Link先を確認
Yiming Wang, Yu Lin, Xiaodong Zeng and Guannan Zhang(参考訳) LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。 ChatGPTは様々なタスクにおいて優れたパフォーマンスを示しており、すべてのタスクにひとつのモデルを適応したいという願望が高まっている。 しかし、LoRAの明示的な低ランクは、複雑なマルチタスクシナリオにおける適応性能を制限する。 LoRAは少数のトップ特異ベクトルに支配され、微調整は重要でないユニタリ変換の集合に分解される。 本稿では,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。 MultiLoRAはLoRAモジュールを水平にスケールし、パラメータ依存性を減らすために適応行列のパラメータ初期化を変更する。 前例のないように,命令追従,自然言語理解,世界知識のデータセットを混合して,意味的および構文的に異なるサンプルをカバーするように,特別なトレーニングデータを構築した。 追加パラメータのわずか2.5%で、MultiLoRAは単一のLoRAよりも優れ、複数のベンチマークやモデルスケールで微調整を行う。 MultiLoRAの重み更新行列に関するさらなる研究は、上位特異ベクトルへの依存の低減とより民主的なユニタリ変換の寄与を示す。

LoRA achieves remarkable resource efficiency and comparable performance when adapting LLMs for specific tasks. Since ChatGPT demonstrated superior performance on various tasks, there has been a growing desire to adapt one model for all tasks. However, the explicit low-rank of LoRA limits the adaptation performance in complex multi-task scenarios. LoRA is dominated by a small number of top singular vectors while fine-tuning decomposes into a set of less important unitary transforms. In this paper, we propose MultiLoRA for better multi-task adaptation by reducing the dominance of top singular vectors observed in LoRA. MultiLoRA scales LoRA modules horizontally and change parameter initialization of adaptation matrices to reduce parameter dependency, thus yields more balanced unitary subspaces. We unprecedentedly construct specialized training data by mixing datasets of instruction follow, natural language understanding, world knowledge, to cover semantically and syntactically different samples. With only 2.5% of additional parameters, MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple benchmarks and model scales. Further investigation into weight update matrices of MultiLoRA exhibits reduced dependency on top singular vectors and more democratic unitary transform contributions.
翻訳日:2023-11-21 20:07:13 公開日:2023-11-20
# 選択単一・二重モード量子制限増幅器

Selective Single and Double-Mode Quantum Limited Amplifier ( http://arxiv.org/abs/2311.11496v1 )

ライセンス: Link先を確認
Abdul Mohamed, Elham Zohari, Jarryd J. Pla, Paul E. Barclay, and Shabir Barzanjeh(参考訳) 量子制限増幅器は弱い信号の増幅を可能にし、量子力学の原理による最小ノイズを導入する。 これらの増幅器は量子コンピューティングにおける幅広い応用を提供しており、超伝導量子ビットとスピンの高速かつ正確な読み出し、量子センシングやメトロジーにおける様々な用途がある。 主にジョセフソン接合を用いて開発されたパラメトリック増幅は、量子回路内での高効率マイクロ波測定の先導技術へと発展してきた。 その大きな貢献にもかかわらず、これらの増幅器は、高出力を扱えないこと、寄生磁場に対する感度、特にミリケルビン温度でのみ作動する制限など、基本的な制限に直面している。 そこで本研究では,超伝導インダクタンスに基づく新しい量子制限増幅器を実験的に開発し,非線形結合モード系を記述するための広範な理論モデルを提案する。 この増幅器は、2つの異なるスペクトルモードと、バイアス電流によるチューニング性を持ち、量子ノイズ限界近傍の単モード増幅系と二重モード増幅系の両方で選択的に動作することができる。 運動的インダクタンスを示す非線形薄膜を用いることで, 単モードでは50dB, ダブルモードでは32dB以上のゲインを達成でき, ノイズの入力参照量0.35を加算できる。 重要なことに、この増幅器はジョセフソン接合の必要性をなくし、ジョセフソンベースの増幅器よりもはるかに高い電力処理能力をもたらす。 また、磁場の存在下でのレジリエンスを示し、簡単な設計を提供し、信頼性を高める。

A quantum-limited amplifier enables the amplification of weak signals while introducing minimal noise dictated by the principles of quantum mechanics. These amplifiers serve a broad spectrum of applications in quantum computing, including fast and accurate readout of superconducting qubits and spins, as well as various uses in quantum sensing and metrology. Parametric amplification, primarily developed using Josephson junctions, has evolved into the leading technology for highly effective microwave measurements within quantum circuits. Despite their significant contributions, these amplifiers face fundamental limitations, such as their inability to handle high powers, sensitivity to parasitic magnetic fields, and particularly their limitation to operate only at millikelvin temperatures. To tackle these challenges, here we experimentally develop a novel quantum-limited amplifier based on superconducting kinetic inductance and present an extensive theoretical model to describe this nonlinear coupled-mode system. Our device surpasses the conventional constraints associated with Josephson junction amplifiers by operating at much higher temperatures up to 4.5 K. With two distinct spectral modes and tunability through bias current, this amplifier can operate selectively in both single and double-mode amplification regimes near the quantum noise limit. Utilizing a nonlinear thin film exhibiting kinetic inductance, our device attains gain exceeding 50 dB in a single-mode and 32 dB in a double-mode configuration while adding 0.35 input-referred quanta of noise. Importantly, this amplifier eliminates the need for Josephson junctions, resulting in significantly higher power handling capabilities than Josephson-based amplifiers. It also demonstrates resilience in the presence of magnetic fields, offers a straightforward design, and enhances reliability.
翻訳日:2023-11-21 20:06:52 公開日:2023-11-20
# 機械学習における解釈可能性--説明可能性,予測性能,モデルとの相互作用について

Interpretability in Machine Learning: on the Interplay with Explainability, Predictive Performances and Models ( http://arxiv.org/abs/2311.11491v1 )

ライセンス: Link先を確認
Benjamin Leblanc and Pascal Germain(参考訳) 解釈可能性は最近、機械学習の分野で注目を集めている。 この抽象概念は理解が困難で、時間とともに多くのラベルや先入観を持つようになった。 本稿では,解釈可能性に関する誤解を明らかにするために,説明可能性,予測性能,機械学習モデルといった機械学習の重要な概念との関係について論じる。 例えば、解釈可能性と説明可能性が相互に代用される、あるいは一定の解釈可能性が与えられた機械学習モデルに関連付けられるという考えに挑戦する。

Interpretability has recently gained attention in the field of machine learning, for it is crucial when it comes to high-stakes decisions or troubleshooting. This abstract concept is hard to grasp and has been associated, over time, with many labels and preconceived ideas. In this position paper, in order to clarify some misunderstandings regarding interpretability, we discuss its relationship with significant concepts in machine learning: explainability, predictive performances, and machine learning models. For instance, we challenge the idea that interpretability and explainability are substitutes to one another, or that a fixed degree of interpretability can be associated with a given machine learning model.
翻訳日:2023-11-21 20:06:26 公開日:2023-11-20
# 連続学習型ニューラルネットワークのためのNMFベースビルディングブロック

An NMF-Based Building Block for Interpretable Neural Networks With Continual Learning ( http://arxiv.org/abs/2311.11485v1 )

ライセンス: Link先を確認
Brian K. Vogel(参考訳) 既存の学習方法は、しばしば解釈可能性と予測性能のバランスをとるのに苦労する。 近距離近傍や非負行列分解(nmf)のようなモデルは高い解釈性をもたらすが、教師付き学習タスクにおける予測性能はしばしば制限される。 対照的に、多層パーセプトロン(MLP)に基づくニューラルネットワークは、表現的アーキテクチャのモジュラ構築をサポートし、認識精度は向上するが、解釈可能性の観点からはブラックボックスと見なされることが多い。 提案手法は,NMFの望ましい解釈可能性特性を維持しつつ高い予測性能を達成するために,教師付きニューラルネットワークトレーニング手法を取り入れたNMFに基づくビルディングブロックを用いて,これらの2つの側面のバランスを改善することを目的としている。 予測因子結合(PFC)ブロックを小さなデータセット上で評価し,MLPと競合する予測性能を実現し,解釈性の向上を実現した。 このアプローチのメリットは,連続学習,非I.D.データのトレーニング,学習後の知識除去など,さまざまなシナリオで実証する。 さらに,完全連結残差ネットワークや,バニラRNNと競合する分解型リカレントニューラルネットワーク(RNN)など,より表現力のあるアーキテクチャを構築するためにPFCブロックを使用する例を示す。 PFCブロックは、一定の点に収束する反復推論アルゴリズムを使用して、トレーニング後の精度と計算のトレードオフを可能にするが、非常に大きなデータセットのトレーニングのようなシナリオでは、一般的なMLP置換としての使用を妨げている。 私たちはhttps://github.com/bkvogel/pfcでソースコードを提供しています。

Existing learning methods often struggle to balance interpretability and predictive performance. While models like nearest neighbors and non-negative matrix factorization (NMF) offer high interpretability, their predictive performance on supervised learning tasks is often limited. In contrast, neural networks based on the multi-layer perceptron (MLP) support the modular construction of expressive architectures and tend to have better recognition accuracy but are often regarded as black boxes in terms of interpretability. Our approach aims to strike a better balance between these two aspects through the use of a building block based on NMF that incorporates supervised neural network training methods to achieve high predictive performance while retaining the desirable interpretability properties of NMF. We evaluate our Predictive Factorized Coupling (PFC) block on small datasets and show that it achieves competitive predictive performance with MLPs while also offering improved interpretability. We demonstrate the benefits of this approach in various scenarios, such as continual learning, training on non-i.i.d. data, and knowledge removal after training. Additionally, we show examples of using the PFC block to build more expressive architectures, including a fully-connected residual network as well as a factorized recurrent neural network (RNN) that performs competitively with vanilla RNNs while providing improved interpretability. The PFC block uses an iterative inference algorithm that converges to a fixed point, making it possible to trade off accuracy vs computation after training but also currently preventing its use as a general MLP replacement in some scenarios such as training on very large datasets. We provide source code at https://github.com/bkvogel/pfc
翻訳日:2023-11-21 20:06:15 公開日:2023-11-20
# スクイーズド・オプトメカニクスによる三成分量子絡み合い

Tripartite quantum entanglement with squeezed optomechanics ( http://arxiv.org/abs/2311.11484v1 )

ライセンス: Link先を確認
Ya-Feng Jiao, Yun-Lan Zuo, Yan Wang, Wangjun Lu, Jie-Qiao Liao, Le-Man Kuang, and Hui Jing(参考訳) マクロな物体を含む絡み合った状態を工学する能力は、量子情報処理から量子センシングまで、幅広い量子応用技術において特に重要である。 本稿では,Fabry-P\'{e}rotキャビティと2つの可動ミラー,光パラメトリック増幅器 (OPA) , 注入された真空貯留層からなるハイブリッドオプティメカルシステムにおいて, 量子絡みのコヒーレントな操作と強化を実現する方法を提案する。 このシステムの利点は2つあります。 一 OPAを介して絞込みキャビティモードを導入することにより、光ミラー相互作用を効果的に制御することができる。 (ii)圧縮キャビティモードと注入スクイーズ真空貯水池とのスクイーズパラメータを適切に一致させると、光学入力ノイズを完全に抑制することができる。 これらの特異な特徴は、コヒーレントで制御可能な方法で量子絡み合いを生成し、操作することができる。 さらに, 制御可能な絡み合いは, 特定のスクイーズパラメータの下では, 従来の光学機械システムに比べて大幅に向上することがわかった。 我々の研究は、光ミラー相互作用を調節し調整するための有望な方法を提供しており、空洞光学に基づく様々な量子効果を工学するための有用なツールとして機能する。

The ability to engineer entangled states that involve macroscopic objects is of particular importance for a wide variety of quantum-enabled technologies, ranging from quantum information processing to quantum sensing. Here we propose how to achieve coherent manipulation and enhancement of quantum entanglement in a hybrid optomechanical system, which consists of a Fabry-P\'{e}rot cavity with two movable mirrors, an optical parametric amplifier (OPA), and an injected squeezed vacuum reservoir. We show that the advantages of this system are twofold: (i) one can effectively regulate the light-mirror interactions by introducing a squeezed intracavity mode via the OPA; (ii) when properly matching the squeezing parameters between the squeezed cavity mode and the injected squeezed vacuum reservoir, the optical input noises can be suppressed completely. These peculiar features of this system allow us to generate and manipulate quantum entanglement in a coherent and controllable way. More importantly, we also find that such controllable entanglement, under some specific squeezing parameters, can be considerably enhanced in comparison with those of the conventional optomechanical system. Our work, providing a promising method to regulate and tailor the light-mirror interaction, are poised to serve as a useful tool for engineering various quantum effects which are based on cavity optomechanics.
翻訳日:2023-11-21 20:05:47 公開日:2023-11-20
# 電子健康記録共有基盤モデルの適応性に関する多施設研究

A Multi-Center Study on the Adaptability of a Shared Foundation Model for Electronic Health Records ( http://arxiv.org/abs/2311.11483v1 )

ライセンス: Link先を確認
Lin Lawrence Guo, Jason Fries, Ethan Steinberg, Scott Lanyon Fleming, Keith Morse, Catherine Aftandilian, Jose Posada, Nigam Shah, Lillian Sung(参考訳) ファンデーションモデルは、下流の医療タスクに容易に適応可能なモジュールコンポーネントを提供することで、AI開発をよりスケーラブルでコスト効率の良いものにすることで、医療におけるAI変革を約束している。 数百万人の患者からコード化された医療記録に基づいてトレーニングされた構造化ehr財団モデルでは、トレーニングラベルの少ないパフォーマンスの向上、分散シフトへの堅牢性の向上といったメリットが示されている。 しかしながら、これらのモデルを異なる病院で共有する可能性と、局所的なタスク適応のためのパフォーマンスに疑問が残る。 スタンフォード大学患者257万人を対象にした縦断的医療記録データに基づくEMHモデル(FM_{SM}$)の適応性について検討した。 The Hospital for Sick ChildrenとMIMIC-IVでEHRデータを用いて実験を行った。 ローカルデータへの事前トレーニングの継続による適応性と,各サイトにおけるトレーニングモデルのベースライン(ローカル基盤モデルを含む)と比較して,タスク適応性を評価した。 これらのモデルの性能を8つの臨床予測タスクで評価した。 どちらのデータセットでも、オフセットの$fm_{sm}$を適用すると、すべてのデータでローカルにトレーニングされたgbmモデルのパフォーマンスが一致し、タスク固有のトレーニングラベルがほとんどない設定が13%改善された。 ローカルデータに対する事前トレーニングの継続により、ラベルの効率は大幅に改善され、FM_{SM}$が完全に訓練されたGBMのパフォーマンスに適合するトレーニングサンプルの1%未満を必要とした。 継続事前トレーニングは、地元の基礎モデルをスクラッチからトレーニングするよりも60から90%効率が高かった。 以上の結果から,ehr基盤モデルの病院間への適応は,医療ai開発を合理化するモジュールコンポーネントとしての基礎基盤モデルの有用性を強調し,予測性能を低コストで向上することが示唆された。

Foundation models hold promise for transforming AI in healthcare by providing modular components that are easily adaptable to downstream healthcare tasks, making AI development more scalable and cost-effective. Structured EHR foundation models, trained on coded medical records from millions of patients, demonstrated benefits including increased performance with fewer training labels, and improved robustness to distribution shifts. However, questions remain on the feasibility of sharing these models across different hospitals and their performance for local task adaptation. This multi-center study examined the adaptability of a recently released structured EHR foundation model ($FM_{SM}$), trained on longitudinal medical record data from 2.57M Stanford Medicine patients. Experiments were conducted using EHR data at The Hospital for Sick Children and MIMIC-IV. We assessed both adaptability via continued pretraining on local data, and task adaptability compared to baselines of training models from scratch at each site, including a local foundation model. We evaluated the performance of these models on 8 clinical prediction tasks. In both datasets, adapting the off-the-shelf $FM_{SM}$ matched the performance of GBM models locally trained on all data while providing a 13% improvement in settings with few task-specific training labels. With continued pretraining on local data, label efficiency substantially improved, such that $FM_{SM}$ required fewer than 1% of training examples to match the fully trained GBM's performance. Continued pretraining was also 60 to 90% more sample-efficient than training local foundation models from scratch. Our findings show that adapting shared EHR foundation models across hospitals provides improved prediction performance at less cost, underscoring the utility of base foundation models as modular components to streamline the development of healthcare AI.
翻訳日:2023-11-21 20:05:21 公開日:2023-11-20
# AGIシステムのためのメタプロンプティング

Meta Prompting for AGI Systems ( http://arxiv.org/abs/2311.11482v1 )

ライセンス: Link先を確認
Yifan Zhang(参考訳) 本稿では,大規模言語モデル (LLM) やマルチモーダル基礎モデル,AIシステムが問題解決とデータ解釈にアプローチする手法であるメタ・プロンプトの詳細な探索について述べる。 型理論とカテゴリ理論に根ざしたメタプロンプトは、情報の構造と構文を優先し、従来のコンテンツ中心の手法を超越するユニークなフレームワークを提供する。 私たちはMeta Promptingの公式定義を掘り下げ、Few-Shot Promptingと対比し、さまざまなAIアプリケーションへの適用性と優位性を強調します。 この探求の鍵は、複雑な推論の領域へのメタプロンプトの拡張である。 本稿では,この手法が複雑に絡み合った問題を管理可能な部分問題に分解し,問題解決へのステップバイステップの詳細なアプローチを促進する方法を示す。 この手法はトークン効率の点で特に有利であることが証明され、問題解決シナリオにおける公平な比較を提供する。 さらに,Meta Promptingをマルチモーダル基礎モデル設定に拡張することで,新たな基盤を壊す。 この拡張は、画像、オーディオ、ビデオといった多様なデータ型をメタプロンプトの構造化フレームワークに統合し、複雑で多面的なデータを扱う際のこのアプローチの課題と大きな可能性の両方を強調している(コードはhttps://github.com/meta-prompting/meta-promptingで利用可能)。

This paper presents an in-depth exploration of Meta Prompting, a novel technique that revolutionizes the way large language models (LLMs), multi-modal foundation models, and AI systems approach problem-solving and data interpretation. Meta Prompting, rooted in type theory and category theory, prioritizes the structure and syntax of information, providing a unique framework that transcends traditional content-focused methods. We delve into the formal definitions of Meta Prompting, contrasting it with Few-Shot Prompting, and highlight its applicability and superiority in various AI applications. Key to this exploration is the expansion of Meta Prompting into the realm of complex reasoning. Here, we demonstrate how this technique adeptly breaks down intricate problems into manageable sub-problems, facilitating a step-by-step, detailed approach to problem-solving. This method proves especially advantageous in terms of token efficiency and offering a fair comparison in problem-solving scenarios, standing out against few-shot example approaches. Furthermore, the paper breaks new ground by extending Meta Prompting into multi-modal foundation model settings. This extension addresses the integration of diverse data types, such as images, audio, and video, within the structured framework of Meta Prompting, highlighting both the challenges and the vast potential of this approach in handling complex, multi-faceted data (The code is available at https://github.com/meta-prompting/meta-prompting).
翻訳日:2023-11-21 20:04:48 公開日:2023-11-20
# 左にあるものは正しくない -- 対照的な視覚言語モデルの残りの位置的非能力

What's left can't be right -- The remaining positional incompetence of contrastive vision-language models ( http://arxiv.org/abs/2311.11477v1 )

ライセンス: Link先を確認
Nils Hoehing, Ellen Rushe, Anthony Ventresque(参考訳) CLIPのような対照的な視覚言語モデルは、空間的理解能力に欠けていた。 本稿では,この現象の原因を,データセットと埋め込み空間の両方を分析して考察する。 単純な左-右の位置関係に着目して,大規模なデータセットであっても,この挙動が完全に予測可能であることを示し,これらの関係を合成データを用いて学習できることを示し,このアプローチが自然画像にうまく一般化できることを示し,視覚ゲノム関係における左-右関係の性能を向上させる。

Contrastive vision-language models like CLIP have been found to lack spatial understanding capabilities. In this paper we discuss the possible causes of this phenomenon by analysing both datasets and embedding space. By focusing on simple left-right positional relations, we show that this behaviour is entirely predictable, even with large-scale datasets, demonstrate that these relations can be taught using synthetic data and show that this approach can generalise well to natural images - improving the performance on left-right relations on Visual Genome Relations.
翻訳日:2023-11-21 20:04:18 公開日:2023-11-20
# デジタル化ランドスケープにおける送金管理の強化:財務取引の予測能力を用いたリアルタイムデータ駆動意思決定支援

Empowering remittance management in the digitised landscape: A real-time Data-Driven Decision Support with predictive abilities for financial transactions ( http://arxiv.org/abs/2311.11476v1 )

ライセンス: Link先を確認
Rashikala Weerawarna and Shah J Miah(参考訳) ブロックチェーン技術(bt)の出現は、送金トランザクションの記録方法に革命をもたらした。 銀行や送金組織は、従来のプラクティスよりもブロックチェーンの潜在的なメリットを探求することに関心を示している。 本稿では,ブロックチェーン指向の送金業界向けに設計された革新的成果物として,データ駆動予測的意思決定支援手法を提案する。 理論生成型デザインサイエンスリサーチ(DSR)アプローチを用いて,トランザクションビッグデータによる予測能力の出現を明らかにした。 このアーティファクトは予測分析と機械学習(ML)を統合して、リアルタイムのリミタンス監視を可能にし、ブロックチェーン指向のリミタンス企業の不確実なデジタル化された状況において、マネジメントの意思決定者が課題に対処できるようにする。 理論と実践のギャップを埋めることで、この研究は伝達エコシステムのセキュリティを高めるだけでなく、将来の予測的意思決定支援ソリューションの基礎を築き、予測分析の可能性を他の領域に広げる。 さらに、アーティファクトの実装から生成された理論はDSRアプローチを豊かにし、情報システム領域における基盤的およびステークホルダー理論の発展を促進する。

The advent of Blockchain technology (BT) revolutionised the way remittance transactions are recorded. Banks and remittance organisations have shown a growing interest in exploring blockchain's potential advantages over traditional practices. This paper presents a data-driven predictive decision support approach as an innovative artefact designed for the blockchain-oriented remittance industry. Employing a theory-generating Design Science Research (DSR) approach, we have uncovered the emergence of predictive capabilities driven by transactional big data. The artefact integrates predictive analytics and Machine Learning (ML) to enable real-time remittance monitoring, empowering management decision-makers to address challenges in the uncertain digitised landscape of blockchain-oriented remittance companies. Bridging the gap between theory and practice, this research not only enhances the security of the remittance ecosystem but also lays the foundation for future predictive decision support solutions, extending the potential of predictive analytics to other domains. Additionally, the generated theory from the artifact's implementation enriches the DSR approach and fosters grounded and stakeholder theory development in the information systems domain.
翻訳日:2023-11-21 20:04:08 公開日:2023-11-20
# 高次元非線形パラボラ部分微分方程式に対するディープジェネティックアルゴリズム(ディープGA)アプローチ

A Deep-Genetic Algorithm (Deep-GA) Approach for High-Dimensional Nonlinear Parabolic Partial Differential Equations ( http://arxiv.org/abs/2311.11558v1 )

ライセンス: Link先を確認
Endah Rokhmati Merdika Putri, Muhammad Luthfi Shahab, Mohammad Iqbal, Imam Mukhlash, Amirul Hakam, Lutfi Mardianto, Hadi Susanto(参考訳) 本研究では,高次元偏微分方程式の解法であるdeep-bsde法(deep-bsde method)の性能を,それに対応する逆確率微分方程式(bsdes)を用いて高速化する,deep-genetic algorithm(deep-ga)と呼ばれる新しい手法を提案する。 初期推定選択に対する解の感度を認識し、遺伝的アルゴリズム(GA)を解法に組み込んで選択を最適化する。 我々は、ディープBSDEよりも広い間隔で非線形PDEの高速収束を実現することを目指している。 提案手法は、2つの非線形放物型PDE、すなわちデフォルトリスクを持つブラック・スコルズ(BS)方程式とハミルトン・ヤコビ・ベルマン(HJB)方程式に適用する。 提案手法と深部BSDEの結果を比較し,提案手法が計算効率を著しく向上させ,比較精度が向上したことを示す。

We propose a new method, called a deep-genetic algorithm (deep-GA), to accelerate the performance of the so-called deep-BSDE method, which is a deep learning algorithm to solve high dimensional partial differential equations through their corresponding backward stochastic differential equations (BSDEs). Recognizing the sensitivity of the solver to the initial guess selection, we embed a genetic algorithm (GA) into the solver to optimize the selection. We aim to achieve faster convergence for the nonlinear PDEs on a broader interval than deep-BSDE. Our proposed method is applied to two nonlinear parabolic PDEs, i.e., the Black-Scholes (BS) equation with default risk and the Hamilton-Jacobi-Bellman (HJB) equation. We compare the results of our method with those of the deep-BSDE and show that our method provides comparable accuracy with significantly improved computational efficiency.
翻訳日:2023-11-21 19:57:40 公開日:2023-11-20
# リプレイエンハンス型連続強化学習

Replay-enhanced Continual Reinforcement Learning ( http://arxiv.org/abs/2311.11557v1 )

ライセンス: Link先を確認
Tiantian Zhang, Kevin Zehua Shen, Zichuan Lin, Bo Yuan, Xueqian Wang, Xiu Li, Deheng Ye(参考訳) 過去の経験を再現することは、教師付き連続学習における破滅的な忘れを回避できる非常に効果的なアプローチであることが証明されている。 しかしながら、いくつかの重要な要因は依然として無視されており、現在のタスクで以前のタスクのすべてのデータがアクセス可能な完全なメモリであっても、継続的な強化学習を忘れる解決策として使用される場合、深刻な障害に対して脆弱である。 一方、ほとんどの強化学習アルゴリズムは報酬尺度に不変ではないため、以前十分に学習されたタスク(高い報酬)は、現在のタスクよりも現在の学習プロセスに有益であるように思える(初期報酬は小さい)。 これにより、エージェントは、現在のタスクの一般性を犠牲にして、これらの健全なタスクに集中する。 一方、新しいタスクを学習しながらリプレイされたタスクのオフライン学習は、データセットと古いタスクの学習ポリシーの間の分散シフトを誘発し、忘れてしまう可能性がある。 本稿では,新しい課題に対する既存のリプレイベース手法の可塑性を大幅に向上させ,連続的強化学習における壊滅的忘れの再発を効果的に回避するリコール手法を提案する。 RECALLは、近似目標の適応正規化と古いタスクのポリシー蒸留を利用して、それぞれ一般化と安定性を高める。 Continual Worldベンチマークの大規模な実験により、RECALLは純粋に完全なメモリリプレイよりもはるかに優れたパフォーマンスを示し、最先端の継続的学習手法に対して同等またはより優れた全体的なパフォーマンスを実現している。

Replaying past experiences has proven to be a highly effective approach for averting catastrophic forgetting in supervised continual learning. However, some crucial factors are still largely ignored, making it vulnerable to serious failure, when used as a solution to forgetting in continual reinforcement learning, even in the context of perfect memory where all data of previous tasks are accessible in the current task. On the one hand, since most reinforcement learning algorithms are not invariant to the reward scale, the previously well-learned tasks (with high rewards) may appear to be more salient to the current learning process than the current task (with small initial rewards). This causes the agent to concentrate on those salient tasks at the expense of generality on the current task. On the other hand, offline learning on replayed tasks while learning a new task may induce a distributional shift between the dataset and the learned policy on old tasks, resulting in forgetting. In this paper, we introduce RECALL, a replay-enhanced method that greatly improves the plasticity of existing replay-based methods on new tasks while effectively avoiding the recurrence of catastrophic forgetting in continual reinforcement learning. RECALL leverages adaptive normalization on approximate targets and policy distillation on old tasks to enhance generality and stability, respectively. Extensive experiments on the Continual World benchmark show that RECALL performs significantly better than purely perfect memory replay, and achieves comparable or better overall performance against state-of-the-art continual learning methods.
翻訳日:2023-11-21 19:57:14 公開日:2023-11-20
# NePF: 単段逆レンダリングのためのニューラル光子場

NePF: Neural Photon Field for Single-Stage Inverse Rendering ( http://arxiv.org/abs/2311.11555v1 )

ライセンス: Link先を確認
Tuen-Yue Tsui and Qin Zou(参考訳) 本稿では,多視点画像からの逆レンダリングに対処するために,新しい一段階フレームワークneural photon field (nepf)を提案する。 複数段階の形状, 材料, 照明を復元し, 様々な多層パーセプトロンから様々な特性を抽出する従来の手法とは対照的に, このような複雑さに疑問を呈し, 全特性を均一に回復する単一段階の枠組みである本手法を導入する。 NePFは、神経暗黙表面の重み関数とビュー依存放射率の背後にある物理的含意を完全に活用することで、この統一を実現する。 さらに,高速な物理レンダリングを実現するための,革新的な座標ベースの照明モデルを提案する。 この照明を正規化するために,拡散推定のための地下散乱モデルを実装した。 本手法を実データと合成データの両方で評価する。 その結果,高忠実度形状と視認性材料特性の回復におけるアプローチの優位性を示した。

We present a novel single-stage framework, Neural Photon Field (NePF), to address the ill-posed inverse rendering from multi-view images. Contrary to previous methods that recover the geometry, material, and illumination in multiple stages and extract the properties from various multi-layer perceptrons across different neural fields, we question such complexities and introduce our method - a single-stage framework that uniformly recovers all properties. NePF achieves this unification by fully utilizing the physical implication behind the weight function of neural implicit surfaces and the view-dependent radiance. Moreover, we introduce an innovative coordinate-based illumination model for rapid volume physically-based rendering. To regularize this illumination, we implement the subsurface scattering model for diffuse estimation. We evaluate our method on both real and synthetic datasets. The results demonstrate the superiority of our approach in recovering high-fidelity geometry and visual-plausible material attributes.
翻訳日:2023-11-21 19:56:30 公開日:2023-11-20
# 説明可能なメトリクスとしての大規模言語モデルの提案

Exploring Prompting Large Language Models as Explainable Metrics ( http://arxiv.org/abs/2311.11552v1 )

ライセンス: Link先を確認
Ghazaleh Mahmoudi(参考訳) 本稿では,IUST NLP Lab が提案した Prompting Large Language Models as Explainable Metrics Shared Task at the Eval4NLP 2023 Workshop on Evaluation & Comparison of NLP Systemsについて述べる。 我々は,Large Language Models (LLMs) を用いた要約タスクの説明可能な評価のためのゼロショットプロンプトベースの戦略を提案する。 本実験は,自然言語処理(NLP)における評価指標として,特に要約分野におけるLLMの有望な可能性を示すものである。 これらの実験では、少数ショットとゼロショットの両方のアプローチが採用されている。 得られた最良プロンプトの性能は、テストデータ上のテキスト要約タスクにおける人間の評価と、0.477のKendall相関を達成した。 コードと結果はgithubで公開されている。

This paper describes the IUST NLP Lab submission to the Prompting Large Language Models as Explainable Metrics Shared Task at the Eval4NLP 2023 Workshop on Evaluation & Comparison of NLP Systems. We have proposed a zero-shot prompt-based strategy for explainable evaluation of the summarization task using Large Language Models (LLMs). The conducted experiments demonstrate the promising potential of LLMs as evaluation metrics in Natural Language Processing (NLP), particularly in the field of summarization. Both few-shot and zero-shot approaches are employed in these experiments. The performance of our best provided prompts achieved a Kendall correlation of 0.477 with human evaluations in the text summarization task on the test data. Code and results are publicly available on GitHub.
翻訳日:2023-11-21 19:56:03 公開日:2023-11-20
# コンテキスト適応: コンテキスト内学習によるドメイン適応の検索

Adapt in Contexts: Retrieval-Augmented Domain Adaptation via In-Context Learning ( http://arxiv.org/abs/2311.11551v1 )

ライセンス: Link先を確認
Quanyu Long, Wenya Wang and Sinno Jialin Pan(参考訳) 大規模言語モデル(llms)では、コンテキスト内学習として知られる、ごくわずかな推論でその能力を示す。 しかし、ドメイン内デモは実際のシナリオで容易に利用できないため、ドメイン間のコンテキスト内学習につながる。 さらに、llmは、未知のドメインや未知のドメインにおけるロングテール知識の課題に直面している。 上記の制限は、Unsupervised Domain Adaptation (UDA)の必要性を示している。 本稿では,UDA問題を文脈内学習環境下で研究し,ソースドメインからターゲットドメインへの言語モデルの適用を,ターゲットラベルを使わずに行う。 中心となるアイデアは、クエリに最も近いクロスドメイン要素のサブセットを検索し、拡張されたクロスドメインインコンテキスト例と並行して、ターゲットドメイン分布と判別タスク信号の両方を学習することで、インコンテキストに適応するように言語モデルを導出することである。 我々は、異なるプロンプトとトレーニング戦略を考案し、異なるlmアーキテクチャを考慮し、言語モデリングを通してターゲットディストリビューションを学ぶ。 感性分析(SA)と名前付きエンティティ認識(NER)タスクに関する広範な実験により、ドメイン転送におけるICLの有効性を徹底的に研究し、ベースラインモデルよりも大幅に改善されたことを示す。

Large language models (LLMs) have showcased their capability with few-shot inference known as in-context learning. However, in-domain demonstrations are not always readily available in real scenarios, leading to cross-domain in-context learning. Besides, LLMs are still facing challenges in long-tail knowledge in unseen and unfamiliar domains. The above limitations demonstrate the necessity of Unsupervised Domain Adaptation (UDA). In this paper, we study the UDA problem under an in-context learning setting to adapt language models from the source domain to the target domain without any target labels. The core idea is to retrieve a subset of cross-domain elements that are the most similar to the query, and elicit language model to adapt in an in-context manner by learning both target domain distribution and the discriminative task signal simultaneously with the augmented cross-domain in-context examples. We devise different prompting and training strategies, accounting for different LM architectures to learn the target distribution via language modeling. With extensive experiments on Sentiment Analysis (SA) and Named Entity Recognition (NER) tasks, we thoroughly study the effectiveness of ICL for domain transfer and demonstrate significant improvements over baseline models.
翻訳日:2023-11-21 19:55:44 公開日:2023-11-20
# 一般的なディープフェイク検出の不整合性

Unearthing Common Inconsistency for Generalisable Deepfake Detection ( http://arxiv.org/abs/2311.11549v1 )

ライセンス: Link先を確認
Beilin Chu, Xuan Xu, Weike You and Linna Zhou(参考訳) deepfakeは数年前から登場しているが、効率的な検出技術は様々な操作方法を一般化し、さらなる研究を必要とする可能性がある。 現在の画像レベル検出法は、ディープフェイクテクスチャに対するcnnの強い帰納的バイアスによって引き起こされるドメインシフト現象により、未認識領域への一般化に失敗するが、ビデオレベル検出は、複数の領域にまたがる一般化と圧縮に対する堅牢性の両方を持つ可能性を示している。 我々は、異なる顔操作ツールは固有のバイアスが異なるが、それらはいずれもフレーム間の一貫性を損なうと論じている。 そこで本研究では,異なる偽造技術に広く存在するフレーム不整合を捉えた検出手法を提案し,uci(unearthing-common-inconsistency)と呼ぶ。 具体的には、自己教師付きコントラスト学習に基づくUCIネットワークは、実と偽のビデオ間の時間的一貫性をよりよく区別することができる。 時間保存モジュール法を導入し,空間雑音の摂動を導入し,時間情報に注意を向けた。 その後、多視点相互相関学習モジュールを活用し、真偽サンプル間の時間的表現の相違を広範囲に学習する。 広範囲にわたる実験により,本手法のディープフェイク領域における一般化能力が実証された。

Deepfake has emerged for several years, yet efficient detection techniques could generalize over different manipulation methods require further research. While current image-level detection method fails to generalize to unseen domains, owing to the domain-shift phenomenon brought by CNN's strong inductive bias towards Deepfake texture, video-level one shows its potential to have both generalization across multiple domains and robustness to compression. We argue that although distinct face manipulation tools have different inherent bias, they all disrupt the consistency between frames, which is a natural characteristic shared by authentic videos. Inspired by this, we proposed a detection approach by capturing frame inconsistency that broadly exists in different forgery techniques, termed unearthing-common-inconsistency (UCI). Concretely, the UCI network based on self-supervised contrastive learning can better distinguish temporal consistency between real and fake videos from multiple domains. We introduced a temporally-preserved module method to introduce spatial noise perturbations, directing the model's attention towards temporal information. Subsequently, leveraging a multi-view cross-correlation learning module, we extensively learn the disparities in temporal representations between genuine and fake samples. Extensive experiments demonstrate the generalization ability of our method on unseen Deepfake domains.
翻訳日:2023-11-21 19:55:00 公開日:2023-11-20
# 要求を分類する上で、どのAIテクニックが優れているか? SVM、LSTM、ChatGPTによる実験

Which AI Technique Is Better to Classify Requirements? An Experiment with SVM, LSTM, and ChatGPT ( http://arxiv.org/abs/2311.11547v1 )

ライセンス: Link先を確認
Abdelkarim El-Hajjami, Nicolas Fafin, Camille Salinesi(参考訳) コンテキストとモチベーション:近年、ChatGPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な熟練性を示している。 特に要件分類におけるRequireements Engineering (RE) の応用は、ますます関心を集めている。 質問:本研究では,要求分類のためのゼロショットと少数ショットの両方の設定において,テキストダヴィンチ003,gpt-3.5-turbo,gpt-4を含むChatGPTモデルの広範な評価を行った。 問題は、これらのモデルが従来の分類方法、特にベクターマシン(svm)とlstm(long short-term memory)をどのように比較するかである。 主な考え/言い換え: この結果から、ChatGPTはLSTMを一貫して上回り、ChatGPTは機能要件(FR)の分類においてSVMよりも効果的であるのに対し、SVMは非機能要件(NFR)の分類において優れていることを示す。 私たちの結果は、期待に反して、わずかなショット設定が必ずしもパフォーマンスの向上につながるとは限らないことも示しています。 コントリビューション: 私たちの発見は、REドメインにおけるLLMの可能性を強調し、将来のソフトウェアエンジニアリングプロセス、特に要求分類を強化するツールにおいて、それらが重要な役割を果たす可能性があることを示唆しています。

Context and motivation: Recently, Large Language Models (LLMs) like ChatGPT have demonstrated remarkable proficiency in various Natural Language Processing (NLP) tasks. Their application in Requirements Engineering (RE), especially in requirements classification, has gained increasing interest. Question/problem: In our research, we conducted an extensive empirical evaluation of ChatGPT models including text-davinci-003, gpt-3.5-turbo, and gpt-4 in both zero-shot and few-shot settings for requirements classification. The question arises as to how these models compare to traditional classification methods, specifically Support Vector Machine (SVM) and Long Short-Term Memory (LSTM). Principal ideas/results: Based on five diverse datasets, our results show that ChatGPT consistently outperforms LSTM, and while ChatGPT is more effective than SVM in classifying functional requirements (FR), SVM is better in classifying non-functional requirements (NFR). Our results also show that contrary to our expectations, the few-shot setting does not always lead to enhanced performance; in most instances, it was found to be suboptimal. Contribution: Our findings underscore the potential of LLMs in the RE domain, suggesting that they could play a pivotal role in future software engineering processes, particularly as tools to enhance requirements classification.
翻訳日:2023-11-21 19:54:31 公開日:2023-11-20
# 殺虫攻撃に対するサブポピュレーション感受性の変動の理解

Understanding Variation in Subpopulation Susceptibility to Poisoning Attacks ( http://arxiv.org/abs/2311.11544v1 )

ライセンス: Link先を確認
Evan Rose, Fnu Suya, David Evans(参考訳) 機械学習は、攻撃者がトレーニングデータのごく一部を制御し、訓練されたモデルでモデル開発者が意図しない振る舞いを誘発する目的でそのデータを選択する中毒攻撃の影響を受けやすい。 限られた数のデータポイントを挿入する能力を持つ敵が、特定のサブポピュレーションにおけるモデルの振る舞いを制御しようとする現実的な設定を考える。 異なる亜集団に対するランダムラベルフリッピング攻撃の無作為な有効性に関するこれまでの観察に触発され, 異なる亜集団に対する最先端の中毒攻撃の効果に影響を与える特性について検討した。 2次元の合成データセットのファミリーでは、データセット分離性は、より分離性の低いデータセットに対するサブポピュレーション脆弱性において支配的な役割を果たすことを実証的に見出した。 しかし、よく分離されたデータセットは個々のサブポピュレーション特性に依存している。 さらに, クリーンなデータ集合と, サブ集団を誤分類するターゲットモデルとの損失差によって, 重要なサブ集団特性が捉えられ, 損失差が小さい場合には, サブ集団が攻撃しやすいことを見出した。 この特性は、高次元ベンチマークデータセットにも一般化される。 アダルトベンチマークデータセットでは,選択されたサブ集団の感受性に関連する意味論的に意味的なサブポピュレーション特性を見出すことができる。 この論文の成果は、https://uvasrg.github.io/visualizing-poisoningで発見されたサブポピュレーション中毒攻撃の、完全にインタラクティブなwebベースの可視化を伴う。

Machine learning is susceptible to poisoning attacks, in which an attacker controls a small fraction of the training data and chooses that data with the goal of inducing some behavior unintended by the model developer in the trained model. We consider a realistic setting in which the adversary with the ability to insert a limited number of data points attempts to control the model's behavior on a specific subpopulation. Inspired by previous observations on disparate effectiveness of random label-flipping attacks on different subpopulations, we investigate the properties that can impact the effectiveness of state-of-the-art poisoning attacks against different subpopulations. For a family of 2-dimensional synthetic datasets, we empirically find that dataset separability plays a dominant role in subpopulation vulnerability for less separable datasets. However, well-separated datasets exhibit more dependence on individual subpopulation properties. We further discover that a crucial subpopulation property is captured by the difference in loss on the clean dataset between the clean model and a target model that misclassifies the subpopulation, and a subpopulation is much easier to attack if the loss difference is small. This property also generalizes to high-dimensional benchmark datasets. For the Adult benchmark dataset, we show that we can find semantically-meaningful subpopulation properties that are related to the susceptibilities of a selected group of subpopulations. The results in this paper are accompanied by a fully interactive web-based visualization of subpopulation poisoning attacks found at https://uvasrg.github.io/visualizing-poisoning
翻訳日:2023-11-21 19:53:53 公開日:2023-11-20
# データ駆動型プロジェクトプランニング:スケジューリングに有利な統合型ネットワーク学習と制約緩和アプローチ

Data-driven project planning: An integrated network learning and constraint relaxation approach in favor of scheduling ( http://arxiv.org/abs/2311.11542v1 )

ライセンス: Link先を確認
Izack Cohen(参考訳) 私たちの焦点はプロジェクト、すなわちビジネスプロセスであり、それは私たちの時代の経済の原動力として現れています。 詳細な計画を必要としない日々の運用プロセスとは異なり、プロジェクトは、サブまたは関連するプロジェクトや組織間でリソースを調整するための計画とリソース制約付きスケジューリングを必要とする。 プロジェクト計画を担当するプランナーは、実行すべきアクティビティのセットを選択し、優先順位の制約を決定し、一時的なプロジェクト制約に従ってスケジュールする必要があります。 インフラ構築プロジェクトや情報システム開発プロジェクトといったプロジェクトのクラスに対して,データ駆動型プロジェクト計画手法を提案する。 プロジェクトネットワークは、まず歴史記録から学習される。 このネットワークは個々のプロジェクトに組み込まれた時間的制約を緩和し、計画とスケジューリングの柔軟性を活用できる場所を明らかにする。 そして、選択しなければならない複数のプロジェクト計画変動を含むネットワークを、決定ルールと頻繁な経路を識別することによって強化する。 プランナーはプロジェクトネットワークに依存することができます。 1)新しいプロジェクト計画を形成するように,プロジェクトのバリエーションをデコードすること,及び 2) 資源制約のあるプロジェクトスケジューリング手順を適用してプロジェクトのスケジュールとリソース割り当てを決定する。 2つの実世界のプロジェクトデータセットを使用して、提案手法がプランナーにプロジェクト計画とスケジュールを調整するための大きな柔軟性(実際のプロジェクトのクリティカルパスを最大26%削減する)を提供する可能性があることを示します。 我々は,提案手法が,自動データ駆動プロジェクト計画に向けた意思決定を支援する上で重要な役割を果たすと考えている。

Our focus is on projects, i.e., business processes, which are emerging as the economic drivers of our times. Differently from day-to-day operational processes that do not require detailed planning, a project requires planning and resource-constrained scheduling for coordinating resources across sub- or related projects and organizations. A planner in charge of project planning has to select a set of activities to perform, determine their precedence constraints, and schedule them according to temporal project constraints. We suggest a data-driven project planning approach for classes of projects such as infrastructure building and information systems development projects. A project network is first learned from historical records. The discovered network relaxes temporal constraints embedded in individual projects, thus uncovering where planning and scheduling flexibility can be exploited for greater benefit. Then, the network, which contains multiple project plan variations, from which one has to be selected, is enriched by identifying decision rules and frequent paths. The planner can rely on the project network for: 1) decoding a project variation such that it forms a new project plan, and 2) applying resource-constrained project scheduling procedures to determine the project's schedule and resource allocation. Using two real-world project datasets, we show that the suggested approach may provide the planner with significant flexibility (up to a 26% reduction of the critical path of a real project) to adjust the project plan and schedule. We believe that the proposed approach can play an important part in supporting decision making towards automated data-driven project planning.
翻訳日:2023-11-21 19:53:27 公開日:2023-11-20
# 射影技術とコサイン類似度尺度に基づく直観的ファジィ意思決定への新しいアプローチ

A New Approach to Intuitionistic Fuzzy Decision Making Based on Projection Technology and Cosine Similarity Measure ( http://arxiv.org/abs/2311.11539v1 )

ライセンス: Link先を確認
Jing Yang, Wei Su(参考訳) マルチ属性意思決定(MADM)問題に対して、異なる属性の代替案の情報は直観的ファジィ数(IFN)の形で与えられる。 直観的ファジィ集合(IFS)は不確定情報や不完全情報を扱う上で重要な役割を果たしている。 直観的ファジィ集合(IFS)の類似度尺度は、常に研究ホットスポットである。 IFSの方向と長さを同時に考える投影技術とコサイン類似度に基づく新しいISFの類似度尺度が本論文で最初に提案される。 本研究の目的は, プロジェクション技術とコサイン類似度測定を用いて, IFS下でのMADM法と診断法を開発することである。 提案手法と既存手法の比較結果を示す例として,いくつかの例を挙げる。 比較の結果,提案アルゴリズムは有効であり,最適スキームを正確に同定できることがわかった。 医療診断領域では、疾患の早期診断に使用できる。 提案手法は既存の類似度測定法を充実させ,IFSだけでなく,他の区間値の直観的ファジィ集合(IVIFS)にも適用可能である。

For a multi-attribute decision making (MADM) problem, the information of alternatives under different attributes is given in the form of intuitionistic fuzzy number(IFN). Intuitionistic fuzzy set (IFS) plays an important role in dealing with un-certain and incomplete information. The similarity measure of intuitionistic fuzzy sets (IFSs) has always been a research hotspot. A new similarity measure of IFSs based on the projection technology and cosine similarity measure, which con-siders the direction and length of IFSs at the same time, is first proposed in this paper. The objective of the presented pa-per is to develop a MADM method and medical diagnosis method under IFS using the projection technology and cosine similarity measure. Some examples are used to illustrate the comparison results of the proposed algorithm and some exist-ing methods. The comparison result shows that the proposed algorithm is effective and can identify the optimal scheme accurately. In medical diagnosis area, it can be used to quickly diagnose disease. The proposed method enriches the exist-ing similarity measure methods and it can be applied to not only IFSs, but also other interval-valued intuitionistic fuzzy sets(IVIFSs) as well.
翻訳日:2023-11-21 19:53:05 公開日:2023-11-20
# 200以上のカスタムGPTにおけるプロンプト注入リスクの評価

Assessing Prompt Injection Risks in 200+ Custom GPTs ( http://arxiv.org/abs/2311.11538v1 )

ライセンス: Link先を確認
Jiahao Yu, Yuhang Wu, Dong Shu, Mingyu Jin, Xinyu Xing(参考訳) 人工知能の急速な発展の中で、ChatGPTは様々な用途で広く利用されている。 新機能: 特定のニーズに対応するためにユーザがChatGPTモデルをカスタマイズすることで、AIユーティリティの新たなフロンティアが開かれた。 しかし,本研究では,これらのユーザカスタマイズGPTに固有の重大なセキュリティ脆弱性が明らかとなった。 ユーザ設計した200以上のGPTモデルの総合的なテストを通じて,これらのシステムがインジェクションの促進につながることを実証した。 プロンプトインジェクションによって、相手はカスタマイズされたシステムプロンプトを抽出できるだけでなく、アップロードされたファイルにもアクセスできる。 本稿では,これらの攻撃の軽減の可能性を評価するとともに,プロンプトインジェクションの直接解析を行う。 当社の調査結果は、カスタマイズ可能なgptモデルの設計とデプロイにおいて、堅牢なセキュリティフレームワークの必要性を浮き彫りにしている。 本論文の目的は,GPTカスタマイズのメリットがセキュリティとプライバシの侵害の犠牲にならないように,AIコミュニティにおける意識を高め,行動を促すことである。

In the rapidly evolving landscape of artificial intelligence, ChatGPT has been widely used in various applications. The new feature: customization of ChatGPT models by users to cater to specific needs has opened new frontiers in AI utility. However, this study reveals a significant security vulnerability inherent in these user-customized GPTs: prompt injection attacks. Through comprehensive testing of over 200 user-designed GPT models via adversarial prompts, we demonstrate that these systems are susceptible to prompt injections. Through prompt injection, an adversary can not only extract the customized system prompts but also access the uploaded files. This paper provides a first-hand analysis of the prompt injection, alongside the evaluation of the possible mitigation of such attacks. Our findings underscore the urgent need for robust security frameworks in the design and deployment of customizable GPT models. The intent of this paper is to raise awareness and prompt action in the AI community, ensuring that the benefits of GPT customization do not come at the cost of compromised security and privacy.
翻訳日:2023-11-21 19:52:44 公開日:2023-11-20
# ADAPTER-RL:強化学習を用いた任意のエージェントの適応

ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning ( http://arxiv.org/abs/2311.11537v1 )

ライセンス: Link先を確認
Yizhao Jin, Greg Slabaugh, Simon Lucas(参考訳) 深層強化学習(DRL)エージェントは、過度な適合、破滅的な忘れ込み、サンプルの非効率といった問題を含む、トレーニングディストリビューション外のタスクに適応する際の課題にしばしば直面する。 アダプタの応用は自然言語処理やコンピュータビジョンといった教師あり学習の文脈において有効であることが証明されているが、DRL領域におけるその潜在能力は未解明のままである。 本稿では,強化学習におけるアダプタの統合について考察し,nanorts環境における学習効率の向上とベースエージェントの改善を実証する,リアルタイム戦略(rts)ゲームシミュレーションの革新的適応戦略を提案する。 提案するユニバーサルアプローチは、事前訓練されたニューラルネットワークだけでなく、ルールベースのエージェントとも互換性があり、人間の専門知識を統合する手段を提供する。

Deep Reinforcement Learning (DRL) agents frequently face challenges in adapting to tasks outside their training distribution, including issues with over-fitting, catastrophic forgetting and sample inefficiency. Although the application of adapters has proven effective in supervised learning contexts such as natural language processing and computer vision, their potential within the DRL domain remains largely unexplored. This paper delves into the integration of adapters in reinforcement learning, presenting an innovative adaptation strategy that demonstrates enhanced training efficiency and improvement of the base-agent, experimentally in the nanoRTS environment, a real-time strategy (RTS) game simulation. Our proposed universal approach is not only compatible with pre-trained neural networks but also with rule-based agents, offering a means to integrate human expertise.
翻訳日:2023-11-21 19:52:28 公開日:2023-11-20
# Event Camera Data Dense 事前トレーニング

Event Camera Data Dense Pre-training ( http://arxiv.org/abs/2311.11533v1 )

ライセンス: Link先を確認
Yan Yang, Liyuan Pan, Liu Liu(参考訳) 本稿では,イベントカメラデータを用いた高密度予測タスクに適応したニューラルネットワークを事前学習するための自己教師付き学習フレームワークを提案する。 当社のアプローチは、トレーニングにイベントデータのみを使用する。 イベントカメラデータへの高密度RGB事前トレーニングによる成果の転送は、サブパーパフォーマンスをもたらす。 これは、多くのピクセルが情報を含まないイベント画像(イベントデータから変換された)に固有の空間的スパーシティに起因する。 このスパーシティの問題を軽減するために、イベントイメージをイベントパッチ機能にエンコードし、パッチ間のコンテキスト的類似性を自動的にマイニングし、パッチ機能を特徴的なコンテキストにグループ化し、コンテキスト間類似性を強制して識別可能なイベント機能を学ぶ。 フレームワークをトレーニングするために、さまざまなシーンとモーションパターンを備えた合成イベントカメラデータセットをキュレーションします。 下流密集予測タスクにおける転送学習性能は,最先端手法よりも優れた手法であることを示す。 特に、我々の単一のモデルは、挑戦的なDSEC-Flowベンチマークでトップの地位を確保しました。

This paper introduces a self-supervised learning framework designed for pre-training neural networks tailored to dense prediction tasks using event camera data. Our approach utilizes solely event data for training. Transferring achievements from dense RGB pre-training directly to event camera data yields subpar performance. This is attributed to the spatial sparsity inherent in an event image (converted from event data), where many pixels do not contain information. To mitigate this sparsity issue, we encode an event image into event patch features, automatically mine contextual similarity relationships among patches, group the patch features into distinctive contexts, and enforce context-to-context similarities to learn discriminative event features. For training our framework, we curate a synthetic event camera dataset featuring diverse scene and motion patterns. Transfer learning performance on downstream dense prediction tasks illustrates the superiority of our method over state-of-the-art approaches. Notably, our single model secured the top position in the challenging DSEC-Flow benchmark.
翻訳日:2023-11-21 19:52:12 公開日:2023-11-20
# 勾配ヒストグラムによる適応確率最適化器の最適ハイパーパラメータ$\epsilon$

Optimal Hyperparameter $\epsilon$ for Adaptive Stochastic Optimizers through Gradient Histograms ( http://arxiv.org/abs/2311.11532v1 )

ライセンス: Link先を確認
Gustavo Silva, Paul Rodriguez(参考訳) 最適化は、ディープニューラルネットワークモデルのトレーニングに成功するための必須のコンポーネントである。 このようなモデルから最高の性能を得るには、設計者はオプティマイザハイパーパラメータを慎重に選択する必要がある。 しかし、これは計算コストが高く、時間がかかるプロセスである。 すべてのオプティマイザハイパーパラメータは最大パフォーマンスのためにチューニングされる必要があることは知られているが、適応オプティマイザ(特にアダムオプティマイザに基づくもの)において、保護係数$\epsilon$と運動量係数$\beta$を含む、マイナー優先度ハイパーパラメータの個々の影響については、まだ明確でない。 本稿では,勾配ヒストグラムに基づく新しいフレームワークを導入し,最適性能やハイパーパラメータ間の関係,依存関係など,適応最適化の重要な属性を分析し,正当化する。 さらに,セーフガードハイパーパラメータ$\epsilon$に対して,最適化された精度の高い探索空間を自動的に推定する,勾配ヒストグラムに基づく新しいアルゴリズムを提案する。

Optimizers are essential components for successfully training deep neural network models. In order to achieve the best performance from such models, designers need to carefully choose the optimizer hyperparameters. However, this can be a computationally expensive and time-consuming process. Although it is known that all optimizer hyperparameters must be tuned for maximum performance, there is still a lack of clarity regarding the individual influence of minor priority hyperparameters, including the safeguard factor $\epsilon$ and momentum factor $\beta$, in leading adaptive optimizers (specifically, those based on the Adam optimizers). In this manuscript, we introduce a new framework based on gradient histograms to analyze and justify important attributes of adaptive optimizers, such as their optimal performance and the relationships and dependencies among hyperparameters. Furthermore, we propose a novel gradient histogram-based algorithm that automatically estimates a reduced and accurate search space for the safeguard hyperparameter $\epsilon$, where the optimal value can be easily found.
翻訳日:2023-11-21 19:51:57 公開日:2023-11-20
# セマンティックセグメンテーションにおける一般カテゴリー発見

Generalized Category Discovery in Semantic Segmentation ( http://arxiv.org/abs/2311.11525v1 )

ライセンス: Link先を確認
Zhengyuan Peng, Qijian Tian, Jianqing Xu, Yizhang Jin, Xuequan Lu, Xin Tan, Yuan Xie, Lizhuang Ma(参考訳) 本稿では,セマンティックセグメンテーションにおける一般化カテゴリー発見 (Generalized Category Discovery in Semantic Segmentation, GCDSS) と呼ばれる,ラベル付き基底クラスの集合から事前知識を与えられたラベル付き画像のセグメンテーションを目的とした,新しいセグメンテーションについて検討する。 ラベルなし画像は、ベースクラスまたは新規クラスの画素を含む。 セマンティックセグメンテーションにおける新規カテゴリー発見(NCDSS)とは対照的に、ラベルのない画像に少なくとも1つの新しいクラスが存在するという前提条件はない。 さらに、画像全体を含むために、前景オブジェクトを超えてセグメンテーション範囲を広げる。 既存のNCDSS手法は前述の先行技術に依存しており、現実の状況において真に適用することは困難である。 本稿では,GCDSS課題をマスク分類の課題として再解釈する,単純かつ効果的なフレームワークを提案する。 さらに,マスク分類のためのベースライン手法を構築し,NeRG-MaskCA(Neighborhood Relations-Guided Mask Clustering Algorithm)を導入し,意味表現の断片化に対処する。 Cityscapesデータセットから派生したベンチマークデータセットであるCityscapes-GCDを確立し、GCDSSフレームワークを評価する。 本手法は,GCDSS問題の有効性と,未ラベル画像における新規なオブジェクトクラスの検出とセグメンテーションの可能性を示す。 我々のアプローチから生成された擬似ラベルを基底真理として活用し、他のモデルのトレーニングを監督し、新しいクラスをセグメント化できるようにする。 一般のカテゴリー発見におけるさらなる研究の道を開き、意味セグメンテーションとその応用の地平を広げる。 詳細はhttps://github.com/JethroPeng/GCDSSを参照してください。

This paper explores a novel setting called Generalized Category Discovery in Semantic Segmentation (GCDSS), aiming to segment unlabeled images given prior knowledge from a labeled set of base classes. The unlabeled images contain pixels of the base class or novel class. In contrast to Novel Category Discovery in Semantic Segmentation (NCDSS), there is no prerequisite for prior knowledge mandating the existence of at least one novel class in each unlabeled image. Besides, we broaden the segmentation scope beyond foreground objects to include the entire image. Existing NCDSS methods rely on the aforementioned priors, making them challenging to truly apply in real-world situations. We propose a straightforward yet effective framework that reinterprets the GCDSS challenge as a task of mask classification. Additionally, we construct a baseline method and introduce the Neighborhood Relations-Guided Mask Clustering Algorithm (NeRG-MaskCA) for mask categorization to address the fragmentation in semantic representation. A benchmark dataset, Cityscapes-GCD, derived from the Cityscapes dataset, is established to evaluate the GCDSS framework. Our method demonstrates the feasibility of the GCDSS problem and the potential for discovering and segmenting novel object classes in unlabeled images. We employ the generated pseudo-labels from our approach as ground truth to supervise the training of other models, thereby enabling them with the ability to segment novel classes. It paves the way for further research in generalized category discovery, broadening the horizons of semantic segmentation and its applications. For details, please visit https://github.com/JethroPeng/GCDSS
翻訳日:2023-11-21 19:51:35 公開日:2023-11-20
# 不完全点ラベルと限られた背景情報からの都市木被覆予測

Predicting urban tree cover from incomplete point labels and limited background information ( http://arxiv.org/abs/2311.11592v1 )

ライセンス: Link先を確認
Hui Zhang, Ankit Kariryaa, Venkanna Babu Guthula, Christian Igel, Stefan Oehmcke(参考訳) 都市内の樹木は都市マイクロ気候にとって重要であり、都市住民の身体的および精神的健康に寄与している。 その重要性にもかかわらず、しばしば市木に関する限られた情報しか得られない。 そこで本稿では,限られたデータセットとディープラーニングを用いた高解像度空中画像の都市木マッピング手法を提案する。 しかし、既存のアプローチは大規模かつ正確にラベル付けされたトレーニングデータセットに依存しており、入手が困難でコストがかかる。 しかし、しばしば騒がしく不完全なデータが利用可能であり、これらのデータセットが意図していたよりも難しいタスクを組み合わせることで解決することができる。 本稿では,道路沿いの都市の木々の正確な点ラベルと,オープンジオグラフィックデータベースからのクラウドソースアノテーションを組み合わせることで,リモートセンシング画像における都市木を特徴付ける手法について検討する。 そこで我々は,完全畳み込みニューラルネットワークを用いて,超高解像度空中画像のセマンティックセグメンテーションを行う。 主な課題は、セグメンテーションマップがわずかに注釈付きで不完全であることです。 公式およびクラウドソースのデータから得られるストリートツリーのポイントラベルの周りの小さな部分は、フォアグラウンドクラスとしてマークされている。 通りや建物などのクラウドソースアノテーションは、バックグラウンドクラスを定義します。 ツリーデータは不完全であるため、クラス混乱を避けるためにマスキングを導入する。 ドイツのハンブルクで行なわれた実験で、このシステムは木質の地図を作成でき、道路沿いの木に限らず、木質の地図を作成できることがわかった。 本手法を手作業でラベル付けした木上で評価し,オープンジオグラフィックデータベースを用いなければ性能が劇的に低下することを示した。

Trees inside cities are important for the urban microclimate, contributing positively to the physical and mental health of the urban dwellers. Despite their importance, often only limited information about city trees is available. Therefore in this paper, we propose a method for mapping urban trees in high-resolution aerial imagery using limited datasets and deep learning. Deep learning has become best-practice for this task, however, existing approaches rely on large and accurately labelled training datasets, which can be difficult and expensive to obtain. However, often noisy and incomplete data may be available that can be combined and utilized to solve more difficult tasks than those datasets were intended for. This paper studies how to combine accurate point labels of urban trees along streets with crowd-sourced annotations from an open geographic database to delineate city trees in remote sensing images, a task which is challenging even for humans. To that end, we perform semantic segmentation of very high resolution aerial imagery using a fully convolutional neural network. The main challenge is that our segmentation maps are sparsely annotated and incomplete. Small areas around the point labels of the street trees coming from official and crowd-sourced data are marked as foreground class. Crowd-sourced annotations of streets, buildings, etc. define the background class. Since the tree data is incomplete, we introduce a masking to avoid class confusion. Our experiments in Hamburg, Germany, showed that the system is able to produce tree cover maps, not limited to trees along streets, without providing tree delineations. We evaluated the method on manually labelled trees and show that performance drastically deteriorates if the open geographic database is not used.
翻訳日:2023-11-21 19:44:30 公開日:2023-11-20
# DesignGPT:デザインにおけるマルチエージェントコラボレーション

DesignGPT: Multi-Agent Collaboration in Design ( http://arxiv.org/abs/2311.11591v1 )

ライセンス: Link先を確認
Shiying Ding, Xinyi Chen, Yan Fang, Wenrui Liu, Yiwu Qiu, Chunlei Chai(参考訳) ジェネレーティブAIは、インターフェースのユーザビリティやインタラクションパターンなど、製品設計ワークフローに入る際に多くの課題に直面します。 そこで我々は,デザイン思考とデザインプロセスに基づいて,人工知能エージェントを用いてデザイン会社におけるさまざまなポジションの役割をシミュレートし,人間設計者が自然言語で協力できるようにする,デザインGPT多エージェントコラボレーションフレームワークを開発した。 実験の結果、DesignGPTはAIツールを別々に比較して設計者のパフォーマンスを向上し、デザインドメイン知識を製品スキーマ設計に組み込むマルチエージェントシステムの適用の可能性を強調した。

Generative AI faces many challenges when entering the product design workflow, such as interface usability and interaction patterns. Therefore, based on design thinking and design process, we developed the DesignGPT multi-agent collaboration framework, which uses artificial intelligence agents to simulate the roles of different positions in the design company and allows human designers to collaborate with them in natural language. Experimental results show that compared with separate AI tools, DesignGPT improves the performance of designers, highlighting the potential of applying multi-agent systems that integrate design domain knowledge to product scheme design.
翻訳日:2023-11-21 19:44:03 公開日:2023-11-20
# 都市再生の促進:安定拡散モデルによる歴史的アーケードの自動生成

Advancing Urban Renewal: An Automated Approach to Generating Historical Arcade Facades with Stable Diffusion Models ( http://arxiv.org/abs/2311.11590v1 )

ライセンス: Link先を確認
Zheyuan Kuang, Jiaxin Zhang, Yiying Huang, Yunqin Li(参考訳) 都市再生と変容の過程は、特にその建築と歴史的重要性で知られる地域で、歴史的都市生地の保存を必要としている。 これらの地域は様々な建築様式を持ち、伝統的に広範な予備研究を必要としており、しばしば主観的な結果をもたらす。 しかし、機械学習モデルの出現は、ファサード画像を生成するための新しい道を開いた。 それにもかかわらず、これらの地区に固有の複雑さと多様性のため、歴史地区の改修のために高品質な画像を作成することは依然として困難である。 そこで本研究では,テキスト記述に基づく安定拡散モデルを用いて,歴史的なアーケードファサードの画像を自動生成する手法を提案する。 様々なアーケードスタイルを分類・タグ付けすることで、現実的なアーケードファサード画像データセットを構築した。 我々は,複数の低ランク適応(lora)モデルを訓練し,生成画像のスタイリスティックな側面を制御し,精度と信頼性を向上させるためのコントロールネットモデルで補足した。 提案手法は, 生成した画像の高精度, 信頼性, 多様性を実証し, 実際の都市再生プロジェクトの可能性を示した。 この新しい手法は、都市再生における従来の設計プロセスのより効率的で正確な代替手段を提供し、画像の詳細の確証のない問題、精度の欠如、限定的な様式的多様性の問題を回避している。 将来の研究は、この2次元画像生成と3次元モデリング技術を統合することに集中し、歴史的地区の建築ファサードを改良するためのより包括的なソリューションを提供する。

Urban renewal and transformation processes necessitate the preservation of the historical urban fabric, particularly in districts known for their architectural and historical significance. These regions, with their diverse architectural styles, have traditionally required extensive preliminary research, often leading to subjective results. However, the advent of machine learning models has opened up new avenues for generating building facade images. Despite this, creating high-quality images for historical district renovations remains challenging, due to the complexity and diversity inherent in such districts. In response to these challenges, our study introduces a new methodology for automatically generating images of historical arcade facades, utilizing Stable Diffusion models conditioned on textual descriptions. By classifying and tagging a variety of arcade styles, we have constructed several realistic arcade facade image datasets. We trained multiple low-rank adaptation (LoRA) models to control the stylistic aspects of the generated images, supplemented by ControlNet models for improved precision and authenticity. Our approach has demonstrated high levels of precision, authenticity, and diversity in the generated images, showing promising potential for real-world urban renewal projects. This new methodology offers a more efficient and accurate alternative to conventional design processes in urban renewal, bypassing issues of unconvincing image details, lack of precision, and limited stylistic variety. Future research could focus on integrating this two-dimensional image generation with three-dimensional modeling techniques, providing a more comprehensive solution for renovating architectural facades in historical districts.
翻訳日:2023-11-21 19:43:52 公開日:2023-11-20
# akconv: 任意のサンプル形状と任意の数のパラメータを持つ畳み込みカーネル

AKConv: Convolutional Kernel with Arbitrary Sampled Shapes and Arbitrary Number of Parameters ( http://arxiv.org/abs/2311.11587v1 )

ライセンス: Link先を確認
Xin Zhang, Yingze Song, Tingting Song, Degang Yang, Yichen Ye, Jie Zhou and Liming Zhang(参考訳) 畳み込み操作に基づくニューラルネットワークは、ディープラーニングの分野で顕著な成果を上げているが、標準的な畳み込み操作には2つの固有の欠陥がある。 一方、畳み込み操作はローカルウィンドウに制限され、他の場所からの情報をキャプチャできないため、サンプリングされた形状が固定される。 一方、畳み込み核のサイズは k$\times$ k に固定されており、これは固定された正方形であり、パラメータの数はサイズとともに正方形に増加する傾向にある。 ターゲットの形状とサイズが、異なるデータセットや異なる場所で異なることは明らかである。 固定されたサンプル形状と正方形を持つ畳み込みカーネルは、ターゲットの変化にうまく適応しない。 上記の質問に応えて、Alterable Kernel Convolution (AKConv) が本研究で検討され、畳み込みカーネルに任意の数のパラメータと任意のサンプル形状を与え、ネットワークオーバヘッドとパフォーマンスのトレードオフのためのよりリッチなオプションを提供する。 AKConvでは、新しい座標生成アルゴリズムを用いて任意の大きさの畳み込みカーネルの初期位置を定義する。 ターゲットの変化に適応するため,各位置におけるサンプルの形状を調整するためのオフセットを導入する。 さらに、同じ大きさと異なる初期サンプル形状のAKConvを用いてニューラルネットワークの効果について検討する。 AKConvは、不規則な畳み込み操作による効率的な特徴抽出のプロセスを完了し、畳み込みサンプリング形状に対するさらなる探索オプションを提供する。 代表的なデータセットCOCO2017、VOC 7+12、VisDrone-DET2021のオブジェクト検出実験は、AKConvの利点を十分に証明している。 AKConvは、ネットワーク性能を改善するために畳み込み操作を置き換えるためのプラグアンドプレイ畳み込み操作として使用できる。 関連するタスクのコードはhttps://github.com/CV-ZhangXin/AKConvで確認できる。

Neural networks based on convolutional operations have achieved remarkable results in the field of deep learning, but there are two inherent flaws in standard convolutional operations. On the one hand, the convolution operation be confined to a local window and cannot capture information from other locations, and its sampled shapes is fixed. On the other hand, the size of the convolutional kernel is fixed to k $\times$ k, which is a fixed square shape, and the number of parameters tends to grow squarely with size. It is obvious that the shape and size of targets are various in different datasets and at different locations. Convolutional kernels with fixed sample shapes and squares do not adapt well to changing targets. In response to the above questions, the Alterable Kernel Convolution (AKConv) is explored in this work, which gives the convolution kernel an arbitrary number of parameters and arbitrary sampled shapes to provide richer options for the trade-off between network overhead and performance. In AKConv, we define initial positions for convolutional kernels of arbitrary size by means of a new coordinate generation algorithm. To adapt to changes for targets, we introduce offsets to adjust the shape of the samples at each position. Moreover, we explore the effect of the neural network by using the AKConv with the same size and different initial sampled shapes. AKConv completes the process of efficient feature extraction by irregular convolutional operations and brings more exploration options for convolutional sampling shapes. Object detection experiments on representative datasets COCO2017, VOC 7+12 and VisDrone-DET2021 fully demonstrate the advantages of AKConv. AKConv can be used as a plug-and-play convolutional operation to replace convolutional operations to improve network performance. The code for the relevant tasks can be found at https://github.com/CV-ZhangXin/AKConv.
翻訳日:2023-11-21 19:43:27 公開日:2023-11-20
# ChatGPTはマレーシア英語をどの程度理解しているか? 名前付きエンティティ認識と関係抽出の評価

How well ChatGPT understand Malaysian English? An Evaluation on Named Entity Recognition and Relation Extraction ( http://arxiv.org/abs/2311.11583v1 )

ライセンス: Link先を確認
Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong and Bhawani Selvaretnam(参考訳) 最近、ChatGPTは研究者と一般大衆の両方から多くの関心を集めている。 標準英語テキストから名前付きエンティティ認識と関係抽出におけるChatGPTの性能は良好であるが、マレーシア英語でも同様に機能するかどうかは不明だ。 マレーシア英語は、現地の文脈から形態的・意味的な適応を示すため、独特である。 本研究では,マレーシア英語ニュース(MEN)データセットから実体と関係を抽出するChatGPTの機能を評価する。 本稿では,3段階の手法である \textbf{\textit{educate-predict-evaluate}} を提案する。 ChatGPTの性能は18種類のプロンプト設定にまたがってF1-Scoreを用いて評価される。 評価の結果,ChatGPTはマレーシア英語ニュース記事からのエンティティ抽出にはあまり効果がなく,F1スコアは0.497であることがわかった。 さらに分析したところ、マレーシア英語のモルフォシンタクティック適応は制限を引き起こした。 しかし、この形態素的適応は関係抽出におけるChatGPTの性能に影響を与えない。

Recently, ChatGPT has attracted a lot of interest from both researchers and the general public. While the performance of ChatGPT in named entity recognition and relation extraction from Standard English texts is satisfactory, it remains to be seen if it can perform similarly for Malaysian English. Malaysian English is unique as it exhibits morphosyntactic and semantical adaptation from local contexts. In this study, we assess ChatGPT's capability in extracting entities and relations from the Malaysian English News (MEN) dataset. We propose a three-step methodology referred to as \textbf{\textit{educate-predict-evaluate}}. The performance of ChatGPT is assessed using F1-Score across 18 unique prompt settings, which were carefully engineered for a comprehensive review. From our evaluation, we found that ChatGPT does not perform well in extracting entities from Malaysian English news articles, with the highest F1-Score of 0.497. Further analysis shows that the morphosyntactic adaptation in Malaysian English caused the limitation. However, interestingly, this morphosyntactic adaptation does not impact the performance of ChatGPT for relation extraction.
翻訳日:2023-11-21 19:42:53 公開日:2023-11-20
# SeaDSC:無人表面車両における動的シーン変化検出のためのビデオベース教師なし手法

SeaDSC: A video-based unsupervised method for dynamic scene change detection in unmanned surface vehicles ( http://arxiv.org/abs/2311.11580v1 )

ライセンス: Link先を確認
Linh Trinh, Ali Anwar, Siegfried Mercelis(参考訳) 近年,無人表面車両 (USV) へのコンピュータビジョンの適用によって,多くの研究が影響を受けている海洋視覚の研究が急増している。 カメラ、レーダー、ライダーなどの様々なセンサーは、物体検出、セグメンテーション、物体追跡、動き計画といったタスクを実行するために使われてきた。 この研究の大部分がビデオ分析に重点を置いており、これは現在の艦船には様々な監視任務のためにカメラが搭載されているためである。 映像データの多さから,映像シーン変化検出は,usvsのシーン理解における初期的かつ重要な段階である。 本稿では,usvsにおける動的シーン変化の検出手法について概説する。 この研究は、海洋視覚アプリケーションにおけるシーン変化の検出に関する最初の調査である。 本研究の目的は,海中映像データのダイナミックなシーン,特に高い類似性を示すシーンに顕著な変化を見出すことである。 本研究では,動的シーン変化検出システムにおいて,教師なし学習手法を提案する。 従来の研究とは対照的に、vq-vae-2と呼ばれる改良された最先端生成画像モデルを用いて、複数の海洋データセットを訓練し、特徴抽出を強化する。 次に,検索された特徴のグリッド計算を活用し,連続するフレームの類似度を直接計算する革新的な類似度スコアリング手法を提案する。 実験は、RoboWhalerという海洋ビデオデータセットを用いて実施され、我々の技術の有効性を実証した。

Recently, there has been an upsurge in the research on maritime vision, where a lot of works are influenced by the application of computer vision for Unmanned Surface Vehicles (USVs). Various sensor modalities such as camera, radar, and lidar have been used to perform tasks such as object detection, segmentation, object tracking, and motion planning. A large subset of this research is focused on the video analysis, since most of the current vessel fleets contain the camera's onboard for various surveillance tasks. Due to the vast abundance of the video data, video scene change detection is an initial and crucial stage for scene understanding of USVs. This paper outlines our approach to detect dynamic scene changes in USVs. To the best of our understanding, this work represents the first investigation of scene change detection in the maritime vision application. Our objective is to identify significant changes in the dynamic scenes of maritime video data, particularly those scenes that exhibit a high degree of resemblance. In our system for dynamic scene change detection, we propose completely unsupervised learning method. In contrast to earlier studies, we utilize a modified cutting-edge generative picture model called VQ-VAE-2 to train on multiple marine datasets, aiming to enhance the feature extraction. Next, we introduce our innovative similarity scoring technique for directly calculating the level of similarity in a sequence of consecutive frames by utilizing grid calculation on retrieved features. The experiments were conducted using a nautical video dataset called RoboWhaler to showcase the efficient performance of our technique.
翻訳日:2023-11-21 19:42:36 公開日:2023-11-20
# 前庭神経癌とコクリーの分離のための3次元多次元クロスモーダルセグメンテーションフレームワーク

A 3D Multi-Style Cross-Modality Segmentation Framework for Segmenting Vestibular Schwannoma and Cochlea ( http://arxiv.org/abs/2311.11578v1 )

ライセンス: Link先を確認
Yuzhou Zhuang(参考訳) CrossMoDA2023の課題は、ラベル付きceT1スキャンを利用することで、前庭のスワンノーマ(肉眼内成分と外成分にサブ分割)と未ラベルのhrT2スキャンのコチェリー領域を分割することである。 本研究では,クロスモダ2023チャレンジのための3次元マルチスタイルクロスモダリティセグメンテーションフレームワークを提案し,マルチスタイル翻訳と自己学習セグメンテーションフェーズについて述べる。 多施設スキャンにおける異種分布と画像サイズを考慮して,まずmin-max正規化,voxelサイズ再サンプリング,センタクロッピングを用いて,cet1およびhrt2スキャンから定サイズのサブボリュームを得る。 そして、未ペアマルチモーダルスキャン間の強度分布差を克服するために、マルチスタイル画像翻訳フェーズを実行する。 具体的には、2Dまたは2.5D入力を持つ3つの異なる翻訳ネットワークを設計し、ラベル付きceT1ボリュームからマルチスタイルでリアルなターゲットライクなボリュームを生成する。 最後に、nU-Netフレームワークと擬似ラベルを用いた反復的自己学習手法を用いて、未ラベル対象領域における正確なセグメンテーションモデルを訓練するターゲット領域における自己学習ボリュームセグメンテーションフェーズを実行する。 クロスモダ2023バリデーションデータセットでは有望な結果が得られ,vs腫瘍領域では72.78%,80.64%で平均dsc値,vs腫瘍領域では5.85mmと0.25mmのasd値がそれぞれ達成された。 また, 平均域内および外領域では, それぞれ59.77%, 77.14%のdsc値が得られた。

The crossMoDA2023 challenge aims to segment the vestibular schwannoma (sub-divided into intra- and extra-meatal components) and cochlea regions of unlabeled hrT2 scans by leveraging labeled ceT1 scans. In this work, we proposed a 3D multi-style cross-modality segmentation framework for the crossMoDA2023 challenge, including the multi-style translation and self-training segmentation phases. Considering heterogeneous distributions and various image sizes in multi-institutional scans, we first utilize the min-max normalization, voxel size resampling, and center cropping to obtain fixed-size sub-volumes from ceT1 and hrT2 scans for training. Then, we perform the multi-style image translation phase to overcome the intensity distribution discrepancy between unpaired multi-modal scans. Specifically, we design three different translation networks with 2D or 2.5D inputs to generate multi-style and realistic target-like volumes from labeled ceT1 volumes. Finally, we perform the self-training volumetric segmentation phase in the target domain, which employs the nnU-Net framework and iterative self-training method using pseudo-labels for training accurate segmentation models in the unlabeled target domain. On the crossMoDA2023 validation dataset, our method produces promising results and achieves the mean DSC values of 72.78% and 80.64% and ASSD values of 5.85 mm and 0.25 mm for VS tumor and cochlea regions, respectively. Moreover, for intra- and extra-meatal regions, our method achieves the DSC values of 59.77% and 77.14%, respectively.
翻訳日:2023-11-21 19:42:14 公開日:2023-11-20
# 独立性テストによる多変量正規性テスト

Testing multivariate normality by testing independence ( http://arxiv.org/abs/2311.11575v1 )

ライセンス: Link先を確認
Povilas Daniu\v{s}is(参考訳) そこで本研究では,kac-bernstein のキャラクタリゼーションに基づく単純な多変量正規性テストを提案する。 また,高次元データに対して,提案手法は代替手法よりも効率的である可能性が示唆された。 付随するコードリポジトリは \url{https://shorturl.at/rtuy5} にある。

We propose a simple multivariate normality test based on Kac-Bernstein's characterization, which can be conducted by utilising existing statistical independence tests for sums and differences of data samples. We also perform its empirical investigation, which reveals that for high-dimensional data, the proposed approach may be more efficient than the alternative ones. The accompanying code repository is provided at \url{https://shorturl.at/rtuy5}.
翻訳日:2023-11-21 19:41:41 公開日:2023-11-20
# VyZX: グラフィカル量子言語の形式的検証

VyZX: Formal Verification of a Graphical Quantum Language ( http://arxiv.org/abs/2311.11571v1 )

ライセンス: Link先を確認
Adrian Lehmann, Ben Caldwell, Bhakti Shah, Robert Rand(参考訳) グラフの数学的表現は、しばしば隣接行列やリスト、ホワイトボード推論やアルゴリズム設計を容易にする表現に似ている。 証明アシスタントの領域では、帰納的表現は形式的推論の意味論を効果的に定義する。 これは、特にグラフを用いたプログラムを表現するプロセス理論において、アルゴリズム設計と証明アシスタントが根本的に異なるグラフ構造を必要とするギャップを強調している。 このギャップに対処するため、帰納的に定義されたグラフィカル言語を推論するための検証済みライブラリであるVyZXを提案する。 これらの帰納的構成は圏論の定義から自然に生じる。 VyZXの重要な目標は、量子計算を推論するグラフィカル言語であるZX計算を検証することである。 ZX-計算はグラフの意味的解釈を保存する図式的な書き直し規則の集合を伴っている。 vyzx のインダクティブグラフが zx-calculus rewrite rules の正しさを証明するのにどのように使われるかを示し、それを標準的な証明アシスタント技術を用いて実際に適用する。 VyZXは、ビジュアライゼーションと自動化を通じて、証明エンジニアのワークフローと簡単に統合できる。

Mathematical representations of graphs often resemble adjacency matrices or lists, representations that facilitate whiteboard reasoning and algorithm design. In the realm of proof assistants, inductive representations effectively define semantics for formal reasoning. This highlights a gap where algorithm design and proof assistants require a fundamentally different structure of graphs, particularly for process theories which represent programs using graphs. To address this gap, we present VyZX, a verified library for reasoning about inductively defined graphical languages. These inductive constructs arise naturally from category theory definitions. A key goal for VyZX is to Verify the ZX-calculus, a graphical language for reasoning about quantum computation. The ZX-calculus comes with a collection of diagrammatic rewrite rules that preserve the graph's semantic interpretation. We show how inductive graphs in VyZX are used to prove the correctness of the ZX-calculus rewrite rules and apply them in practice using standard proof assistant techniques. VyZX integrates easily with the proof engineer's workflow through visualization and automation.
翻訳日:2023-11-21 19:41:34 公開日:2023-11-20
# Few-shot Object DetectionのためのデカップリングDETR

Decoupled DETR For Few-shot Object Detection ( http://arxiv.org/abs/2311.11570v1 )

ライセンス: Link先を確認
Zeyu Shangguan, Lian Huai, Tong Liu, Xingqun Jiang(参考訳) Few-shot Object Detection (FSOD) は、重度のデータ・ハングリー問題に対処する効率的な方法である。 現在の研究は、モデルとデータの観点から問題を著しく前進させてきた。 しかし、ほとんどのFSOD手法の全体的な性能は依然として所望の精度を満たさない。 本稿では,サンプル不均衡と弱い特徴伝搬の深刻な問題に対処するため,FSODモデルを改善する。 データに十分なベースクラスからのモデリングバイアスを軽減するため,サンプルが少ないクラスと十分なデータでパラメータを分離する効果について検討した。 FSODのためのDeTR(DeDETR)をベースノーベルカテゴリとして設計する。 また、detrのエンコーダとデコーダ間の様々なタイプのスキップ接続についても検討する。 さらに、最善の出力が最終層ではなくデコーダの中間層から得られる可能性があることに気付き、デコーダ層を出力機能として動的に融合できる統一デコーダモジュールを構築した。 PASCAL VOCやMSCOCOなどの一般的なデータセットを用いて,本モデルの評価を行った。 提案するモジュールは,微調整とメタラーニングの両方のパラダイムにおいて,5%から10%の安定的な改善を達成でき,近年の成果では最高の成績を示した。

Few-shot object detection (FSOD), an efficient method for addressing the severe data-hungry problem, has been extensively discussed. Current works have significantly advanced the problem in terms of model and data. However, the overall performance of most FSOD methods still does not fulfill the desired accuracy. In this paper we improve the FSOD model to address the severe issue of sample imbalance and weak feature propagation. To alleviate modeling bias from data-sufficient base classes, we examine the effect of decoupling the parameters for classes with sufficient data and classes with few samples in various ways. We design a base-novel categories decoupled DETR (DeDETR) for FSOD. We also explore various types of skip connection between the encoder and decoder for DETR. Besides, we notice that the best outputs could come from the intermediate layer of the decoder instead of the last layer; therefore, we build a unified decoder module that could dynamically fuse the decoder layers as the output feature. We evaluate our model on commonly used datasets such as PASCAL VOC and MSCOCO. Our results indicate that our proposed module could achieve stable improvements of 5% to 10% in both fine-tuning and meta-learning paradigms and has outperformed the highest score in recent works.
翻訳日:2023-11-21 19:41:18 公開日:2023-11-20
# CORE-MM:マルチモーダル大言語モデルのための複雑なオープンエンディング推論評価

CORE-MM: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models ( http://arxiv.org/abs/2311.11567v1 )

ライセンス: Link先を確認
Xiaotian Han, Quanzeng You, Yongfei Liu, Wentao Chen, Huangjie Zheng, Khalil Mrini, Xudong Lin, Yiqi Wang, Bohan Zhai, Jianbo Yuan, Heng Wang, Hongxia Yang(参考訳) MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。 これらのモデルは従来の視覚言語タスクに優れるだけでなく、現代のマルチモーダルベンチマークでも顕著な性能を示している。 これらのベンチマークの多くはMLLMの全体評価を試みているが、一般的には基本的な推論タスクに集中しており、単純なye/no や multi-choice の応答しか得られない。 これらの手法は自然にMLLMの推論能力を決定するのに混乱と困難をもたらす。 この問題を軽減するため,MLLM向けに設計されたベンチマークデータセットを手作業でキュレートし,複雑な推論タスクに着目した。 我々のベンチマークは3つの主要な推論カテゴリで構成されている。 我々のデータセットのクエリは、MLLMの推論能力に対処するために意図的に構築されています。 各種MLLMを公平に比較するため,評価基準に中間的推論ステップを組み込んだ。 MLLMが決定的な答えを生成できない場合、その推論能力は中間的推論ステップを要求することによって評価される。 これらのステップが手動アノテーションと一致すれば、適切なスコアが割り当てられます。 この評価スキームは、試験や課題など人間の評価によく用いられる手法に似ており、既存のベンチマークと比較すると、より効果的な評価手法と考えるものを表している。 我々は,この厳密に開発された多段階多段階的推論ベンチマークを用いて,代表的mllmの選択を評価し,その推論能力に挑戦し,正確に評価する。 コードとデータはhttps://core-mm.github.io/でリリースされる。

Multi-modal Large Language Models (MLLMs) are increasingly prominent in the field of artificial intelligence. These models not only excel in traditional vision-language tasks but also demonstrate impressive performance in contemporary multi-modal benchmarks. Although many of these benchmarks attempt to holistically evaluate MLLMs, they typically concentrate on basic reasoning tasks, often yielding only simple yes/no or multi-choice responses. These methods naturally lead to confusion and difficulties in conclusively determining the reasoning capabilities of MLLMs. To mitigate this issue, we manually curate a benchmark dataset specifically designed for MLLMs, with a focus on complex reasoning tasks. Our benchmark comprises three key reasoning categories: deductive, abductive, and analogical reasoning. The queries in our dataset are intentionally constructed to engage the reasoning capabilities of MLLMs in the process of generating answers. For a fair comparison across various MLLMs, we incorporate intermediate reasoning steps into our evaluation criteria. In instances where an MLLM is unable to produce a definitive answer, its reasoning ability is evaluated by requesting intermediate reasoning steps. If these steps align with our manual annotations, appropriate scores are assigned. This evaluation scheme resembles methods commonly used in human assessments, such as exams or assignments, and represents what we consider a more effective assessment technique compared with existing benchmarks. We evaluate a selection of representative MLLMs using this rigorously developed open-ended multi-step elaborate reasoning benchmark, designed to challenge and accurately measure their reasoning capabilities. The code and data will be released at https://core-mm.github.io/
翻訳日:2023-11-21 19:40:57 公開日:2023-11-20
# マルチスペクトル画像からの補足情報は顔提示攻撃検出を改善するか?

Does complimentary information from multispectral imaging improve face presentation attack detection? ( http://arxiv.org/abs/2311.11566v1 )

ライセンス: Link先を確認
Narayan Vetrekar, Raghavendra Ramachandra, Sushma Venkatesh, Jyoti D. Pawar, R. S. Gad(参考訳) プレゼンテーション攻撃検出(PAD)は、特に可視光スペクトルにおいて広く研究されている。 可視範囲を超えてセンシング技術の進歩により、マルチスペクトルイメージングはこの方向に大きな注目を集めている。 3種類の異なる人工物から得られた8種類のプレゼンテーションアーティファクトを対象としたマルチスペクトル画像に基づくPADを提案する。 本研究では,FPAMS(Face Presentation Attack Multispectral)データベースを導入し,マルチスペクトルイメージングの意義を実証する。 この研究の目的は、マルチスペクトルイメージングから2つの異なる方法(画像融合とスコア融合)で組み合わせることで、顔パッドを改善するための補完的情報の研究である。 実験結果から, ボナフィドおよびアーティファクトから収集した61650個の試料多スペクトル画像の定性解析を行った。 スコア融合法と画像融合法に基づくパッドは優れた性能を示し,マルチスペクトルイメージングを用いたプレゼンテーションアーティファクトの検出の意義を示す。

Presentation Attack Detection (PAD) has been extensively studied, particularly in the visible spectrum. With the advancement of sensing technology beyond the visible range, multispectral imaging has gained significant attention in this direction. We present PAD based on multispectral images constructed for eight different presentation artifacts resulted from three different artifact species. In this work, we introduce Face Presentation Attack Multispectral (FPAMS) database to demonstrate the significance of employing multispectral imaging. The goal of this work is to study complementary information that can be combined in two different ways (image fusion and score fusion) from multispectral imaging to improve the face PAD. The experimental evaluation results present an extensive qualitative analysis of 61650 sample multispectral images collected for bonafide and artifacts. The PAD based on the score fusion and image fusion method presents superior performance, demonstrating the significance of employing multispectral imaging to detect presentation artifacts.
翻訳日:2023-11-21 19:40:33 公開日:2023-11-20
# KBioXLM:知識適応型バイオメディカル多言語事前学習言語モデル

KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained Language Model ( http://arxiv.org/abs/2311.11564v1 )

ライセンス: Link先を確認
Lei Geng, Xu Yan, Ziqiang Cao, Juntao Li, Wenjie Li, Sujian Li, Xinjie Zhou, Yang Yang, Jun Zhang(参考訳) ほとんどの生物医学的事前訓練された言語モデルは単言語であり、増大する言語間要件に対応できない。 非英語ドメインコーパスの不足は、並列データだけでなく、多言語バイオメディカルモデルのトレーニングにおいて大きなハードルとなっている。 知識はドメイン固有コーパスのコアを形成し,様々な言語に正確に翻訳できるため,多言語事前学習モデルであるXLM-Rを知識アンコールアプローチを用いてバイオメディカルドメインに変換するKBioXLMと呼ばれるモデルを提案する。 我々は,モノリンガルコーパスに3つの粒度知識アライメント(エンタリティ,事実,通過レベル)を組み込むことで,バイオメディカル多言語コーパスを実現する。 そこで我々は,XLM-Rモデル上での3つのトレーニングタスク(エンタリティマスキング,関係マスキング,通過関係予測)を設計し,そのドメイン間言語能力を高めるために継続トレーニングを行う。 本モデルの有効性を検証するため,複数のタスクの英語ベンチマークを中国語に翻訳する。 実験結果から, 単言語および多言語事前学習モデルにおいて, ゼロショットおよび少数ショットのシナリオにおいて, 最大10点以上の改善が得られた。 私たちのコードはhttps://github.com/ngwlh-gl/KBioXLMで公開されています。

Most biomedical pretrained language models are monolingual and cannot handle the growing cross-lingual requirements. The scarcity of non-English domain corpora, not to mention parallel data, poses a significant hurdle in training multilingual biomedical models. Since knowledge forms the core of domain-specific corpora and can be translated into various languages accurately, we propose a model called KBioXLM, which transforms the multilingual pretrained model XLM-R into the biomedical domain using a knowledge-anchored approach. We achieve a biomedical multilingual corpus by incorporating three granularity knowledge alignments (entity, fact, and passage levels) into monolingual corpora. Then we design three corresponding training tasks (entity masking, relation masking, and passage relation prediction) and continue training on top of the XLM-R model to enhance its domain cross-lingual ability. To validate the effectiveness of our model, we translate the English benchmarks of multiple tasks into Chinese. Experimental results demonstrate that our model significantly outperforms monolingual and multilingual pretrained models in cross-lingual zero-shot and few-shot scenarios, achieving improvements of up to 10+ points. Our code is publicly available at https://github.com/ngwlh-gl/KBioXLM.
翻訳日:2023-11-21 19:40:19 公開日:2023-11-20
# S$=1/2ピロクロアハイゼンベルク反強磁性体の基底状態:次元還元から生じる量子スピン液体

Ground state of the $S$=1/2 pyrochlore Heisenberg antiferromagnet: A quantum spin liquid emergent from dimensional reduction ( http://arxiv.org/abs/2311.11561v1 )

ライセンス: Link先を確認
Rico Pohle, Youhei Yamaji, Masatoshi Imada(参考訳) ピロクロア格子上の量子反強磁性体は、非等方性3D系として例外的に、0温度でも標準自然対称性の破れがないことを特徴とする量子スピン液体を、アルテタイパルフラストレーション系として実現する。 しかし、文献の著しい進歩にもかかわらず、ピロクロア格子上の完全に量子力学的スピンハミルトニアンの基底状態の性質はいまだ解明されていない。 ここでは, 2d 層に閉じ込められた状態に至る自己組織的次元減少により, 従来型ではない量子スピン液体がパイロクロア系から生じることを示す。 この結論は、ゼロ温度でのモンテカルロ (VMC) シミュレーションから得られる。 創発的次元還元によって引き起こされる量子スピン液体は、スピン-液体形成の未開拓経路である。 3D から 2D への次元的還元は、従来の自発的対称性の破れの結果であり、層を分離した結果として、自明な生成状態から断熱的に解離し強い量子エンタングルメントを示す 2D 量子スピン液体の出現を可能にする。 安定化された量子スピン液体は、相関の代数的崩壊と熱力学限界における励起ギャップの消滅を示す。 波動関数構造はスピンのスピノンへの分数化をサポートする。 このスピン-液体基底状態は、実際のピロクロア構造材料における量子スピン液体の実現の可能性を広げるスピン-軌道相互作用の存在下で持続する。

The quantum antiferromagnet on the pyrochlore lattice offers an archetypal frustrated system, which potentially realizes a quantum spin liquid characterized by the absence of standard spontaneous symmetry breaking even at zero temperature, unusually as an isotropic 3D system. Despite tremendous progress in the literature, however, the nature of the ground state of the fully quantum-mechanical spin Hamiltonian on the pyrochlore lattice still remains elusive. Here, we show that an unconventional type of quantum spin liquid is born out from the pyrochlore system after the self-organized dimensional reduction leading to confined states in 2D layers. This conclusion is obtained from state-of-the-art variational Monte Carlo (VMC) simulations at zero temperature. Quantum spin liquids triggered by the emergent dimensional reduction is an unexplored route of the spin-liquid formation. The dimensional reduction from 3D to 2D is a consequence of a conventional spontaneous symmetry breaking, while the resultant decoupling of layers enables the emergence of a 2D quantum spin liquid that is adiabatically disconnected from trivial product states and exhibits strong quantum entanglement. The stabilized quantum spin liquid exhibits an algebraic decay of correlations and vanishing excitation gap in the thermodynamic limit. The wave-function structure supports the fractionalization of the spin into spinons. This spin-liquid ground state persists in the presence of spin-orbit interactions, which expands the possibilities of realizing quantum spin liquids in real pyrochlore-structured materials.
翻訳日:2023-11-21 19:39:54 公開日:2023-11-20
# ナノキャビティ結合量子ドットからの点滅寿命を持つ光発光

Bright nonblinking photoluminescence with blinking lifetime from a nanocavity-coupled quantum dot ( http://arxiv.org/abs/2311.11560v1 )

ライセンス: Link先を確認
Zhiyuan Wang, Jianwei Tang, Jiahao Han, Juan Xia, Tianzi Ma, Xue-Wen Chen(参考訳) コロイド半導体量子ドット(英語版)(QD)は幅広い光電子応用に優れた発光ナノ材料である。 しかし、フォトルミネッセンスによる点滅は、多くの面でその実用性を妨げている。 プラズモンナノ構造とQDを結合させることで、点滅を抑制することが可能であることが示されている。 それでも、点滅抑制のメカニズムは不明確で議論されている。 ここでは, 単一QDをプラズモンナノキャビティに決定的に結合させることにより, 点滅抑制機構を明らかにし, 単一コロイドQDからの前例のない発光を示す。 特に、結合系が点滅寿命とともに非点滅発光を示すことを初めて報告し、点滅発光の除去は帯電状態の量子収率の増大によるものであることを示す。 放射崩壊速度は(48 ns)-1 から (0.7 ns)-1 に上昇し、オージェ過程に匹敵し、荷電励起子や中性励起子に対して同様の量子収率が得られる。 さらに、1つのqdから最大1700万光子を検出できる超高輝度光発光を示す。 この研究は、超bright非blinking qdを達成するという目標に新しい光を当て、様々なqdベースのアプリケーションに役立つかもしれない。

Colloidal semiconductor quantum dots (QDs) are excellent luminescent nanomaterials for a broad range of optoelectronic applications. Their photoluminescence blinking, however, hinders their practical use in many aspects. It has been shown that coupling QDs to plasmonic nanostructures may provide a viable way to suppress blinking. Nevertheless, the underlying mechanism of blinking suppression remains unclear and debated. Here, by deterministically coupling a single QD to a plasmonic nanocavity, we clarify the mechanism of blinking suppression, and demonstrate unprecedentedly bright emission from a single colloidal QD. In particular, we report for the first time that the coupled system exhibits nonblinking photoluminescence with blinking lifetime, which shows that the elimination of photoluminescence blinking originates from enhanced quantum yield of the charged states. We identify that the radiative decay rate is boosted from (48 ns)-1 to (0.7 ns)-1, which outcompetes Auger processes and enables similar quantum yields for charged and neutral excitons. Moreover, we demonstrate ultrabright photoluminescence of up to 17 million detected photons per second from a single QD. This work sheds new light on the goal of achieving ultrabright nonblinking QDs and may benefit a variety of QD-based applications.
翻訳日:2023-11-21 19:39:29 公開日:2023-11-20
# 光暗黒物質検出のためのイオンの量子絡み合い

Quantum entanglement of ions for light dark matter detection ( http://arxiv.org/abs/2311.11632v1 )

ライセンス: Link先を確認
Asuka Ito, Ryuichiro Kitano, Wakutaka Nakano and Ryoto Takai(参考訳) ポールイオントラップシステムを用いて、アクシオンダークマターやダークフォトンダークマターなどの軽いダークマターの検出方法を検討した。 まず, ポールトラップ中のイオンの振動モードの最初の励起状態と地盤から構築した量子ビットが, 共振励起による弱電界の有効なセンサとして機能することを示す。 結果として、ポールイオントラップは、nev範囲の質量を持つ軽い暗黒物質によって引き起こされる弱い電場を探索することができる。 さらに、$N$イオンを含む絡み合った量子ビット系は、$N^2$の係数で励起率を高めることができることを示す。 パウロイオントラップ系の軸-光子カップリングとゲージ運動混合に対する感度は、未探索のパラメータ空間に到達できる。

A detection scheme is explored for light dark matter, such as axion dark matter or dark photon dark matter, using a Paul ion trap system. We first demonstrate that a qubit, constructed from the ground and first excited states of vibrational modes of ions in a Paul trap, can serve as an effective sensor for weak electric fields due to its resonant excitation. As a consequence, a Paul ion trap allows us to search for weak electric fields induced by light dark matter with masses around the neV range. Furthermore, we illustrate that an entangled qubit system involving $N$ ions can enhance the excitation rate by a factor of $N^2$. The sensitivities of the Paul ion trap system to axion-photon coupling and gauge kinetic mixing can reach previously unexplored parameter space.
翻訳日:2023-11-21 19:32:19 公開日:2023-11-20
# 拡散モデルを用いた網膜眼底およびoct画像の現実的な偽物生成

Generating Realistic Counterfactuals for Retinal Fundus and OCT Images using Diffusion Models ( http://arxiv.org/abs/2311.11629v1 )

ライセンス: Link先を確認
Indu Ilanchezian, Valentyn Boreiko, Laura K\"uhlewein, Ziwei Huang, Murat Se\c{c}kin Ayhan, Matthias Hein, Lisa Koch, Philipp Berens(参考訳) 反事実推論は、意思決定の説明や代替案の重み付けのために臨床でしばしば用いられる。 したがって、眼科などの画像に基づくモダリティでは、「糖尿病網膜症があった場合、眼底像はどのように見えるか?」という疑問に対して、反現実的なイメージを作成できることは有益である。 そこで本研究では,網膜疾患分類タスクで訓練された逆向き頑健な分類器と拡散モデルを用いて,網膜基底画像と光コヒーレンストモグラフィー(OCT)Bスキャンの高現実的対物生成を可能にすることを実証する。 理想的には、これらの分類器は、各疾患の分類に代表される有能な特徴を符号化し、拡散モデルを用いて現実的な疾患の兆候を示したり、現実的な方法で疾患関連病変を取り除くことができる。 重要なことは、ユーザスタディにおいて、ドメインの専門家は、我々の手法を用いて生成された偽物は、以前の方法から生成された偽物よりもはるかに現実的であり、現実的な画像とは区別できないことを発見した。

Counterfactual reasoning is often used in a clinical setting to explain decisions or weigh alternatives. Therefore, for imaging based modalities such as ophthalmology, it would be beneficial to be able to create counterfactual images, illustrating the answer to the question: "If the subject had had diabetic retinopathy, how would the fundus image have looked?" Here, we demonstrate that using a diffusion model in combination with an adversarially robust classifier trained on retinal disease classification tasks enables generation of highly realistic counterfactuals of retinal fundus images and optical coherence tomorgraphy (OCT) B-scans. Ideally, these classifiers encode the salient features indicative for each disease class and can steer the diffusion model to show realistic disease signs or remove disease-related lesions in a realistic way. Importantly, in a user study, domain experts found the counterfactuals generated using our method significantly more realistic than counterfactuals generated from a previous method, and even indistiguishable from realistic images.
翻訳日:2023-11-21 19:32:04 公開日:2023-11-20
# 語学学習者へのLLMの事前導入

Incorporating LLM Priors into Tabular Learners ( http://arxiv.org/abs/2311.11628v1 )

ライセンス: Link先を確認
Max Zhu, Sini\v{s}a Stanivuk, Andrija Petrovic, Mladen Nikolic, Pietro Lio(参考訳) 本稿では,Large Language Models (LLM) と従来の表形式データ分類手法を統合し,データシリアライゼーションの感度やバイアスといったLCMの課題に対処する手法を提案する。 分類変数のランク付けにLLMを利用する2つの戦略を導入し、連続変数と目標との相関関係の事前を生成する。 LLM決定順序を保ちながら、順序を基数にマッピングする非線形単調関数を用いたモノトニックLRを導入する。 ベースラインモデルに対する検証は、特に低データシナリオでは、解釈可能なまま、我々のアプローチの優れた性能を示す。

We present a method to integrate Large Language Models (LLMs) and traditional tabular data classification techniques, addressing LLMs challenges like data serialization sensitivity and biases. We introduce two strategies utilizing LLMs for ranking categorical variables and generating priors on correlations between continuous variables and targets, enhancing performance in few-shot scenarios. We focus on Logistic Regression, introducing MonotonicLR that employs a non-linear monotonic function for mapping ordinals to cardinals while preserving LLM-determined orders. Validation against baseline models reveals the superior performance of our approach, especially in low-data scenarios, while remaining interpretable.
翻訳日:2023-11-21 19:31:43 公開日:2023-11-20
# 変圧器を用いた新しい土壌温度予測手法

A novel transformer-based approach for soil temperature prediction ( http://arxiv.org/abs/2311.11626v1 )

ライセンス: Link先を確認
Muhammet Mucahit Enes Yurtsever, Ayhan Kucukmanisa and Zeynep Hilal Kilimci(参考訳) 土壌温度は、氷河エネルギー、質量収支のダイナミクス、表面水文学的過程、氷河-大気圏の共作用、栄養循環、生態系の安定性、土壌、水、畑作物の管理において重要な役割を果たす最も重要なパラメータの1つである。 本研究では, 土壌温度予測のための変圧器モデルを用いた新しい手法を提案する。 我々の知る限りでは、この研究における変圧器モデルの使用は土壌温度を予測する最初の試みである。 6つのFLUXNETステーションを用いて実験を行い、Vanilla Transformer、Informer、Autoformer、Reformer、ETSformerの5つのトランスモデルをモデル化した。 提案モデルの有効性を実証するために,実験結果を深層学習と文献研究の両方と比較した。 実験結果から, 変圧器モデルの利用が文献に重要な貢献をし, 新たな技術状況を決定することが示唆された。

Soil temperature is one of the most significant parameters that plays a crucial role in glacier energy, dynamics of mass balance, processes of surface hydrological, coaction of glacier-atmosphere, nutrient cycling, ecological stability, the management of soil, water, and field crop. In this work, we introduce a novel approach using transformer models for the purpose of forecasting soil temperature prediction. To the best of our knowledge, the usage of transformer models in this work is the very first attempt to predict soil temperature. Experiments are carried out using six different FLUXNET stations by modeling them with five different transformer models, namely, Vanilla Transformer, Informer, Autoformer, Reformer, and ETSformer. To demonstrate the effectiveness of the proposed model, experiment results are compared with both deep learning approaches and literature studies. Experiment results show that the utilization of transformer models ensures a significant contribution to the literature, thence determining the new state-of-the-art.
翻訳日:2023-11-21 19:31:30 公開日:2023-11-20
# beyond theory:prototypepical industrial applicationsにおける量子最適化アルゴリズムの実用性の評価

Beyond Theory: Evaluating the Practicality of Quantum Optimization Algorithms for Prototypical Industrial Applications ( http://arxiv.org/abs/2311.11621v1 )

ライセンス: Link先を確認
Matteo Vandelli, Alessandra Lignarolo, Carlo Cavazzoni, Daniele Dragoni(参考訳) アンテナネットワークの電力消費の最適化は、電気通信の分野における潜在的な影響の問題である。 本研究では,statevector emulatorを用いて,この分野における単純化モデルの解法に対する量子アルゴリズムの適用について検討する。 具体的には、アンテナ配置問題に対して量子近似最適化アルゴリズム(QAOA)と量子断熱アルゴリズム(QAA)を適用する。 我々は,これら2つのアルゴリズムを近似比,厳密解の確率,コスト効率の高い解の累積確率などの評価指標を用いて,解品質の観点から比較し,qaaが任意に深い回路を許容した場合に優れた性能を示すこと,qaoaは低深さでより優れた性能を示すこと,などについて考察した。 どちらのアプローチも原則として、問題の解を十分に大きな深さで正しく識別する。 しかし、システムのサイズが大きくなるにつれて、正確な状態の確率が指数関数的に減少する。 この問題は、この問題にソフトな制約を加えると特に深刻になり、アンテナ間の完全な接続が効果的になる。 以上の結果から,この2つのアルゴリズムの工業的問題への応用において,適用可能な解を測定できる可能性が低いことが示唆された。

The optimization of the power consumption of antenna networks is a problem with a potential impact in the field of telecommunications. In this work, we investigate the application of quantum algorithms to the solution of a simplified model in this field using a statevector emulator. Specifically, we apply the quantum approximate optimization algorithm (QAOA) and the quantum adiabatic algorithm (QAA) to the antenna placement problem. We compare these two algorithms in terms of solution quality by means of selected evaluation metrics such as the approximation ratio, the probability of the exact solution, and the cumulative probability of cost-effective solutions.We corroborate previous observations that QAA exhibits better performances when arbitrarily deep circuits are allowed, while QAOA performs better at low depths. Both approaches in principle correctly identify the solution to the problem at a sufficiently large depth. However, they suffer from an exponential decrease of the probability of the exact state, as the system size increases. This issue is particularly severe when we include soft constraints in the problem, resulting in an effective full connectivity between the antennas. Our results suggest that the low probability of measuring an acceptable solution is a potential bottleneck in the application of these two algorithms to industrial problems at scales relevant to practical applications.
翻訳日:2023-11-21 19:31:12 公開日:2023-11-20
# 量子イマジナリー時間進化による有限温度シュウィンガーモデルの量子シミュレーション

Quantum Simulation of Finite Temperature Schwinger Model via Quantum Imaginary Time Evolution ( http://arxiv.org/abs/2311.11616v1 )

ライセンス: Link先を確認
Juan W. Pedersen, Etsuko Itou, Rong-Yang Sun and Seiji Yunoki(参考訳) 量子古典ハイブリッドアルゴリズムを用いて有限温度環境におけるシュウィンガーモデルの研究を行った。 量子回路の熱状態の調製は重要な課題である。 これに対処するために、熱純量子(tpq)状態アプローチを採用し、量子虚時発展(qite)アルゴリズムを適用し、必要な虚時発展を実装する。 まず,無質量シュウィンガーモデルを用いてキラル縮合を計算し,解析解との整合性を検証する。 次に, 非ゼロトポロジカル$\theta$-termで大規模シュウィンガーモデルをシミュレートし, キラル凝縮の温度および$\theta$-dependenceを調べた。 従来の格子モンテカルロ法は符号問題に悩まされているが,本手法はゼロでない$\theta$レジームでもうまく機能する。

We study the Schwinger model at finite-temperature regime using a quantum-classical hybrid algorithm. The preparation of thermal state on quantum circuit presents significant challenges. To address this, we adopt the Thermal Pure Quantum (TPQ) state approach and apply the Quantum Imaginary Time Evolution (QITE) algorithm to implement the necessary imaginary time evolution. We first compute the chiral condensate in the massless Schwinger model, verifying its consistency with the analytical solution. We then simulate the massive Schwinger model with non-zero topological $\theta$-term to investigate the temperature and $\theta$-dependence of the chiral condensate. Our method works well even at non-zero $\theta$ regime, while the conventional lattice Monte Carlo method suffers from the sign problem in this system.
翻訳日:2023-11-21 19:30:50 公開日:2023-11-20
# 意味保存型ポイントベースヒューマンアバター

Semantic-Preserved Point-based Human Avatar ( http://arxiv.org/abs/2311.11614v1 )

ライセンス: Link先を確認
Lixiang Lin, Jianke Zhu(参考訳) ar/vrとデジタルエンタテインメントの現実的な体験を実現するために、デジタル人間の表現範囲全体を具現化する最初のポイントベースの人間アバターモデルを提案する。 ポーズ依存変形と線形スキン(LBS)重みをモデル化するために2つのMLPを用いる。 外観の表現はデコーダと各点に付随する特徴に依存している。 代替的な暗黙的なアプローチとは対照的に、指向点表現は人間のアバターアニメーションをモデル化するより直感的な方法を提供するだけでなく、トレーニングと推論の時間を大幅に削減する。 さらに,smpl-xモデルから点へ意味情報を伝達する新しい手法を提案する。 ポイントのセマンティック情報を活用することで、異なる被験者間で同じカテゴリのポイントを交換することで、仮想試行錯誤と人間のアバター構成を容易にすることができる。 実験の結果,提案手法の有効性が示された。

To enable realistic experience in AR/VR and digital entertainment, we present the first point-based human avatar model that embodies the entirety expressive range of digital humans. We employ two MLPs to model pose-dependent deformation and linear skinning (LBS) weights. The representation of appearance relies on a decoder and the features that attached to each point. In contrast to alternative implicit approaches, the oriented points representation not only provides a more intuitive way to model human avatar animation but also significantly reduces both training and inference time. Moreover, we propose a novel method to transfer semantic information from the SMPL-X model to the points, which enables to better understand human body movements. By leveraging the semantic information of points, we can facilitate virtual try-on and human avatar composition through exchanging the points of same category across different subjects. Experimental results demonstrate the efficacy of our presented method.
翻訳日:2023-11-21 19:30:31 公開日:2023-11-20
# Taiyi: バイオメディカルタスクのためのバイリンガル微調整大言語モデル

Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse Biomedical Tasks ( http://arxiv.org/abs/2311.11608v1 )

ライセンス: Link先を確認
Ling Luo, Jinzhong Ning, Yingwen Zhao, Zhijun Wang, Zeyuan Ding, Peng Chen, Weiru Fu, Qinyu Han, Guangtao Xu, Yunzhi Qiu, Dinghao Pan, Jiru Li, Hao Li, Wenduo Feng, Senbo Tu, Yuqi Liu, Zhihao Yang, Jian Wang, Yuanyuan Sun, Hongfei Lin(参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理(NLP)タスクにおいて有望な結果を示している。 バイオメディシンのような特定のドメインへのLSMの応用は、注目を集めている。 しかし,ほとんどのバイオメディカルLLMは,単言語型バイオメディカル質問応答や会話タスクの性能向上に重点を置いている。 異なる言語における多様な生物医学的NLPタスクに対するLLMの有効性をさらに検討するため,バイリンガル(英語と中国語)の微調整LDMであるTaiyiを紹介した。 そこで本研究では,10種類以上のタスクタイプにまたがる140の既存のバイオメディカルテキストマイニングデータセットの総合的な収集を行った。 その後、教師付き微調整のための2段階戦略を提案し、様々なタスクにおけるモデル性能を最適化する。 名前付きエンティティ認識,関係抽出,テキスト分類,質問応答タスクを含む13個のテストセットの実験結果から,タイイは一般LLMよりも優れた性能を示した。 追加のバイオメディカルNLPタスクを含むケーススタディは、タイイのバイリンガルなバイオメディカルマルチタスクの可能性をさらに示している。 Taiyiのソースコード、データセット、モデルはhttps://github.com/DUTIR-BioNLP/Taiyi-LLM.comから無料で入手できる。

Recent advancements in large language models (LLMs) have shown promising results across a variety of natural language processing (NLP) tasks. The application of LLMs to specific domains, such as biomedicine, has achieved increased attention. However, most biomedical LLMs focus on enhancing performance in monolingual biomedical question answering and conversation tasks. To further investigate the effectiveness of the LLMs on diverse biomedical NLP tasks in different languages, we present Taiyi, a bilingual (English and Chinese) fine-tuned LLM for diverse biomedical tasks. In this work, we first curated a comprehensive collection of 140 existing biomedical text mining datasets across over 10 task types. Subsequently, a two-stage strategy is proposed for supervised fine-tuning to optimize the model performance across varied tasks. Experimental results on 13 test sets covering named entity recognition, relation extraction, text classification, question answering tasks demonstrate Taiyi achieves superior performance compared to general LLMs. The case study involving additional biomedical NLP tasks further shows Taiyi's considerable potential for bilingual biomedical multi-tasking. The source code, datasets, and model for Taiyi are freely available at https://github.com/DUTIR-BioNLP/Taiyi-LLM.
翻訳日:2023-11-21 19:30:05 公開日:2023-11-20
# ファイルレベルの弱ラベリングを用いたマルチグラニュラーソフトウェアアノテーション

Multi-granular Software Annotation using File-level Weak Labelling ( http://arxiv.org/abs/2311.11607v1 )

ライセンス: Link先を確認
Cezar Sas, Andrea Capiluppi(参考訳) 開発者にとって最も時間を要するタスクのひとつは、新しいコードベースの理解です。 このプロセスを支援する効果的なアプローチは、開発者がコードベースの内容や機能をより早く理解できるように、意味のあるアノテーションでソースコードファイルをラベル付けすることである。 しかし、コードアノテーションの既存のソリューションのほとんどは、プロジェクトレベルの分類に焦点を当てている。 本稿では,プロジェクトレベルのラベルを活用することで,ファイルのアノテーションを自動化することを目的とした。また,ファイルレベルのアノテーションを使って,パッケージやプロジェクト全体といった粒度の大きい項目に注釈を付ける。 本稿では,弱いラベル付け手法とその後の階層的アグリゲーションを用いたソースコードファイルのアノテート手法を提案する。 このアプローチがソフトウェアプロジェクトのマルチグラニュラアノテーションの実現に有効かどうかを考察し、開発者がコードベースの内容や機能をより迅速に理解できるようにする。 本評価では,人間評価と自動評価を組み合わせて,アノテーションの品質評価を行う。 当社のアプローチでは,50%のファイルと50\%以上のパッケージを正しくアノテートしています。 さらに、ファイルレベルでキャプチャされた情報は、プロジェクト毎に平均して3つの関連するラベルを識別することができました。 提案手法は、ファイルのノイズ(正確にない)アノテーションを生成するための便利で有望な方法であると結論付けることができる。 さらに階層的なアグリゲーションは、ファイルレベルで取得した情報を効果的に保存し、パッケージやプロジェクト自体に伝達することができる。

One of the most time-consuming tasks for developers is the comprehension of new code bases. An effective approach to aid this process is to label source code files with meaningful annotations, which can help developers understand the content and functionality of a code base quicker. However, most existing solutions for code annotation focus on project-level classification: manually labelling individual files is time-consuming, error-prone and hard to scale. The work presented in this paper aims to automate the annotation of files by leveraging project-level labels; and using the file-level annotations to annotate items at larger levels of granularity, for example, packages and a whole project. We propose a novel approach to annotate source code files using a weak labelling approach and a subsequent hierarchical aggregation. We investigate whether this approach is effective in achieving multi-granular annotations of software projects, which can aid developers in understanding the content and functionalities of a code base more quickly. Our evaluation uses a combination of human assessment and automated metrics to evaluate the annotations' quality. Our approach correctly annotated 50% of files and more than 50\% of packages. Moreover, the information captured at the file-level allowed us to identify, on average, three new relevant labels for any given project. We can conclude that the proposed approach is a convenient and promising way to generate noisy (not precise) annotations for files. Furthermore, hierarchical aggregation effectively preserves the information captured at file-level, and it can be propagated to packages and the overall project itself.
翻訳日:2023-11-21 19:29:32 公開日:2023-11-20
# 制御フローデータを用いたIoTデバイスの機械学習によるマルウェア検出

Machine learning-based malware detection for IoT devices using control-flow data ( http://arxiv.org/abs/2311.11605v1 )

ライセンス: Link先を確認
Gergely Hevesi(参考訳) 組み込みデバイスは1つまたは少数の目的のために設計された専用デバイスである。 これらはしばしば、有線または無線接続を介して、より大きなシステムの一部となる。 インターネットを介して他のコンピュータや組み込みシステムに接続されている組み込みデバイスは、IoT(Internet of Things)デバイスと呼ばれる。 広く使われていることと保護が不十分なことから、これらのデバイスはマルウェア攻撃の標的になりつつある。 製造コストを削減したり、製造時の構成ミスを低減したりする企業が多い。 これはソフトウェアアップデートの欠如、オープンなポート、あるいは設計によるセキュリティ上の欠陥である。 これらのデバイスは通常のコンピュータほど強力ではないかもしれないが、ボットネットに適した候補となっている。 他のタイプのIoTデバイスは、インターネットに接続されたペースメーカーさえあるため、健康上の問題を引き起こすこともある。 つまり、十分な防御がなければ、人に対する直接攻撃も可能である。 この論文プロジェクトの目標は、機械学習アルゴリズムとリバースエンジニアリングツールの助けを借りて、これらのデバイスにより良いセキュリティを提供することだ。 具体的には,マルウェア検出における制御フロー関連データの適用性について検討する。 2段階のマルウェア検出手法を提案する。 第1フェーズは静的バイナリ解析を用いて制御フロー関連データを抽出する。 第2フェーズは、ニューラルネットワークモデルを使用して、バイナリ実行ファイルを悪意または良性のいずれかに分類する。 私は悪意のあるARMアプリケーションのデータセットを使ってモデルをトレーニングします。

Embedded devices are specialised devices designed for one or only a few purposes. They are often part of a larger system, through wired or wireless connection. Those embedded devices that are connected to other computers or embedded systems through the Internet are called Internet of Things (IoT for short) devices. With their widespread usage and their insufficient protection, these devices are increasingly becoming the target of malware attacks. Companies often cut corners to save manufacturing costs or misconfigure when producing these devices. This can be lack of software updates, ports left open or security defects by design. Although these devices may not be as powerful as a regular computer, their large number makes them suitable candidates for botnets. Other types of IoT devices can even cause health problems since there are even pacemakers connected to the Internet. This means, that without sufficient defence, even directed assaults are possible against people. The goal of this thesis project is to provide better security for these devices with the help of machine learning algorithms and reverse engineering tools. Specifically, I study the applicability of control-flow related data of executables for malware detection. I present a malware detection method with two phases. The first phase extracts control-flow related data using static binary analysis. The second phase classifies binary executables as either malicious or benign using a neural network model. I train the model using a dataset of malicious and benign ARM applications.
翻訳日:2023-11-21 19:28:49 公開日:2023-11-20
# curriculumloc:多段階改良によるクロスドメインジオローカライゼーションの促進

CurriculumLoc: Enhancing Cross-Domain Geolocalization through Multi-Stage Refinement ( http://arxiv.org/abs/2311.11604v1 )

ライセンス: Link先を確認
Boni Hu, Lin Chen, Runjian Chen, Shuhui Bu, Pengcheng Han, Haowei Li(参考訳) ビジュアルジオローカライズ(visual geolocalization)はコスト効率が高くスケーラブルなタスクで、未知の場所にある1つ以上のクエリイメージと、ジオタグ付き参照イメージのセットをマッチングする。 既存の手法はセマンティックな特徴表現に特化しており、照度や視点の変化、スケールや季節の変動など、クエリと参照の幅広いバリエーションに頑健さに向かって進化している。 しかし、実際の視覚的ジオローカライズ手法は、正確なグローバルな位置推定を提供しながら、外観変化や極端な視点変化条件において堅牢である必要がある。 そのため、カリキュラム設計に着想を得て、まず人間は一般的な知識を学習し、次に専門的な専門知識を習得する。 まずセマンティックなシーンを認識し、次に幾何学的構造を測る。 提案手法は,多段階リファインメントパイプラインの繊細な設計と,グローバル意味認識と局所幾何学的検証を備えた新しいキーポイント検出と記述を含む。 我々はこれらのキーポイントと対応する記述子に基づいて、候補を再検討し、特定のドメイン間視点-n-point(PnP)問題を解く。 収集したデータセットであるTerraTrackとベンチマークデータセットであるALTOの広範な実験結果から,本手法が実際の視覚的ジオローカライゼーションソリューションの望ましい特性をもたらすことを示す。 さらに,altoで62.6%,94.5%のハイリコール@1スコアをそれぞれ2つの異なる距離指標で達成した。 データセット、コード、トレーニングされたモデルはhttps://github.com/npupilab/curriculumlocで公開されている。

Visual geolocalization is a cost-effective and scalable task that involves matching one or more query images, taken at some unknown location, to a set of geo-tagged reference images. Existing methods, devoted to semantic features representation, evolving towards robustness to a wide variety between query and reference, including illumination and viewpoint changes, as well as scale and seasonal variations. However, practical visual geolocalization approaches need to be robust in appearance changing and extreme viewpoint variation conditions, while providing accurate global location estimates. Therefore, inspired by curriculum design, human learn general knowledge first and then delve into professional expertise. We first recognize semantic scene and then measure geometric structure. Our approach, termed CurriculumLoc, involves a delicate design of multi-stage refinement pipeline and a novel keypoint detection and description with global semantic awareness and local geometric verification. We rerank candidates and solve a particular cross-domain perspective-n-point (PnP) problem based on these keypoints and corresponding descriptors, position refinement occurs incrementally. The extensive experimental results on our collected dataset, TerraTrack and a benchmark dataset, ALTO, demonstrate that our approach results in the aforementioned desirable characteristics of a practical visual geolocalization solution. Additionally, we achieve new high recall@1 scores of 62.6% and 94.5% on ALTO, with two different distances metrics, respectively. Dataset, code and trained models are publicly available on https://github.com/npupilab/CurriculumLoc.
翻訳日:2023-11-21 19:28:21 公開日:2023-11-20
# 光フローのないビデオフレーム補間のためのマルチインシングルアウトネットワーク

A Multi-In-Single-Out Network for Video Frame Interpolation without Optical Flow ( http://arxiv.org/abs/2311.11602v1 )

ライセンス: Link先を確認
Jaemin Lee, Minseok Seo, Sangwoo Lee, Hyobin Park, Dong-Geol Choi(参考訳) 一般に、深層学習に基づくビデオフレーム補間(vfi)法は、主に2つの入力フレーム間の動きベクトルを推定し、それを目標時間にゆがめることに焦点を当てている。 このアプローチは2つの入力フレーム間の線形運動に対して顕著な性能を示すが、オクルージョンや非線形運動を扱う際の限界を示す。 近年,これらの問題に対処するための生成モデルがVFIに適用されている。 しかしながら、VFIは可塑性画像の生成に重点を置いているのではなく、与えられた2つのフレーム間の正確な中間フレームの予測に重点を置いているため、性能制限は継続する。 本稿では,動作ベクトル推定に依存しないマルチインシングルアウト(MISO)に基づくVFI手法を提案し,オクルージョンと非線形動作を効果的にモデル化する。 さらに,MISO-VFIによりビデオフレーム内の時空間相関をよりよく捉えることができる新しい動き知覚損失を導入する。 MISO-VFI法は,VFIベンチマークのVimeo90K,Middlebury,UCF101において,既存手法と比較して高い性能差を示した。

In general, deep learning-based video frame interpolation (VFI) methods have predominantly focused on estimating motion vectors between two input frames and warping them to the target time. While this approach has shown impressive performance for linear motion between two input frames, it exhibits limitations when dealing with occlusions and nonlinear movements. Recently, generative models have been applied to VFI to address these issues. However, as VFI is not a task focused on generating plausible images, but rather on predicting accurate intermediate frames between two given frames, performance limitations still persist. In this paper, we propose a multi-in-single-out (MISO) based VFI method that does not rely on motion vector estimation, allowing it to effectively model occlusions and nonlinear motion. Additionally, we introduce a novel motion perceptual loss that enables MISO-VFI to better capture the spatio-temporal correlations within the video frames. Our MISO-VFI method achieves state-of-the-art results on VFI benchmarks Vimeo90K, Middlebury, and UCF101, with a significant performance gap compared to existing approaches.
翻訳日:2023-11-21 19:27:46 公開日:2023-11-20
# 文書レベルニューラルネットワーク翻訳における長さバイアス問題への対処

Addressing the Length Bias Problem in Document-Level Neural Machine Translation ( http://arxiv.org/abs/2311.11601v1 )

ライセンス: Link先を確認
Zhuocheng Zhang, Shuhao Gu, Min Zhang, Yang Feng(参考訳) 文書レベルのニューラルマシン翻訳(DNMT)は、より多くのコンテキスト情報を組み込むことで、有望な結果を示している。 しかし、このアプローチは長手バイアス問題も導入しており、トレーニング中の最大シーケンス長よりもずっと短いか長い文書を復号する際に、dnmtは翻訳品質が著しく低下する。 %,長さバイアス問題であった。 長バイアス問題を解決するために,訓練法,注意機構,復号戦略におけるdnmtモデルの改善を提案する。 まず,トレーニングデータを動的にサンプリングし,シーケンス長の異なる分布をより均一にすることを提案する。 次に,対象情報に着目したモデルを支援するために,長い列を処理する際に注意の相違を緩和する長手正規化注意機構を提案する。 最後に,最大シーケンス長を超えることなく,できるだけ多くのコンテキスト情報を統合するデコード中のスライディングウィンドウ戦略を提案する。 実験結果から,本手法は複数のオープンデータセットにおいて大きな改善をもたらすことを示し,さらに解析した結果,長手バイアス問題を大幅に軽減できることが示唆された。

Document-level neural machine translation (DNMT) has shown promising results by incorporating more context information. However, this approach also introduces a length bias problem, whereby DNMT suffers from significant translation quality degradation when decoding documents that are much shorter or longer than the maximum sequence length during training. %i.e., the length bias problem. To solve the length bias problem, we propose to improve the DNMT model in training method, attention mechanism, and decoding strategy. Firstly, we propose to sample the training data dynamically to ensure a more uniform distribution across different sequence lengths. Then, we introduce a length-normalized attention mechanism to aid the model in focusing on target information, mitigating the issue of attention divergence when processing longer sequences. Lastly, we propose a sliding window strategy during decoding that integrates as much context information as possible without exceeding the maximum sequence length. The experimental results indicate that our method can bring significant improvements on several open datasets, and further analysis shows that our method can significantly alleviate the length bias problem.
翻訳日:2023-11-21 19:27:17 公開日:2023-11-20
# 並列サンプリングによる深部平衡拡散の復元

Deep Equilibrium Diffusion Restoration with Parallel Sampling ( http://arxiv.org/abs/2311.11600v1 )

ライセンス: Link先を確認
Jiezhang Cao, Yue Shi, Kai Zhang, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) 拡散に基づく画像復元(IR)手法は,拡散モデルを用いて劣化画像から高品質(HQ)画像を復元し,良好な性能を達成することを目的としている。 拡散モデル固有の性質のため、これらの手法の多くはHQイメージを段階的に復元するために長いシリアルサンプリングチェーンを必要とする。 結果として、高価なサンプリング時間と高い計算コストにつながる。 また,このような長いサンプリングチェーンは,チェーン全体の勾配の計算が困難であるため,復元結果と入力との関係を理解するのに支障をきたす。 本研究では,異なる視点,すなわち深い平衡(deq)の不動点系を通して拡散に基づくirモデルを再考することを目的としている。 具体的には,拡散型IRモデルのサンプリングチェーン全体を連成多変量固定点系としてモデル化し,解析解を導出する。 分析ソリューションの助けを借りて,単一画像サンプリングを並行して実施し,hq画像の復元をトレーニングせずに行うことができる。 さらに,deqの勾配を高速に計算し,初期化最適化により性能向上と生成方向の制御が可能であることを発見した。 ベンチマーク実験により,提案手法が典型的なIRタスクや実環境設定において有効であることを示す。 コードとモデルは公開される予定だ。

Diffusion-based image restoration (IR) methods aim to use diffusion models to recover high-quality (HQ) images from degraded images and achieve promising performance. Due to the inherent property of diffusion models, most of these methods need long serial sampling chains to restore HQ images step-by-step. As a result, it leads to expensive sampling time and high computation costs. Moreover, such long sampling chains hinder understanding the relationship between the restoration results and the inputs since it is hard to compute the gradients in the whole chains. In this work, we aim to rethink the diffusion-based IR models through a different perspective, i.e., a deep equilibrium (DEQ) fixed point system. Specifically, we derive an analytical solution by modeling the entire sampling chain in diffusion-based IR models as a joint multivariate fixed point system. With the help of the analytical solution, we are able to conduct single-image sampling in a parallel way and restore HQ images without training. Furthermore, we compute fast gradients in DEQ and found that initialization optimization can boost performance and control the generation direction. Extensive experiments on benchmarks demonstrate the effectiveness of our proposed method on typical IR tasks and real-world settings. The code and models will be made publicly available.
翻訳日:2023-11-21 19:26:59 公開日:2023-11-20
# vqaのイメージ情報ギャップを埋める: 大きな言語モデルに積極的に質問を促す

Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions ( http://arxiv.org/abs/2311.11598v1 )

ライセンス: Link先を確認
Ziyue Wang, Chi Chen, Peng Li, Yang Liu(参考訳) 大規模言語モデル(llm)は、自然言語タスクだけでなく、open-domain knowledge-based visual question answering(ok-vqa)のような視覚言語タスクにおいても、印象的な推論能力と世界知識の維持を示している。 画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。 これにより、画像とLLMに提示されるテキスト表現の相違が生じ、最終的な推論性能が損なわれる。 情報ギャップを埋め、推論能力をよりよく活用するために、LLMが積極的に関連する質問をし、画像に詳細を公開できるフレームワークを設計し、生成した情報を精査するフィルタを設計する。 我々はOK-VQAとA-OKVQAの考え方を検証する。 提案手法は,OK-VQAで平均2.15%向上するベースライン法の性能を継続的に向上させ,異なるLLM間で一貫した改善を実現する。

Large Language Models (LLMs) demonstrate impressive reasoning ability and the maintenance of world knowledge not only in natural language tasks, but also in some vision-language tasks such as open-domain knowledge-based visual question answering (OK-VQA). As images are invisible to LLMs, researchers convert images to text to engage LLMs into the visual question reasoning procedure. This leads to discrepancies between images and their textual representations presented to LLMs, which consequently impedes final reasoning performance. To fill the information gap and better leverage the reasoning capability, we design a framework that enables LLMs to proactively ask relevant questions to unveil more details in the image, along with filters for refining the generated information. We validate our idea on OK-VQA and A-OKVQA. Our method continuously boosts the performance of baselines methods by an average gain of 2.15% on OK-VQA, and achieves consistent improvements across different LLMs.
翻訳日:2023-11-21 19:26:40 公開日:2023-11-20
# ViP-Mixer:ビデオ予測のための畳み込みミキサー

ViP-Mixer: A Convolutional Mixer for Video Prediction ( http://arxiv.org/abs/2311.11683v1 )

ライセンス: Link先を確認
Xin Zheng, Ziang Peng, Yuan Cao, Hongming Shan, Junping Zhang(参考訳) ビデオ予測は、ビデオの以前のコンテンツから将来のフレームを予測することを目的としている。 既存の手法では、時間次元と空間とチャネル次元が3つの異なる角度から混ざり合っている映像データを主に処理している: 個々のフレームのシーケンス、時空間座標の3dボリューム、またはフレームを別々のチャネルとして扱うスタック画像。 それらは一般的にこれらの視点の1つに焦点を当てており、異なる次元間の関係を完全に活用できない可能性がある。 そこで本稿では,ビデオ予測のための畳み込みミキサーvip-mixerを紹介し,オートエンコーダの潜在空間における時空間進化をモデル化する。 ViP-Mixersはシーケンシャルに積み重ねられ、フレーム、チャンネル、ロケーションの3つのレベルで機能ミキシングされる。 提案手法は,合成シナリオと実世界シナリオの両方をカバーする3つのベンチマークビデオデータセットにおいて,新たな最先端予測性能を実現することを示す。

Video prediction aims to predict future frames from a video's previous content. Existing methods mainly process video data where the time dimension mingles with the space and channel dimensions from three distinct angles: as a sequence of individual frames, as a 3D volume in spatiotemporal coordinates, or as a stacked image where frames are treated as separate channels. Most of them generally focus on one of these perspectives and may fail to fully exploit the relationships across different dimensions. To address this issue, this paper introduces a convolutional mixer for video prediction, termed ViP-Mixer, to model the spatiotemporal evolution in the latent space of an autoencoder. The ViP-Mixers are stacked sequentially and interleave feature mixing at three levels: frames, channels, and locations. Extensive experiments demonstrate that our proposed method achieves new state-of-the-art prediction performance on three benchmark video datasets covering both synthetic and real-world scenarios.
翻訳日:2023-11-21 19:19:47 公開日:2023-11-20
# PMP-Swin:網膜疾患分類のためのマルチスケールパッチメッセージパッシングスウィントランス

PMP-Swin: Multi-Scale Patch Message Passing Swin Transformer for Retinal Disease Classification ( http://arxiv.org/abs/2311.11669v1 )

ライセンス: Link先を確認
Zhihan Yang, Zhiming Cheng, Tengjin Weng, Shucheng He, Yaqi Wang, Xin Ye, Shuai Wang(参考訳) 網膜疾患は視覚障害の主な原因の1つであり、早期診断はさらなる悪化を防ぐのに不可欠である。 近年, 強力な視覚表現能力により, 疾患診断用トランスフォーマーの探索が盛んである。 しかし、網膜疾患は軽度の形態を示し、しばしば重複する徴候を呈し、正確な多型分類には非常に困難である。 そこで本研究では,マルチスケールパッチメッセージパッシングスウィントランスという,マルチクラスの網膜疾患分類のための新しいフレームワークを提案する。 具体的には,病理的意味的特徴に対するグローバルインタラクションを確立するため,メッセージパッシング機構に基づいたパッチメッセージパッシング(pmp)モジュールを設計し,その微妙な差異を別々に活用する。 さらに, 様々な病的特徴を考慮し, パッチサイズの異なる複数のPMPモジュールを統合する。 評価のために,オプトスカメラで撮影した1,033個の高解像度眼底画像からなるOPTOSデータセットを構築し,提案手法の有効性を検証するための総合的な実験を行った。 また,本手法が最先端の手法と比較して顕著な性能を発揮することを示す。

Retinal disease is one of the primary causes of visual impairment, and early diagnosis is essential for preventing further deterioration. Nowadays, many works have explored Transformers for diagnosing diseases due to their strong visual representation capabilities. However, retinal diseases exhibit milder forms and often present with overlapping signs, which pose great difficulties for accurate multi-class classification. Therefore, we propose a new framework named Multi-Scale Patch Message Passing Swin Transformer for multi-class retinal disease classification. Specifically, we design a Patch Message Passing (PMP) module based on the Message Passing mechanism to establish global interaction for pathological semantic features and to exploit the subtle differences further between different diseases. Moreover, considering the various scale of pathological features we integrate multiple PMP modules for different patch sizes. For evaluation, we have constructed a new dataset, named OPTOS dataset, consisting of 1,033 high-resolution fundus images photographed by Optos camera and conducted comprehensive experiments to validate the efficacy of our proposed method. And the results on both the public dataset and our dataset demonstrate that our method achieves remarkable performance compared to state-of-the-art methods.
翻訳日:2023-11-21 19:19:32 公開日:2023-11-20
# OmniSeg3D:階層的コントラスト学習によるOmniversal 3Dセグメンテーション

OmniSeg3D: Omniversal 3D Segmentation via Hierarchical Contrastive Learning ( http://arxiv.org/abs/2311.11666v1 )

ライセンス: Link先を確認
Haiyang Ying, Yixuan Yin, Jinzhi Zhang, Fan Wang, Tao Yu, Ruqi Huang, Lu Fang(参考訳) 3次元シーンの全体的理解に向けて、オブジェクト量やカテゴリに制約を加えることなく多様なオブジェクトを分割できる汎用的な3次元セグメンテーション手法が必要である。 そこで我々はOmniSeg3Dを提案する。OmniSeg3Dは全3次元のセグメンテーションを同時に行うことを目的としている。 重要な洞察は、階層的コントラスト学習フレームワークを通じて、複数のビューに一貫性のない2dセグメンテーションを一貫した3d機能フィールドに引き上げることである。 まず,画素間のマルチレベル関係をモデル化するために,カテゴリ非依存な2次元セグメンテーションに基づく新しい階層表現を設計する。 第2に、3d特徴フィールドからレンダリングされた画像機能は、異なるレベルにクラスタリングされ、異なるレベル間の階層的関係に従ってさらに近づいたり、押しつぶされたりする。 一貫性のない2dセグメンテーションによって生じる課題に取り組む中で、このフレームワークは、階層的セグメンテーション、マルチオブジェクト選択、グローバル離散化を可能にする、グローバルな一貫性のある3d特徴フィールドをもたらす。 本手法が高品質な3次元セグメンテーションと正確な階層構造理解に有効であることを示す。 グラフィカルユーザインタフェースは、全周3dセグメンテーションの柔軟なインタラクションをさらに促進する。

Towards holistic understanding of 3D scenes, a general 3D segmentation method is needed that can segment diverse objects without restrictions on object quantity or categories, while also reflecting the inherent hierarchical structure. To achieve this, we propose OmniSeg3D, an omniversal segmentation method aims for segmenting anything in 3D all at once. The key insight is to lift multi-view inconsistent 2D segmentations into a consistent 3D feature field through a hierarchical contrastive learning framework, which is accomplished by two steps. Firstly, we design a novel hierarchical representation based on category-agnostic 2D segmentations to model the multi-level relationship among pixels. Secondly, image features rendered from the 3D feature field are clustered at different levels, which can be further drawn closer or pushed apart according to the hierarchical relationship between different levels. In tackling the challenges posed by inconsistent 2D segmentations, this framework yields a global consistent 3D feature field, which further enables hierarchical segmentation, multi-object selection, and global discretization. Extensive experiments demonstrate the effectiveness of our method on high-quality 3D segmentation and accurate hierarchical structure understanding. A graphical user interface further facilitates flexible interaction for omniversal 3D segmentation.
翻訳日:2023-11-21 19:19:11 公開日:2023-11-20
# モノクロ映像からの連続ロバスト3次元運動回復のための時空間環境の強化

Enhanced Spatio-Temporal Context for Temporally Consistent Robust 3D Human Motion Recovery from Monocular Videos ( http://arxiv.org/abs/2311.11662v1 )

ライセンス: Link先を確認
Sushovan Chanda and Amogh Tiwari and Lokender Tiwari and Brojeshwar Bhowmick and Avinash Sharma and Hrishav Barua(参考訳) 時間的に一貫した3次元人体ポーズの復元、単眼映像からの形状と運動は、(自己の)占有、照明条件の悪化、複雑な関節のポーズ、奥行きあいまい、注釈付きデータの可用性の制限などにより困難な課題である。 さらに、単純なパーフレーム推定を行うことは、ジッタや目立たない結果につながるため不十分である。 本稿では,単眼映像から時間的に一貫した動きを推定する新しい手法を提案する。 汎用ResNetのような特徴の代わりに、ボディ認識特徴表現とフレーム単位の独立ポーズとカメラ初期化を使い、ボディ認識特徴とフレーム単位の初期化に対する自己相似性と自己認識の組み合わせを用いて、時間的ウィンドウ上での新規な時空間特徴集約を行う。 共に、過去と将来のフレームを考慮し、各フレームの時空間的コンテキストを増大させる。 これらの特徴は、LSTMを用いてさらに洗練されている人体モデルのポーズと形状パラメータを予測するために使用される。 ベンチマークデータを用いた実験結果から,提案手法は加速誤差を著しく低減し,部分閉塞や複雑なポーズ,さらには比較的低い照明といった複雑なシナリオを含む,すべての主要な定量的評価指標に対して既存手法よりも優れることがわかった。

Recovering temporally consistent 3D human body pose, shape and motion from a monocular video is a challenging task due to (self-)occlusions, poor lighting conditions, complex articulated body poses, depth ambiguity, and limited availability of annotated data. Further, doing a simple perframe estimation is insufficient as it leads to jittery and implausible results. In this paper, we propose a novel method for temporally consistent motion estimation from a monocular video. Instead of using generic ResNet-like features, our method uses a body-aware feature representation and an independent per-frame pose and camera initialization over a temporal window followed by a novel spatio-temporal feature aggregation by using a combination of self-similarity and self-attention over the body-aware features and the perframe initialization. Together, they yield enhanced spatiotemporal context for every frame by considering remaining past and future frames. These features are used to predict the pose and shape parameters of the human body model, which are further refined using an LSTM. Experimental results on the publicly available benchmark data show that our method attains significantly lower acceleration error and outperforms the existing state-of-the-art methods over all key quantitative evaluation metrics, including complex scenarios like partial occlusion, complex poses and even relatively low illumination.
翻訳日:2023-11-21 19:18:45 公開日:2023-11-20
# mgct : 統合組織病理・遺伝学的特徴を用いた生存予後予測のための相互誘導型クロスモダリティトランスフォーマタ

MGCT: Mutual-Guided Cross-Modality Transformer for Survival Outcome Prediction using Integrative Histopathology-Genomic Features ( http://arxiv.org/abs/2311.11659v1 )

ライセンス: Link先を確認
Mingxin Liu, Yunzan Liu, Hui Cui, Chunquan Li, Jiquan Ma(参考訳) 深層学習に基づく計算病理学の急速に発展する分野は、がん患者を客観的に予測するために全スライド画像(WSI)を利用するという有望な結果を示している。 しかしながら、ほとんどの予後診断法は、現在、病理学またはゲノム学のみに限られており、患者の予後を正確に予測する可能性を必然的に減少させる。 一方、WSIとゲノムの特徴の統合は、(1)15万x150,000ピクセルの大きさまで到達できる巨大なギガピクセルWSIの異質性、(2)病理像とゲノム分子データの空間的関連性の欠如、(3)既存の早期・後期・中期のマルチモーダル特徴融合戦略は、WSIとゲノム間の明示的な相互作用を捉えるのに苦労する。 そこで本研究では,組織学的特徴とゲノム的特徴を組み合わせることで,腫瘍微小環境における遺伝子型・表現型相互作用をモデル化する,相互誘導型クロスモダリティトランスフォーマ(mgct)を提案する。 MGCTの有効性を検証するため,癌ゲノムアトラス(TCGA)由来の5種類の癌に対して,約3600ギガピクセルのWSIを用いて実験を行った。 実験結果はMGCTが最先端(SOTA)法より優れていることを一貫して強調している。

The rapidly emerging field of deep learning-based computational pathology has shown promising results in utilizing whole slide images (WSIs) to objectively prognosticate cancer patients. However, most prognostic methods are currently limited to either histopathology or genomics alone, which inevitably reduces their potential to accurately predict patient prognosis. Whereas integrating WSIs and genomic features presents three main challenges: (1) the enormous heterogeneity of gigapixel WSIs which can reach sizes as large as 150,000x150,000 pixels; (2) the absence of a spatially corresponding relationship between histopathology images and genomic molecular data; and (3) the existing early, late, and intermediate multimodal feature fusion strategies struggle to capture the explicit interactions between WSIs and genomics. To ameliorate these issues, we propose the Mutual-Guided Cross-Modality Transformer (MGCT), a weakly-supervised, attention-based multimodal learning framework that can combine histology features and genomic features to model the genotype-phenotype interactions within the tumor microenvironment. To validate the effectiveness of MGCT, we conduct experiments using nearly 3,600 gigapixel WSIs across five different cancer types sourced from The Cancer Genome Atlas (TCGA). Extensive experimental results consistently emphasize that MGCT outperforms the state-of-the-art (SOTA) methods.
翻訳日:2023-11-21 19:18:15 公開日:2023-11-20
# 二重凝縮型注意凝縮器 : 深層学習による皮膚病変画像からの皮膚癌検出

Double-Condensing Attention Condenser: Leveraging Attention in Deep Learning to Detect Skin Cancer from Skin Lesion Images ( http://arxiv.org/abs/2311.11656v1 )

ライセンス: Link先を確認
Chi-en Amy Tai, Elizabeth Janes, Chris Czarnecki, Alexander Wong(参考訳) 皮膚がんはアメリカ合衆国で最も一般的な種類のがんであり、5人に1人のアメリカ人に影響を与えると推定されている。 近年の進歩は,SIIM-ISICメラノーマ分類チャレンジ(Melanoma Classification Challenge)において,術式が示すような皮膚がん検出に強い効果を示しているが,これらの手法は,膨大な記憶と計算コストを必要とする複雑な深部神経アーキテクチャのアンサンブルを利用しており,抽出不可能である可能性がある。 TinyMLアプリケーションの最近の動きは、より高速で効率的な計算を可能にするために、Double-Condensing Attention Condensers (DC-AC)を自己アテンションニューラルネットワークバックボーンアーキテクチャに統合することである。 本稿では,皮膚病変画像の皮膚癌検出に効率的な自己注意構造を活用し,皮膚病変画像からの皮膚癌検出をカスタマイズしたDC-ACを用いたディープニューラルネットワーク設計を提案する。 最終モデルは、がんと戦う臨床医を支援する機械学習の進歩を加速するための、グローバルなオープンソースイニシアチブの一部として公開されている。

Skin cancer is the most common type of cancer in the United States and is estimated to affect one in five Americans. Recent advances have demonstrated strong performance on skin cancer detection, as exemplified by state of the art performance in the SIIM-ISIC Melanoma Classification Challenge; however these solutions leverage ensembles of complex deep neural architectures requiring immense storage and compute costs, and therefore may not be tractable. A recent movement for TinyML applications is integrating Double-Condensing Attention Condensers (DC-AC) into a self-attention neural network backbone architecture to allow for faster and more efficient computation. This paper explores leveraging an efficient self-attention structure to detect skin cancer in skin lesion images and introduces a deep neural network design with DC-AC customized for skin cancer detection from skin lesion images. The final model is publicly available as a part of a global open-source initiative dedicated to accelerating advancement in machine learning to aid clinicians in the fight against cancer.
翻訳日:2023-11-21 19:17:45 公開日:2023-11-20
# schufa blackboxの内部を覗く:ドイツの住宅スコアシステムを説明する

Peeking Inside the Schufa Blackbox: Explaining the German Housing Scoring System ( http://arxiv.org/abs/2311.11655v1 )

ライセンス: Link先を確認
Dean-Robin Kern, Gunnar Stevens, Erik Dethier, Sidra Naveed, Fatemeh Alizadeh, Delong Du, Md Shajalal(参考訳) 説明可能な人工知能は、複雑なアルゴリズムを統一ソリューションを通じてユーザに透明にすることを目的とした概念である。 研究者たちは、エンドユーザに合わせた説明を開発するために、ドメイン固有のコンテキストを統合することの重要性を強調した。 本研究では,ドイツのschufaハウジングスコアシステムに着目し,利用者の役割に応じてユーザ情報と説明への期待がどう変化するかを検討する。 投機的設計手法を用いて,住宅信用スコアの説明を行うユーザインターフェースを,テナントと地主の両方の視点から,ビジネス情報系学生に求めた。 予備的な調査結果から,すべてのユーザに適用できる一般的なニーズはあるものの,その役割の実用的現実や,クレジットスコアがユーザに与える影響にも依存する,相反するニーズが存在することが示唆された。 我々は,人間中心のxai研究に貢献し,ユーザの役割やエージェントを考慮した説明的ニーズを検討する今後の研究指針を提案する。

Explainable Artificial Intelligence is a concept aimed at making complex algorithms transparent to users through a uniform solution. Researchers have highlighted the importance of integrating domain specific contexts to develop explanations tailored to end users. In this study, we focus on the Schufa housing scoring system in Germany and investigate how users information needs and expectations for explanations vary based on their roles. Using the speculative design approach, we asked business information students to imagine user interfaces that provide housing credit score explanations from the perspectives of both tenants and landlords. Our preliminary findings suggest that although there are general needs that apply to all users, there are also conflicting needs that depend on the practical realities of their roles and how credit scores affect them. We contribute to Human centered XAI research by proposing future research directions that examine users explanatory needs considering their roles and agencies.
翻訳日:2023-11-21 19:17:24 公開日:2023-11-20
# 拡張タスクプロンプトによるWebニュースタイムライン生成

Web News Timeline Generation with Extended Task Prompting ( http://arxiv.org/abs/2311.11652v1 )

ライセンス: Link先を確認
Sha Wang, Yuchen Li, Hanhua Xiao, Lambert Deng, Yanfei Dong(参考訳) ニュースタイムラインの作成は、時間とともに広がるイベントの包括的で文脈的な理解に不可欠である。 このアプローチは、ニュースを別々に見るときに隠蔽される可能性のあるパターンやトレンドを識別するのに役立つ。 ニュースを時系列に整理することで、ストーリーの発達を追跡し、出来事の相互関係を理解し、ニュース項目の幅広い意味を理解することがより容易になる。 これは金融や保険などの分野において特に有用であり、極端な天候から政治的不況や健康危機までイベントの発生のタイムリーな理解が効果的なリスク管理に不可欠である。 従来の自然言語処理(nlp)技術はある程度の成功をおさめたが、ドメインの専門家にとってすぐに明らかになるような微妙な関連性でニュースを捉えられず、業界全体の統合を妨げることが多い。 大規模言語モデル(llm)の進歩は、この課題に取り組む新たな機会を提供する。 しかし、このタスクに対する直接的な LLM のプロンプトは、しばしば非効率である。 本研究は,過去のニュースとの関連性を評価するための拡張タスクプロンプト手法の適用について検討する。 従来のプロンプトを付加的なタスクで強化することで,様々なニュースデータセットの有効性が高まり,プロプライエタリなニュースタイムライン生成が実用的になることを示す。 この作業は,我々のネットワークで採用されているブラウザエクステンションとして公開されている。

The creation of news timeline is essential for a comprehensive and contextual understanding of events as they unfold over time. This approach aids in discerning patterns and trends that might be obscured when news is viewed in isolation. By organizing news in a chronological sequence, it becomes easier to track the development of stories, understand the interrelation of events, and grasp the broader implications of news items. This is particularly helpful in sectors like finance and insurance, where timely understanding of the event development-ranging from extreme weather to political upheavals and health crises-is indispensable for effective risk management. While traditional natural language processing (NLP) techniques have had some success, they often fail to capture the news with nuanced relevance that are readily apparent to domain experts, hindering broader industry integration. The advance of Large Language Models (LLMs) offers a renewed opportunity to tackle this challenge. However, direct prompting LLMs for this task is often ineffective. Our study investigates the application of an extended task prompting technique to assess past news relevance. We demonstrate that enhancing conventional prompts with additional tasks boosts their effectiveness on various news dataset, rendering news timeline generation practical for professional use. This work has been deployed as a publicly accessible browser extension which is adopted within our network.
翻訳日:2023-11-21 19:17:07 公開日:2023-11-20
# 癌ネットPCaデータ:合成関連拡散画像データを用いた前立腺癌臨床診断支援のためのオープンソースベンチマークデータセット

Cancer-Net PCa-Data: An Open-Source Benchmark Dataset for Prostate Cancer Clinical Decision Support using Synthetic Correlated Diffusion Imaging Data ( http://arxiv.org/abs/2311.11647v1 )

ライセンス: Link先を確認
Hayden Gunraj, Chi-en Amy Tai, Alexander Wong(参考訳) 近年,前立腺癌(PCa)に対する臨床的決定支援の領域において,合成相関拡散(CDI$^s$)画像の導入が有意な可能性を示唆している。 cdi$^s$は、異なるブラウン運動感受性の拡散信号減衰のジョイント相関を通じて組織特性を特徴付けるための新しい形態の磁気共鳴イメージング(mri)である。 パフォーマンスの改善にもかかわらず、PCaのCDI$^s$データは以前は公開されていない。 そこで我々は,PCa 研究の推進にあたり,PCa 患者の画像データ量 CDI$^s$ のオープンソースベンチマークデータセットである Cancer-Net PCa-Data を紹介した。 がんネットPCa-Dataは200例の患者コホートからのCDI$^s$ボリューム画像と全アノテーション(腺マスク,腫瘍マスク,各腫瘍のPCa診断)から構成される。 また,癌ネットワークPCa-Dataの人口分布とラベル領域の多様性を潜在的なバイアスとして分析する。 Cancer-Net PCa-Dataは、PCaのCDI$^s$イメージングデータの初めての公開データセットであり、世界中のがんと戦う臨床医を支援する機械学習と画像研究の進歩に特化した、グローバルなオープンソースイニシアチブの一部である。

The recent introduction of synthetic correlated diffusion (CDI$^s$) imaging has demonstrated significant potential in the realm of clinical decision support for prostate cancer (PCa). CDI$^s$ is a new form of magnetic resonance imaging (MRI) designed to characterize tissue characteristics through the joint correlation of diffusion signal attenuation across different Brownian motion sensitivities. Despite the performance improvement, the CDI$^s$ data for PCa has not been previously made publicly available. In our commitment to advance research efforts for PCa, we introduce Cancer-Net PCa-Data, an open-source benchmark dataset of volumetric CDI$^s$ imaging data of PCa patients. Cancer-Net PCa-Data consists of CDI$^s$ volumetric images from a patient cohort of 200 patient cases, along with full annotations (gland masks, tumor masks, and PCa diagnosis for each tumor). We also analyze the demographic and label region diversity of Cancer-Net PCa-Data for potential biases. Cancer-Net PCa-Data is the first-ever public dataset of CDI$^s$ imaging data for PCa, and is a part of the global open-source initiative dedicated to advancement in machine learning and imaging research to aid clinicians in the global fight against cancer.
翻訳日:2023-11-21 19:16:46 公開日:2023-11-20
# CastDet: CLIP-Activated Students-Teacher Learning を用いたオープン語彙空中検出に向けて

CastDet: Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning ( http://arxiv.org/abs/2311.11646v1 )

ライセンス: Link先を確認
Yan Li, Weiwei Guo, Dunyun He, Jiaqi Zhou, Yuze Gao, Wenxian Yu(参考訳) 航空画像における物体検出は、様々な地球観測アプリケーションにおいて重要な課題であるが、現在のアルゴリズムは、十分なバウンディングボックスアノテートトレーニングサンプルを必要とする対象カテゴリの事前定義されたセットのみを検出し、新しい対象カテゴリを検出できないことを学習している。 本稿では,地球表面のトレーニングカテゴリを超えて,これらの新しいカテゴリのトレーニングイメージに注釈を付けることなく,新しいオブジェクトのキャラクタリゼーションを可能にする空中画像のオープンボキャブラリオブジェクト検出(OVD)について考察する。 OVDの性能は、クラスに依存しない領域の提案や、新しいオブジェクトカテゴリをうまく一般化できる擬似ラベルの品質に依存する。 高品質な提案と疑似ラベルを同時に作成するために,クリップアクティベートした学生教師によるオープンボキャブラリー物体検出フレームワークであるcastdetを提案する。 学生-教師のメカニズムにおけるエンドツーエンドのフレームワークは、CLIPモデルを学生-教師の自己学習プロセスにおいて、豊富な知識の専門的な教師として活用する。 このアプローチは、新しいオブジェクトの提案と分類を促進する。 さらに,バッチトレーニング中に高品質な擬似ラベルを維持するための動的ラベルキュー手法を設計し,ラベルの不均衡を緩和する。 我々はOVDタスク用に設定された複数の既存の空中物体検出データセットについて広範な実験を行った。 実験の結果、VesDroneZSDデータセット上でDetic/ViLDを26.9/21.1で上回る40.0HM(Harmonic Mean)に達するなど、より優れたオープン語彙検出性能を実現した。

Object detection in aerial images is a pivotal task for various earth observation applications, whereas current algorithms learn to detect only a pre-defined set of object categories demanding sufficient bounding-box annotated training samples and fail to detect novel object categories. In this paper, we consider open-vocabulary object detection (OVD) in aerial images that enables the characterization of new objects beyond training categories on the earth surface without annotating training images for these new categories. The performance of OVD depends on the quality of class-agnostic region proposals and pseudo-labels that can generalize well to novel object categories. To simultaneously generate high-quality proposals and pseudo-labels, we propose CastDet, a CLIP-activated student-teacher open-vocabulary object Detection framework. Our end-to-end framework within the student-teacher mechanism employs the CLIP model as an extra omniscient teacher of rich knowledge into the student-teacher self-learning process. By doing so, our approach boosts novel object proposals and classification. Furthermore, we design a dynamic label queue technique to maintain high-quality pseudo labels during batch training and mitigate label imbalance. We conduct extensive experiments on multiple existing aerial object detection datasets, which are set up for the OVD task. Experimental results demonstrate our CastDet achieving superior open-vocabulary detection performance, e.g., reaching 40.0 HM (Harmonic Mean), which outperforms previous methods Detic/ViLD by 26.9/21.1 on the VisDroneZSD dataset.
翻訳日:2023-11-21 19:16:23 公開日:2023-11-20
# ニューラルネットワークによる制御エンジニアの工芸の展開

Unraveling the Control Engineer's Craft with Neural Networks ( http://arxiv.org/abs/2311.11644v1 )

ライセンス: Link先を確認
Braghadeesh Lakshminarayanan, Federico Dett\`u, Cristian R. Rojas, Simone Formentin(参考訳) 多くの産業プロセスは、性能要求を満たすために適切なコントローラを必要とする。 より頻繁に、高度なデジタルツインが利用可能であり、それは与えられた物理過程の仮想的な表現である非常に複雑なモデルであり、そのパラメータは物理過程の変動を捉えるために適切に調整されない。 本稿では,デジタルツインを用いて入力出力データとパラメータの摂動に適したコントローラを生成する,sim2real, direct data-driven controller tuning approachを提案する。 最先端のニューラルネットワークアーキテクチャは、デジタルツインの摂動バージョンから人工的に生成されたデータに基づいて、入力出力データをコントローラパラメータにマッピングするコントローラチューニングルールを学ぶために使用される。 このようにして、我々が認識している限り、我々は初めて、チューニングルールをデータから直接メタ学習することにより、制御エンジニアを機械学習モデルに置き換えることにより、コントローラの再調整の問題に取り組む。 この手法の利点は、ニューラルネットワークアーキテクチャのいくつかの選択に対する数値シミュレーションによって示される。

Many industrial processes require suitable controllers to meet their performance requirements. More often, a sophisticated digital twin is available, which is a highly complex model that is a virtual representation of a given physical process, whose parameters may not be properly tuned to capture the variations in the physical process. In this paper, we present a sim2real, direct data-driven controller tuning approach, where the digital twin is used to generate input-output data and suitable controllers for several perturbations in its parameters. State-of-the art neural-network architectures are then used to learn the controller tuning rule that maps input-output data onto the controller parameters, based on artificially generated data from perturbed versions of the digital twin. In this way, as far as we are aware, we tackle for the first time the problem of re-calibrating the controller by meta-learning the tuning rule directly from data, thus practically replacing the control engineer with a machine learning model. The benefits of this methodology are illustrated via numerical simulations for several choices of neural-network architectures.
翻訳日:2023-11-21 19:15:56 公開日:2023-11-20
# 行列積状態を持つ密な$\textrm{qcd}_2$

Dense $\textrm{QCD}_2$ with matrix product states ( http://arxiv.org/abs/2311.11643v1 )

ライセンス: Link先を確認
Tomoya Hayata, Yoshimasa Hidaka and Kentaro Nishimura(参考訳) 1-フレーバー $\mathrm{SU}(2)$ および $\mathrm{SU}(3)$ 格子 QCD を零温度および有限密度で、行列積状態と密度行列再正規化群を用いて研究する。 我々は、バリオン数密度の関数として状態方程式、カイラル凝縮、クォーク分布関数などの物理観測値を計算する。 物理的意味として, キラル縮合が不均一であり, バリオンが結晶を形成する非零バリオン密度における不均質相について考察する。 また,クォークフェルミ海の形成を通じて,ハドロンからクォークへの自由度の変化についても考察した。

We study one-flavor $\mathrm{SU}(2)$ and $\mathrm{SU}(3)$ lattice QCD in ($1+1$) dimensions at zero temperature and finite density using matrix product states and the density matrix renormalization group. We compute physical observables such as the equation of state, chiral condensate, and quark distribution function as functions of the baryon number density. As a physical implication, we discuss the inhomogeneous phase at nonzero baryon density, where the chiral condensate is inhomogeneous, and baryons form a crystal. We also discuss how the dynamical degrees of freedom change from hadrons to quarks through the formation of quark Fermi seas.
翻訳日:2023-11-21 19:15:39 公開日:2023-11-20
# ビデオ・フェイス・リエイジング:時間的一貫性のある顔・リエイジングに向けて

Video Face Re-Aging: Toward Temporally Consistent Face Re-Aging ( http://arxiv.org/abs/2311.11642v1 )

ライセンス: Link先を確認
Abdul Muqeet, Kyuchul Lee, Bumsoo Kim, Yohan Hong, Hyungrae Lee, Woonggon Kim, Kwang Hee Lee(参考訳) ビデオフェイスのリエイジングは、人の見かけの年齢をビデオのターゲット年齢に変更する。 この問題は、アイデンティティと年齢の時間的一貫性を維持するペアビデオデータセットが欠如しているため、難しい。 ほとんどの再老化手法は、ビデオの時間的一貫性を考慮せずに個々の画像を個別に処理する。 潜伏空間におけるビデオ顔属性操作による時間的コヒーレンスの問題に対処する既存の作品もあるが、年齢変化において満足のいく性能を提供できないことが多い。 この問題に取り組むために,(1)多年齢層にまたがる対象を特徴とする新しい合成ビデオデータセット,(2)提案するデータセットの有効性を検証するために設計されたベースラインアーキテクチャ,(3)ビデオ再生技術の時間的一貫性を評価するために明示的に調整された3つの新しいメトリクスの開発を提案する。 VFHQやCelebV-HQのような公開データセットに関する包括的な実験は、年齢変化と時間的一貫性の両方の観点から既存の手法よりも優れていることを示している。

Video face re-aging deals with altering the apparent age of a person to the target age in videos. This problem is challenging due to the lack of paired video datasets maintaining temporal consistency in identity and age. Most re-aging methods process each image individually without considering the temporal consistency of videos. While some existing works address the issue of temporal coherence through video facial attribute manipulation in latent space, they often fail to deliver satisfactory performance in age transformation. To tackle the issues, we propose (1) a novel synthetic video dataset that features subjects across a diverse range of age groups; (2) a baseline architecture designed to validate the effectiveness of our proposed dataset, and (3) the development of three novel metrics tailored explicitly for evaluating the temporal consistency of video re-aging techniques. Our comprehensive experiments on public datasets, such as VFHQ and CelebV-HQ, show that our method outperforms the existing approaches in terms of both age transformation and temporal consistency.
翻訳日:2023-11-21 19:15:25 公開日:2023-11-20
# 全連結量子ビットトポロジーのためのスパースポーリ・リンドブラッドモデルの効率的な学習

Efficient learning of Sparse Pauli Lindblad models for fully connected qubit topology ( http://arxiv.org/abs/2311.11639v1 )

ライセンス: Link先を確認
Jose Este Jaloveckas, Minh Tham Pham Nguyen, Lilly Palackal, Jeanette Miriam Lorenz, Hans Ehm(参考訳) 現在のハードウェアサイズとゲート忠実性を考慮した実用的な量子コンピューティングを実現するための課題は、エラーやノイズに対する感度である。 近年の研究では、量子ビットのクロストークを捉えるノイズモデルを学ぶことで、誤りの軽減が実用的な量子コンピューティングの境界を押し上げることが示されている。 これは線形トポロジー接続(すなわち超伝導量子デバイス)を持つデバイス上でのみスパースポーリ・リンドブラッドモデルを用いて達成されている。 本研究では,完全な接続性(イオントラップデバイス)を備えたハードウェア上でのノイズモデル学習のための理論的要件を拡張する。

The challenge to achieve practical quantum computing considering current hardware size and gate fidelity is the sensitivity to errors and noise. Recent work has shown that by learning the underlying noise model capturing qubit cross-talk, error mitigation can push the boundary of practical quantum computing. This has been accomplished using Sparse Pauli-Lindblad models only on devices with a linear topology connectivity (i.e. superconducting qubit devices). In this work we extend the theoretical requirement for learning such noise models on hardware with full connectivity (i.e. ion trap devices).
翻訳日:2023-11-21 19:15:07 公開日:2023-11-20
# Reti-Diff:Retinex-based Latent Diffusion Modelを用いた照明劣化画像復元

Reti-Diff: Illumination Degradation Image Restoration with Retinex-based Latent Diffusion Model ( http://arxiv.org/abs/2311.11638v1 )

ライセンス: Link先を確認
Chunming He, Chengyu Fang, Yulun Zhang, Kai Li, Longxiang Tang, Chenyu You, Fengyang Xiao, Zhenhua Guo, Xiu Li(参考訳) 照明劣化画像復元(IDIR)技術は、劣化した画像の視認性を改善し、劣化した照明の悪影響を軽減することを目的としている。 これらのアルゴリズムのうち、拡散モデル(dm)に基づく手法は有望な性能を示してきたが、画像レベルの分布を予測する際の計算量や画素不一致の問題にしばしば負担される。 このような問題に対処するために,我々はコンパクトな潜伏空間内でDMを活用して簡潔な誘導先を生成することを提案し,IDIRタスクのためのReti-Diffと呼ばれる新しい解を提案する。 Reti-Diff は Retinex-based Latent DM (RLDM) と Retinex-Guided Transformer (RGformer) の2つの重要なコンポーネントから構成される。 詳細な復元と照明補正を確保するため、RLDMはRetinexの知識を取得し、反射率と照明前の情報を抽出する権限を有する。 これらの先行情報は、RGformerによって画像特徴の分解をそれぞれの反射率と照明成分に導くために利用される。 その後、RGformerは分解された特徴をさらに強化し、強化し、複雑な劣化シナリオを扱うために、一貫したコンテンツと堅牢性を備えた精細な画像を生成する。 大規模な実験により、Reti-Diffは3つのIDIRタスクや下流アプリケーションにおいて既存の手法よりも優れていることが示された。 コードは \url{https://github.com/ChunmingHe/Reti-Diff} で入手できる。

Illumination degradation image restoration (IDIR) techniques aim to improve the visibility of degraded images and mitigate the adverse effects of deteriorated illumination. Among these algorithms, diffusion model (DM)-based methods have shown promising performance but are often burdened by heavy computational demands and pixel misalignment issues when predicting the image-level distribution. To tackle these problems, we propose to leverage DM within a compact latent space to generate concise guidance priors and introduce a novel solution called Reti-Diff for the IDIR task. Reti-Diff comprises two key components: the Retinex-based latent DM (RLDM) and the Retinex-guided transformer (RGformer). To ensure detailed reconstruction and illumination correction, RLDM is empowered to acquire Retinex knowledge and extract reflectance and illumination priors. These priors are subsequently utilized by RGformer to guide the decomposition of image features into their respective reflectance and illumination components. Following this, RGformer further enhances and consolidates the decomposed features, resulting in the production of refined images with consistent content and robustness to handle complex degradation scenarios. Extensive experiments show that Reti-Diff outperforms existing methods on three IDIR tasks, as well as downstream applications. Code will be available at \url{https://github.com/ChunmingHe/Reti-Diff}.
翻訳日:2023-11-21 19:14:58 公開日:2023-11-20
# sparse4d v3: エンドツーエンドの3d検出とトラッキング

Sparse4D v3: Advancing End-to-End 3D Detection and Tracking ( http://arxiv.org/abs/2311.11722v1 )

ライセンス: Link先を確認
Xuewu Lin, Zixiang Pei, Tianwei Lin, Lichao Huang, Zhizhong Su(参考訳) 自律運転認識システムでは、3D検出と追跡が2つの基本的な課題である。 本稿では,Sparse4Dフレームワークを基盤として,この分野を深く掘り下げる。 本稿では,2つの補助訓練タスク(テンポラル・インスタンス・デノジングと品質評価)を導入し,構造的改善を図り,検出性能の大幅な向上につながった。 さらに,推論中にインスタンスidを割り当て,クエリベースのアルゴリズムのメリットをさらに強調する,直接的なアプローチを用いて,検出器をトラッカに拡張する。 nuScenesベンチマークで実施された大規模な実験は、提案された改善の有効性を検証する。 resnet50をバックボーンとして,map,nds,amotaにおける3.0\%,2.2\%,7.6\%の強化を行い,それぞれ46.9\%,56.1\%,49.0\%となった。 NDS 71.9 % と AMOTA 67.7 % を nuScenes テストセットで達成した。 コードは \url{https://github.com/linxuewu/Sparse4D} でリリースされる。

In autonomous driving perception systems, 3D detection and tracking are the two fundamental tasks. This paper delves deeper into this field, building upon the Sparse4D framework. We introduce two auxiliary training tasks (Temporal Instance Denoising and Quality Estimation) and propose decoupled attention to make structural improvements, leading to significant enhancements in detection performance. Additionally, we extend the detector into a tracker using a straightforward approach that assigns instance ID during inference, further highlighting the advantages of query-based algorithms. Extensive experiments conducted on the nuScenes benchmark validate the effectiveness of the proposed improvements. With ResNet50 as the backbone, we witnessed enhancements of 3.0\%, 2.2\%, and 7.6\% in mAP, NDS, and AMOTA, achieving 46.9\%, 56.1\%, and 49.0\%, respectively. Our best model achieved 71.9\% NDS and 67.7\% AMOTA on the nuScenes test set. Code will be released at \url{https://github.com/linxuewu/Sparse4D}.
翻訳日:2023-11-21 19:08:16 公開日:2023-11-20
# ディープラーニングモデルの重み付けにおける差分プライバシーの存在を推測できるだろうか? よりセキュアなディープラーニングに向けて

Can we infer the presence of Differential Privacy in Deep Learning models' weights? Towards more secure Deep Learning ( http://arxiv.org/abs/2311.11717v1 )

ライセンス: Link先を確認
Jim\'enez-L\'opez, Daniel and Rodr\'iguez-Barroso, Nuria and Luz\'on, M. Victoria and Herrera, Francisco(参考訳) ディファレンシャルプライバシ(dp)は、データとモデルを完全性攻撃から保護する重要な特性である。 Deep Learning (DL) の分野では、DP-SGD (differially Private Stochastic Gradient Descent) によって一般的に実装されている。 しかし、モデルが共有されたり、リリースされたりすると、そのモデルプロバイダを信頼する必要のある差分プライベートかどうかをチェックする方法がない。 この状況は、データプライバシが必須である場合、特に現在のデータ規制では、DPの存在がサードパーティによって一貫して証明できないため、問題となる。 したがって、dlモデルがdpで訓練されたかどうかを決定するという課題に直面する:深層学習モデルの重みにおける差分プライバシーの存在を推測できるか? DP-SGD は DL モデルのトレーニング過程を著しく変化させるため,DP は DL モデルの重み付けにインプリントを残し,そのモデルが DP のアーキテクチャやトレーニングデータセットによらず,DP でトレーニングされたかどうかを予測できる,という仮説を立てる。 本稿では,DP モデルにおけるDP トレーニングの存在を推定するために,DP を用いたモデル重みのインプリントを用いることを提案する。 提案手法は,2つのDLモデルの重みのデータセットに基づいて,DPモデルのトレーニングプロセスでDPが使用されているかどうかを,その重みにアクセスして推定するメタクラス化手法である。 我々は、信頼できるモデルプロバイダの要求の排除と、この興味深い研究ラインの強力な基盤の両方を達成します。 したがって、我々の貢献は、DLモデルにおけるDPトレーニングの厳格なプライベート要件に加えて、DLモデルへの追加的なセキュリティ層である。

Differential Privacy (DP) is a key property to protect data and models from integrity attacks. In the Deep Learning (DL) field, it is commonly implemented through the Differentially Private Stochastic Gradient Descent (DP-SGD). However, when a model is shared or released, there is no way to check whether it is differentially private, that is, it required to trust the model provider. This situation poses a problem when data privacy is mandatory, specially with current data regulations, as the presence of DP can not be certificated consistently by any third party. Thus, we face the challenge of determining whether a DL model has been trained with DP, according to the title question: Can we infer the presence of Differential Privacy in Deep Learning models' weights? Since the DP-SGD significantly changes the training process of a DL model, we hypothesize that DP leaves an imprint in the weights of a DL model, which can be used to predict whether a model has been trained with DP regardless of its architecture and the training dataset. In this paper, we propose to employ the imprint in model weights of using DP to infer the presence of DP training in a DL model. To substantiate our hypothesis, we developed an experimental methodology based on two datasets of weights of DL models, each with models with and without DP training and a meta-classifier to infer whether DP was used in the training process of a DL model, by accessing its weights. We accomplish both, the removal of the requirement of a trusted model provider and a strong foundation for this interesting line of research. Thus, our contribution is an additional layer of security on top of the strict private requirements of DP training in DL models, towards to DL models.
翻訳日:2023-11-21 19:07:56 公開日:2023-11-20
# CNNに基づく物体検出アルゴリズムにおける大規模物体の重要性について

On the Importance of Large Objects in CNN Based Object Detection Algorithms ( http://arxiv.org/abs/2311.11714v1 )

ライセンス: Link先を確認
Ahmed Ben Saad (CB), Gabriele Facciolo (CB), Axel Davy (CB)(参考訳) 機械学習アルゴリズムの傑出したクラスであるオブジェクト検出モデルは、画像やビデオ内のオブジェクトを特定し、正確に特定することを目的としている。 しかし、このタスクは、オブジェクトのサイズとトレーニングに使用される画像やラベルの品質によって、時々不均一なパフォーマンスをもたらす可能性がある。 本稿では,全ての規模で重要な学習機能において,大きな物体の重要性を強調する。 これらの結果を踏まえて,トレーニング損失に重み付け項を導入することを提案する。 この用語は対象領域の大きさの関数である。 大型オブジェクトに重みを与えると、すべてのオブジェクトサイズにわたって検出スコアが向上し、オブジェクト検出器のパフォーマンスが全体的に向上することを示した(小さなオブジェクトのマップ+2 p.p.、媒体の+2 p.p.、インターンイメージ-tのcoco val 2017 largeの+4 p.p.)。 異なるモデルと異なるデータセットを用いたさらなる実験とアブレーションの研究は、この発見のロバスト性をさらに確認する。

Object detection models, a prominent class of machine learning algorithms, aim to identify and precisely locate objects in images or videos. However, this task might yield uneven performances sometimes caused by the objects sizes and the quality of the images and labels used for training. In this paper, we highlight the importance of large objects in learning features that are critical for all sizes. Given these findings, we propose to introduce a weighting term into the training loss. This term is a function of the object area size. We show that giving more weight to large objects leads to improved detection scores across all object sizes and so an overall improvement in Object Detectors performances (+2 p.p. of mAP on small objects, +2 p.p. on medium and +4 p.p. on large on COCO val 2017 with InternImage-T). Additional experiments and ablation studies with different models and on a different dataset further confirm the robustness of our findings.
翻訳日:2023-11-21 19:07:26 公開日:2023-11-20
# 弱電場と中等電場を用いた非対称分子配向の完全制御

Full Control of non-symmetric molecules orientation using weak and moderate electric fields ( http://arxiv.org/abs/2311.11708v1 )

ライセンス: Link先を確認
Rosario Gonz\'alez-F\'erez and Juan J. Omiste(参考訳) 中等度および弱電場を用いた非対称分子の配向の完全な制御について検討する。 量子最適制御技術により、電場方向に沿って6-クロロピリダジン-3-カルボニトリルの任意の軸を配向させることができる。 我々は,制御場の時間スケールと強度の分子配向への影響を解明し,詳細な解析を行う。 配向の制御を可能にする基礎となる物理現象は、フィールドドレッシングのダイナミクスに寄与する周波数と、スペクトル解析によって駆動場とで解釈される。

We investigate the full control over the orientation of a non-symmetric molecule by using moderate and weak electric fields. Quantum Optimal Control techniques allow us to orient any axis of 6-chloropyridazine-3-carbonitrile, which is taken as prototype example here, along the electric field direction. We perform a detailed analysis by exploring the impact on the molecular orientation of the time scale and strength of the control field. The underlying physical phenomena allowing for the control of the orientation are interpreted in terms of the frequencies contributing to the field-dressed dynamics and to the driving field by a spectral analysis.
翻訳日:2023-11-21 19:07:07 公開日:2023-11-20
# ハイブリッドチャットボットの制御

Control in Hybrid Chatbots ( http://arxiv.org/abs/2311.11701v1 )

ライセンス: Link先を確認
Thomas R\"udel and Jochen L. Leidner(参考訳) 顧客データは一般的にデータベースシステムに格納されるが、これはルールベースの知識ベースと見なすことができる。 本稿では,商用ルールエンジンと統合型ニューラルチャットボットが統合される可能性のケーススタディと,特定の統合モードがもたらす制御レベルについて述べる。 我々はまた、研究者が制御を維持し、最近モデル「幻覚」と呼ばれるものを避ける方法(他のシステムで実現された過去の方法を含む)についても論じる。

Customer data typically is held in database systems, which can be seen as rule-based knowledge base, whereas businesses increasingly want to benefit from the capabilities of large, pre-trained language models. In this technical report, we describe a case study of how a commercial rule engine and an integrated neural chatbot may be integrated, and what level of control that particular integration mode leads to. We also discuss alternative ways (including past ways realized in other systems) how researchers strive to maintain control and avoid what has recently been called model "hallucination".
翻訳日:2023-11-21 19:06:56 公開日:2023-11-20
# GS-SLAM:3Dガウススプラッティングによる高解像度視力SLAM

GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting ( http://arxiv.org/abs/2311.11700v1 )

ライセンス: Link先を確認
Chi Yan, Delin Qu, Dong Wang, Dan Xu, Zhigang Wang, Bin Zhao, Xuelong Li(参考訳) 本稿では,slamシステムにおいて,まず3次元ガウス表現を用いた$\textbf{gs-slam}$を提案する。 効率と正確さのバランスが向上します。 ニューラル暗黙表現を用いた最近のSLAM法と比較して,本手法では,マップ最適化とRGB-D再レンダリングに大幅な高速化を提供するリアルタイム微分可能なスプラッティングレンダリングパイプラインを利用する。 具体的には,新しいシーン形状を効率的に再構築し,以前に観測された領域のマッピングを改善するために,新しい,あるいはノイズの多い3次元ガウスを付加する適応展開戦略を提案する。 この戦略は、既存の手法で静的オブジェクトを合成するのではなく、3次元ガウス表現を拡張してシーン全体を再構築するために不可欠である。 さらに、ポーズトラッキングプロセスでは、カメラポーズを最適化する信頼性の高い3次元ガウス表現を選択するために、効果的な粗大化手法が設計されている。 提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。 ソースコードは受理後に公開される。

In this paper, we introduce $\textbf{GS-SLAM}$ that first utilizes 3D Gaussian representation in the Simultaneous Localization and Mapping (SLAM) system. It facilitates a better balance between efficiency and accuracy. Compared to recent SLAM methods employing neural implicit representations, our method utilizes a real-time differentiable splatting rendering pipeline that offers significant speedup to map optimization and RGB-D re-rendering. Specifically, we propose an adaptive expansion strategy that adds new or deletes noisy 3D Gaussian in order to efficiently reconstruct new observed scene geometry and improve the mapping of previously observed areas. This strategy is essential to extend 3D Gaussian representation to reconstruct the whole scene rather than synthesize a static object in existing methods. Moreover, in the pose tracking process, an effective coarse-to-fine technique is designed to select reliable 3D Gaussian representations to optimize camera pose, resulting in runtime reduction and robust estimation. Our method achieves competitive performance compared with existing state-of-the-art real-time methods on the Replica, TUM-RGBD datasets. The source code will be released upon acceptance.
翻訳日:2023-11-21 19:06:47 公開日:2023-11-20
# n$-Qubit系における相互不均一基底の効率的な量子回路構成法

An Efficient Quantum Circuit Construction Method for Mutually Unbiased Bases in $n$-Qubit Systems ( http://arxiv.org/abs/2311.11698v1 )

ライセンス: Link先を確認
Wang Yu, Wu Dongsheng(参考訳) 我々は,$O(n^3)$時間複雑性を持つ$n$量子ビットシステム上で,2^n+1$の相互非バイアスベース(MUB)を効率よく生成できる2^n+1$量子回路を設計する。 これらの回路は最大$(n^2+7n)/2$$H$、$S$、$CZ$ゲートで構成され、$-H-S-CZ-$として構成される。 あるいは、各回路は$H^{\otimes n}$と対角演算を用いて実装することができる。 平均的な$S$ゲート、$CZ$ゲート、$CZ$ゲートの各非自明回路における距離$u$の合計は$3n/2$、$(n^2-n)/4$、$(n-u)/2$となる。 さらに、エンタングルメントセグメントは 2n-3$ 固定モジュールであり、2^n$ の非自明回路はいくつかの興味深い ``linear" 関係を満たす。

We design an algorithm that efficiently generates each of $2^n+1$ quantum circuits capable of producing $2^n+1$ mutually unbiased bases (MUBs) on $n$-qubit systems with $O(n^3)$ time complexity. These circuits consist of a maximum of $(n^2+7n)/2$ $H$, $S$, and $CZ$ gates, structured as $-H-S-CZ-$. Alternatively, each circuit can be implemented using $H^{\otimes n}$ and a diagonal operation. On average, the count of $S$ gates, $CZ$ gates, and $CZ$ gates with distance $u$ in each nontrivial circuit amounts to $3n/2$, $(n^2-n)/4$, and $(n-u)/2$, respectively. Moreover, we've observed that the entanglement segment comprises $2n-3$ fixed modules, and the $2^n$ nontrivial circuits satisfy some intriguing ``linear" relations.
翻訳日:2023-11-21 19:06:26 公開日:2023-11-20
# カット・アンド・ペースト:アテンション制御による主題駆動ビデオ編集

Cut-and-Paste: Subject-Driven Video Editing with Attention Control ( http://arxiv.org/abs/2311.11697v1 )

ライセンス: Link先を確認
Zhichao Zuo, Zhao Zhang, Yan Luo, Yang Zhao, Haijun Zhang, Yi Yang, Meng Wang(参考訳) 本稿では,テキストプロンプトと追加参照画像の指導の下で,実語意味的映像編集のためのカット・アンド・ペーストと呼ばれる新しい枠組みを提案する。 テキスト駆動のビデオ編集は、与えられたテキストプロンプトに従って高度に多様なビデオを生成する能力を示すが、細粒度のセマンティックな編集は、オブジェクトの詳細や編集領域の点でのみプレーンなテキストプロンプトによって制御することは困難であり、通常、タスクには面倒な長いテキスト記述が必要である。 そこで本研究では,編集領域,背景保存,細粒度セマンティクス生成の両方をより正確に制御するための主題駆動ビデオ編集について検討する。 テキスト駆動ビデオ編集に補足的な入力として参照画像を導入することで、オブジェクトの詳細な外観を記述した面倒なテキストプロンプトを脳に取り付けるのを防ぎ、この目標を達成する。 編集領域を限定するため,映像編集におけるクロスアテンション制御の手法を参照し,隣接フレームのアテンションマップを融合させることで映像編集に成功し,映像の背景保持と時空間的一貫性のバランスを取る。 現在のメソッドと比較して、メソッド全体のプロセスは、編集対象のソースオブジェクトを ``cut" し、参照イメージによって提供されるターゲットオブジェクトを ``paste" のようにします。 本手法は,テキストプロンプトと余分な参照画像の指導の下で,定量的評価と主観評価の両方で,映像編集の先行技術よりも有利に機能することを示す。

This paper presents a novel framework termed Cut-and-Paste for real-word semantic video editing under the guidance of text prompt and additional reference image. While the text-driven video editing has demonstrated remarkable ability to generate highly diverse videos following given text prompts, the fine-grained semantic edits are hard to control by plain textual prompt only in terms of object details and edited region, and cumbersome long text descriptions are usually needed for the task. We therefore investigate subject-driven video editing for more precise control of both edited regions and background preservation, and fine-grained semantic generation. We achieve this goal by introducing an reference image as supplementary input to the text-driven video editing, which avoids racking your brain to come up with a cumbersome text prompt describing the detailed appearance of the object. To limit the editing area, we refer to a method of cross attention control in image editing and successfully extend it to video editing by fusing the attention map of adjacent frames, which strikes a balance between maintaining video background and spatio-temporal consistency. Compared with current methods, the whole process of our method is like ``cut" the source object to be edited and then ``paste" the target object provided by reference image. We demonstrate that our method performs favorably over prior arts for video editing under the guidance of text prompt and extra reference image, as measured by both quantitative and subjective evaluations.
翻訳日:2023-11-21 19:06:02 公開日:2023-11-20
# 事前学習言語モデルの疎低ランク適応

Sparse Low-rank Adaptation of Pre-trained Language Models ( http://arxiv.org/abs/2311.11696v1 )

ライセンス: Link先を確認
Ning Ding, Xingtai Lv, Qiaosen Wang, Yulin Chen, Bowen Zhou, Zhiyuan Liu, Maosong Sun(参考訳) パラメータ効率の高い学習済み大規模言語モデルの有効性と効率性について検討した。 ローランク適応法(LoRA)は、適応過程が本質的に低次元であることを仮定して、顕著なアプローチを提供する。 LoRAは賞賛できる性能を示してきたが、常に理想的な選択ではないような、固定的で変更不可能な固有のランクで実装されている。 より柔軟な適応の必要性を認識し、loraの方法論をsparse low-rank adaptation(sora)と呼ぶ、適応プロセス中に内在的なランクを動的に調整する革新的なアプローチに拡張します。 学習段階において近位勾配法を最適化したゲートユニットを組み込むことにより,ゲートのスパース性の下でランクの濃度を制御する。 その後の推論段階では、ゼロアウトのランクに対応するパラメータブロックを排除し、それぞれのSoRAモジュールを簡潔で最適のLoRAに還元する。 提案手法はloraの表現力を高階に初期化し,スパース方式で更新することで一時的に増加するパラメータ数を効率的に変更することで強化する。 さらに,モデルの記憶と一般化における非ゼロパラメータ数の影響を調べることを目的とした,soraのスペア化スケジューラについても紹介する。 実験の結果,70%のパラメータと70%のトレーニング時間でsoraが他のベースラインを上回ることが判明した。

Fine-tuning pre-trained large language models in a parameter-efficient manner is widely studied for its effectiveness and efficiency. The popular method of low-rank adaptation (LoRA) offers a notable approach, hypothesizing that the adaptation process is intrinsically low-dimensional. Although LoRA has demonstrated commendable performance, it is implemented with a fixed and unalterable intrinsic rank that might not always be the ideal choice. Recognizing the need for more flexible adaptation, we extend the methodology of LoRA to an innovative approach we call sparse low-rank adaptation (SoRA) that enables dynamic adjustments to the intrinsic rank during the adaptation process. We achieve this through the incorporation of a gate unit optimized with proximal gradient method in the training stage, controlling the cardinality of rank under the sparsity of the gate. In the subsequent inference stage, we eliminate the parameter blocks corresponding to the zeroed-out ranks, to reduce each SoRA module back to a concise yet rank-optimal LoRA. Our approach strengthens the representation power of LoRA by initializing it with a higher rank, while efficiently taming a temporarily increased number of parameters via updating in a sparse way. We further introduce a sparsifying scheduler for SoRA, aiming to examine the impact of the number of non-zero parameters on the model's memorization and generalization. Our experimental results demonstrate that SoRA can outperform other baselines even with 70% retained parameters and 70% training time.
翻訳日:2023-11-21 19:05:31 公開日:2023-11-20
# Clarity ChatGPT:画像復元と改善のためのインタラクティブで適応的な処理システム

Clarity ChatGPT: An Interactive and Adaptive Processing System for Image Restoration and Enhancement ( http://arxiv.org/abs/2311.11695v1 )

ライセンス: Link先を確認
Yanyan Wei, Zhao Zhang, Jiahuan Ren, Xiaogang Xu, Richang Hong, Yi Yang, Shuicheng Yan, Meng Wang(参考訳) 既存の画像復元・拡張(IRE)手法の一般化能力は、制限された事前訓練データセットによって制限されるため、異なる劣化レベルや設計範囲を超えたシナリオなどの非依存的な入力を扱うことは困難である。 さらに、ユーザ好みやフィードバックを考えるためのインタラクティブなメカニズムも備えておらず、エンドツーエンドの設定では、より多くの選択肢をユーザに提供できない。 上記のIRE手法の限られた性能と不十分な相互作用に直面すると、エンジニアリングとシステムフレームワークのレベルから解決しようと試みる。 具体的には,ChatGPTと複数のIRE手法を組み合わせたClarity ChatGPTを提案する。 Clarity ChatGPTは、画像劣化のタイプを自動的に検出し、画像の復元のための適切なIREメソッドを選択したり、ユーザフィードバックに基づいて満足な結果を生成する。 その革新的な特徴は、正確な劣化分類のためのCLIP駆動検出器、性能評価のための非参照画像品質評価、精度向上のための領域特異的処理、そして最適な復元結果のための高度な融合技術である。 Clarity ChatGPTは、言語とビジョンの統合、画像とテキストの相互作用の強化、堅牢で高性能なIREソリューションの提供において、大きな進歩を見せている。 ケーススタディでは、Clarity ChatGPTはIREにおける一般化と相互作用能力を効果的に改善し、既存の視覚言語モデルの低レベル領域のギャップを埋めることを示した。

The generalization capability of existing image restoration and enhancement (IRE) methods is constrained by the limited pre-trained datasets, making it difficult to handle agnostic inputs such as different degradation levels and scenarios beyond their design scopes. Moreover, they are not equipped with interactive mechanisms to consider user preferences or feedback, and their end-to-end settings cannot provide users with more choices. Faced with the above-mentioned IRE method's limited performance and insufficient interactivity, we try to solve it from the engineering and system framework levels. Specifically, we propose Clarity ChatGPT-a transformative system that combines the conversational intelligence of ChatGPT with multiple IRE methods. Clarity ChatGPT can automatically detect image degradation types and select appropriate IRE methods to restore images, or iteratively generate satisfactory results based on user feedback. Its innovative features include a CLIP-powered detector for accurate degradation classification, no-reference image quality evaluation for performance evaluation, region-specific processing for precise enhancements, and advanced fusion techniques for optimal restoration results. Clarity ChatGPT marks a significant advancement in integrating language and vision, enhancing image-text interactions, and providing a robust, high-performance IRE solution. Our case studies demonstrate that Clarity ChatGPT effectively improves the generalization and interaction capabilities in the IRE, and also fills the gap in the low-level domain of the existing vision-language model.
翻訳日:2023-11-21 19:05:08 公開日:2023-11-20
# 運送コスト予測のための自己注意力の解放:利率カード変圧器

Unveiling the Power of Self-Attention for Shipping Cost Prediction: The Rate Card Transformer ( http://arxiv.org/abs/2311.11694v1 )

ライセンス: Link先を確認
P Aditya Sreekar, Sahil Verma, Varun Madhavan, Abhishek Persad(参考訳) Amazonは毎年、米国内の顧客に何十億ものパッケージを出荷している。 これらのパッケージの出荷コストは、出荷日(0日)に販売の収益性を見積もるために使用される。 下流システムは最近、価格戦略や損失生成商品の廃止など、財務上の決定に0利益率の見積もりを使用している。 しかし、キャリア請求の遅れや固定コストコンポーネントが毎月の周期で記録されるなどの理由から、0日目の正確な出荷コスト推定値を取得することは複雑である。 不正確な出荷コストの見積は、価格が低すぎるか高すぎるか、あるいは間違った製品を顧客に宣伝するような、悪い判断につながる可能性がある。 出荷コストを0日目に見積もる現在のソリューションは、大規模な手作業を必要とするツリーベースのモデルに依存している。 本研究では,Rate Card Transformer(RCT)と呼ばれる,パッケージ属性やキャリア情報,ルート計画など,パッケージの出荷情報をすべて自己注意で符号化するアーキテクチャを提案する。 他のトランスフォーマーベースの表型モデルとは異なり、rctは出荷の1対1の関係の可変リストをエンコードでき、出荷に関するより多くの情報をキャプチャできる。 例えば、RCTはパッケージ内のすべての製品のプロパティをエンコードできる。 その結果,RCTによるコスト予測はGBDTモデルに比べて28.82%誤差が少ないことがわかった。 さらに、RTTは最先端の変換器ベースの表型モデルFTTransformerを6.08%上回る。 また、RCTは木モデルの性能を向上させることができるレートカードの一般化多様体を学習する。

Amazon ships billions of packages to its customers annually within the United States. Shipping cost of these packages are used on the day of shipping (day 0) to estimate profitability of sales. Downstream systems utilize these days 0 profitability estimates to make financial decisions, such as pricing strategies and delisting loss-making products. However, obtaining accurate shipping cost estimates on day 0 is complex for reasons like delay in carrier invoicing or fixed cost components getting recorded at monthly cadence. Inaccurate shipping cost estimates can lead to bad decision, such as pricing items too low or high, or promoting the wrong product to the customers. Current solutions for estimating shipping costs on day 0 rely on tree-based models that require extensive manual engineering efforts. In this study, we propose a novel architecture called the Rate Card Transformer (RCT) that uses self-attention to encode all package shipping information such as package attributes, carrier information and route plan. Unlike other transformer-based tabular models, RCT has the ability to encode a variable list of one-to-many relations of a shipment, allowing it to capture more information about a shipment. For example, RCT can encode properties of all products in a package. Our results demonstrate that cost predictions made by the RCT have 28.82% less error compared to tree-based GBDT model. Moreover, the RCT outperforms the state-of-the-art transformer-based tabular model, FTTransformer, by 6.08%. We also illustrate that the RCT learns a generalized manifold of the rate card that can improve the performance of tree-based models.
翻訳日:2023-11-21 19:04:41 公開日:2023-11-20
# プログレッシブラーニングによるロバストテキスト検索に向けて

Towards Robust Text Retrieval with Progressive Learning ( http://arxiv.org/abs/2311.11691v1 )

ライセンス: Link先を確認
Tong Wu, Yulei Qin, Enwei Zhang, Zihan Xu, Yuting Gao, Ke Li, Xing Sun(参考訳) 検索の強化は、LLMの最新の情報やドメイン固有の情報を扱う際の限界と幻覚を克服し、データベースから外部および検証された知識ソースで大きな言語モデル(LLM)を強化する効果的なソリューションとなっている。 しかし、既存のテキスト検索の埋め込みモデルは、通常、無視できない制限が3つある。 まず、バッチ内のサンプルの数と多様性は、大規模なテキストニュアンスモデリングを監督するには制限されすぎます。 第二に、高い比例雑音は埋め込みの意味的正しさと一貫性を損なう。 第三に、簡単で難しいサンプルに対する同等の処理は、より低い一般化を伴う埋め込みの準最適収束を引き起こす。 本稿では,ロバストテキスト検索のための段階的に学習された埋め込みであるPEGを提案する。 具体的には、トレーニング中の負のサンプルを80,000まで増やし、クエリ毎に5つのハードネガティブを抽出した。 同時に,学習過程全体を通して,モデルが標本に対する注意を動的に調整できるプログレッシブ学習機構を組み込んだ。 さらに、PEGは1億以上のデータに基づいて訓練されており、幅広い領域(金融、医療、観光など)を包含し、様々なタスク(質問応答、機械読解、類似性マッチングなど)をカバーしている。 C-MTEBとDuReaderで実施された大規模な実験は、PEGが真の正の検索において最先端の埋め込みを超越していることを示し、LLMの応用の可能性を強調している。 私たちのモデルはhttps://huggingface.co/TownsWu/PEG.comで公開されています。

Retrieval augmentation has become an effective solution to empower large language models (LLMs) with external and verified knowledge sources from the database, which overcomes the limitations and hallucinations of LLMs in handling up-to-date and domain-specific information. However, existing embedding models for text retrieval usually have three non-negligible limitations. First, the number and diversity of samples in a batch are too restricted to supervise the modeling of textual nuances at scale. Second, the high proportional noise are detrimental to the semantic correctness and consistency of embeddings. Third, the equal treatment to easy and difficult samples would cause sub-optimum convergence of embeddings with poorer generalization. In this paper, we propose the PEG, a progressively learned embeddings for robust text retrieval. Specifically, we increase the training in-batch negative samples to 80,000, and for each query, we extracted five hard negatives. Concurrently, we incorporated a progressive learning mechanism, enabling the model to dynamically modulate its attention to the samples throughout the entire training process. Additionally, PEG is trained on more than 100 million data, encompassing a wide range of domains (e.g., finance, medicine, and tourism) and covering various tasks (e.g., question-answering, machine reading comprehension, and similarity matching). Extensive experiments conducted on C-MTEB and DuReader demonstrate that PEG surpasses state-of-the-art embeddings in retrieving true positives, highlighting its significant potential for applications in LLMs. Our model is publicly available at https://huggingface.co/TownsWu/PEG.
翻訳日:2023-11-21 19:04:15 公開日:2023-11-20
# 少数ショット例による大規模言語モデルを用いたリファクタリングプログラム

Refactoring Programs Using Large Language Models with Few-Shot Examples ( http://arxiv.org/abs/2311.11690v1 )

ライセンス: Link先を確認
Atsushi Shirafuji, Yusuke Oda, Jun Suzuki, Makoto Morishita, Yutaka Watanobe(参考訳) より複雑で簡単なプログラムは保守性を高め、セキュアでバグのないプログラムを書くのが容易になる重要な要素である。 しかし、その作業負荷と作業プログラムを壊すリスクのため、プログラマはコードのリファクタリングに消極的であり、それによって潜在的な学習経験が失われる。 これを軽減するために,ユーザによるPythonプログラムのより複雑なバージョンを提案するために,大規模言語モデル (LLM) である GPT-3.5 を用いることを実証した。 提案手法は, 単発例を用いたプロンプトの事前評価に基づいて, 対象プログラミング問題毎に最適なコードリファクタリング例を選択することで, 数発例によるプロンプトの活用手法を提案する。 定量的評価の結果、プログラムの95.68%は、それぞれ10個の候補を生成してリファクタリングでき、その結果、平均的な循環的複雑度が17.35%減少し、意味的に正しい生成したプログラムのみをフィルタリングした後の平均行数が25.84%減少した。 さらに、定性評価はコードフォーマッティングにおいて優れた能力を示し、削除やコメントの翻訳といった不要な動作も観察される。

A less complex and more straightforward program is a crucial factor that enhances its maintainability and makes writing secure and bug-free programs easier. However, due to its heavy workload and the risks of breaking the working programs, programmers are reluctant to do code refactoring, and thus, it also causes the loss of potential learning experiences. To mitigate this, we demonstrate the application of using a large language model (LLM), GPT-3.5, to suggest less complex versions of the user-written Python program, aiming to encourage users to learn how to write better programs. We propose a method to leverage the prompting with few-shot examples of the LLM by selecting the best-suited code refactoring examples for each target programming problem based on the prior evaluation of prompting with the one-shot example. The quantitative evaluation shows that 95.68% of programs can be refactored by generating 10 candidates each, resulting in a 17.35% reduction in the average cyclomatic complexity and a 25.84% decrease in the average number of lines after filtering only generated programs that are semantically correct. Furthermore, the qualitative evaluation shows outstanding capability in code formatting, while unnecessary behaviors such as deleting or translating comments are also observed.
翻訳日:2023-11-21 19:03:33 公開日:2023-11-20
# 大規模言語モデルによる因果構造学習

Causal Structure Learning Supervised by Large Language Model ( http://arxiv.org/abs/2311.11689v1 )

ライセンス: Link先を確認
Taiyu Ban and Lyuzhou Chen and Derui Lyu and Xiangyu Wang and Huanhuan Chen(参考訳) 観測データからの因果発見は複雑な関係の解読に重要である。 因果非巡回グラフ(DAG)をデータから導出することに焦点を当てた因果構造学習(CSL)は,DAG空間とデータ空間の広さによる課題に直面している。 因果推論能力で認識されるLarge Language Models(LLMs)の統合は、知識に基づく因果推論を取り入れることで、CSLを強化するための有望な方向性を提供する。 しかし、LLMをCSLに活用する既存のアプローチでは、不完全なLLM推論からの信頼できない制約や、完全対変数解析の計算強度といった問題が発生している。 そこで本研究では,ILS-CSL (Iterative LLM Supervised CSL) フレームワークを提案する。 ILS-CSLは、LCMに基づく因果推論を反復的にCSLに統合し、LSMからのフィードバックを用いて因果DAGを精製する。 この手法は, LLM資源をより効率的に活用するだけでなく, 従来の手法に比べ, より堅牢で高品質な構造制約を生成する。 実世界の8つのデータセットの包括的な評価は、ILS-CSLの優れた性能を示し、CSLの有効性の新しい標準を設定し、因果発見の分野を著しく前進させる可能性を示している。 コードは \url{https://github.com/tyMadara/ILS-CSL} で公開されている。

Causal discovery from observational data is pivotal for deciphering complex relationships. Causal Structure Learning (CSL), which focuses on deriving causal Directed Acyclic Graphs (DAGs) from data, faces challenges due to vast DAG spaces and data sparsity. The integration of Large Language Models (LLMs), recognized for their causal reasoning capabilities, offers a promising direction to enhance CSL by infusing it with knowledge-based causal inferences. However, existing approaches utilizing LLMs for CSL have encountered issues, including unreliable constraints from imperfect LLM inferences and the computational intensity of full pairwise variable analyses. In response, we introduce the Iterative LLM Supervised CSL (ILS-CSL) framework. ILS-CSL innovatively integrates LLM-based causal inference with CSL in an iterative process, refining the causal DAG using feedback from LLMs. This method not only utilizes LLM resources more efficiently but also generates more robust and high-quality structural constraints compared to previous methodologies. Our comprehensive evaluation across eight real-world datasets demonstrates ILS-CSL's superior performance, setting a new standard in CSL efficacy and showcasing its potential to significantly advance the field of causal discovery. The codes are available at \url{https://github.com/tyMadara/ILS-CSL}.
翻訳日:2023-11-21 19:02:57 公開日:2023-11-20
# Segment Together:半スーパービジョンの医療画像セグメンテーションのためのVersatile Paradigm

Segment Together: A Versatile Paradigm for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2311.11686v1 )

ライセンス: Link先を確認
Qingjie Zeng, Yutong Xie, Zilin Lu, Mengkang Lu, Yicheng Wu and Yong Xia(参考訳) アノテーション不足は、医療画像セグメンテーションのための強力なディープラーニングモデルをトレーニングするための大きな障害となり、臨床シナリオへの展開を制限する。 これを解決するために、豊富なラベルのないデータを活用する半教師付き学習は、モデルトレーニングを促進するために非常に望ましい。 しかし、既存の作品の多くは依然として限られた医療タスクに重点を置いており、様々なタスクや複数のデータセットで学習する可能性を過小評価している。 そこで本稿では,様々なタスクを広いラベル空間を持つ統一モデルに統合し,半教師付き医用画像セグメンテーションのためのラベルなしデータを活用する新しい視点を指摘するために, \textbf{ver}satile \textbf{semi}-supervised framework (versemi)を提案する。 具体的には、異なるデータセットから様々なターゲットを分割する動的タスクプロンプト設計を導入する。 次に、この統一モデルを使用して、ラベル付きデータから前景領域を識別し、データセット間のセマンティクスをキャプチャする。 特に,拡張ラベル空間内の前景目標を拡大するためのカットミックス戦略を用いた合成タスクを作成する。 ラベルなしデータを有効に活用するために,一貫性制約を導入する。 これは、様々なタスクからの集約された予測と合成タスクからの予測とを一致させ、トレーニング中の前景領域を正確に区分するモデルをさらに誘導する。 VerSemiモデルを4つの公開ベンチマークデータセットで評価した。 広範囲な実験により、VerSemiは、大きなマージン(例:4つのデータセットで平均2.69\%のDiceゲイン)で第2のベストメソッドを一貫して上回り、半教師付き医療画像セグメンテーションのための新しいSOTAパフォーマンスを設定できた。 コードはリリースされます。

Annotation scarcity has become a major obstacle for training powerful deep-learning models for medical image segmentation, restricting their deployment in clinical scenarios. To address it, semi-supervised learning by exploiting abundant unlabeled data is highly desirable to boost the model training. However, most existing works still focus on limited medical tasks and underestimate the potential of learning across diverse tasks and multiple datasets. Therefore, in this paper, we introduce a \textbf{Ver}satile \textbf{Semi}-supervised framework (VerSemi) to point out a new perspective that integrates various tasks into a unified model with a broad label space, to exploit more unlabeled data for semi-supervised medical image segmentation. Specifically, we introduce a dynamic task-prompted design to segment various targets from different datasets. Next, this unified model is used to identify the foreground regions from all labeled data, to capture cross-dataset semantics. Particularly, we create a synthetic task with a cutmix strategy to augment foreground targets within the expanded label space. To effectively utilize unlabeled data, we introduce a consistency constraint. This involves aligning aggregated predictions from various tasks with those from the synthetic task, further guiding the model in accurately segmenting foreground regions during training. We evaluated our VerSemi model on four public benchmarking datasets. Extensive experiments demonstrated that VerSemi can consistently outperform the second-best method by a large margin (e.g., an average 2.69\% Dice gain on four datasets), setting new SOTA performance for semi-supervised medical image segmentation. The code will be released.
翻訳日:2023-11-21 19:02:22 公開日:2023-11-20
# 優れた特徴抽出器は組織病理学における弱い教師付き学習に必要な全てである

A Good Feature Extractor Is All You Need for Weakly Supervised Learning in Histopathology ( http://arxiv.org/abs/2311.11772v1 )

ライセンス: Link先を確認
Georg W\"olflein, Dyke Ferber, Asier Rabasco Meneghetti, Omar S. M. El Nahhas, Daniel Truhn, Zunamys I. Carrero, David J. Harrison, Ognjen Arandjelovi\'c, Jakob N. Kather(参考訳) 深層学習は病理学に革命をもたらしており、病気の予後とパーソナライズされた治療の新しい機会を提供している。 歴史的に、染色正規化は計算病理学パイプラインにおいて重要な前処理ステップであり、深層学習の時代まで続く。 しかし,多種多様な病理データを用いた自己教師付き学習(ssl)を用いた特徴抽出器の出現により,本手法に疑問を呈する。 一般に公開されている特徴抽出器の実証評価において,ステンレス正規化や画像強調は下流の性能を損なうことなく,メモリや計算にかなりの節約をもたらすことがわかった。 さらに, トップパフォーミング特徴抽出器は, 潜在空間における回転などの汚れや増強の変動に対して著しく頑健であることを示した。 従来のパッチレベルのベンチマーク研究とは対照的に,外部検証コホートを用いた弱教師付き環境でのスライドレベルの予測タスクに着目し,臨床関連性を重視した。 この作業は、9つのタスク、5つのデータセット、3つのダウンストリームアーキテクチャ、さまざまな前処理セットアップにわたる6000以上のトレーニングの実行を含む、SSL機能抽出器の最も包括的な堅牢性評価を表している。 本研究は,前処理ニーズを最小化し,特徴抽出器の選択を知らせることで,デジタル病理ワークフローを合理化する。

Deep learning is revolutionising pathology, offering novel opportunities in disease prognosis and personalised treatment. Historically, stain normalisation has been a crucial preprocessing step in computational pathology pipelines, and persists into the deep learning era. Yet, with the emergence of feature extractors trained using self-supervised learning (SSL) on diverse pathology datasets, we call this practice into question. In an empirical evaluation of publicly available feature extractors, we find that omitting stain normalisation and image augmentations does not compromise downstream performance, while incurring substantial savings in memory and compute. Further, we show that the top-performing feature extractors are remarkably robust to variations in stain and augmentations like rotation in their latent space. Contrary to previous patch-level benchmarking studies, our approach emphasises clinical relevance by focusing on slide-level prediction tasks in a weakly supervised setting with external validation cohorts. This work represents the most comprehensive robustness evaluation of public pathology SSL feature extractors to date, involving more than 6,000 training runs across nine tasks, five datasets, three downstream architectures, and various preprocessing setups. Our findings stand to streamline digital pathology workflows by minimising preprocessing needs and informing the selection of feature extractors.
翻訳日:2023-11-21 18:54:37 公開日:2023-11-20
# スターク格子におけるヒルベルト空間分裂のフローケット工学

Floquet Engineering of Hilbert Space Fragmentation in Stark Lattices ( http://arxiv.org/abs/2311.11771v1 )

ライセンス: Link先を確認
Li Zhang and Yongguan Ke and Ling Lin and Chaohong Lee(参考訳) HSF(Hilbert space fragmentation)の概念は、最近量子エルゴード性を破壊するルーチンとして提案されている。 HSFは動的制約モデルに広く存在するが、HSFをチューニングすることは依然として困難である。 本稿では、スピンレスフェルミオンと周期的に駆動されるトンネル相互作用の1次元傾斜格子におけるHSFのチューニング手法を提案する。 動力学は、弱いトンネルの摂動拡大における密度依存トンネルとして現れる、運動論的制約を持つ効果的なハミルトニアンによって制御される。 駆動周波数を変化させることで運動性制約を調整でき、3種類の強いHSFを設計することができる。 一般に、システムは強い制約を受け、強いHSFを示す。 2つの部分共振周波数は、フロケット系の時間依存摂動理論によって解析的に与えられ、いくつかの運動的制約が解放され、システムは別の2つの異なる強いHSFを示す。 本研究では, 絡み合いエントロピー, 密度相関関数, 飽和局所密度プロファイルの正確な数値シミュレーションによる摂動解析を実証する。 この結果はフロッケ工学を通じてhsfを制御する有望な方法を提供する。

The concept of Hilbert space fragmentation (HSF) has recently been put forward as a routine to break quantum ergodicity. While HSF widely exists in dynamical constraint models, it is still challenging to tune HSF. Here, we propose a scheme to tune HSF in a one-dimensional tilted lattice of interacting spinless fermions with periodically driven tunneling. The dynamics is governed by effective Hamiltonians with kinetic constraints, which appear as density-dependent tunneling in the weak-tunneling perturbation expansion. The kinetic constraint can be tuned via changing the driving frequency, and three different kinds of strong HSF can be engineered. In general, the system is strongly constrained and exhibits a strong HSF. Two partial resonance frequencies are analytically given by a time-dependent perturbation theory for Floquet systems, at which some kinetic constraints are released and the system exhibits another two different strong HSF. We demonstrate the perturbation analysis with exact numerical simulation of the entanglement entropy, the density correlation functions and the saturated local density profiles. Our result provides a promising way to control HSF through Floquet engineering.
翻訳日:2023-11-21 18:54:16 公開日:2023-11-20
# muvo:幾何表現を用いた自律運転のためのマルチモーダル生成世界モデル

MUVO: A Multimodal Generative World Model for Autonomous Driving with Geometric Representations ( http://arxiv.org/abs/2311.11762v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Yitian Yang, J. Marius Z\"ollner(参考訳) 自律運転のための教師なしの世界モデルを学ぶことは、今日のシステムの推論能力を大幅に改善する可能性がある。 しかし、ほとんどの作業は世界の物理的特性を無視し、センサーデータのみに焦点を当てている。 本稿では,幾何学的ボクセル表現を持つマルチモーダル世界モデルであるmuvoを提案する。 生のカメラとライダーデータを用いて,センサに依存しない世界の幾何学的表現を学習する。 マルチモーダルな将来の予測を実証し,この幾何表現により,カメラ画像とライダー点雲の両方の予測品質が向上することを示す。

Learning unsupervised world models for autonomous driving has the potential to improve the reasoning capabilities of today's systems dramatically. However, most work neglects the physical attributes of the world and focuses on sensor data alone. We propose MUVO, a MUltimodal World Model with Geometric VOxel Representations to address this challenge. We utilize raw camera and lidar data to learn a sensor-agnostic geometric representation of the world, which can directly be used by downstream tasks, such as planning. We demonstrate multimodal future predictions and show that our geometric representation improves the prediction quality of both camera images and lidar point clouds.
翻訳日:2023-11-21 18:53:58 公開日:2023-11-20
# MLPによるグラフ学習の未知の可能性:プロパゲーション・エンブラシングを用いた効果的なグラフ学習者

Unveiling the Unseen Potential of Graph Learning through MLPs: Effective Graph Learners Using Propagation-Embracing MLPs ( http://arxiv.org/abs/2311.11759v1 )

ライセンス: Link先を確認
Yong-Min Shin, Won-Yong Shin(参考訳) 近年,教師グラフニューラルネットワーク(gnn)による知識蒸留(kd)による学生mlpの学習により,グラフ上の半教師ノード分類の解法として多層パーセプトロン(mlps)を用いた研究が行われている。 これまでの研究では,教師と生徒モデルの出力確率分布をkd中に一致させることで学生mlpの訓練に重点を置いているが,構造情報を明示的かつ解釈可能な方法で注入する方法は体系的に研究されていない。 機能変換を分離したgnnにインスパイアされた $t$ と propagation $\pi$ は、学生 mlp が $t$ と $\pi$ の両方を明示的に学習できるように kd プロセスを再構築します。 これは教師GNNから蒸留される前に逆伝播$\Pi^{-1}$を適用することで実現できるが、それでもトレーニング中に大きな行列乗算の計算コストが高い。 この問題を解決するために,KD 以前の教師 GNN の出力を伝搬し,逆伝播 $\Pi^{-1}$ の近似過程として解釈できる Propagate & Distill (P&D) を提案する。 実世界のベンチマークデータセットを用いた総合的な評価を通じて,学生MLPの性能向上を示すことにより,P&Dの有効性を実証する。

Recent studies attempted to utilize multilayer perceptrons (MLPs) to solve semi-supervised node classification on graphs, by training a student MLP by knowledge distillation (KD) from a teacher graph neural network (GNN). While previous studies have focused mostly on training the student MLP by matching the output probability distributions between the teacher and student models during KD, it has not been systematically studied how to inject the structural information in an explicit and interpretable manner. Inspired by GNNs that separate feature transformation $T$ and propagation $\Pi$, we re-frame the KD process as enabling the student MLP to explicitly learn both $T$ and $\Pi$. Although this can be achieved by applying the inverse propagation $\Pi^{-1}$ before distillation from the teacher GNN, it still comes with a high computational cost from large matrix multiplications during training. To solve this problem, we propose Propagate & Distill (P&D), which propagates the output of the teacher GNN before KD and can be interpreted as an approximate process of the inverse propagation $\Pi^{-1}$. Through comprehensive evaluations using real-world benchmark datasets, we demonstrate the effectiveness of P&D by showing further performance boost of the student MLP.
翻訳日:2023-11-21 18:53:47 公開日:2023-11-20
# 大規模シーケンス信号回帰による非接触NIR PPGセンシング

Non-Contact NIR PPG Sensing through Large Sequence Signal Regression ( http://arxiv.org/abs/2311.11757v1 )

ライセンス: Link先を確認
Timothy Hanley, Dara Golden, Robyn Maxwell, Ashkan Parsi, Joseph Lemley(参考訳) 非接触センシングは、自動車の運転監視から医療の患者監視まで、多くの業界で応用されている新興技術である。 現在の最先端の実装はrgbビデオに重点を置いているが、これは様々な光とノイズの条件で苦労しており、暗闇ではほとんど実現不可能である。 しかし、近赤外線(NIR)ビデオはこれらの制約に悩まされない。 本稿では,NIR フレームのシーケンスから光胸腺造影 (PPG) 信号を取得するための代替 Convolution Attention Network (CAN) アーキテクチャの有効性を示す。 トレインとテストセットに分割された2つの公開データセットの組み合わせは、CANのトレーニングに使用される。 この複合データセットは、各被験者に対応するビデオと共に心拍数の全範囲を提供することにより、'通常の'60から80bpm心拍数の範囲へのオーバーフィットを減らすために拡張されます。 このCANは、被写体の頭部にトリミングされたビデオに実装されると、平均誤差(MAE)がわずか0.99bpmに達し、NIRビデオにおける効果と正確な信号出力を抑えることが可能であることを証明した。

Non-Contact sensing is an emerging technology with applications across many industries from driver monitoring in vehicles to patient monitoring in healthcare. Current state-of-the-art implementations focus on RGB video, but this struggles in varying/noisy light conditions and is almost completely unfeasible in the dark. Near Infra-Red (NIR) video, however, does not suffer from these constraints. This paper aims to demonstrate the effectiveness of an alternative Convolution Attention Network (CAN) architecture, to regress photoplethysmography (PPG) signal from a sequence of NIR frames. A combination of two publicly available datasets, which is split into train and test sets, is used for training the CAN. This combined dataset is augmented to reduce overfitting to the 'normal' 60 - 80 bpm heart rate range by providing the full range of heart rates along with corresponding videos for each subject. This CAN, when implemented over video cropped to the subject's head, achieved a Mean Average Error (MAE) of just 0.99 bpm, proving its effectiveness on NIR video and the architecture's feasibility to regress an accurate signal output.
翻訳日:2023-11-21 18:53:22 公開日:2023-11-20
# LSTM-CNN : 動的手書き解析を用いたパーキンソン病の効率的な診断ネットワーク

LSTM-CNN: An efficient diagnostic network for Parkinson's disease utilizing dynamic handwriting analysis ( http://arxiv.org/abs/2311.11756v1 )

ライセンス: Link先を確認
Xuechao Wang, Junqing Huang, Sven Nomm, Marianna Chatzakou, Kadri Medijainen, Aaro Toomela, Michael Ruzhansky(参考訳) 背景と目的: 動的手書き解析は,非侵襲的かつ容易にアクセス可能な性質のため,パーキンソン病の早期診断に不可欠な補助的手法として最近出現した。 本研究では,患者の動的手書き信号の特徴的な手書きパターンを分析するための,コンパクトで効率的なネットワークアーキテクチャを設計し,パーキンソン病診断の客観的同定を行う。 方法:提案するネットワークは,長期記憶(LSTM)と畳み込みニューラルネットワーク(CNN)の両方の利点をフル活用したハイブリッドディープラーニングアプローチに基づいている。 具体的には、LSTMブロックを用いて時間変化の特徴を抽出し、CNNベースのブロックは計算コストの低い1次元畳み込みを用いて実装する。 さらに, ハイブリットモデルアーキテクチャは, 優れた性能を実現するため, アブレーション研究により継続的に洗練されている。 最後に,提案手法を5倍のクロスバリデーションで一般化し,その効率性とロバスト性を検証した。 結果: 提案したネットワークは,新たなDraWritePDデータセット(96.2\%$)と,確立されたPaHaWデータセット(90.7\%$)の両方に対して,優れた分類精度を達成して,その汎用性を示す。 さらに、ネットワークアーキテクチャは、わずか0.084$Mのパラメータを占有し、合計0.59$Mの浮動小数点演算しか持たない、優れた軽量設計でも際立っている。 また、ほぼリアルタイムのCPU推論性能を示し、推論時間は0.106$から0.220$sである。 結論: パーキンソン病の診断に際し, 特異な筆跡パターンを抽出し, 提案するハイブリッドニューラルネットワークの有効性と効率を体系的に実証する, 広範な解析を用いた一連の実験を行った。

Background and objectives: Dynamic handwriting analysis, due to its non-invasive and readily accessible nature, has recently emerged as a vital adjunctive method for the early diagnosis of Parkinson's disease. In this study, we design a compact and efficient network architecture to analyse the distinctive handwriting patterns of patients' dynamic handwriting signals, thereby providing an objective identification for the Parkinson's disease diagnosis. Methods: The proposed network is based on a hybrid deep learning approach that fully leverages the advantages of both long short-term memory (LSTM) and convolutional neural networks (CNNs). Specifically, the LSTM block is adopted to extract the time-varying features, while the CNN-based block is implemented using one-dimensional convolution for low computational cost. Moreover, the hybrid model architecture is continuously refined under ablation studies for superior performance. Finally, we evaluate the proposed method with its generalization under a five-fold cross-validation, which validates its efficiency and robustness. Results: The proposed network demonstrates its versatility by achieving impressive classification accuracies on both our new DraWritePD dataset ($96.2\%$) and the well-established PaHaW dataset ($90.7\%$). Moreover, the network architecture also stands out for its excellent lightweight design, occupying a mere $0.084$M of parameters, with a total of only $0.59$M floating-point operations. It also exhibits near real-time CPU inference performance, with inference times ranging from $0.106$ to $0.220$s. Conclusions: We present a series of experiments with extensive analysis, which systematically demonstrate the effectiveness and efficiency of the proposed hybrid neural network in extracting distinctive handwriting patterns for precise diagnosis of Parkinson's disease.
翻訳日:2023-11-21 18:53:01 公開日:2023-11-20
# 軽量微粒化検出のための大型車部品(LSCP)データセット

A Large-Scale Car Parts (LSCP) Dataset for Lightweight Fine-Grained Detection ( http://arxiv.org/abs/2311.11754v1 )

ライセンス: Link先を確認
Wang Jie, Zhong Yilin, Cao Qianqian(参考訳) 自動車関連データセットは、これまで自動運転システムや車両分類タスクのトレーニングに使用されてきた。 しかし、自動車部品検出のためのAIの分野ではデータセットが不足しており、ほとんどの利用可能なデータセットはサイズとスコープが限られており、さまざまなシナリオをカバーするのに苦労している。 このギャップに対処するため,12種類の自動車部品を検出する84,162枚の画像からなる大規模できめ細かな自動車データセットを提案する。 このデータセットは、さまざまなカーブランド、シナリオ、撮影角度をカバーする、自然カメラとオンラインウェブサイトから収集された。 手動アノテーションの負担を軽減するため,最先端の事前学習検出器を活用した半教師付き自動ラベル方式を提案する。 さらに,ゼロショットラベリングにおける接地ディノアプローチの限界について検討した。 最後に,複数の軽量YOLO系列検出器を訓練することにより,自動車部品の微粒化検出によるデータセットの有効性を評価する。

Automotive related datasets have previously been used for training autonomous driving systems or vehicle classification tasks. However, there is a lack of datasets in the field of automotive AI for car parts detection, and most available datasets are limited in size and scope, struggling to cover diverse scenarios. To address this gap, this paper presents a large-scale and fine-grained automotive dataset consisting of 84,162 images for detecting 12 different types of car parts. This dataset was collected from natural cameras and online websites which covers various car brands, scenarios, and shooting angles. To alleviate the burden of manual annotation, we propose a novel semi-supervised auto-labeling method that leverages state-of-the-art pre-trained detectors. Moreover, we study the limitations of the Grounding DINO approach for zero-shot labeling. Finally, we evaluate the effectiveness of our proposed dataset through fine-grained car parts detection by training several lightweight YOLO-series detectors.
翻訳日:2023-11-21 18:52:30 公開日:2023-11-20
# AdvGen:顔提示攻撃検知システムに対する物理的敵対攻撃

AdvGen: Physical Adversarial Attack on Face Presentation Attack Detection Systems ( http://arxiv.org/abs/2311.11753v1 )

ライセンス: Link先を確認
Sai Amrit Patnaik, Shivali Chansoriya, Anil K. Jain, Anoop M. Namboodiri(参考訳) 顔認証モデルが現実世界に安全にデプロイするには,敵画像のリスクレベルを評価することが不可欠である。 印刷やリプレイ攻撃のような物理世界の攻撃に対する一般的なアプローチは、物理的および幾何学的アーティファクトを含むいくつかの制限に悩まされている。 近年,画像にわずかな修正を加えることで,認識システムの学習戦略をデジタル化しようとする敵の攻撃が注目されている。 これまでのほとんどの研究は、敵画像が認証システムにデジタル的に供給される可能性があると仮定しているが、これは必ずしも現実世界にデプロイされるシステムには当てはまらない。 本稿では,物理的シナリオにおける顔認証システムの敵画像に対する脆弱性を実証する。 本稿では,印刷および再生攻撃をシミュレートし,物理ドメイン攻撃設定において最先端のパットを騙すことができる敵画像を生成するための,自動生成型敵ネットワークadvgenを提案する。 この攻撃戦略を用いることで、攻撃成功率は82.01%に達する。 われわれはAdvGenを4つのデータセットと10の最先端のPADで広範囲にテストしている。 また,現実的な物理的環境で実験を行うことにより,攻撃の有効性を示す。

Evaluating the risk level of adversarial images is essential for safely deploying face authentication models in the real world. Popular approaches for physical-world attacks, such as print or replay attacks, suffer from some limitations, like including physical and geometrical artifacts. Recently, adversarial attacks have gained attraction, which try to digitally deceive the learning strategy of a recognition system using slight modifications to the captured image. While most previous research assumes that the adversarial image could be digitally fed into the authentication systems, this is not always the case for systems deployed in the real world. This paper demonstrates the vulnerability of face authentication systems to adversarial images in physical world scenarios. We propose AdvGen, an automated Generative Adversarial Network, to simulate print and replay attacks and generate adversarial images that can fool state-of-the-art PADs in a physical domain attack setting. Using this attack strategy, the attack success rate goes up to 82.01%. We test AdvGen extensively on four datasets and ten state-of-the-art PADs. We also demonstrate the effectiveness of our attack by conducting experiments in a realistic, physical environment.
翻訳日:2023-11-21 18:52:16 公開日:2023-11-20
# 量子近似クローニング支援密度行列指数

Quantum approximated cloning-assisted density matrix exponentiation ( http://arxiv.org/abs/2311.11751v1 )

ライセンス: Link先を確認
Pablo Rodriguez-Grasa, Ruben Ibarrondo, Javier Gonzalez-Conde, Yue Ban, Patrick Rebentrost and Mikel Sanz(参考訳) 古典的情報読み込みは多くの量子アルゴリズムにとって必須のタスクであり、量子機械学習の分野における基礎をなす。 特に、ハミルトンシミュレーション技術に基づく埋め込み技術は、量子コンピュータへの行列のロードを可能にする。 これらの手法の代表的な例としてロイド・モーゼニ・レベントロストプロトコルがあり、量子状態の複数のコピーが利用可能であれば行列指数を効率的に実装する。 しかし、これは非常に理想的な設定であり、現実的なシナリオではコピーは制限され、非クローニング定理はプロトコルの精度を高めるためにより正確なコピーを生成することができない。 本稿では,従来の提案手法の性能を大幅に向上させる不完全な量子コピーを導入することで,この制限を回避する方法を提案する。

Classical information loading is an essential task for many processing quantum algorithms, constituting a cornerstone in the field of quantum machine learning. In particular, the embedding techniques based on Hamiltonian simulation techniques enable the loading of matrices into quantum computers. A representative example of these methods is the Lloyd-Mohseni-Rebentrost protocol, which efficiently implements matrix exponentiation when multiple copies of a quantum state are available. However, this is a quite ideal set up, and in a realistic scenario, the copies are limited and the non-cloning theorem prevents from producing more exact copies in order to increase the accuracy of the protocol. Here, we propose a method to circumvent this limitation by introducing imperfect quantum copies that significantly enhance the performance of previous proposals.
翻訳日:2023-11-21 18:51:58 公開日:2023-11-20
# 因果介入による移動予測ネットワークの行動への影響の解明

Revealing behavioral impact on mobility prediction networks through causal interventions ( http://arxiv.org/abs/2311.11749v1 )

ライセンス: Link先を確認
Ye Hong, Yanan Xin, Simon Dirmeier, Fernando Perez-Cruz, Martin Raubal(参考訳) 深層ニューラルネットワークは、モビリティ予測タスクでますます活用されているが、その複雑な内部動作は、特にモビリティ行動の様々な側面が予測にどのように影響するかを理解する際に、解釈可能性に問題をもたらす。 本研究では,次の位置予測を目的としたニューラルネットワークに対する移動関連要因の影響を評価するための因果介入フレームワークを提案する。 これを実現するために,個別の移動モデルを用いて,データ生成プロセスに介入して,合成位置情報シーケンスを生成し,動作ダイナミクスを制御する。 移動度指標を用いて介入的位置列を評価し,よく訓練されたネットワークに入力し,性能変動を分析した。 その結果,移動行動の異なる位置列の生成の有効性が示され,多様な空間的・時間的変化のシミュレーションが容易となった。 これらの変化は、次の位置予測ネットワークのパフォーマンス変動をもたらし、位置遷移のシーケンシャルなパターン、新しい位置を探索する確率、人口と個人レベルの位置選択の好みなど、重要な移動行動要因の影響を明らかにする。 得られた知見は、モビリティ予測ネットワークの現実的な応用に重要な価値を持ち、このフレームワークは、モビリティアプリケーションにおけるニューラルネットワークの解釈可能性と堅牢性を高めるための因果推論の利用を促進することが期待されている。

Deep neural networks are increasingly utilized in mobility prediction tasks, yet their intricate internal workings pose challenges for interpretability, especially in comprehending how various aspects of mobility behavior affect predictions. In this study, we introduce a causal intervention framework to assess the impact of mobility-related factors on neural networks designed for next location prediction -- a task focusing on predicting the immediate next location of an individual. To achieve this, we employ individual mobility models to generate synthetic location visit sequences and control behavior dynamics by intervening in their data generation process. We evaluate the interventional location sequences using mobility metrics and input them into well-trained networks to analyze performance variations. The results demonstrate the effectiveness in producing location sequences with distinct mobility behaviors, thus facilitating the simulation of diverse spatial and temporal changes. These changes result in performance fluctuations in next location prediction networks, revealing impacts of critical mobility behavior factors, including sequential patterns in location transitions, proclivity for exploring new locations, and preferences in location choices at population and individual levels. The gained insights hold significant value for the real-world application of mobility prediction networks, and the framework is expected to promote the use of causal inference for enhancing the interpretability and robustness of neural networks in mobility applications.
翻訳日:2023-11-21 18:51:45 公開日:2023-11-20
# 音声合成のための話者特化音声特徴の符号化

Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis ( http://arxiv.org/abs/2311.11745v1 )

ライセンス: Link先を確認
Jungil Kong, Junmo Lee, Jeongmin Kim, Beomjeong Kim, Jihoon Park, Dohee Kong, Changheon Lee, Sangjin Kim(参考訳) 本研究では,対象話者のデータセットに付加的な訓練を加えることなく,訓練されたマルチ話者モデルのように,話者の全体的な特徴を詳細に表現することのできる,多数の話者のモデリング手法を提案する。 同様の目的の様々な作品が活発に研究されているが、基本的な限界のために訓練されたマルチスピーカーモデルほどの性能には達していない。 従来の制限を克服するために,特徴を識別し,音声合成モデルに調和させることにより,対象話者の音声特性を効果的に表現する手法を提案する。 提案手法は, 主観的類似度評価において, 主観的類似度評価において, 目立たない話者であっても, 最高の多話者モデルの話者よりも有意に高い類似度平均世論スコア(SMOS)を得た。 提案手法はゼロショット法を有意なマージンで上回っている。 さらに,本手法は,新しい人工スピーカーの開発において顕著な性能を示す。 さらに、符号化された潜在特徴が、元の話者の音声を完全に再構成するのに十分な情報であることを示す。 提案手法は,話者の特性を様々なタスクでエンコードし,再構成するための一般的な手法として使用できることを示す。

In this work, we propose a novel method for modeling numerous speakers, which enables expressing the overall characteristics of speakers in detail like a trained multi-speaker model without additional training on the target speaker's dataset. Although various works with similar purposes have been actively studied, their performance has not yet reached that of trained multi-speaker models due to their fundamental limitations. To overcome previous limitations, we propose effective methods for feature learning and representing target speakers' speech characteristics by discretizing the features and conditioning them to a speech synthesis model. Our method obtained a significantly higher similarity mean opinion score (SMOS) in subjective similarity evaluation than seen speakers of a best-performing multi-speaker model, even with unseen speakers. The proposed method also outperforms a zero-shot method by significant margins. Furthermore, our method shows remarkable performance in generating new artificial speakers. In addition, we demonstrate that the encoded latent features are sufficiently informative to reconstruct an original speaker's speech completely. It implies that our method can be used as a general methodology to encode and reconstruct speakers' characteristics in various tasks.
翻訳日:2023-11-21 18:51:24 公開日:2023-11-20
# MRI脳画像におけるストロークセグメンテーション後の自動病変に対するファジィ情報シード領域

Fuzzy Information Seeded Region Growing for Automated Lesions After Stroke Segmentation in MR Brain Images ( http://arxiv.org/abs/2311.11742v1 )

ライセンス: Link先を確認
Mario Pascual Gonz\'alez(参考訳) 医用画像の分野では、脳MRI画像からの脳梗塞の正確な分画は、患者の診断と治療に重要な意味を持つ重要な課題である。 そこで本研究では,Fazy Information Seeded Region Growing (FISRG)アルゴリズムを用いた革新的な手法を提案する。 FISRGアルゴリズムは、脳卒中病変の複雑で不規則な境界を効果的に記述するために設計され、ファジィ論理とSeeded Region Growing (SRG)技術を組み合わせてセグメンテーション精度を向上させる。 この研究にはfisrgアルゴリズムの性能を最適化する3つの実験が含まれており、それぞれ異なるパラメータに焦点を当てて脳卒中病変の分節精度を向上させる。 これらの実験で達成された最も高いdiceスコアは94.2\%であり、アルゴリズムの出力と専門家が検証した基底真理との類似度が高いことを示している。 特に、第3の実験では88.1\%の最高の平均サイコロスコアが記録され、様々なスライスにまたがる脳卒中病変を一貫して分割するアルゴリズムの有効性が強調された。 脳梗塞の均一性に対するFISRGアルゴリズムの強度について検討した。 しかし、突然の病変のトポロジー変化や、同様の強度の脳領域から病変を区別する領域に課題が残っている。 その結果,fisrgアルゴリズムが脳卒中診断・治療における画像解析の進歩に大きく寄与する可能性が示唆された。

In the realm of medical imaging, precise segmentation of stroke lesions from brain MRI images stands as a critical challenge with significant implications for patient diagnosis and treatment. Addressing this, our study introduces an innovative approach using a Fuzzy Information Seeded Region Growing (FISRG) algorithm. Designed to effectively delineate the complex and irregular boundaries of stroke lesions, the FISRG algorithm combines fuzzy logic with Seeded Region Growing (SRG) techniques, aiming to enhance segmentation accuracy. The research involved three experiments to optimize the FISRG algorithm's performance, each focusing on different parameters to improve the accuracy of stroke lesion segmentation. The highest Dice score achieved in these experiments was 94.2\%, indicating a high degree of similarity between the algorithm's output and the expert-validated ground truth. Notably, the best average Dice score, amounting to 88.1\%, was recorded in the third experiment, highlighting the efficacy of the algorithm in consistently segmenting stroke lesions across various slices. Our findings reveal the FISRG algorithm's strengths in handling the heterogeneity of stroke lesions. However, challenges remain in areas of abrupt lesion topology changes and in distinguishing lesions from similar intensity brain regions. The results underscore the potential of the FISRG algorithm in contributing significantly to advancements in medical imaging analysis for stroke diagnosis and treatment.
翻訳日:2023-11-21 18:51:04 公開日:2023-11-20
# 双極子xy rydbergシミュレータにおけるクエンチダイナミクスからの初等励起の分光

Spectroscopy of elementary excitations from quench dynamics in a dipolar XY Rydberg simulator ( http://arxiv.org/abs/2311.11726v1 )

ライセンス: Link先を確認
Cheng Chen, Gabriel Emperauger, Guillaume Bornet, Filippo Caleca, Bastien G\'ely, Marcus Bintz, Shubhayu Chatterjee, Vincent Liu, Daniel Barredo, Norman Y. Yao, Thierry Lahaye, Fabio Mezzacapo, Tommaso Roscilde, and Antoine Browaeys(参考訳) 我々はRydberg量子シミュレータを用いて、多体系の低エネルギー励起を探索するクエンチ分光と呼ばれる新しいタイプの分光法を実証する。 本稿ではスピン1/2双極子xyモデルの二次元シミュレーションについて述べる。 クエンチ後の空間スピン相関ダイナミクスの顕微鏡計測により, 強磁性体と反強磁性体の双方に対する基本励起の分散関係を抽出する。 我々は,相互作用の長距離的性質と反強磁性に内在するフラストレーションから生じる2つの事例の質的に異なる挙動を観察する。 特に、強磁性体は線形スピン波として振る舞う初等励起を示す。 反強磁性体では、スピン波は崩壊し、強い非線形性の存在が示唆される。 実演では,多体系の励起スペクトルにおけるパワーロー相互作用の重要性を強調する。

We use a Rydberg quantum simulator to demonstrate a new form of spectroscopy, called quench spectroscopy, which probes the low-energy excitations of a many-body system. We illustrate the method on a two-dimensional simulation of the spin-1/2 dipolar XY model. Through microscopic measurements of the spatial spin correlation dynamics following a quench, we extract the dispersion relation of the elementary excitations for both ferro- and anti-ferromagnetic couplings. We observe qualitatively different behaviors between the two cases that result from the long-range nature of the interactions, and the frustration inherent in the antiferromagnet. In particular, the ferromagnet exhibits elementary excitations behaving as linear spin waves. In the anti-ferromagnet, spin waves appear to decay, suggesting the presence of strong nonlinearities. Our demonstration highlights the importance of power-law interactions on the excitation spectrum of a many-body system.
翻訳日:2023-11-21 18:50:37 公開日:2023-11-20
# 電界と電流誘起トルクによる磁性の電気的制御

Electrical control of magnetism by electric field and current-induced torques ( http://arxiv.org/abs/2311.11724v1 )

ライセンス: Link先を確認
Albert Fert, Ramamoorthy Ramesh, Vincent Garcia, F\`elix Casanova and Manuel Bibes(参考訳) 初期の磁気メモリの設計は局所的に発生する磁場によって磁化を切り替えることに依存しているが、凝縮物物理学における重要な洞察は後に電気的にそれを行う可能性を示唆した。 1990年代、SlonczewzkiとBergerは、スピン偏極電流が強磁性体の磁化を切り替える磁気多層膜における電流誘起スピントルクの概念を定式化した。 この発見はスピントランスファー型磁気ランダムアクセスメモリ(STT-MRAM)の開発を促した。 より最近の研究はスピン軌道トルク(SOT)を明らかにし、SOT-MRAMを含む新しい世代のデバイスに繋がる予定である。 これらの進歩と並行して、マルチフェロニクスと磁気電気結合はルネサンスを経験し、mesoトランジスタのような情報通信技術のための新しいデバイス概念を生み出した。 磁化の電気制御の物語は、基礎研究(スピントロニクス、凝縮物質物理学、材料科学)と技術(mram、メソ、マイクロ波エミッタ、スピンダイオード、スカイミオンベースのデバイス、ニューロモルフィックの構成要素など)の間のダンスである。 このpas de deuxは過去数十年で大きなブレークスルーをもたらした(純粋なスピン電流、磁気スキャミオン、スピンチャージ相互変換など)。 その結果、この分野は消費者電子製品にMRAMを推進してきたが、強誘電体やマグノニクスなどの隣接する研究領域での発見を加速させた。 本稿では,電界と電流誘起トルクによる磁気制御の最近の進歩について述べる。 まず,これら2つの考え方を考察し,それらの組み合わせについて考察し,最後に,様々な応用分野における磁気特性の電気制御を利用した各種デバイスについて述べる。 物質科学における基礎物理学の概念と新たな方向性の両面での視点を与えて結論付ける。

While early magnetic memory designs relied on magnetization switching by locally generated magnetic fields, key insights in condensed matter physics later suggested the possibility to do it electrically. In the 1990s, Slonczewzki and Berger formulated the concept of current-induced spin torques in magnetic multilayers through which a spin-polarized current may switch the magnetization of a ferromagnet. This discovery drove the development of spin-transfer-torque magnetic random-access memories (STT-MRAMs). More recent research unveiled spin-orbit-torques (SOTs) and will lead to a new generation of devices including SOT-MRAMs. Parallel to these advances, multiferroics and their magnetoelectric coupling experienced a renaissance, leading to novel device concepts for information and communication technology such as the MESO transistor. The story of the electrical control of magnetization is that of a dance between fundamental research (in spintronics, condensed matter physics, and materials science) and technology (MRAMs, MESO, microwave emitters, spin-diodes, skyrmion-based devices, components for neuromorphics, etc). This pas de deux led to major breakthroughs over the last decades (pure spin currents, magnetic skyrmions, spin-charge interconversion, etc). As a result, this field has propelled MRAMs into consumer electronics products but also fueled discoveries in adjacent research areas such as ferroelectrics or magnonics. Here, we cover recent advances in the control of magnetism by electric fields and by current-induced torques. We first review fundamental concepts in these two directions, then discuss their combination, and finally present various families of devices harnessing the electrical control of magnetic properties for various application fields. We conclude by giving perspectives in terms of both emerging fundamental physics concepts and new directions in materials science.
翻訳日:2023-11-21 18:50:24 公開日:2023-11-20
# 不確実性推定による分類器の性能向上

Leveraging Uncertainty Estimates To Improve Classifier Performance ( http://arxiv.org/abs/2311.11723v1 )

ライセンス: Link先を確認
Gundeep Arora, Srujana Merugu, Anoop Saladi, Rajeev Rastogi(参考訳) バイナリ分類は、正のクラスのモデルスコアがアプリケーション要求に基づいて選択されたしきい値を超えるかどうかに基づいてインスタンスのラベルを予測することを含む(例えば、精度境界のリコールを最大化する)。 しかし、モデルスコアは真の肯定率と一致しないことが多い。 これは特に、クラス間の差分サンプリングを含むトレーニングや、トレインとテスト設定間の分散ドリフトがある場合に当てはまる。 本稿では,モデルスコア推定バイアスが不確かさとスコア自身の両方に依存するという理論的解析と実証的証拠を提供する。 さらに,決定境界の選択をモデルスコアと不確実性の両方の観点から定式化し,npハードであることを証明し,動的計画法と等張回帰法に基づくアルゴリズムを提案する。 提案した3つの実世界のデータセットに対するアルゴリズムの評価は、モデルスコアのみを使用する従来のアプローチよりも精度の高いバウンダリで25%-40%のリコールを達成し、不確実性を活用するメリットを強調している。

Binary classification involves predicting the label of an instance based on whether the model score for the positive class exceeds a threshold chosen based on the application requirements (e.g., maximizing recall for a precision bound). However, model scores are often not aligned with the true positivity rate. This is especially true when the training involves a differential sampling across classes or there is distributional drift between train and test settings. In this paper, we provide theoretical analysis and empirical evidence of the dependence of model score estimation bias on both uncertainty and score itself. Further, we formulate the decision boundary selection in terms of both model score and uncertainty, prove that it is NP-hard, and present algorithms based on dynamic programming and isotonic regression. Evaluation of the proposed algorithms on three real-world datasets yield 25%-40% gain in recall at high precision bounds over the traditional approach of using model score alone, highlighting the benefits of leveraging uncertainty.
翻訳日:2023-11-21 18:49:53 公開日:2023-11-20
# LogLead -- 高速で統合されたログローダ、エンハンサー、異常検出器

LogLead -- Fast and Integrated Log Loader, Enhancer, and Anomaly Detector ( http://arxiv.org/abs/2311.11809v1 )

ライセンス: Link先を確認
Mika M\"antyl\"a, Yuqing Wang, Jesse Nyyss\"ol\"a(参考訳) 本稿では,ログ解析の効率化を目的としたlogleadを提案する。 logleadはログ処理において、ロード、強化、異常検出という3つの重要なステップを組み合わせる。 このツールは、高速なDataFrameライブラリであるPolarsを活用する。 現在7つのローダがあり、そのうち4つは公開データセット(HDFS、Hadoop、BGL、Thunderbird)用です。 3つのパーサ(Drain、Spell、LenMa)を備えた複数のエンハンサー、Bert組み込み生成、およびbaba-of-wordsのようなログ表現技術があります。 LogLeadはSKLearnから異常検出を行う5つの教師付き機械学習アルゴリズムと4つの教師なし機械学習アルゴリズムを統合している。 多様なデータセット、ログ表現方法、異常検出機能を統合することで、ログ分析研究における包括的なベンチマークを容易にする。 生ファイルからデータフレームへのログローディングは、LogLeadが過去のソリューションと比較して10倍以上高速であることを示す。 我々はlogleadへのログメッセージ正規化のオフロードによるドレイン解析速度の約2倍の改善を示す。 HDFSの簡単なベンチマークでは、bag-of-words以外のログ表現が限られた利点をもたらすことを示唆している。 ツールのスクリーンキャスト: https://youtu.be/8stdbttfjvo

This paper introduces LogLead, a tool designed for efficient log analysis. LogLead combines three essential steps in log processing: loading, enhancing, and anomaly detection. The tool leverages Polars, a high-speed DataFrame library. We currently have 7 Loaders out of which 4 is for public data sets (HDFS, Hadoop, BGL, and Thunderbird). We have multiple enhancers with three parsers (Drain, Spell, LenMa), Bert embedding creation and other log representation techniques like bag-of-words. LogLead integrates to 5 supervised and 4 unsupervised machine learning algorithms for anomaly detection from SKLearn. By integrating diverse datasets, log representation methods and anomaly detectors, LogLead facilitates comprehensive benchmarking in log analysis research. We demonstrate that log loading from raw file to dataframe is over 10x faster with LogLead is compared to past solutions. We demonstrate roughly 2x improvement in Drain parsing speed by off-loading log message normalization to LogLead. We demonstrate a brief benchmarking on HDFS suggesting that log representations beyond bag-of-words provide limited benefits. Screencast demonstrating the tool: https://youtu.be/8stdbtTfJVo
翻訳日:2023-11-21 18:41:32 公開日:2023-11-20
# 構造移動を用いたロボットハンドアイ校正

Robot Hand-Eye Calibration using Structure-from-Motion ( http://arxiv.org/abs/2311.11808v1 )

ライセンス: Link先を確認
Nicolas Andreff, Bernard Espiau and Radu Horaud(参考訳) 本稿では,ハンドアイキャリブレーションのための新しいフレキシブルな手法を提案する。 既存の手目キャリブレーション技術の大部分は、カメラのポーズ推定手法と組み合わせて用いられるキャリブレーションリグを必要とする。 代わりに、構造移動と既知のロボットの動きを組み合わせることで、解が線形形式で得られることを示す。 後者は、手目パラメータと、構造移動法に固有の未知のスケールファクタの両方を解く。 そのような線形定式化で可能な代数的解析は、一般的なねじ運動のよく知られたケースだけでなく、純粋な翻訳、純粋な回転、平面運動のような特異な運動も調べることができる。 基本的に、ロボット搭載カメラは、未知の硬いレイアウトに見え、画像シーケンス上のポイントを追跡し、カメラとロボットの関係を推定する。 このような自己校正プロセスは、無人車や遠隔地で働くロボットなどに関係している。 提案手法を既存手法と比較し,その品質を検証する実験を多数実施した。

In this paper we propose a new flexible method for hand-eye calibration. The vast majority of existing hand-eye calibration techniques requires a calibration rig which is used in conjunction with camera pose estimation methods. Instead, we combine structure-from-motion with known robot motions and we show that the solution can be obtained in linear form. The latter solves for both the hand-eye parameters and for the unknown scale factor inherent with structure-from-motion methods. The algebraic analysis that is made possible with such a linear formulation allows to investigate not only the well known case of general screw motions but also such singular motions as pure translations, pure rotations, and planar motions. In essence, the robot-mounted camera looks to an unknown rigid layout, tracks points over an image sequence and estimates the camera-to-robot relationship. Such a self calibration process is relevant for unmanned vehicles, robots working in remote places, and so forth. We conduct a large number of experiments which validate the quality of the method by comparing it with existing ones.
翻訳日:2023-11-21 18:41:12 公開日:2023-11-20
# 年齢対応路線プランナー:高齢者の快適なルートを計算

Age-Friendly Route Planner: Calculating Comfortable Routes for Senior Citizens ( http://arxiv.org/abs/2311.11802v1 )

ライセンス: Link先を確認
Andoni Aranguren, Eneko Osaba, Silvia Urra-Uriarte and Patricia Molina-Costa(参考訳) 実世界の状況へのルーティングアルゴリズムの適用は、広く研究されている研究トピックである。 それにもかかわらず、ルーティングアルゴリズムやアプリケーションは一般的に汎用的に開発されており、高齢者のような特定のグループはしばしば、設計アルゴリズムの幅広いアプローチのために疎外される。 この状況は、人口が遅いが進歩的な高齢化に苦しんでいる都市に問題を引き起こす可能性がある。 このモチベーションを念頭に置いて,高齢者のための都市における体験向上を目標とした,高齢者フレンドリーな経路プランナーの実施について述べる。 ルートの年齢・フレンドリー性を測定するため,経路上のアメニティの数,快適な要素の量,傾斜区間の回避など,いくつかの変数が検討されている。 本稿では, 優先経路という, 年齢フレンドリールートプランナーの主な特徴の1つについて述べるとともに, 適応型フレンドリールートの作成にどのように貢献するかを実証する。

The application of routing algorithms to real-world situations is a widely studied research topic. Despite this, routing algorithms and applications are usually developed for a general purpose, meaning that certain groups, such as ageing people, are often marginalized due to the broad approach of the designed algorithms. This situation may pose a problem in cities which are suffering a slow but progressive ageing of their populations. With this motivation in mind, this paper focuses on describing our implemented Age-Friendly Route Planner, whose goal is to improve the experience in the city for senior citizens. In order to measure the age-friendliness of a route, several variables have been deemed, such as the number of amenities along the route, the amount of comfortable elements found, or the avoidance of sloppy sections. In this paper, we describe one of the main features of the Age-Friendly Route Planner: the preference-based routes, and we also demonstrate how it can contribute to the creation of adapted friendly routes.
翻訳日:2023-11-21 18:40:58 公開日:2023-11-20
# ハイブリッド最適化スキームを用いた連続空間時間モデルの演算子学習

Operator Learning for Continuous Spatial-Temporal Model with A Hybrid Optimization Scheme ( http://arxiv.org/abs/2311.11798v1 )

ライセンス: Link先を確認
Chuanqi Chen, Jin-Long Wu(参考訳) 偏微分方程式は、多くの工学的応用において複素力学系の空間-時間モデリングによく用いられる。 本研究では,演算子学習の最近の進歩に基づいて,空間と時間の両方で連続的なデータ駆動モデリングフレームワークを提案する。 提案モデルの鍵となる特徴は,空間的および時間的離散化に関しての解像度不変性である。 キャリブレーションモデルの長期性能を改善するため,勾配法と微分自由度最適化の両手法を併用し,短期的時系列と長期的統計の双方を効率的に学習するハイブリッド最適化手法を提案する。 本研究では,空間時間連続学習フレームワークの性能について,粘性バーガーズ方程式,ナビエ・ストークス方程式,倉本・シヴァシンスキー方程式の3つの数値例を用いて検討した。 その結果,提案フレームワークの分解能不変性を確認し,短期時系列データのみを用いた安定な長期シミュレーションを実証した。 また,提案モデルでは,短期データと長期データを組み合わせたハイブリッド最適化手法により,長期統計量を予測することができることを示した。

Partial differential equations are often used in the spatial-temporal modeling of complex dynamical systems in many engineering applications. In this work, we build on the recent progress of operator learning and present a data-driven modeling framework that is continuous in both space and time. A key feature of the proposed model is the resolution-invariance with respect to both spatial and temporal discretizations. To improve the long-term performance of the calibrated model, we further propose a hybrid optimization scheme that leverages both gradient-based and derivative-free optimization methods and efficiently trains on both short-term time series and long-term statistics. We investigate the performance of the spatial-temporal continuous learning framework with three numerical examples, including the viscous Burgers' equation, the Navier-Stokes equations, and the Kuramoto-Sivashinsky equation. The results confirm the resolution-invariance of the proposed modeling framework and also demonstrate stable long-term simulations with only short-term time series data. In addition, we show that the proposed model can better predict long-term statistics via the hybrid optimization scheme with a combined use of short-term and long-term data.
翻訳日:2023-11-21 18:40:42 公開日:2023-11-20
# 言語知能を無視する:ヒッチハイクガイドから思考の連鎖から言語エージェントへ

Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents ( http://arxiv.org/abs/2311.11797v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Yao Yao, Aston Zhang, Xiangru Tang, Xinbei Ma, Zhiwei He, Yiming Wang, Mark Gerstein, Rui Wang, Gongshen Liu, Hai Zhao(参考訳) 大規模言語モデル (LLMs) は言語知能の分野を劇的に強化し、複雑な推論タスクの範囲にわたって、強烈な経験的パフォーマンスによって実証されている。 さらに、理論的な証明は彼らの創発的推論能力に照らし出し、言語的文脈における彼らの高度な認知能力を示す。 複雑な推論タスクの処理において顕著な有効性のために、LLMは興味をそそるチェーン・オブ・ソート(CoT)推論技術を活用し、解の導出に向かう途中のステップを定式化しなければならない。 CoT推論アプローチは、推論性能の増幅だけでなく、解釈可能性、制御可能性、柔軟性の向上にも適している。 これらのメリットを踏まえて、最近の研究は、言語指示に順応し、様々な環境で行動を実行する自律言語エージェントの開発を促進するために、CoT推論方法論を拡張した。 本研究は, 重要な研究次元を貫き, 徹底した談話をまとめる。 一 CoT 技術の基礎力学であって、その効果の背景にある事情の解明及び正当化に焦点をあてるもの (二)CoTのパラダイムシフト、及び (iii)cotアプローチによって強化された言語エージェントの急増。 先進的な研究は、一般化、効率、カスタマイズ、スケーリング、安全性に関する探索を包含している。 本稿では,cot推論と言語エージェントに関する包括的知識を求める初心者や,基礎力学に興味を持ち,これらのトピックに関する最先端の議論に携わる経験豊富な研究者を対象とする。 関連論文のリポジトリはhttps://github.com/Zoeyyao27/CoT-Igniting-Agentにある。

Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.
翻訳日:2023-11-21 18:40:25 公開日:2023-11-20
# 境界を越えて: AIシステムに対する転送可能な攻撃に関する総合的な調査

Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems ( http://arxiv.org/abs/2311.11796v1 )

ライセンス: Link先を確認
Guangjing Wang, Ce Zhou, Yuanda Wang, Bocheng Chen, Hanqing Guo and Qiben Yan(参考訳) 自動運転車、顔認識、音声認識システムといった人工知能(AI)システムは、私たちの日常生活にますます統合されています。 しかし、これらのAIシステムは実用性にもかかわらず、敵、バックドア、データ中毒、メンバーシップ推論、モデル反転、モデル盗難攻撃など、幅広い攻撃に対して脆弱である。 特に、多くの攻撃は特定のモデルやシステムをターゲットに設計されているが、その効果は転送可能な攻撃と呼ばれる追加の標的に拡がることができる。 転送可能な攻撃の開発に向けてかなりの努力が続けられてきたが、転送可能な攻撃の進展に関する全体的な理解はいまだ解明されていない。 本稿では,トランスファービリティの観点から,特にサイバー物理セキュリティの観点から学習ベースの攻撃を包括的に検討する。 画像、テキスト、グラフ、音声、ビデオといったさまざまなドメインにまたがって、転送可能な攻撃のユビキタスで広く普及する性質を強調しています。 本稿では、データ、プロセス、モデル、システムといった様々な視点から、既存の攻撃のアーキテクチャを分類し、レビューする。 さらに,自動運転や音声認識,大規模言語モデル(llm)といった実用シナリオにおける移動可能攻撃の意義について検討する。 さらに,移動可能な攻撃の展望を探求する取り組みを促進するために,今後の研究方向について概説する。 この調査は、転送可能な攻撃とその異なるドメインに対する影響について、全体的な理解を提供する。

Artificial Intelligence (AI) systems such as autonomous vehicles, facial recognition, and speech recognition systems are increasingly integrated into our daily lives. However, despite their utility, these AI systems are vulnerable to a wide range of attacks such as adversarial, backdoor, data poisoning, membership inference, model inversion, and model stealing attacks. In particular, numerous attacks are designed to target a particular model or system, yet their effects can spread to additional targets, referred to as transferable attacks. Although considerable efforts have been directed toward developing transferable attacks, a holistic understanding of the advancements in transferable attacks remains elusive. In this paper, we comprehensively explore learning-based attacks from the perspective of transferability, particularly within the context of cyber-physical security. We delve into different domains -- the image, text, graph, audio, and video domains -- to highlight the ubiquitous and pervasive nature of transferable attacks. This paper categorizes and reviews the architecture of existing attacks from various viewpoints: data, process, model, and system. We further examine the implications of transferable attacks in practical scenarios such as autonomous driving, speech recognition, and large language models (LLMs). Additionally, we outline the potential research directions to encourage efforts in exploring the landscape of transferable attacks. This survey offers a holistic understanding of the prevailing transferable attacks and their impacts across different domains.
翻訳日:2023-11-21 18:39:57 公開日:2023-11-20
# 還元型変換による画像キャプションシステムの変成試験

Metamorphic Testing of Image Captioning Systems via Reduction-based Transformations ( http://arxiv.org/abs/2311.11791v1 )

ライセンス: Link先を確認
Xiaoyuan Xie, Xingpeng Li, Songqiang Chen(参考訳) 近年,画像キャプション(IC)技術はテキスト形式で画像を記述するために広く応用されている。 しかし、ICシステムはまだ誤ったキャプションを生成し、誤解を招く可能性がある。 この問題を解決するために、ICシステムをテストするいくつかの方法が提案されている。 しかし、これらのアプローチはまだ事前の情報を頼りにしているため、テストでoracleの問題を軽減することはできない。 さらに、AIGC技術を採用して、テストケースとして非現実的なイメージを生成する可能性のある、フォローアップテストイメージを生成する。 第3に、既存の手法は、ソーステストケースの適格性に様々な制限があり、そのため、与えられたイメージを十分に活用できない。 これらの課題に対処するため、還元型変換を用いたICシステムの変成試験を行うREICを提案する。 事前にアノテートされた情報に頼る代わりに,キャプション内の記述されたオブジェクトとテスト画像中の対応するオブジェクトとをアライメントするローカライズ手法を導入し,キャプション内の各オブジェクトが変換後に保持されるか,消失するかをチェックする。 REICは任意のオブジェクトを人工的に操作しないため、非現実的なフォローアップ画像の生成を効果的に回避できる。 さらに、メタモルフィック変換プロセスの制限を排除し、曖昧さを低減し、フォローアップテストケース間の多様性を高め、その結果、テストが任意のテストイメージ上で実行されることを可能にし、より明確な有効な違反を明らかにする。 実験結果から、REICは提供されたテストイメージを十分に活用して、良質な実例のフォローアップを発生させ、事前のアノテート情報を必要とせず、多数の異なる違反を効果的に検出できることが示された。

Recently, the Image Captioning (IC) technique has been widely applied to describe a given image in text form. However, IC systems can still produce incorrect captions and lead to misunderstandings. To tackle this problem, several methods have been proposed to test the IC systems. However, these approaches still rely on pre-annotated information and hence cannot really alleviate the oracle problem in the testing. Besides, they adopt AIGC techniques to create follow-up test images that may generate unrealistic images as test cases, which leads to meaningless testing results. Thirdly, existing methods have various restrictions on the eligibility of source test cases, and hence cannot fully utilize the given images to perform testing. To tackle these issues, we propose REIC, which conducts metamorphic testing for IC systems with reduction-based transformations. Instead of relying on the pre-annotated information, we introduce a localization method to align the described objects in the caption with the corresponding objects in the test image and check whether each object in the caption retains or disappears after transformation. REIC does not artificially manipulate any objects and hence can effectively avoid generating unreal follow-up images. Besides, it eliminates the restrictions in the metamorphic transformation process, as well as decreases the ambiguity, and boosts the diversity among the follow-up test cases, which consequently enables testing to be performed on any test image, and reveals more distinct valid violations. Experimental results demonstrate that REIC can sufficiently leverage provided test images to generate follow-up cases of good reality, and effectively detect a great number of distinct violations, without the need for any pre-annotated information.
翻訳日:2023-11-21 18:39:34 公開日:2023-11-20
# 協調マルチエージェントマルコフ決定過程における近似線形計画法と分散ポリシー改善

Approximate Linear Programming and Decentralized Policy Improvement in Cooperative Multi-agent Markov Decision Processes ( http://arxiv.org/abs/2311.11789v1 )

ライセンス: Link先を確認
Lakshmi Mandal, Chandrashekar Lakshminarayanan, and Shalabh Bhatnagar(参考訳) 本研究では,mが1以上のエージェントを含む「協調的」マルチエージェントマルコフ決定プロセス(MDP)について検討し,全てのエージェントがシステムモデルを認識している。 各決定時期において、すべてのmエージェントは共通の長期的な目的を最大化するために協調的に行動を選択する。 アクションの数はエージェント数で指数関数的に増加するので、ポリシーの改善は計算コストがかかる。 近年の研究では、各エージェントが他のエージェントの判断を固定し、一方的に決定を改善すると仮定する分散ポリシー改善が提案されている。 しかし、これらの研究では正確な値が計算される。 本研究は, 協調型多エージェント有限・無限水平縮小型MDPに対して, 近似線形計画法を用いて近似値関数を計算し, 分散化政策改善を利用する適切な近似ポリシー反復アルゴリズムを提案する。 したがって、我々のアルゴリズムは多数の状態と複数のエージェントの両方を処理できる。 我々は,アルゴリズムの理論的保証を提供するとともに,いくつかの数値例でアルゴリズムの性能を実証する。

In this work, we consider a `cooperative' multi-agent Markov decision process (MDP) involving m greater than 1 agents, where all agents are aware of the system model. At each decision epoch, all the m agents cooperatively select actions in order to maximize a common long-term objective. Since the number of actions grows exponentially in the number of agents, policy improvement is computationally expensive. Recent works have proposed using decentralized policy improvement in which each agent assumes that the decisions of the other agents are fixed and it improves its decisions unilaterally. Yet, in these works, exact values are computed. In our work, for cooperative multi-agent finite and infinite horizon discounted MDPs, we propose suitable approximate policy iteration algorithms, wherein we use approximate linear programming to compute the approximate value function and use decentralized policy improvement. Thus our algorithms can handle both large number of states as well as multiple agents. We provide theoretical guarantees for our algorithms and also demonstrate the performance of our algorithms on some numerical examples.
翻訳日:2023-11-21 18:39:04 公開日:2023-11-20
# BGLS: 量子回路をシミュレートするゲートバイゲートサンプリングアルゴリズムのためのPythonパッケージ

BGLS: A Python Package for the Gate-by-Gate Sampling Algorithm to Simulate Quantum Circuits ( http://arxiv.org/abs/2311.11787v1 )

ライセンス: Link先を確認
Alex Shapiro and Ryan LaRose(参考訳) 量子コンピュータの古典的シミュレーションは一般に計算の難しい問題である。 現実的なデバイスの動作をエミュレートするには、回路からビットストリングをサンプリングするのに十分である。 近年、arXiv:2112.08499はいわゆるゲートバイゲートサンプリングアルゴリズムを導入してビットストリングをサンプリングし、多くのケースで計算上有利であることを示した。 ここでは、このサンプリングアルゴリズムを実装するPythonパッケージであるbglsを紹介する。 bglsはいくつかの州をネイティブにサポートしており、追加の州での使用に非常に柔軟である。 本稿では,bglのインストールと使用方法,アルゴリズムの最適化に関する議論,いくつかの問題に対するその有用性を示す。

The classical simulation of quantum computers is in general a computationally hard problem. To emulate the behavior of realistic devices, it is sufficient to sample bitstrings from circuits. Recently, arXiv:2112.08499 introduced the so-called gate-by-gate sampling algorithm to sample bitstrings and showed it to be computationally favorable in many cases. Here we present bgls, a Python package which implements this sampling algorithm. bgls has native support for several states and is highly flexible for use with additional states. We show how to install and use bgls, discuss optimizations in the algorithm, and demonstrate its utility on several problems.
翻訳日:2023-11-21 18:38:46 公開日:2023-11-20
# 不整合測定のメトロロジカルパワー

Metrological power of incompatible measurements ( http://arxiv.org/abs/2311.11785v1 )

ライセンス: Link先を確認
Jeongwoo Jae, Jiwon Lee, Kwang-Geol Lee, M. S. Kim, and Jinhyoung Lee(参考訳) 測定の不適合性は、量子計測の精度を高めるために必要な資源であることを示す。 不整合性測定を利用するために、測定平均からなる運用準確率(OQ)の確率的手法を提案する。 OQ はいくつかの量子状態に対して正半定値となる。 我々は、正のOQに基づくフィッシャー情報(FI)が従来の量子FIよりも大きいことを証明した。 この証明を適用すると、oq の fi は量子 fi よりも非常に大きいことが示され、二つの偏りのない測定値を持つ qubit 状態に符号化されたパラメータを推定することができる。 最大確率推定法と線形誤差伝播法を用いることで,モデルが予測する精度を高いものにすることを示す。 このアプローチは、量子センサーの改善に適用できると期待されている。

We show that measurement incompatibility is a necessary resource to enhance the precision of quantum metrology. To utilize incompatible measurements, we propose a probabilistic method of operational quasiprobability (OQ) consisting of the measuring averages. OQ becomes positive semidefinite for some quantum states. We prove that Fisher information (FI), based on positive OQ, can be larger than the conventional quantum FI. Applying the proof, we show that FI of OQ can be extremely larger than quantum FI, when estimating a parameter encoded onto a qubit state with two mutually unbiased measurements. By adopting maximum likelihood estimator and linear error propagation methods, we illustrate that they achieve the high precision that our model predicts. This approach is expected to be applicable to improve quantum sensors.
翻訳日:2023-11-21 18:38:34 公開日:2023-11-20
# ハイパースペクトルイメージングとグラフニューラルネットワークを用いたロバスト腫瘍分画

Robust Tumor Segmentation with Hyperspectral Imaging and Graph Neural Networks ( http://arxiv.org/abs/2311.11782v1 )

ライセンス: Link先を確認
Mayar Lotfy, Anna Alperovich, Tommaso Giannantonio, Bjorn Barz, Xiaohan Zhang, Felix Holm, Nassir Navab, Felix Boehm, Carolin Schwamborn, Thomas K. Hoffmann, and Patrick J. Schuler(参考訳) 外科的癌切除中に腫瘍と健康組織の境界を分断することは重要な課題である。 近年,機械学習(ML)と組み合わせたハイパースペクトルイメージング(HSI)が,将来性のあるソリューションとして浮上している。 しかし、スペクトル領域に含まれる広範な情報のため、ほとんどのMLアプローチは、空間コンテキストを考慮せずに個々のHSI(スーパーピクセル)またはタイルを分類する。 本稿では,より堅牢でスムーズなセグメンテーションのために,タイルの空間的文脈を活用する改良手法を提案する。 タイルの不規則な形状に対処するため,グラフニューラルネットワーク(GNN)を用いて周辺地域のコンテキスト情報を伝播する。 グラフ内の各タイルの特徴は畳み込みニューラルネットワーク(CNN)を用いて抽出される。 さらに,局所的な画質指標を損失関数に組み込むことにより,訓練画像中の低品質領域に対する訓練手順の堅牢性を高める。 30例のHSI画像51例からなる臨床外生データセットを用いて,提案手法の優位性を実証した。 限られたデータセットにもかかわらず、GNNベースのモデルは文脈に依存しないアプローチを著しく上回り、健康な組織と腫瘍組織を正確に区別する。 さらに,局所的な画像品質を考慮し,慎重に設計した損失関数が,さらなる改善をもたらすことを示す。 以上の結果から,文脈認識型GNNアルゴリズムはHSI画像上の腫瘍の鑑別を良好に発見でき,手術成功と患者予後の向上に寄与することが示唆された。

Segmenting the boundary between tumor and healthy tissue during surgical cancer resection poses a significant challenge. In recent years, Hyperspectral Imaging (HSI) combined with Machine Learning (ML) has emerged as a promising solution. However, due to the extensive information contained within the spectral domain, most ML approaches primarily classify individual HSI (super-)pixels, or tiles, without taking into account their spatial context. In this paper, we propose an improved methodology that leverages the spatial context of tiles for more robust and smoother segmentation. To address the irregular shapes of tiles, we utilize Graph Neural Networks (GNNs) to propagate context information across neighboring regions. The features for each tile within the graph are extracted using a Convolutional Neural Network (CNN), which is trained simultaneously with the subsequent GNN. Moreover, we incorporate local image quality metrics into the loss function to enhance the training procedure's robustness against low-quality regions in the training images. We demonstrate the superiority of our proposed method using a clinical ex vivo dataset consisting of 51 HSI images from 30 patients. Despite the limited dataset, the GNN-based model significantly outperforms context-agnostic approaches, accurately distinguishing between healthy and tumor tissues, even in images from previously unseen patients. Furthermore, we show that our carefully designed loss function, accounting for local image quality, results in additional improvements. Our findings demonstrate that context-aware GNN algorithms can robustly find tumor demarcations on HSI images, ultimately contributing to better surgery success and patient outcome.
翻訳日:2023-11-21 18:38:22 公開日:2023-11-20
# GEDIと地球観測データとの融合による森林優占高のマルチモーダル深度学習

Multimodal deep learning for mapping forest dominant height by fusing GEDI with earth observation data ( http://arxiv.org/abs/2311.11777v1 )

ライセンス: Link先を確認
Man Chen, Wenquan Dong, Hao Yu, Iain Woodhouse, Casey M. Ryan, Haoyu Liu, Selena Georgiou, Edward T.A. Mitchard(参考訳) マルチソースリモートセンシングデータとディープラーニングモデルの統合は、高空間解像度の森林高度を正確にマッピングする新たな可能性を提供する。 その結果,gedi相対高(rh)の指標は,実地で測定した樹高上位10本(優占高)の平均値と強い相関を示した。 そこで本研究では,gediから得られた優占高さをsetinel-1データ,alos-2 palsar-2データ,sentinel-2光学データ,補助データを用いて推定するマルチモーダル注意リモートセンシングネットワーク(marsnet)と呼ばれる新しいディープラーニングフレームワークを提案する。 MARSNetは、マルチスケール特徴を抽出するリモートセンシングデータモダリティごとに別々のエンコーダと、特徴と推定高さを融合する共有デコーダから構成される。 各リモートセンシングイメージに個々のエンコーダを使用することで、モダリティ間の干渉を回避し、異なる表現を抽出する。 本研究では,各データセットからの効率的な情報に焦点を合わせるため,エンコーダに拡張空間およびバンド再構成畳み込みモジュールを組み込むことにより,各リモートセンシングデータにおける空間およびバンドの冗長性を低減した。 MARSNetは、R2が0.62m、RMSEが2.82mであり、R2が0.55m、RMSEが3.05mと広く使われている。 最後に,習熟したMARSNetモデルを用いて,中国慈林の10m解像度の壁面マップを作成した。 フィールド測定による独立した検証を通じて、マーズネットは、ランダム森林のベースラインの0.41mと4.37mに対して、0.58mとrmse 3.76mのr2を実証した。 本研究では,gediとsarを用いたマルチモーダル深層学習手法と受動光学画像を用いた高分解能優性高さ推定の精度向上効果を実証する。

The integration of multisource remote sensing data and deep learning models offers new possibilities for accurately mapping high spatial resolution forest height. We found that GEDI relative heights (RH) metrics exhibited strong correlation with the mean of the top 10 highest trees (dominant height) measured in situ at the corresponding footprint locations. Consequently, we proposed a novel deep learning framework termed the multi-modal attention remote sensing network (MARSNet) to estimate forest dominant height by extrapolating dominant height derived from GEDI, using Setinel-1 data, ALOS-2 PALSAR-2 data, Sentinel-2 optical data and ancillary data. MARSNet comprises separate encoders for each remote sensing data modality to extract multi-scale features, and a shared decoder to fuse the features and estimate height. Using individual encoders for each remote sensing imagery avoids interference across modalities and extracts distinct representations. To focus on the efficacious information from each dataset, we reduced the prevalent spatial and band redundancies in each remote sensing data by incorporating the extended spatial and band reconstruction convolution modules in the encoders. MARSNet achieved commendable performance in estimating dominant height, with an R2 of 0.62 and RMSE of 2.82 m, outperforming the widely used random forest approach which attained an R2 of 0.55 and RMSE of 3.05 m. Finally, we applied the trained MARSNet model to generate wall-to-wall maps at 10 m resolution for Jilin, China. Through independent validation using field measurements, MARSNet demonstrated an R2 of 0.58 and RMSE of 3.76 m, compared to 0.41 and 4.37 m for the random forest baseline. Our research demonstrates the effectiveness of a multimodal deep learning approach fusing GEDI with SAR and passive optical imagery for enhancing the accuracy of high resolution dominant height estimation.
翻訳日:2023-11-21 18:37:55 公開日:2023-11-20
# 責任あるai研究はインパクトステートメントも必要

Responsible AI Research Needs Impact Statements Too ( http://arxiv.org/abs/2311.11776v1 )

ライセンス: Link先を確認
Alexandra Olteanu, Michael Ekstrand, Carlos Castillo, Jina Suh(参考訳) 責任ある人工知能(RAI)、倫理的AI、AIの倫理など、あらゆる種類の研究、開発、政策作業は意図しない、有害な結果をもたらす可能性がある。

All types of research, development, and policy work can have unintended, adverse consequences - work in responsible artificial intelligence (RAI), ethical AI, or ethics in AI is no exception.
翻訳日:2023-11-21 18:37:19 公開日:2023-11-20
# ビジネスルール処理のためのインテリジェントな手法:最先端技術

Intelligent methods for business rule processing: State-of-the-art ( http://arxiv.org/abs/2311.11775v1 )

ライセンス: Link先を確認
Cristiano Andr\'e da Costa, U\'elison Jean Lopes dos Santos, Eduardo Souza dos Reis, Rodolfo Stoffel Antunes, Henrique Chaves Pacheco, Thayn\~a da Silva Fran\c{c}a, Rodrigo da Rosa Righi, Jorge Luis Vict\'oria Barbosa, Franklin Jebadoss, Jorge Montalvao, Rogerio Kunkel(参考訳) 本稿では,ビジネスルールの処理に使用される最新のインテリジェント技術の概要を紹介する。 我々は,ロボットプロセスの自動化に関する文献を包括的に調査し,機械学習やその他のインテリジェントなアプローチに注目した。 さらに、私たちは市場のトップベンダーと、この問題に取り組むための主要なソリューションを調査しました。

In this article, we provide an overview of the latest intelligent techniques used for processing business rules. We have conducted a comprehensive survey of the relevant literature on robot process automation, with a specific focus on machine learning and other intelligent approaches. Additionally, we have examined the top vendors in the market and their leading solutions to tackle this issue.
翻訳日:2023-11-21 18:37:14 公開日:2023-11-20
# デュアルマッピング戦略を用いた実用的クロスセンサカラーコンステンシー

Practical cross-sensor color constancy using a dual-mapping strategy ( http://arxiv.org/abs/2311.11773v1 )

ライセンス: Link先を確認
Shuwei Yue and Minchen Wei(参考訳) ディープニューラルネットワーク(DNN)は照明推定に広く使われており、これは時間を要するため、センサ固有のデータ収集を必要とする。 提案手法では,D65条件下では,テストセンサからの単純な白点のみを必要とする。 これにより、マッピング行列を導出し、画像データと照度を再構成することができる。 第2のマッピングフェーズでは、再構成された画像データをスパースに変換し、再構成されたイルミナントを基底真理として、軽量な多層パーセプトロン(mlp)モデルで最適化する。 このアプローチは、センサの差異を効果的に低減し、主要なクロスセンサー手法と同等のパフォーマンスを提供する。 少量のメモリ(0.003 MB)しか必要とせず、RTX3070Ti GPUで1時間程度のトレーニングを行う。 さらに重要なことに、この手法はGPUやCPUでそれぞれ0.3msと1msで非常に高速に実装でき、入力画像の解像度に敏感ではない。 したがって、業界が直面するデータ記憶という大きな課題に対する実用的な解決策を提供する。

Deep Neural Networks (DNNs) have been widely used for illumination estimation, which is time-consuming and requires sensor-specific data collection. Our proposed method uses a dual-mapping strategy and only requires a simple white point from a test sensor under a D65 condition. This allows us to derive a mapping matrix, enabling the reconstructions of image data and illuminants. In the second mapping phase, we transform the re-constructed image data into sparse features, which are then optimized with a lightweight multi-layer perceptron (MLP) model using the re-constructed illuminants as ground truths. This approach effectively reduces sensor discrepancies and delivers performance on par with leading cross-sensor methods. It only requires a small amount of memory (~0.003 MB), and takes ~1 hour training on an RTX3070Ti GPU. More importantly, the method can be implemented very fast, with ~0.3 ms and ~1 ms on a GPU or CPU respectively, and is not sensitive to the input image resolution. Therefore, it offers a practical solution to the great challenges of data recollection that is faced by the industry.
翻訳日:2023-11-21 18:37:09 公開日:2023-11-20
# システム2 注意(必要かもしれないもの)

System 2 Attention (is something you might need too) ( http://arxiv.org/abs/2311.11829v1 )

ライセンス: Link先を確認
Jason Weston and Sainbayar Sukhbaatar(参考訳) Transformer-based Large Language Models (LLMs) のソフトな注意は、コンテキストからの無関係な情報をその潜在表現に組み込むことによって、次のトークン世代に悪影響を及ぼす可能性がある。 これらの問題を是正するために,LLMが自然言語で推論し,何に参加するかを決定するための指示に従う能力を活用したシステム2注意(S2A)を導入する。 s2aは入力コンテキストを再生し、関連する部分だけを含むようにする。 実験において、s2aは、意見や無関係な情報、qa、数学の単語問題、ロングフォーム生成を含む3つのタスクにおいて、標準的な注意に基づくllmよりも優れており、s2aは事実性と客観性を高め、統合を減少させる。

Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.
翻訳日:2023-11-21 18:29:37 公開日:2023-11-20
# 強化学習により生成した表現を用いたマイナショットマルチスペクトルセグメンテーション

Few-shot Multispectral Segmentation with Representations Generated by Reinforcement Learning ( http://arxiv.org/abs/2311.11827v1 )

ライセンス: Link先を確認
Dilith Jayakody, Thanuja Ambegoda(参考訳) マルチスペクトル画像分割(多数のチャネル/バンドを持つ画像のセグメント化、それぞれが電磁放射の波長の特定の範囲をキャプチャする)のタスクは、以前は大量のラベル付きデータを持つコンテキストで検討されてきた。 しかし、これらのモデルはより小さなデータセットに対してうまく一般化しない傾向にある。 本稿では,強調学習を用いて,マルチスペクトル画像の少数ショットセグメンテーション性能を向上させるための新しい手法を提案する。 これらの表現はチャネル間の数学的表現の形式で生成され、セグメント化された特定のクラスに合わせて調整される。 提案手法では,最も有益な表現を識別するためにエージェントを訓練し,これらの表現を用いてデータセットを更新後,更新されたデータセットを使用してセグメンテーションを行う。 表現の長さが限られているため、モデルはオーバーフィッティングのリスクを伴わずに有用な表現を受け取る。 我々は,複数のマルチスペクトルデータセットに対するアプローチの有効性を評価し,セグメンテーションアルゴリズムの性能向上にその効果を実証する。

The task of multispectral image segmentation (segmentation of images with numerous channels/bands, each capturing a specific range of wavelengths of electromagnetic radiation) has been previously explored in contexts with large amounts of labeled data. However, these models tend not to generalize well to datasets of smaller size. In this paper, we propose a novel approach for improving few-shot segmentation performance on multispectral images using reinforcement learning to generate representations. These representations are generated in the form of mathematical expressions between channels and are tailored to the specific class being segmented. Our methodology involves training an agent to identify the most informative expressions, updating the dataset using these expressions, and then using the updated dataset to perform segmentation. Due to the limited length of the expressions, the model receives useful representations without any added risk of overfitting. We evaluate the effectiveness of our approach on several multispectral datasets and demonstrate its effectiveness in boosting the performance of segmentation algorithms.
翻訳日:2023-11-21 18:29:20 公開日:2023-11-20
# 第2量子化ハミルトニアンの最適化バランアイ分割

Optimised Baranyai partitioning of the second quantised Hamiltonian ( http://arxiv.org/abs/2311.11826v1 )

ライセンス: Link先を確認
Bence Csakany and Alex J.W. Thom(参考訳) 複数のパウリ弦(パウリ行列のテンソル積)の同時測定は、観測可能なものをパウリ弦の可換集合に分割することで、量子コンピュータ上で観測可能なものを効率的に測定する基礎となる。 本稿では,CH$_4$ (cc-pVDZ, 68 qubits) までの分子における第2量子化ハミルトン分割のためのバラニー群化法の実装と最適化,および量子ゲートにおける対角化回路の効率的な構築について,$O(N^2)$と比較した。 この方法では、ハミルトニアンのスパーシリティを自然に処理し、直線上の分子によって形成されるようなハミルトニアンを線形にスケーリングする群を$O(1)$で生成し、完全に連結された2体ハミルトニアンに対して$O(N^3)$まで上昇する。 これは他のスキームよりも多くの測定値であるが、pauli文字列を移動させ、分散を最適化できる柔軟性がある。 また、余分な計算労力を伴わずに8ドルの係数でグループ数を減少させるスピン対称性の明示的な最適化も提示する。

Simultaneous measurement of multiple Pauli strings (tensor products of Pauli matrices) is the basis for efficient measurement of observables on quantum computers by partitioning the observable into commuting sets of Pauli strings. We present the implementation and optimisation of the Baranyai grouping method for second quantised Hamiltonian partitioning in molecules up to CH$_4$ (cc-pVDZ, 68 qubits) and efficient construction of the diagonalisation circuit in $O(N)$ quantum gates, compared to $O(N^2)$, where $N$ is the number of qubits. We show that this method naturally handles sparsity in the Hamiltonian and produces a $O(1)$ number of groups for linearly scaling Hamiltonians, such as those formed by molecules in a line; rising to $O(N^3)$ for fully connected two-body Hamiltonians. While this is more measurements than some other schemes it allows for the flexibility to move Pauli strings and optimise the variance. We also present an explicit optimisation for spin-symmetry which reduces the number of groups by a factor of $8$, without extra computational effort.
翻訳日:2023-11-21 18:29:05 公開日:2023-11-20
# 空中3次元走査による複雑なファサードの全体的逆レンダリング

Holistic Inverse Rendering of Complex Facade via Aerial 3D Scanning ( http://arxiv.org/abs/2311.11825v1 )

ライセンス: Link先を確認
Zixuan Xie, Rengan Xie, Rong Li, Kai Huang, Pengju Qiao, Jingsen Zhu, Xu Yin, Qi Ye, Wei Hua, Yuchi Huo, Hujun Bao(参考訳) 本研究では,多視点空中画像を用いて,ニューラルサイン付き距離場(SDF)を用いたファサードの形状,照明,材料を再構成する。 複雑な機器を必要とせず、ドローンが捉えた単純なrgbイメージを入力として、物理的およびフォトリアリスティックなノベルビューレンダリング、リライト、編集を可能にする。 しかし、現実世界のファサードは通常、微妙なディテールを持つ拡散岩から、鏡面反射のある大面積ガラス窓まで複雑な外観を持ち、あらゆるものに出席することは困難である。 その結果、従来の方法では幾何学的詳細を保存できるが、スムーズなガラス窓や横風を復元できない。 この課題に対処するために,ゼロショットセグメンテーション技術に基づくセマンティクス正規化手法,表面の滑らかさとディテールのバランスをとる周波数認識幾何正規化,大規模屋外環境における局所照明の効率的なモデリングを可能にする可視性プローブベーススキームという3つの空間的・意味的適応的最適化手法を導入する。 さらに,実世界のファサード空中3dスキャン画像セットと対応するポイントクラウドをキャプチャして,トレーニングとベンチマークを行う。 本実験は,最先端のベースラインと比較して,ファサード的逆レンダリング,新しいビュー合成,シーン編集において優れた品質を示す。

In this work, we use multi-view aerial images to reconstruct the geometry, lighting, and material of facades using neural signed distance fields (SDFs). Without the requirement of complex equipment, our method only takes simple RGB images captured by a drone as inputs to enable physically based and photorealistic novel-view rendering, relighting, and editing. However, a real-world facade usually has complex appearances ranging from diffuse rocks with subtle details to large-area glass windows with specular reflections, making it hard to attend to everything. As a result, previous methods can preserve the geometry details but fail to reconstruct smooth glass windows or verse vise. In order to address this challenge, we introduce three spatial- and semantic-adaptive optimization strategies, including a semantic regularization approach based on zero-shot segmentation techniques to improve material consistency, a frequency-aware geometry regularization to balance surface smoothness and details in different surfaces, and a visibility probe-based scheme to enable efficient modeling of the local lighting in large-scale outdoor environments. In addition, we capture a real-world facade aerial 3D scanning image set and corresponding point clouds for training and benchmarking. The experiment demonstrates the superior quality of our method on facade holistic inverse rendering, novel view synthesis, and scene editing compared to state-of-the-art baselines.
翻訳日:2023-11-21 18:28:40 公開日:2023-11-20
# グラフ変動埋め込み協調フィルタリング

Graph Variational Embedding Collaborative Filtering ( http://arxiv.org/abs/2311.11824v1 )

ライセンス: Link先を確認
Narges Sadat Fazeli Dehkordi, Hadi Zare, Parham Moradi, Mahdi Jalili(参考訳) ユーザに推奨されるコンテンツのカスタマイズは、eコマース、音楽、ショッピングなど、幅広いアプリケーションにわたるユーザーエクスペリエンスの強化において重要な意味を持つ。 グラフベースのメソッドは、ユーザとテーマのインタラクションをキャプチャすることで、かなりのパフォーマンスを達成しています。 しかし、これらのメソッドは、レコメンダのトレーニングに使用されるデータセットにランダムに構築された埋め込みを利用する傾向がある。 本稿では,グラフ畳み込みネットワーク(GCN)の層による特徴伝達を改善するために,レコメンダシステムの事前学習を行う手段として,変分埋め込みの概念を提案する。 グラフ変分埋め込み協調フィルタリング(GVECF)は、GCNベースの協調フィルタリングに埋め込まれた変分グラフオートエンコーダで学習した表現を組み込む新しいフレームワークとして導入された。 このアプローチは、遅延した高次ユーザ-イテム相互作用をより訓練可能なベクトルに効果的に変換し、最終的にはリコールおよび正規化割引累積ゲイン(NDCG)メトリクスのパフォーマンスが向上する。 ベンチマークデータセットを用いて行った実験により,提案手法はテストデータに対するリコールを最大13.78%改善することを確認した。

The customization of recommended content to users holds significant importance in enhancing user experiences across a wide spectrum of applications such as e-commerce, music, and shopping. Graph-based methods have achieved considerable performance by capturing user-item interactions. However, these methods tend to utilize randomly constructed embeddings in the dataset used for training the recommender, which lacks any user preferences. Here, we propose the concept of variational embeddings as a means of pre-training the recommender system to improve the feature propagation through the layers of graph convolutional networks (GCNs). The graph variational embedding collaborative filtering (GVECF) is introduced as a novel framework to incorporate representations learned through a variational graph auto-encoder which are embedded into a GCN-based collaborative filtering. This approach effectively transforms latent high-order user-item interactions into more trainable vectors, ultimately resulting in better performance in terms of recall and normalized discounted cumulative gain(NDCG) metrics. The experiments conducted on benchmark datasets demonstrate that our proposed method achieves up to 13.78% improvement in the recall over the test data.
翻訳日:2023-11-21 18:28:10 公開日:2023-11-20
# 差分プライバシーを用いたゼロ冗長分散学習

Zero redundancy distributed learning with differential privacy ( http://arxiv.org/abs/2311.11822v1 )

ライセンス: Link先を確認
Zhiqi Bu, Justin Chiu, Ruixuan Liu, Sheng Zha, George Karypis(参考訳) 大きなモデルを用いたディープラーニングは、幅広い領域で大きな成功を収めています。 しかしながら、これらのモデルを数十億のパラメータでトレーニングすることは、トレーニング速度、メモリコスト、通信効率、特に差分プライバシー(dp)を備えたプライバシー保護体制下では、非常に困難である。 一方、DP最適化は、単一のGPU上での標準の非プライベート最適化と同等の効率性を持つが、複数のGPUでは、既存のDP分散学習(パイプライン並列など)が大幅に効率が低下している。 一方、ZeRO(Zero Redundancy Optimizer)は、標準分散学習の最先端ソリューションであり、大規模モデルでは優れたトレーニング効率を示すが、DPと互換性のある作業は技術的に複雑である。 本研究では,GPT-100Bなどの訓練可能なDPモデルサイズをスケールアップするためのDP-ZeRO,(I)標準ZeROと同じ計算および通信効率を得るためのDP-ZeRO,(III)混合精度DPトレーニングを実現するための新たな体系的ソリューションを開発する。 我々のDP-ZeROは、標準ZeROと同様、任意のサイズでモデルを訓練する可能性があり、トレーニング可能なパラメータの数の観点から世界最大のDPモデルで評価される。

Deep learning using large models have achieved great success in a wide range of domains. However, training these models on billions of parameters is very challenging in terms of the training speed, memory cost, and communication efficiency, especially under the privacy-preserving regime with differential privacy (DP). On the one hand, DP optimization has comparable efficiency to the standard non-private optimization on a single GPU, but on multiple GPUs, existing DP distributed learning (such as pipeline parallel) has suffered from significantly worse efficiency. On the other hand, the Zero Redundancy Optimizer (ZeRO) is a state-of-the-art solution to the standard distributed learning, exhibiting excellent training efficiency on large models, but to work compatibly with DP is technically complicated. In this work, we develop a new systematic solution, DP-ZeRO, (I) to scale up the trainable DP model size, e.g. to GPT-100B, (II) to obtain the same computation and communication efficiency as the standard ZeRO, and (III) to enable mixed-precision DP training. Our DP-ZeRO, like the standard ZeRO, has the potential to train models with arbitrary size and is evaluated on the world's largest DP models in terms of the number of trainable parameters.
翻訳日:2023-11-21 18:27:50 公開日:2023-11-20
# 不変グラフ表現のためのクロスビューグラフ一貫性学習

Cross-View Graph Consistency Learning for Invariant Graph Representations ( http://arxiv.org/abs/2311.11821v1 )

ライセンス: Link先を確認
Jie Chen and Zhiming Li and Hua Mao and Wai Lok Woo and Xi Peng(参考訳) グラフ表現学習は、グラフ構造データの解析に基本である。 不変グラフ表現を探索することは、既存のグラフ表現学習法の多くにとって課題である。 本稿では,リンク予測のための不変グラフ表現を学習するクロスビューグラフ一貫性学習(CGCL)手法を提案する。 まず、2つの補完的な拡張ビューを双方向グラフ構造拡張スキームを通して不完全グラフ構造から導出する。 この拡張スキームは、エッジ摂動、ノード除去、属性マスキングなどの生グラフデータを含む様々なデータ拡張技術に共通する潜在的な情報損失を軽減する。 次に,不変グラフ表現を学習可能なCGCLモデルを提案する。 提案したCGCLモデルをトレーニングするためのクロスビュートレーニングスキームを提案する。 このスキームは、ある拡張ビューと他の拡張ビューから再構成されたグラフ構造との間の一貫性情報を最大化する。 さらに、包括的な理論CGCL分析も提供する。 本稿では,提案手法の有効性を実験的に実証し,いくつかの最先端アルゴリズムと比較し,グラフデータセット上での競合結果を得る。

Graph representation learning is fundamental for analyzing graph-structured data. Exploring invariant graph representations remains a challenge for most existing graph representation learning methods. In this paper, we propose a cross-view graph consistency learning (CGCL) method that learns invariant graph representations for link prediction. First, two complementary augmented views are derived from an incomplete graph structure through a bidirectional graph structure augmentation scheme. This augmentation scheme mitigates the potential information loss that is commonly associated with various data augmentation techniques involving raw graph data, such as edge perturbation, node removal, and attribute masking. Second, we propose a CGCL model that can learn invariant graph representations. A cross-view training scheme is proposed to train the proposed CGCL model. This scheme attempts to maximize the consistency information between one augmented view and the graph structure reconstructed from the other augmented view. Furthermore, we offer a comprehensive theoretical CGCL analysis. This paper empirically and experimentally demonstrates the effectiveness of the proposed CGCL method, achieving competitive results on graph datasets in comparisons with several state-of-the-art algorithms.
翻訳日:2023-11-21 18:27:27 公開日:2023-11-20
# 量子系における局所純度蒸留:純度と絡み合いの相補性を探る

Local Purity Distillation in Quantum Systems: Exploring the Complementarity Between Purity and Entanglement ( http://arxiv.org/abs/2311.11820v1 )

ライセンス: Link先を確認
Ray Ganardi, Piotr Masajada, Moein Naseri, Alexander Streltsov(参考訳) 量子力学と量子絡み合いは、量子情報科学において重要な関係を持つ2つの重要な量子資源理論を表す。 その重要性にもかかわらず、この2つの理論の複雑な関係は未だ完全には理解されていない。 ここでは、特に局所冷却過程の文脈において、絡み合いと熱力学の相互作用を掘り下げる。 ギブス保存型ローカル操作と古典的通信の枠組みを紹介・開発する。 本フレームワークでは,リモートパーティがローカルシステムを地上状態に効果的に冷却できる戦略を探求する。 私たちの分析は、量子状態の1つのコピーしかアクセスできないシナリオに焦点を置き、これらの制約の下で達成可能な基底状態に対する最高の忠実性によって理想的なパフォーマンスを定義する。 局所冷却は局所純度の抽出と一致し, 完全縮退した局所ハミルトン系システムに着目する。 この文脈において,我々は局所的純度抽出の効率とシステムに存在する絡み合いの程度との間に強い相関関係を確立し,この概念を純度絡み合い相補性と呼ぶ。 さらに,多くのシナリオにおいて,最適性能は半定値プログラミング手法によって正確に決定できることを実証する。 本研究は,絡み検出・推定技術など,様々な実用化への扉を開く。 有界絡み状態のクラスに対する絡み合いの量を評価することでこれを実証する。

Quantum thermodynamics and quantum entanglement represent two pivotal quantum resource theories with significant relevance in quantum information science. Despite their importance, the intricate relationship between these two theories is still not fully understood. Here, we delve into the interplay between entanglement and thermodynamics, particularly in the context of local cooling processes. We introduce and develop the framework of Gibbs-preserving local operations and classical communication. Within this framework, we explore strategies enabling remote parties to effectively cool their local systems to the ground state. Our analysis is centered on scenarios where only a single copy of a quantum state is accessible, with the ideal performance defined by the highest possible fidelity to the ground state achievable under these constraints. We focus on systems with fully degenerate local Hamiltonians, where local cooling aligns with the extraction of local purity. In this context, we establish a powerful link between the efficiency of local purity extraction and the degree of entanglement present in the system, a concept we define as purity-entanglement complementarity. Moreover, we demonstrate that in many pertinent scenarios, the optimal performance can be precisely determined through semidefinite programming techniques. Our findings open doors to various practical applications, including techniques for entanglement detection and estimation. We demonstrate this by evaluating the amount of entanglement for a class of bound entangled states.
翻訳日:2023-11-21 18:27:14 公開日:2023-11-20
# 超高分解能4次元フローMRI : アンサンブル学習による心血管系の拡張

Generalized super-resolution 4D Flow MRI -- using ensemble learning to extend across the cardiovascular system ( http://arxiv.org/abs/2311.11819v1 )

ライセンス: Link先を確認
Leon Ericsson, Adam Hjalmarsson, Muhammad Usman Akbar, Edward Ferdian, Mia Bonini, Brandon Hardy, Jonas Schollenberger, Maria Aristova, Patrick Winter, Nicholas Burris, Alexander Fyrdahl, Andreas Sigfridsson, Susanne Schnell, C. Alberto Figueroa, David Nordsletten, Alistair A. Young, and David Marlevi(参考訳) 4D Flow Magnetic Resonance Imaging (4D Flow MRI)は、心臓血管系の血流を定量化できる非侵襲的な計測技術である。 空間分解能と画像ノイズにより実用性は制限されているが、訓練された超解像(SR)ネットワークの導入は、画像の質を高める可能性がある。 しかし、これらの試みは主に狭義の心血管領域に限られており、SRの作用が心血管系全体にどのように広がるかは限定的である。 本研究の目的は,異種トレーニングセットと専用アンサンブル学習を組み合わせたSR 4D Flow MRIの一般化可能性を検討することである。 3つの異なる領域(心臓、大動脈、脳血管)にまたがる合成トレーニングデータを用いて、異なる畳み込みベースとアンサンブル学習者がドメインとアーキテクチャの関数として評価され、シリコの双方のパフォーマンスを定量化し、同じ3つのドメインから取得したインヴィオデータを得た。 その結果,バッギングと積み重ねはドメイン間のSR性能を向上し,低分解能入力データから高分解能速度を正確に予測できることがわかった。 同様に、最適化されたネットワークは、ダウンサンプリングされたin-vivoデータからネイティブ解像度の速度を回復し、臨床レベルの入力データからSR画像を生成する定性的ポテンシャルを示す。 以上の結果から,本研究はSR 4D Flow MRIの汎用的アプローチとして,様々な臨床領域にわたるアンサンブル学習の有用性を示す。

4D Flow Magnetic Resonance Imaging (4D Flow MRI) is a non-invasive measurement technique capable of quantifying blood flow across the cardiovascular system. While practical use is limited by spatial resolution and image noise, incorporation of trained super-resolution (SR) networks has potential to enhance image quality post-scan. However, these efforts have predominantly been restricted to narrowly defined cardiovascular domains, with limited exploration of how SR performance extends across the cardiovascular system; a task aggravated by contrasting hemodynamic conditions apparent across the cardiovasculature. The aim of our study was to explore the generalizability of SR 4D Flow MRI using a combination of heterogeneous training sets and dedicated ensemble learning. With synthetic training data generated across three disparate domains (cardiac, aortic, cerebrovascular), varying convolutional base and ensemble learners were evaluated as a function of domain and architecture, quantifying performance on both in-silico and acquired in-vivo data from the same three domains. Results show that both bagging and stacking ensembling enhance SR performance across domains, accurately predicting high-resolution velocities from low-resolution input data in-silico. Likewise, optimized networks successfully recover native resolution velocities from downsampled in-vivo data, as well as show qualitative potential in generating denoised SR-images from clinical level input data. In conclusion, our work presents a viable approach for generalized SR 4D Flow MRI, with ensemble learning extending utility across various clinical areas of interest.
翻訳日:2023-11-21 18:26:51 公開日:2023-11-20
# 移動エージェントを用いたグラフ上のランデブー・ドミネーションタスクの量子戦略

Quantum Strategies for Rendezvous and Domination Tasks on Graphs with Mobile Agents ( http://arxiv.org/abs/2311.11817v1 )

ライセンス: Link先を確認
Giuseppe Viola and Piotr Mironowicz(参考訳) 本稿では,量子非局所性(quantum non-locality)の応用について考察する。 新たなアプリケーションに焦点を当て,通信のない分散タスクに携わるモバイルエージェントの量子的優位性を実証する。 この研究は、グラフへのランデブーの重大な課題に対処し、グラフ支配問題に根ざした移動エージェントのための新しい分散タスクを導入する。 様々なグラフシナリオの調査を通じて、量子的優位性を示す。 さらに、決定論的戦略を精査し、量子戦略に比べて効率が比較的低いことを強調する。 本稿は数値的な分析で締めくくり、我々の研究結果についてさらなる知見を提供する。

This paper explores the application of quantum non-locality, a renowned and unique phenomenon acknowledged as a valuable resource. Focusing on a novel application, we demonstrate its quantum advantage for mobile agents engaged in specific distributed tasks without communication. The research addresses the significant challenge of rendezvous on graphs and introduces a new distributed task for mobile agents grounded in the graph domination problem. Through an investigation across various graph scenarios, we showcase the quantum advantage. Additionally, we scrutinize deterministic strategies, highlighting their comparatively lower efficiency compared to quantum strategies. The paper concludes with a numerical analysis, providing further insights into our findings.
翻訳日:2023-11-21 18:26:23 公開日:2023-11-20
# CrackCLF:クローズドループフィードバックに基づく自動舗装き裂検出

CrackCLF: Automatic Pavement Crack Detection based on Closed-Loop Feedback ( http://arxiv.org/abs/2311.11815v1 )

ライセンス: Link先を確認
Chong Li, Zhun Fan, Ying Chen, Huibiao Lin, Laura Moretti, Giuseppe Loprencipe, Weihua Sheng, Kelvin C. P. Wang(参考訳) 舗装ひび割れの自動検出は,舗装の寿命における機能的性能を確保する上で重要な課題である。 ディープラーニング(DL)にインスパイアされたエンコーダデコーダフレームワークは,ひび割れ検出のための強力なツールである。 しかしながら、これらのモデルは通常、薄い亀裂を背景として扱う傾向があるオープンループ(OL)システムである。 一方、これらのモデルは予測の誤りを自動的に修正することはできず、環境の変化に適応してき裂を自動的に抽出し検出することができない。 この問題に対処するため,GAN(Generative Adversarial Network)に基づいて,ニューラルネットワークに閉ループフィードバック(CLF)を組み込んで,モデルが自身でエラーを修正することを学習した。 その結果得られたモデルはcrackclfと呼ばれ、前端と後端、すなわちセグメンテーションと逆ネットワークを含んでいる。 U字型フレームワークのフロントエンドはクラックマップを生成するために使用され、複数スケールのロス関数を持つバックエンドはラベルとクラックマップの高次不整合を補正してオープンループシステム問題に対処する。 実験の結果,提案したCrackCLFは3つの公開データセット上で他の手法よりも優れていた。 さらに、提案されたCLFはプラグアンドプレイモジュールとして定義することができ、異なるニューラルネットワークモデルに組み込んでパフォーマンスを改善することができる。

Automatic pavement crack detection is an important task to ensure the functional performances of pavements during their service life. Inspired by deep learning (DL), the encoder-decoder framework is a powerful tool for crack detection. However, these models are usually open-loop (OL) systems that tend to treat thin cracks as the background. Meanwhile, these models can not automatically correct errors in the prediction, nor can it adapt to the changes of the environment to automatically extract and detect thin cracks. To tackle this problem, we embed closed-loop feedback (CLF) into the neural network so that the model could learn to correct errors on its own, based on generative adversarial networks (GAN). The resulting model is called CrackCLF and includes the front and back ends, i.e. segmentation and adversarial network. The front end with U-shape framework is employed to generate crack maps, and the back end with a multi-scale loss function is used to correct higher-order inconsistencies between labels and crack maps (generated by the front end) to address open-loop system issues. Empirical results show that the proposed CrackCLF outperforms others methods on three public datasets. Moreover, the proposed CLF can be defined as a plug and play module, which can be embedded into different neural network models to improve their performances.
翻訳日:2023-11-21 18:26:15 公開日:2023-11-20
# マルチタスクトレーニングと最適トレーニングスケジュールによる効率的な文法的誤り訂正

Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule ( http://arxiv.org/abs/2311.11813v1 )

ライセンス: Link先を確認
Andrey Bout, Alexander Podolskiy, Sergey Nikolenko, Irina Piontkovskaya(参考訳) 神経文法的誤り訂正(GEC)の進歩は、注釈付きトレーニングデータの欠如によって妨げられる。 十分な量の高品質の手動アノテーションデータがないため、最近の研究は合成データの生成、事前トレーニング、そして実際のデータセットの微調整に依存している。 本研究では、利用可能なデータをより効率的に利用する方法について、直交方向を探索する。 まず,修正文列の予測など,原文と修正文のアライメントを利用する補助タスクを提案する。 各タスクをシーケンスツーシーケンス問題として定式化し,マルチタスクトレーニングを行う。 第2に、トレーニングに使用されるデータセットの順序と、データセット内の個々のインスタンスが最終的なパフォーマンスに重要な影響を与える可能性があることを発見したので、最高のトレーニングスケジュールを見つけることにしました。 特に、私たちは、t5-xxl (11bパラメータ) に基づいた最良のモデルよりも、bartベースのモデル (4mパラメータ) の方が優れています。

Progress in neural grammatical error correction (GEC) is hindered by the lack of annotated training data. Sufficient amounts of high-quality manually annotated data are not available, so recent research has relied on generating synthetic data, pretraining on it, and then fine-tuning on real datasets; performance gains have been achieved either by ensembling or by using huge pretrained models such as XXL-T5 as the backbone. In this work, we explore an orthogonal direction: how to use available data more efficiently. First, we propose auxiliary tasks that exploit the alignment between the original and corrected sentences, such as predicting a sequence of corrections. We formulate each task as a sequence-to-sequence problem and perform multi-task training. Second, we discover that the order of datasets used for training and even individual instances within a dataset may have important effects on the final performance, so we set out to find the best training schedule. Together, these two ideas lead to significant improvements, producing results that improve state of the art with much smaller models; in particular, we outperform the best models based on T5-XXL (11B parameters) with a BART-based model (400M parameters).
翻訳日:2023-11-21 18:25:51 公開日:2023-11-20
# POI統合とAreal Embeddingによる不動産評価の改善

Improving Real Estate Appraisal with POI Integration and Areal Embedding ( http://arxiv.org/abs/2311.11812v1 )

ライセンス: Link先を確認
Sumin Han, Youngjun Park, Sonia Sabir, Jisun An, Dongman Lee(参考訳) 不動産評価手法の進歩にもかかわらず,本研究は主に2つの重要な課題に焦点を当てた。 まず,POI(Points of Interest)がプロパティ値に与える影響について検討し,機能選択に対する包括的データ駆動アプローチの必要性を強調した。 次に,不動産評価のための空間理解を強化するために,道路ネットワークに基づくアレル埋め込みを統合する。 まず,POI特徴抽出の改訂手法を提案し,住宅価格評価における各POIの影響について検討する。 次に,Areal Embedding- able Masked Multihead Attention-based Spatial Interpolation for House Price Prediction (AMMASI)モデル,および既存のASIモデルの改良について述べる。 当社のモデルは,現在のベースラインを上回り,不動産評価手法の今後の最適化に期待できる道筋を提供する。

Despite advancements in real estate appraisal methods, this study primarily focuses on two pivotal challenges. Firstly, we explore the often-underestimated impact of Points of Interest (POI) on property values, emphasizing the necessity for a comprehensive, data-driven approach to feature selection. Secondly, we integrate road-network-based Areal Embedding to enhance spatial understanding for real estate appraisal. We first propose a revised method for POI feature extraction, and discuss the impact of each POI for house price appraisal. Then we present the Areal embedding-enabled Masked Multihead Attention-based Spatial Interpolation for House Price Prediction (AMMASI) model, an improvement upon the existing ASI model, which leverages masked multi-head attention on geographic neighbor houses and similar-featured houses. Our model outperforms current baselines and also offers promising avenues for future optimization in real estate appraisal methodologies.
翻訳日:2023-11-21 18:25:31 公開日:2023-11-20
# 大規模言語モデルと説明可能な法則:ハイブリッド手法

Large Language Models and Explainable Law: a Hybrid Methodology ( http://arxiv.org/abs/2311.11811v1 )

ライセンス: Link先を確認
Marco Billi, Alessandro Parenti, Giuseppe Pisano, Marco Sanchi(参考訳) 本稿は,ルールに基づく法体系のアクセシビリティ,利用,説明可能性の向上をめざし,法律技術の民主的かつステークホルダー指向の視点に寄与するものである。 ルールベースのシステムによって生み出される説明を高レベルプログラミング言語から自然言語に翻訳するために、llmの潜在的な利用を探求するために、すべてのユーザがそのような技術と高速で明確でアクセス可能な対話を可能にする手法が開発されている。 この研究は、これらの説明に基づいて、法則に基づく異なる推論の自律的な法的な比較にPromptsの連鎖を用いて、日常的に複雑な法学的なタスクを実行する能力を与える。

The paper advocates for LLMs to enhance the accessibility, usage and explainability of rule-based legal systems, contributing to a democratic and stakeholder-oriented view of legal technology. A methodology is developed to explore the potential use of LLMs for translating the explanations produced by rule-based systems, from high-level programming languages to natural language, allowing all users a fast, clear, and accessible interaction with such technologies. The study continues by building upon these explanations to empower laypeople with the ability to execute complex juridical tasks on their own, using a Chain of Prompts for the autonomous legal comparison of different rule-based inferences, applied to the same factual case.
翻訳日:2023-11-21 18:25:15 公開日:2023-11-20
# DocPedia:Versatile文書理解のための周波数領域における大規模マルチモーダルモデルのパワーの解放

DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding ( http://arxiv.org/abs/2311.11810v1 )

ライセンス: Link先を確認
Hao Feng and Qi Liu and Hao Liu and Wengang Zhou and Houqiang Li and Can Huang(参考訳) DocPediaは、OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)で、2,560$\times$2,560の解像度で画像を解析できる。 既存の作品が高解像度ドキュメントに苦しむか、ビジョンや言語能力に制約のある大きな言語モデルを諦めるかとは異なり、私たちのdocpediaはピクセル空間ではなく周波数領域で視覚入力を直接処理します。 ユニークな特徴により、docpediaは限られた数のビジュアルトークンを使用して、より多くのビジュアル情報とテキスト情報をキャプチャできる。 モデルの知覚能力と理解能力の両立を一貫して向上させるため,二段階の訓練戦略を開発し,複数の文書タイプをカバーするすべての訓練タスクの指示/注釈を充実させる。 様々な公開可能なベンチマークで実施された広範囲な量的および質的な実験は、共同学習の知覚と理解タスクの相互利益を確認する。 その結果,DocPediaが他の手法よりも有効であり,優れた性能を示した。

This work presents DocPedia, a novel large multimodal model (LMM) for versatile OCR-free document understanding, capable of parsing images up to 2,560$\times$2,560 resolution. Unlike existing work either struggle with high-resolution documents or give up the large language model thus vision or language ability constrained, our DocPedia directly processes visual input in the frequency domain rather than the pixel space. The unique characteristic enables DocPedia to capture a greater amount of visual and textual information using a limited number of visual tokens. To consistently enhance both perception and comprehension abilities of our model, we develop a dual-stage training strategy and enrich instructions/annotations of all training tasks covering multiple document types. Extensive quantitative and qualitative experiments conducted on various publicly available benchmarks confirm the mutual benefits of jointly learning perception and comprehension tasks. The results provide further evidence of the effectiveness and superior performance of our DocPedia over other methods.
翻訳日:2023-11-21 18:25:00 公開日:2023-11-20
# 不特定区間における混合交通制御におけるエミッションとエネルギー効率の分析

Analyzing Emissions and Energy Efficiency in Mixed Traffic Control at Unsignalized Intersections ( http://arxiv.org/abs/2311.11866v1 )

ライセンス: Link先を確認
Michael Villarreal, Dawei Wang, Jia Pan, Weizi Li(参考訳) 1900年代初めから温室効果ガスの排出量が劇的に増加し、米国の輸送が米国の排出量の28%を生み出した。 そのため、輸送関連排出削減への関心が高まっている。 特に、交差点によって異なる交通の流れが交差し、方向を変えることができるため、サステナビリティの研究がシグナル化された交差点を中心に展開されている。 最近の研究は、信号交差点における混合交通制御エコ運転戦略を開発し、排出削減に寄与している。 しかし、信号化された交差点の固有構造は、頻繁な加速/減速イベント、渋滞による過剰なアイドル、ストップ・アンド・ゴー波を発生させることで、排出を増加させる。 したがって、無署名の交差点はさらなる持続可能性の改善の可能性を持っていると信じている。 本研究では,ロボット車両(RV)に混在する交通制御戦略を,複雑で現実的なトポロジや交通需要を伴う未署名交差点のエミッション分析により,待ち時間と混雑を低減する。 RVの浸透率を10%以上とすると, RVは信号化交差点の27%, 28%よりも燃料消費量とNOx排出量が減少することがわかった。 少なくとも30%の RV では、CO と HC の排出量はそれぞれ 42% と 43% に減少する。 さらに、RVは交差点での戦略のみを採用するにもかかわらず、ネットワーク全体の排出を減らすことができる。

Greenhouse gas emissions have dramatically risen since the early 1900s with U.S. transportation generating 28% of the U.S' emissions. As such, there is interest in reducing transportation-related emissions. Specifically, sustainability research has sprouted around signalized intersections as intersections allow different streams of traffic to cross and change directions. Recent research has developed mixed traffic control eco-driving strategies at signalized intersections to decrease emissions. However, the inherent structure of a signalized intersection generates increased emissions by creating frequent acceleration/deceleration events, excessive idling from traffic congestion, and stop-and-go waves. Thus, we believe unsignalized intersections hold potential for further sustainability improvements. In this work, we provide an emissions analysis on unsignalized intersections with complex, real-world topologies and traffic demands where mixed traffic control strategies are employed by robot vehicles (RVs) to reduce waiting times and congestion. We find with at least 10% RV penetration rate, RVs generate less fuel consumption and NOx emissions than signalized intersections by up to 27% and 28%, respectively. With at least 30% RVs, CO and HC emissions are reduced by up to 42% and 43%, respectively. Additionally, RVs can reduce emissions across the whole network despite only employing their strategies at the intersections.
翻訳日:2023-11-21 18:17:52 公開日:2023-11-20
# VLM-Eval:ビデオ大言語モデルに関する一般的な評価

VLM-Eval: A General Evaluation on Video Large Language Models ( http://arxiv.org/abs/2311.11865v1 )

ライセンス: Link先を確認
Shuailin Li, Yuang Zhang, Yucheng Zhao, Qiuyue Wang, Fan Jia, Yingfei Liu, Tiancai Wang(参考訳) ビデオLarge Language Models (LLM) の急速な開発にもかかわらず、包括的な評価はいまだに存在しない。 本稿では,キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統一的な評価手法を提案する。 従来の指標に加えて, GPTによる評価が, 複数の側面にわたる応答品質評価において, 人為的な性能とどのように一致しているかを示す。 本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。 最後に,学習データセットを超越したビデオLLMを評価し,数百対のビデオ指導ペアだけでシナリオを駆動する際の認識と推論能力を示す。 私たちの仕事がビデオllmの統一的な評価となり、より実用的なシナリオの拡大に役立つことを願っています。 評価コードはもうすぐ提供される。

Despite the rapid development of video Large Language Models (LLMs), a comprehensive evaluation is still absent. In this paper, we introduce a unified evaluation that encompasses multiple video tasks, including captioning, question and answering, retrieval, and action recognition. In addition to conventional metrics, we showcase how GPT-based evaluation can match human-like performance in assessing response quality across multiple aspects. We propose a simple baseline: Video-LLaVA, which uses a single linear projection and outperforms existing video LLMs. Finally, we evaluate video LLMs beyond academic datasets, which show encouraging recognition and reasoning capabilities in driving scenarios with only hundreds of video-instruction pairs for fine-tuning. We hope our work can serve as a unified evaluation for video LLMs, and help expand more practical scenarios. The evaluation code will be available soon.
翻訳日:2023-11-21 18:17:31 公開日:2023-11-20
# GP-NeRF:コンテキスト対応3次元シーン理解のための一般化知覚NeRF

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding ( http://arxiv.org/abs/2311.11863v1 )

ライセンス: Link先を確認
Hao Li, Dingwen Zhang, Yalun Dai, Nian Liu, Lechao Cheng, Jingfeng Li, Jingdong Wang, Junwei Han(参考訳) シーン理解と表現のためにNeRFを下流の知覚タスクに適用することは、ますます人気が高まっている。 既存のほとんどのメソッドは意味的予測を、意味的NeRFを構築するために、追加のレンダリングタスクである \textit{i.e.} として扱う。 しかし、レンダリングされた画像の文脈情報を考慮せずに1ピクセルあたりのセマンティック・インスタンス・ラベルを描画することで、これらの手法は通常、不明瞭な境界セグメンテーションとオブジェクト内の画素の異常セグメンテーションに悩まされる。 この問題を解決するために,広範に使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に連携させる新しいパイプラインであるGeneralized Perception NeRF (GP-NeRF)を提案する。 この目的を達成するために,両フィールドの連成ボリュームレンダリングを容易にするため,新しいビューを共同で行うために,放射能を集約するトランスフォーマーとセマンティック埋め込みフィールドを導入する。 さらに, 2つの自己蒸留機構,すなわち, 意味蒸留損失と奥行き誘導意味蒸留損失を提案し, 意味場の識別と品質, 幾何学的一貫性の維持を図る。 評価では,2つの知覚課題(意味とインスタンスのセグメンテーション)の下で,合成と実世界の両方のデータセットを用いて実験的な比較を行う。 特に,本手法は汎用セマンティックセグメンテーション,微調整セマンティックセグメンテーション,インスタンスセグメンテーションにおいて,SOTAアプローチを6.94 %,11.76 %,8.47 %で上回っている。

Applying NeRF to downstream perception tasks for scene understanding and representation is becoming increasingly popular. Most existing methods treat semantic prediction as an additional rendering task, \textit{i.e.}, the "label rendering" task, to build semantic NeRFs. However, by rendering semantic/instance labels per pixel without considering the contextual information of the rendered image, these methods usually suffer from unclear boundary segmentation and abnormal segmentation of pixels within an object. To solve this problem, we propose Generalized Perception NeRF (GP-NeRF), a novel pipeline that makes the widely used segmentation model and NeRF work compatibly under a unified framework, for facilitating context-aware 3D scene perception. To accomplish this goal, we introduce transformers to aggregate radiance as well as semantic embedding fields jointly for novel views and facilitate the joint volumetric rendering of both fields. In addition, we propose two self-distillation mechanisms, i.e., the Semantic Distill Loss and the Depth-Guided Semantic Distill Loss, to enhance the discrimination and quality of the semantic field and the maintenance of geometric consistency. In evaluation, we conduct experimental comparisons under two perception tasks (\textit{i.e.} semantic and instance segmentation) using both synthetic and real-world datasets. Notably, our method outperforms SOTA approaches by 6.94\%, 11.76\%, and 8.47\% on generalized semantic segmentation, finetuning semantic segmentation, and instance segmentation, respectively.
翻訳日:2023-11-21 18:17:18 公開日:2023-11-20
# 非教師型機械学習による慢性腰痛患者の中枢性感作インベントリ遮断値の確立

Establishing Central Sensitization Inventory Cut-off Values in patients with Chronic Low Back Pain by Unsupervised Machine Learning ( http://arxiv.org/abs/2311.11862v1 )

ライセンス: Link先を確認
Xiaoping Zheng, Claudine JC Lamoth, Hans Timmerman, Ebert Otten, Michiel F Reneman(参考訳) 慢性腰痛(CLBP)の発症と維持には,ヒトの感作が関与している。 中枢センシタイズインベントリ (csi) は, 慢性痛患者に対して40/100のカットオフ値でhacsの有無を評価するために開発された。 しかし、痛み状態(例えばclbp)や性別を含む様々な要因が、このカットオフ値に影響を与える可能性がある。 CLBPのような慢性的な痛みに対して、教師なしクラスタリングアプローチはこれらの要因を考慮に入れ、HACS関連パターンを自動的に学習することができる。 そこで本研究では,CLBPを用いたオランダ語話者のカットオフ値を決定することを目的とした。 本研究は,clbp患者と高齢の無痛者(健康管理,hc)から,痛み,身体的,心理的側面に関するアンケート調査データを収集した。 調査データと性別に基づいて,HACS関連クラスタを同定するために,4つのクラスタリング手法を適用した。 クラスタ化性能は内部および外部指標を用いて評価した。 その後,最適カットオフ値を決定するため,最適クラスタリング結果に基づいて受信機動作特性解析を行った。 対象は, HC63例, CLBP88例の151例であった。 階層的クラスタリングは,健常群,低HACS群CLBP,高HACS群CLBPの3つのクラスタを同定した。 低HACSレベル群(HCおよびCLBPを含む低HACSレベル群)と高HACSレベル群(高HACSレベル群)に基づいて、全体のカットオフ値は女性で35、女性で34、女性で35であった。 その結果,clbpの最適カットオフ値は35。 性別に関連したカットオフ値は、サンプル内の不均衡な性別分布のために注意して解釈されるべきである。

Human Assumed Central Sensitization is involved in the development and maintenance of chronic low back pain (CLBP). The Central Sensitization Inventory (CSI) was developed to evaluate the presence of HACS, with a cut-off value of 40/100 based on patients with chronic pain. However, various factors including pain conditions (e.g., CLBP), and gender may influence this cut-off value. For chronic pain condition such as CLBP, unsupervised clustering approaches can take these factors into consideration and automatically learn the HACS-related patterns. Therefore, this study aimed to determine the cut-off values for a Dutch-speaking population with CLBP, considering the total group and stratified by gender based on unsupervised machine learning. In this study, questionnaire data covering pain, physical, and psychological aspects were collected from patients with CLBP and aged-matched pain-free adults (referred to as healthy controls, HC). Four clustering approaches were applied to identify HACS-related clusters based on the questionnaire data and gender. The clustering performance was assessed using internal and external indicators. Subsequently, receiver operating characteristic analysis was conducted on the best clustering results to determine the optimal cut-off values. The study included 151 subjects, consisting of 63 HCs and 88 patients with CLBP. Hierarchical clustering yielded the best results, identifying three clusters: healthy group, CLBP with low HACS level, and CLBP with high HACS level groups. Based on the low HACS levels group (including HC and CLBP with low HACS level) and high HACS level group, the cut-off value for the overall groups were 35, 34 for females, and 35 for. The findings suggest that the optimal cut-off values for CLBP is 35. The gender-related cut-off values should be interpreted with caution due to the unbalanced gender distribution in the sample.
翻訳日:2023-11-21 18:16:43 公開日:2023-11-20
# 大規模言語モデルを用いた実例と自然例の生成

Generating Valid and Natural Adversarial Examples with Large Language Models ( http://arxiv.org/abs/2311.11861v1 )

ライセンス: Link先を確認
Zimu Wang, Wei Wang, Qi Chen, Qiufeng Wang, Anh Nguyen(参考訳) ディープラーニングベースの自然言語処理(NLP)モデル、特にプレトレーニング言語モデル(PLM)は、敵の攻撃に対して脆弱であることが判明した。 しかし、多くの主流単語レベルの敵対的攻撃モデルによって生成された敵の例は有効でも自然でもないため、意味的維持、文法性、そして人間の認識不能が失われる。 言語理解能力と大規模言語モデル(LLM)の生成能力に基づいて,LLMの有効例と自然な例の両方を生成することを目的としたLLM-Attackを提案する。 この手法は、単語重要度ランキング(最も脆弱な単語を検索する)と単語同義語置換(LLMから得られる同義語に置き換える)の2段階からなる。 映画レビュー(mr)、imdb、yelpでの実験結果では、攻撃モデルに対する極性データセットがllm攻撃の有効性を示しており、ヒトおよびgpt-4の評価において有意差でベースラインを上回っている。 このモデルは、意味的意味、文法性、そして人間の非受容性を保存して、一般的に有効で自然な敵の例を生成することができる。

Deep learning-based natural language processing (NLP) models, particularly pre-trained language models (PLMs), have been revealed to be vulnerable to adversarial attacks. However, the adversarial examples generated by many mainstream word-level adversarial attack models are neither valid nor natural, leading to the loss of semantic maintenance, grammaticality, and human imperceptibility. Based on the exceptional capacity of language understanding and generation of large language models (LLMs), we propose LLM-Attack, which aims at generating both valid and natural adversarial examples with LLMs. The method consists of two stages: word importance ranking (which searches for the most vulnerable words) and word synonym replacement (which substitutes them with their synonyms obtained from LLMs). Experimental results on the Movie Review (MR), IMDB, and Yelp Review Polarity datasets against the baseline adversarial attack models illustrate the effectiveness of LLM-Attack, and it outperforms the baselines in human and GPT-4 evaluation by a significant margin. The model can generate adversarial examples that are typically valid and natural, with the preservation of semantic meaning, grammaticality, and human imperceptibility.
翻訳日:2023-11-21 18:16:13 公開日:2023-11-20
# LION : デュアルレベルビジュアル知識を用いたマルチモーダル大言語モデルの構築

LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge ( http://arxiv.org/abs/2311.11860v1 )

ライセンス: Link先を確認
Gongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie(参考訳) MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。 しかし、既存のmllmの多くは、粗い画像テキストペアに事前学習された視覚エンコーダを主に採用しており、視覚知識の抽出と推論が不十分である。 この問題に対処するために,2段階の視覚的知識を注入することでMLLMを増強するデュアルレベルvIsual knOwledge eNhanced Multimodal Large Language Model (LION)を考案した。 1)細粒度空間認識視覚知識の進歩的導入 我々は,領域レベルの視覚言語(VL)タスクと連携した視覚アグリゲータを設計し,細粒度空間認識視覚知識をMLLMに組み込む。 組込み時の画像レベルと領域レベルのVLタスク間の衝突を軽減するため,適応の混合によるステージワイドな指導学習戦略を考案した。 このプログレッシブな組み込み方式は、これらの2種類のVLタスク間の相互促進に寄与する。 2)ハイレベルな視覚的証拠のソフトプロンプト。 多様な画像タグを活用することで,MLLMの高度な意味的視覚的エビデンスを実現する。 予測タグの不完全による潜在的な影響を軽減するため,学習可能なトークンをテキスト命令に組み込むことにより,ソフトプロンプト手法を提案する。 複数のマルチモーダルベンチマークに関する総合的な実験は、我々のモデルの優位性を示している(例:VSRでの5%精度の改善、InstructBLIP上のTextCapsでの3%CIDEr、Cosmos-2上のRefCOCOgでの5%精度)。

Multimodal Large Language Models (MLLMs) have endowed LLMs with the ability to perceive and understand multi-modal signals. However, most of the existing MLLMs mainly adopt vision encoders pretrained on coarsely aligned image-text pairs, leading to insufficient extraction and reasoning of visual knowledge. To address this issue, we devise a dual-Level vIsual knOwledge eNhanced Multimodal Large Language Model (LION), which empowers the MLLM by injecting visual knowledge in two levels. 1) Progressive incorporation of fine-grained spatial-aware visual knowledge. We design a vision aggregator cooperated with region-level vision-language (VL) tasks to incorporate fine-grained spatial-aware visual knowledge into the MLLM. To alleviate the conflict between image-level and region-level VL tasks during incorporation, we devise a dedicated stage-wise instruction-tuning strategy with mixture-of-adapters. This progressive incorporation scheme contributes to the mutual promotion between these two kinds of VL tasks. 2) Soft prompting of high-level semantic visual evidence. We facilitate the MLLM with high-level semantic visual evidence by leveraging diverse image tags. To mitigate the potential influence caused by imperfect predicted tags, we propose a soft prompting method by embedding a learnable token into the tailored text instruction. Comprehensive experiments on several multi-modal benchmarks demonstrate the superiority of our model (e.g., improvement of 5% accuracy on VSR and 3% CIDEr on TextCaps over InstructBLIP, 5% accuracy on RefCOCOg over Kosmos-2).
翻訳日:2023-11-21 18:15:51 公開日:2023-11-20
# FATURA:文書分析・理解のための多層請求書画像データセット

FATURA: A Multi-Layout Invoice Image Dataset for Document Analysis and Understanding ( http://arxiv.org/abs/2311.11856v1 )

ライセンス: Link先を確認
Mahmoud Limam, Marwa Dhiaf, Yousri Kessentini(参考訳) ドキュメント分析と理解モデルには、トレーニングに必要な広範な注釈データが必要になることが多い。 しかし、文書関連タスクはテキストの書き起こしを超えて、異なる文書要素を特定するためにテキストコンテンツと正確なバウンディングボックスアノテーションの両方を必要とする。 このようなデータ収集は特に請求書のコンテキストにおいて特に困難になり、プライバシーに関する懸念がさらに複雑さを増す。 本稿では,文書分析と理解の分野における研究者のための重要なリソースであるFATURAを紹介する。 FATURAは、マルチレイアウト、注釈付き請求書文書画像を含む非常に多様なデータセットである。 1万ドルの請求書と50ドルの異なるレイアウトで構成されており、現在知られている請求書の最大の画像データセットである。 また,様々な文書分析・理解タスクのための包括的なベンチマークを提供し,様々な訓練・評価シナリオで実験を行う。 データセットはhttps://zenodo.org/record/8261508で自由にアクセスでき、研究者が文書分析と理解の分野を前進させることができる。

Document analysis and understanding models often require extensive annotated data to be trained. However, various document-related tasks extend beyond mere text transcription, requiring both textual content and precise bounding-box annotations to identify different document elements. Collecting such data becomes particularly challenging, especially in the context of invoices, where privacy concerns add an additional layer of complexity. In this paper, we introduce FATURA, a pivotal resource for researchers in the field of document analysis and understanding. FATURA is a highly diverse dataset featuring multi-layout, annotated invoice document images. Comprising $10,000$ invoices with $50$ distinct layouts, it represents the largest openly accessible image dataset of invoice documents known to date. We also provide comprehensive benchmarks for various document analysis and understanding tasks and conduct experiments under diverse training and evaluation scenarios. The dataset is freely accessible at https://zenodo.org/record/8261508, empowering researchers to advance the field of document analysis and understanding.
翻訳日:2023-11-21 18:15:20 公開日:2023-11-20
# 悪の天才: llmベースのエージェントの安全性を掘り下げる

Evil Geniuses: Delving into the Safety of LLM-based Agents ( http://arxiv.org/abs/2311.11855v1 )

ライセンス: Link先を確認
Yu Tian, Xiao Yang, Jingyuan Zhang, Yinpeng Dong, Hang Su(参考訳) 大規模言語モデル(LLM)の急速な進歩により、LLMベースのエージェントが復活し、様々な相互作用や戦略の定式化において、人間のような行動や協調的な能力が顕著に示された。 しかし、llmベースのエージェントの安全性の評価は複雑な課題である。 本稿では,これらのエージェントの安全性を徹底的に調査するために,仮想チャットによる悪質な計画開発チームであるvily geniussと共に,一連の手動ジェイルブレイクプロンプトを実施する。 我々の調査で 3つの注目すべき現象が明らかになりました 1) llmベースのエージェントは悪意のある攻撃に対してロバスト性が低下する。 2) 攻撃剤は, よりニュアンスな応答を与えることができた。 3) 生成した不適切な応答の検出は困難である。 これらの知見は, LLMをベースとしたエージェントに対する攻撃の有効性に疑問を呈し, さまざまなレベルの脆弱性と, LLMをベースとしたエージェントのシステム/エージェント内での異なる役割の特殊化に注目する。 広範な評価と議論により、llmベースのエージェントが将来の研究において安全性と成果の洞察において重大な課題に直面していることが明らかとなった。 私たちのコードはhttps://github.com/T1aNS1R/Evil-Geniusesで利用可能です。

The rapid advancements in large language models (LLMs) have led to a resurgence in LLM-based agents, which demonstrate impressive human-like behaviors and cooperative capabilities in various interactions and strategy formulations. However, evaluating the safety of LLM-based agents remains a complex challenge. This paper elaborately conducts a series of manual jailbreak prompts along with a virtual chat-powered evil plan development team, dubbed Evil Geniuses, to thoroughly probe the safety aspects of these agents. Our investigation reveals three notable phenomena: 1) LLM-based agents exhibit reduced robustness against malicious attacks. 2) the attacked agents could provide more nuanced responses. 3) the detection of the produced improper responses is more challenging. These insights prompt us to question the effectiveness of LLM-based attacks on agents, highlighting vulnerabilities at various levels and within different role specializations within the system/agent of LLM-based agents. Extensive evaluation and discussion reveal that LLM-based agents face significant challenges in safety and yield insights for future research. Our code is available at https://github.com/T1aNS1R/Evil-Geniuses.
翻訳日:2023-11-21 18:15:03 公開日:2023-11-20
# イベントベースビジョンのためのスパイクニューラルネットワークのための非同期バイオプレースブルニューロン

Asynchronous Bioplausible Neuron for Spiking Neural Networks for Event-Based Vision ( http://arxiv.org/abs/2311.11853v1 )

ライセンス: Link先を確認
Sanket Kachole, Hussain Sajwani, Fariborz Baghaei Naeini, Dimitrios Makris, Yahya Zweiri(参考訳) spiking neural networks (snns)は、コンピュータビジョンに生物学的にインスパイアされたアプローチを提供し、エネルギー消費量を削減した視覚データのより効率的な処理を可能にする。 しかし,ネットワーク内のホメオスタシスの維持には,多様かつ予測不能な入力信号に対して,平衡と最適処理効率を維持するために,神経応答の継続的な調整が不可欠である。 これらの課題に対応するために、入力信号の変動を自動的に調整する動的スパイク発火機構であるABN(Asynchronous Bioplausible Neuron)を提案する。 様々なデータセットにわたる包括的評価は、画像分類とセグメンテーション、神経平衡の維持、エネルギー効率におけるABNの強化された性能を示す。

Spiking Neural Networks (SNNs) offer a biologically inspired approach to computer vision that can lead to more efficient processing of visual data with reduced energy consumption. However, maintaining homeostasis within these networks is challenging, as it requires continuous adjustment of neural responses to preserve equilibrium and optimal processing efficiency amidst diverse and often unpredictable input signals. In response to these challenges, we propose the Asynchronous Bioplausible Neuron (ABN), a dynamic spike firing mechanism to auto-adjust the variations in the input signal. Comprehensive evaluation across various datasets demonstrates ABN's enhanced performance in image classification and segmentation, maintenance of neural equilibrium, and energy efficiency.
翻訳日:2023-11-21 18:14:41 公開日:2023-11-20
# 深層学習完全交叉カラビ・ヤウ多様体

Deep learning complete intersection Calabi-Yau manifolds ( http://arxiv.org/abs/2311.11847v1 )

ライセンス: Link先を確認
Harold Erbin, Riccardo Finotello(参考訳) 本稿では,3次元および4次元の完全交叉型カラビヤウ (cicy) におけるディープラーニング技術の進歩を概観し,代数的トポロジカルデータを機械学習で扱う方法の理解を深める。 まず、ニューラルネットワークアーキテクチャを説明する前に、方法論的側面とデータ分析について論じる。 次に,ホッジ数予測における最先端の精度について述べる。 低ホッジ数から高ホッジ数への予測を補間する新しい結果を含む。

We review advancements in deep learning techniques for complete intersection Calabi-Yau (CICY) 3- and 4-folds, with the aim of understanding better how to handle algebraic topological data with machine learning. We first discuss methodological aspects and data analysis, before describing neural networks architectures. Then, we describe the state-of-the art accuracy in predicting Hodge numbers. We include new results on extrapolating predictions from low to high Hodge numbers, and conversely.
翻訳日:2023-11-21 18:14:28 公開日:2023-11-20
# deepparse : 多国籍のストリートアドレスを解析するための拡張可能で微調整可能な最先端ライブラリ

Deepparse : An Extendable, and Fine-Tunable State-Of-The-Art Library for Parsing Multinational Street Addresses ( http://arxiv.org/abs/2311.11846v1 )

ライセンス: Link先を確認
David Beauchemin, Marouane Yassine(参考訳) アドレスを意味のあるコンポーネントに分割するのは、アドレス解析としても知られ、レコードリンクからジオコーディング、パッケージデリバリに至るまで、多くのアプリケーションにとって重要なステップです。 その結果、最先端のスコアボードを導く機械学習とニューラルネットワークメソッドによって、正確なアドレス解析技術の開発に多くの作業が費やされている。 しかしながら、アドレス解析の作業の大部分は、無償で使いやすいオープンソースソリューションがほとんど利用できない学術的な取り組みに限られている。 本稿では,LGPL-3.0ライセンス下でPythonのオープンソースで拡張可能,微調整可能なアドレス解析ソリューションであるDeepparseについて,最先端のディープラーニングアルゴリズムを用いて多国籍アドレスを解析し,60カ国以上で評価する。 任意の言語で書かれたアドレスを解析し、任意のアドレス標準を使用することができる。 事前訓練されたモデルは、事前処理や後処理を必要とせず、トレーニングに使用する国の平均$99〜$%の構文解析能力を達成する。 さらに、ライブラリは新しいデータで微調整をサポートし、カスタムアドレスパーサを生成する。

Segmenting an address into meaningful components, also known as address parsing, is an essential step in many applications from record linkage to geocoding and package delivery. Consequently, a lot of work has been dedicated to develop accurate address parsing techniques, with machine learning and neural network methods leading the state-of-the-art scoreboard. However, most of the work on address parsing has been confined to academic endeavours with little availability of free and easy-to-use open-source solutions. This paper presents Deepparse, a Python open-source, extendable, fine-tunable address parsing solution under LGPL-3.0 licence to parse multinational addresses using state-of-the-art deep learning algorithms and evaluated on over 60 countries. It can parse addresses written in any language and use any address standard. The pre-trained model achieves average $99~\%$ parsing accuracies on the countries used for training with no pre-processing nor post-processing needed. Moreover, the library supports fine-tuning with new data to generate a custom address parser.
翻訳日:2023-11-21 18:14:18 公開日:2023-11-20
# 一般化可能なニューラルラジアンスフィールドのための絡み合ったビュー・エポ極情報集約

Entangled View-Epipolar Information Aggregation for Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2311.11845v1 )

ライセンス: Link先を確認
Zhiyuan Min, Yawei Luo, Wei Yang, Yuesong Wang, Yi Yang(参考訳) 一般化可能なNeRFは、新しいシーンにまたがる新しいビューを直接合成することができ、バニラのNeRFでシーン固有のリトレーニングを不要にする。 これらのアプローチにおける重要な有効要因は、ソースビューの特徴を集約することで一般化可能な3D表現の抽出である。 本稿では,EVE-NeRFと呼ばれるエンタングルビュー・エピポーラ情報集約手法を提案する。 EVE-NeRFは、横方向や横方向の情報を独立に考慮する既存の方法とは異なり、シーン不変の外観連続性や、アグリゲーションプロセスに先立って幾何整合性を注入することにより、ビュー-横方向の特徴集約を絡み合った方法で行う。 提案手法は, 1次元相互作用による固有幾何学的制約や外観的制約の潜在的な欠如を効果的に軽減し, さらに3次元表現の一般性を高める。 EVE-NeRFは様々な評価シナリオで最先端のパフォーマンスを実現する。 大規模な実験では、一般的な1次元アグリゲーションと比べて、絡み合ったネットワークは3dシーンの幾何学と外観の再構築の正確さに優れています。

Generalizable NeRF can directly synthesize novel views across new scenes, eliminating the need for scene-specific retraining in vanilla NeRF. A critical enabling factor in these approaches is the extraction of a generalizable 3D representation by aggregating source-view features. In this paper, we propose an Entangled View-Epipolar Information Aggregation method dubbed EVE-NeRF. Different from existing methods that consider cross-view and along-epipolar information independently, EVE-NeRF conducts the view-epipolar feature aggregation in an entangled manner by injecting the scene-invariant appearance continuity and geometry consistency priors to the aggregation process. Our approach effectively mitigates the potential lack of inherent geometric and appearance constraint resulting from one-dimensional interactions, thus further boosting the 3D representation generalizablity. EVE-NeRF attains state-of-the-art performance across various evaluation scenarios. Extensive experiments demonstate that, compared to prevailing single-dimensional aggregation, the entangled network excels in the accuracy of 3D scene geometry and appearance reconstruction.Our project page is https://github.com/tatakai1/EVENeRF.
翻訳日:2023-11-21 18:14:01 公開日:2023-11-20
# テキスト符号化における大規模言語モデルの利用方法:公共政策文書における父の役割を事例として

How to Use Large Language Models for Text Coding: The Case of Fatherhood Roles in Public Policy Documents ( http://arxiv.org/abs/2311.11844v1 )

ライセンス: Link先を確認
Lorenzo Lupo, Oscar Magnusson, Dirk Hovy, Elin Naurin, Lena W\"angnerud(参考訳) GPT-3やGPT-4のような大規模言語モデル(LLM)の最近の進歩は、政治学におけるテキスト分析の新しい機会を開きつつある。 より良い結果と少ないプログラミングで自動化を約束している。 本研究では,非英語政治科学テキストの3つのオリジナルコーディングタスクについてllmを評価し,政治科学研究におけるテキストコーディングにllmを使用する一般的なワークフローの詳細な説明を行う。 我々のユースケースは、LLMをテキスト分析の研究に組み込もうとする研究者に実践的なガイドを提供する。 詳細なラベル定義やコーディング例が提供されれば、llmは、ずっと高速で(数百倍まで)、かなり安く(人間のコーディングよりも最大60%安くなる)、大規模テキストへのスケールがずっと簡単であると同時に、人間の注釈器と同じくらい、あるいはさらに優れたものになることが分かりました。 概して、llmはほとんどのテキストコーディングプロジェクトで実行可能な選択肢となります。

Recent advances in large language models (LLMs) like GPT-3 and GPT-4 have opened up new opportunities for text analysis in political science. They promise automation with better results and less programming. In this study, we evaluate LLMs on three original coding tasks of non-English political science texts, and we provide a detailed description of a general workflow for using LLMs for text coding in political science research. Our use case offers a practical guide for researchers looking to incorporate LLMs into their research on text analysis. We find that, when provided with detailed label definitions and coding examples, an LLM can be as good as or even better than a human annotator while being much faster (up to hundreds of times), considerably cheaper (costing up to 60% less than human coding), and much easier to scale to large amounts of text. Overall, LLMs present a viable option for most text coding projects.
翻訳日:2023-11-21 18:13:37 公開日:2023-11-20
# ランダムリシャッフルのための高い確率保証

High Probability Guarantees for Random Reshuffling ( http://arxiv.org/abs/2311.11841v1 )

ライセンス: Link先を確認
Hengxu Yu, Xiao Li(参考訳) 滑らかな非凸最適化問題に対処するために,ランダムリシャッフル(\mathsf{RR}$)を用いた確率勾配法を考える。 $\mathsf{rr}$は、ニューラルネットワークのトレーニングにおいて、実際に広く応用されている。 本研究はまず,$\mathsf{RR}$のサンプリング手順の濃度特性を調査し,$\varepsilon$以下で勾配を駆動する(期待せずに)新しい高確率サンプル複雑性を保証し,単一の$\mathsf{RR}$の実行効率を効果的に特徴づける。 我々の導出した複雑性は、対数項に最も近い既存の不変項と一致するが、追加の仮定や$\mathsf{RR}$の更新規則の変更は含まない。 さらに、得られた高確率降下特性を活用し、確率誤差に縛られることにより、$\mathsf{RR}$($\mathsf{RR}$-$\mathsf{sc}$)の単純で計算可能な停止基準を提案する。 この基準は有限反復の後にトリガーされることが保証され、次に$\mathsf{RR}$-$\mathsf{sc}$はその勾配が$\varepsilon$より高い確率でイテレートを返す。 さらに,提案する停止基準に基づいて,静止点近傍で追加のランダムな摂動手続きを伴う摂動乱数リシャッフリング法(\mathsf{p}$-$\mathsf{rr}$)を設計する。 我々は、$\mathsf{p}$-$\mathsf{rr}$ が厳密な鞍点を回避し、確率的勾配誤差のサブガウス的テール型仮定をすることなく、高確率で二階定常点を効率的に返すことを導出する。 最後に,ニューラルネットワークトレーニングに関する数値実験を行い,理論的な知見を裏付ける。

We consider the stochastic gradient method with random reshuffling ($\mathsf{RR}$) for tackling smooth nonconvex optimization problems. $\mathsf{RR}$ finds broad applications in practice, notably in training neural networks. In this work, we first investigate the concentration property of $\mathsf{RR}$'s sampling procedure and establish a new high probability sample complexity guarantee for driving the gradient (without expectation) below $\varepsilon$, which effectively characterizes the efficiency of a single $\mathsf{RR}$ execution. Our derived complexity matches the best existing in-expectation one up to a logarithmic term while imposing no additional assumptions nor changing $\mathsf{RR}$'s updating rule. Furthermore, by leveraging our derived high probability descent property and bound on the stochastic error, we propose a simple and computable stopping criterion for $\mathsf{RR}$ (denoted as $\mathsf{RR}$-$\mathsf{sc}$). This criterion is guaranteed to be triggered after a finite number of iterations, and then $\mathsf{RR}$-$\mathsf{sc}$ returns an iterate with its gradient below $\varepsilon$ with high probability. Moreover, building on the proposed stopping criterion, we design a perturbed random reshuffling method ($\mathsf{p}$-$\mathsf{RR}$) that involves an additional randomized perturbation procedure near stationary points. We derive that $\mathsf{p}$-$\mathsf{RR}$ provably escapes strict saddle points and efficiently returns a second-order stationary point with high probability, without making any sub-Gaussian tail-type assumptions on the stochastic gradient errors. Finally, we conduct numerical experiments on neural network training to support our theoretical findings.
翻訳日:2023-11-21 18:13:20 公開日:2023-11-20
# Kandinsky Conformal Prediction: 画像分割アルゴリズムの効率的な校正

Kandinsky Conformal Prediction: Efficient Calibration of Image Segmentation Algorithms ( http://arxiv.org/abs/2311.11837v1 )

ライセンス: Link先を確認
Joren Brunekreef, Eric Marcus, Ray Sheombarsing, Jan-Jakob Sonke, Jonas Teuwen(参考訳) 画像分割アルゴリズムは、近傍の画素の結果が関連付けられる画素分類器の集合として理解することができる。 分類器モデルはインダクティブ・コンフォーマル・予測(Inductive Conformal Prediction)を用いてキャリブレーションできるが、モデルの予測の非整合性のスコアの分布を計算するのに十分な大きなキャリブレーション・データセットを保持する必要がある。 このキャリブレーションセットは、画像レベルの限界校正のみを必要とする場合、キャリブレーションに使用可能な画像内のすべてのピクセルで構成される。 しかし、各画素分類器の適切なキャリブレーションを達成することが目的であれば、キャリブレーションセットは個々の画像で構成される。 データが不足している場合(医療領域など)、このピクセルレベルのキャリブレーションのために十分な数の画像を設定することは必ずしも不可能である。 提案手法は「カンディンスキー校正」と呼ばれ、自然画像の分布に存在する空間構造を利用して「類似」画素の分類器を同時に校正する。 これは、非整合性スコアが類似の画像領域に集約され、キャリブレーションに利用できる画像のより効率的な利用を可能にする、境界(画像)キャリブレーションと条件(画素)キャリブレーションの中間的アプローチと見なすことができる。 我々は、公開MS-COCOおよびメディカルデカトロンデータセットのサブセットに基づいて訓練および校正されたセグメンテーションアルゴリズムの実験を行い、カンディンスキー校正法がカバー範囲を大幅に改善できることを実証した。 小さいデータでピクセル単位と画像単位の両方のキャリブレーションと比較すると、カンディンスキー法はより低いカバレッジ誤差を達成し、カンディンスキーキャリブレーションのデータ効率を示す。

Image segmentation algorithms can be understood as a collection of pixel classifiers, for which the outcomes of nearby pixels are correlated. Classifier models can be calibrated using Inductive Conformal Prediction, but this requires holding back a sufficiently large calibration dataset for computing the distribution of non-conformity scores of the model's predictions. If one only requires only marginal calibration on the image level, this calibration set consists of all individual pixels in the images available for calibration. However, if the goal is to attain proper calibration for each individual pixel classifier, the calibration set consists of individual images. In a scenario where data are scarce (such as the medical domain), it may not always be possible to set aside sufficiently many images for this pixel-level calibration. The method we propose, dubbed ``Kandinsky calibration'', makes use of the spatial structure present in the distribution of natural images to simultaneously calibrate the classifiers of ``similar'' pixels. This can be seen as an intermediate approach between marginal (imagewise) and conditional (pixelwise) calibration, where non-conformity scores are aggregated over similar image regions, thereby making more efficient use of the images available for calibration. We run experiments on segmentation algorithms trained and calibrated on subsets of the public MS-COCO and Medical Decathlon datasets, demonstrating that Kandinsky calibration method can significantly improve the coverage. When compared to both pixelwise and imagewise calibration on little data, the Kandinsky method achieves much lower coverage errors, indicating the data efficiency of the Kandinsky calibration.
翻訳日:2023-11-21 18:12:42 公開日:2023-11-20
# ミリケルビン温度に対するペニングトラップにおける二次元イオン結晶の面内運動の高速冷却

Rapid cooling of the in-plane motion of two-dimensional ion crystals in a Penning trap to millikelvin temperatures ( http://arxiv.org/abs/2311.11906v1 )

ライセンス: Link先を確認
Wes Johnson, Athreya Shankar, John Zaris, John Bollinger, and Scott E. Parker(参考訳) ペニングトラップに格納された2次元平面状イオン結晶は、数百個のイオンを用いた量子センシングおよびシミュレーションプロトコルのための魅力的なプラットフォームを提供する。 しかし、近年の研究では、低冷却の面内運動が結晶の過剰なポテンシャルエネルギー変動を引き起こすことが示されており、これらのプロトコルの忠実さに悪影響を及ぼす可能性がある。 本稿では, 平面レーザ冷却を著しく向上させる実験的なオーバーヘッドを伴わない, 実現可能な技術を提案する。 シミュレーションにより,10ミリ秒以下の温度で平面運動を約1mKの温度まで冷却できる共振モード結合法が実証された。これは典型的な実験条件とは対照的であり,レーザ冷却力学のシミュレーションでは,数百ミリ秒の時間スケールでイオン結晶の平面運動が冷却されることが示唆されている。 この研究は、平面運動のサブドップラーレーザー冷却と、ペニングトラップ内の2次元結晶を用いたより堅牢な量子科学実験のステージを設定する。

A two-dimensional planar crystal of ions stored in a Penning trap offers an attractive platform for quantum sensing and simulation protocols using hundreds of ions. However, recent work indicates that poorly cooled in-plane motion leads to significant excess potential energy fluctuations in the crystal, which can adversely impact the fidelity of these protocols. Here, we propose a highly feasible technique with no experimental overhead to significantly improve the planar laser cooling. Through simulations, we demonstrate a resonant mode coupling technique that can enable cooling of the planar motion to a temperature of around 1 mK in less than 10 ms. This is in contrast to typical experimental conditions, where our simulations of the laser cooling dynamics suggest that the ion crystal's planar motion cools on a timescale of several hundreds of milliseconds, a rate likely slower than experimental heating rates. This work sets the stage for sub-Doppler laser cooling of the planar motion and more robust quantum science experiments with two-dimensional crystals in Penning traps.
翻訳日:2023-11-21 18:05:14 公開日:2023-11-20
# ビジネスインテリジェンスアプリケーション特定のための自然言語制御

Controlled Natural Languages for Specifying Business Intelligence Applications ( http://arxiv.org/abs/2311.11895v1 )

ライセンス: Link先を確認
Pedro das Neves Rodrigues, Alberto Rodrigues da Silva(参考訳) 本研究では,ビジネスインテリジェンス(BI)の適用要件を特定するために,制御自然言語(CNL)の使用について検討する。 CNLはCNL-BIとITLingo ASL (ASL)の2種類が用いられた。 仮説的BIアプリケーションであるMEDBuddy-BIは、National Health Service (NHS)のために開発され、言語がどのように使用できるかを示した。 MEDBuddy-BIは、インタラクションやアポイントメントを含む患者のデータを活用して、医療サービスを改善する。 本研究は,CNL-BIとASLのBIへの応用について概説する。 これらの言語は、複雑なデータ、ユーザインターフェイス、様々なBIアプリケーション機能を効果的に記述する。 MEDBuddy-BI の実行例を使用する。

This study examines the use of controlled natural languages (CNLs) to specify business intelligence (BI) application requirements. Two varieties of CNLs, CNL-BI and ITLingo ASL (ASL), were employed. A hypothetical BI application, MEDBuddy-BI, was developed for the National Health Service (NHS) to demonstrate how the languages can be used. MEDBuddy-BI leverages patient data, including interactions and appointments, to improve healthcare services. The research outlines the application of CNL-BI and ASL in BI. It details how these languages effectively describe complex data, user interfaces, and various BI application functions. Using the MEDBuddy-BI running example.
翻訳日:2023-11-21 18:04:55 公開日:2023-11-20
# テンソルネットワークアルゴリズムの安定かつ効率的な微分

Stable and efficient differentiation of tensor network algorithms ( http://arxiv.org/abs/2311.11894v1 )

ライセンス: Link先を確認
Anna Francuz, Norbert Schuch, Bram Vanhecke(参考訳) 勾配に基づく最適化法は、射影絡み合ったペア状態を持つ2次元の強い絡み合った量子システムを研究するための確立された最先端パラダイムである。 しかし,角移動行列(CTM)に基づくアプローチでは,重要な成分である勾配そのものが正確かつ確実に計算することが困難であることが証明されている。 勾配を計算する最もよく知られたツールである自動微分(AD)は、依然としていくつかの重大な欠点を被っている。 これらのいくつかは、過剰なメモリ使用の問題や、特異値分解(SVD)を微分する際に生じる発散など、知られている。 また,現在使用されているSVDのバックプロパゲーションには,これまで注目されていなかった根本的な不正確性があることが判明した。 本稿では,これらの問題をすべて説明し,コンパクトで実装が容易なソリューションを提供する。 これらの変更の影響を分析して、最後の問題(正しい勾配の使用)が圧倒的に支配的な問題であることに気付きました。

Gradient based optimization methods are the established state-of-the-art paradigm to study strongly entangled quantum systems in two dimensions with Projected Entangled Pair States. However, the key ingredient, the gradient itself, has proven challenging to calculate accurately and reliably in the case of a corner transfer matrix (CTM)-based approach. Automatic differentiation (AD), which is the best known tool for calculating the gradient, still suffers some crucial shortcomings. Some of these are known, like the problem of excessive memory usage and the divergences which may arise when differentiating a singular value decomposition (SVD). Importantly, we also find that there is a fundamental inaccuracy in the currently used backpropagation of SVD that had not been noted before. In this paper, we describe all these problems and provide them with compact and easy to implement solutions. We analyse the impact of these changes and find that the last problem -- the use of the correct gradient -- is by far the dominant one and thus should be considered a crucial patch to any AD application that makes use of an SVD for truncation.
翻訳日:2023-11-21 18:04:46 公開日:2023-11-20
# AMES:潜時グラフ推論のための微分可能な埋め込みスペース選択フレームワーク

AMES: A Differentiable Embedding Space Selection Framework for Latent Graph Inference ( http://arxiv.org/abs/2311.11891v1 )

ライセンス: Link先を確認
Yuan Lu, Haitz S\'aez de Oc\'ariz Borde, Pietro Li\`o(参考訳) 現実のシナリオでは、データエンティティは固有の関係を持つかもしれないが、それらの関係を示す特定のグラフは直接アクセスできないかもしれない。 遅延グラフ推論は、グラフニューラルネットワーク(GNN)がポイントクラウドデータ上で動作できるようにし、必要なグラフ構造を動的に学習することで、この問題に対処する。 これらのグラフは、しばしば、ユークリッド、双曲、球面、あるいは積空間を用いてモデル化できる潜在埋め込み空間から導出される。 しかし、現在、最適埋め込み空間を決定するための原則付き微分法は存在しない。 本研究では,ダウンストリームタスクを考慮したバックプロパゲーションによる潜在グラフ推論のための最良埋め込み空間を選択するための微分可能な手法である,注目型マルチエンベディング選択(ames)フレームワークを紹介する。 筆者らのフレームワークは,5つのベンチマークデータセットにまたがる遅延グラフ推論手法と比較して,同等あるいは優れた結果が得られる。 重要なことは、最適埋め込み空間を特定するために複数の実験を行う必要がなくなることである。 さらに,異なる潜在性グラフの勾配寄与を追跡する解釈可能性について検討し,注意に基づく完全微分可能なアプローチが適切な潜在性空間を選択するためにどのように学習するかを明らかにした。 これまでの研究と相まって,実験では双曲空間の性能向上の利点を強調する。 より重要なことに、我々の解釈可能性フレームワークは、それらの貢献に基づいて異なるタスクにまたがる埋め込み空間を定量的に比較するための一般的なアプローチを提供します。

In real-world scenarios, although data entities may possess inherent relationships, the specific graph illustrating their connections might not be directly accessible. Latent graph inference addresses this issue by enabling Graph Neural Networks (GNNs) to operate on point cloud data, dynamically learning the necessary graph structure. These graphs are often derived from a latent embedding space, which can be modeled using Euclidean, hyperbolic, spherical, or product spaces. However, currently, there is no principled differentiable method for determining the optimal embedding space. In this work, we introduce the Attentional Multi-Embedding Selection (AMES) framework, a differentiable method for selecting the best embedding space for latent graph inference through backpropagation, considering a downstream task. Our framework consistently achieves comparable or superior results compared to previous methods for latent graph inference across five benchmark datasets. Importantly, our approach eliminates the need for conducting multiple experiments to identify the optimal embedding space. Furthermore, we explore interpretability techniques that track the gradient contributions of different latent graphs, shedding light on how our attention-based, fully differentiable approach learns to choose the appropriate latent space. In line with previous works, our experiments emphasize the advantages of hyperbolic spaces in enhancing performance. More importantly, our interpretability framework provides a general approach for quantitatively comparing embedding spaces across different tasks based on their contributions, a dimension that has been overlooked in previous literature on latent graph inference.
翻訳日:2023-11-21 18:04:29 公開日:2023-11-20
# 不可避暗号へのモジュール的アプローチ

A Modular Approach to Unclonable Cryptography ( http://arxiv.org/abs/2311.11890v1 )

ライセンス: Link先を確認
Prabhanjan Ananth, Amit Behera(参考訳) 我々は、ブロックできない暗号プリミティブを設計するための新しい経路を探究する。 我々は,unclonable puncturable obfuscation(upo)と呼ばれる新しい概念を提案し,その非clonable cryptographyに対する意義について検討する。 UPOを用いて、公開鍵量子マネー、多くの機能クラスの量子コピー保護、制限不能暗号化、単一復号化暗号化など、多くのプリミティブをモジュラー(かつ間違いなく単純な)構成で表現する。 特に、UPOの存在を前提として、以下の新たな結果が得られる: 暗号化機能は、この機能がセキュリティの概念を満たす限り、コピー-プロテクト可能であることを示す。 先行実行可能性の結果は、特定の暗号機能に対するコピー保護に焦点が当てられた。 画像分割条件を満たす限り,任意の回避関数のクラスに対してコピー保護が存在することを示す。 先行研究は点関数のコピー保護を示し、これは結果の特別な場合として従う。 ブロック不能な暗号化がプレーンモデルに存在することを示す。 先行研究は量子ランダムオラクルモデルにおいて実現可能性を示した。 我々は,upoの候補構成を提唱し,(後量子)サブ指数的にセキュアな非識別性難読化関数と一方向関数の存在,誤りを伴う学習の量子ハードネス,同時内積予想という新たな予想に基づいて,セキュリティ概念を2つ証明した。

We explore a new pathway to designing unclonable cryptographic primitives. We propose a new notion called unclonable puncturable obfuscation (UPO) and study its implications for unclonable cryptography. Using UPO, we present modular (and arguably, simple) constructions of many primitives in unclonable cryptography, including public-key quantum money, quantum copy-protection for many classes of functionalities, unclonable encryption, and single-decryption encryption. Notably, we obtain the following new results assuming the existence of UPO: We show that any cryptographic functionality can be copy-protected as long as this functionality satisfies a notion of security, which we term as puncturable security. Prior feasibility results focused on copy-protecting specific cryptographic functionalities. We show that copy-protection exists for any class of evasive functions as long as the associated distribution satisfies a preimage-sampleability condition. Prior works demonstrated copy-protection for point functions, which follows as a special case of our result. We show that unclonable encryption exists in the plain model. Prior works demonstrated feasibility results in the quantum random oracle model. We put forward a candidate construction of UPO and prove two notions of security, each based on the existence of (post-quantum) sub-exponentially secure indistinguishability obfuscation and one-way functions, the quantum hardness of learning with errors, and a new conjecture called simultaneous inner product conjecture.
翻訳日:2023-11-21 18:04:05 公開日:2023-11-20
# SniffyArt: smelling Personsのデータセット

SniffyArt: The Dataset of Smelling Persons ( http://arxiv.org/abs/2311.11888v1 )

ライセンス: Link先を確認
Mathias Zinnen, Azhar Hussian, Hang Tran, Prathmesh Madhu, Andreas Maier, Vincent Christlein(参考訳) 匂いのジェスチャーは、視覚芸術における過去の匂いの調査において重要な役割を果たすが、その自動認識は重大な課題をもたらす。 本稿では,1941年時点のSniffyArtデータセットについて紹介する。 それぞれに密着したバウンディングボックスと17個のキーポイントとジェスチャラベルを付記する。 これらのアノテーションを統合することで、データセットは匂い認識のためのハイブリッド分類手法の開発を可能にする。 高品質な人間のポーズ推定キーポイントのデータセットは、個人毎に5つのキーポイントアノテーションをマージすることで達成される。 また, 検出, キーポイント推定, 分類タスクのための代表アルゴリズムの性能評価を行い, キーポイント推定と匂いのジェスチャー分類を併用する可能性を示した。 SniffyArtデータセットは、将来の研究のための確かな基盤を築き、歴史的美術品における人間のジェスチャーと嗅覚の次元分析を進めるために、ポーズキーポイントと人的箱を活用するマルチタスクアプローチを探索する。

Smell gestures play a crucial role in the investigation of past smells in the visual arts yet their automated recognition poses significant challenges. This paper introduces the SniffyArt dataset, consisting of 1941 individuals represented in 441 historical artworks. Each person is annotated with a tightly fitting bounding box, 17 pose keypoints, and a gesture label. By integrating these annotations, the dataset enables the development of hybrid classification approaches for smell gesture recognition. The datasets high-quality human pose estimation keypoints are achieved through the merging of five separate sets of keypoint annotations per person. The paper also presents a baseline analysis, evaluating the performance of representative algorithms for detection, keypoint estimation, and classification tasks, showcasing the potential of combining keypoint estimation with smell gesture classification. The SniffyArt dataset lays a solid foundation for future research and the exploration of multi-task approaches leveraging pose keypoints and person boxes to advance human gesture and olfactory dimension analysis in historical artworks.
翻訳日:2023-11-21 18:03:40 公開日:2023-11-20
# 鏡を見る: 自己双対のベントブール関数の進化

Look into the Mirror: Evolving Self-Dual Bent Boolean Functions ( http://arxiv.org/abs/2311.11884v1 )

ライセンス: Link先を確認
Claude Carlet, Marko {\DH}urasevic, Domagoj Jakobovic, Luca Mariot, Stjepan Picek(参考訳) ベントブール関数は暗号理論や符号化理論において重要な対象であり、そのような関数を構成するためのいくつかの一般的なアプローチがある。 メタヒューリスティックスは、ブール関数のサイズが大きければ(例えば20以上の入力)、多くの曲がった関数を提供できるため、強い選択であることが証明された。 曲がったブール関数はすべてのブール関数の小さな部分しか表現していないが、特定の特性と課題を提供する曲がった関数のいくつかのサブクラスが存在する。 最も興味深い部分クラスの一つは (anti-)self-dual Boolean 関数である。 本稿では, 自己双対屈曲ブール関数の進化を目標として, 進化アルゴリズムを用いた詳細な実験を行う。 2つのエンコーディングと2つの適合関数を用いて、自己双対屈曲ブール関数を直接進化させる実験を行った。 実験では,最大16個の入力を持つブール関数について検討し,各次元に対する自己双曲関数の構築に成功している。 さらに、曲がったブール関数の進化と比較すると、進化的アルゴリズムの難しさはやや似ていることに気づく。 最後に, 自己双曲関数に対する二次構造の進化を試みたが, 結果は得られなかった。

Bent Boolean functions are important objects in cryptography and coding theory, and there are several general approaches for constructing such functions. Metaheuristics proved to be a strong choice as they can provide many bent functions, even when the size of the Boolean function is large (e.g., more than 20 inputs). While bent Boolean functions represent only a small part of all Boolean functions, there are several subclasses of bent functions providing specific properties and challenges. One of the most interesting subclasses comprises (anti-)self-dual bent Boolean functions. This paper provides a detailed experimentation with evolutionary algorithms with the goal of evolving (anti-)self-dual bent Boolean functions. We experiment with two encodings and two fitness functions to directly evolve self-dual bent Boolean functions. Our experiments consider Boolean functions with sizes of up to 16 inputs, and we successfully construct self-dual bent functions for each dimension. Moreover, when comparing with the evolution of bent Boolean functions, we notice that the difficulty for evolutionary algorithms is rather similar. Finally, we also tried evolving secondary constructions for self-dual bent functions, but this direction provided no successful results.
翻訳日:2023-11-21 18:03:22 公開日:2023-11-20
# Tiny Machine Learningのための効率的なニューラルネットワーク:包括的レビュー

Efficient Neural Networks for Tiny Machine Learning: A Comprehensive Review ( http://arxiv.org/abs/2311.11883v1 )

ライセンス: Link先を確認
Minh Tri L\^e, Pierre Wolinski, Julyan Arbel(参考訳) Tiny Machine Learning(TinyML)の分野は、リソース制約のあるデバイス上でインテリジェントなアプリケーションを可能にする可能性から、大きな注目を集めている。 本稿では,効率的なニューラルネットワークの進歩と,超低消費電力マイクロコントローラ(mcu)上での深層学習モデルの展開に関する詳細な分析を行う。 ニューラルネットワークの導入から始まり、そのアーキテクチャとリソース要件について議論する。 その後、MEMSベースの超低消費電力MCUアプリケーションを探り、リソース制約のあるデバイスでTinyMLを有効にする可能性を強調した。 レビューの核心は、tinymlの効率的なニューラルネットワークである。 モデル圧縮、量子化、低ランク分解など、MCU上の最小リソース利用のためにニューラルネットワークアーキテクチャを最適化するテクニックをカバーしている。 次に,超低消費電力MCU上でのディープラーニングモデルの展開について検討し,限られた計算能力やメモリ資源といった課題に対処する。 効率的なデプロイメントを実現する戦略として,モデルプルーニングやハードウェアアクセラレーション,アルゴリズムアーキテクチャの共設計などが議論されている。 最後に、レビューは、モデル複雑さとリソース制約の間のトレードオフを含む、この分野における現在の制限の概要を提供する。 本稿では,超低消費電力MCU上でのTinyMLの効率的なニューラルネットワークとデプロイメント戦略を総合的に分析する。 リソース制約のあるデバイス上で、TinyMLアプリケーションの潜在能力を解放するための将来の研究方向を特定する。

The field of Tiny Machine Learning (TinyML) has gained significant attention due to its potential to enable intelligent applications on resource-constrained devices. This review provides an in-depth analysis of the advancements in efficient neural networks and the deployment of deep learning models on ultra-low power microcontrollers (MCUs) for TinyML applications. It begins by introducing neural networks and discussing their architectures and resource requirements. It then explores MEMS-based applications on ultra-low power MCUs, highlighting their potential for enabling TinyML on resource-constrained devices. The core of the review centres on efficient neural networks for TinyML. It covers techniques such as model compression, quantization, and low-rank factorization, which optimize neural network architectures for minimal resource utilization on MCUs. The paper then delves into the deployment of deep learning models on ultra-low power MCUs, addressing challenges such as limited computational capabilities and memory resources. Techniques like model pruning, hardware acceleration, and algorithm-architecture co-design are discussed as strategies to enable efficient deployment. Lastly, the review provides an overview of current limitations in the field, including the trade-off between model complexity and resource constraints. Overall, this review paper presents a comprehensive analysis of efficient neural networks and deployment strategies for TinyML on ultra-low-power MCUs. It identifies future research directions for unlocking the full potential of TinyML applications on resource-constrained devices.
翻訳日:2023-11-21 18:03:04 公開日:2023-11-20
# Multi-Task Faces (MTF) データセット: 様々な分類課題に対する法的かつ倫理的に整合した顔画像の収集

Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks ( http://arxiv.org/abs/2311.11882v1 )

ライセンス: Link先を確認
Rami Haffar, David S\'anchez, and Josep Domingo-Ferrer(参考訳) 人間の顔データは、顔認識、年齢推定、性別識別、感情分析、人種分類など、さまざまな分類問題に対処する大きな可能性を秘めている。 しかし、eu一般データ保護規則などの最近のプライバシー規制では、人間の画像が収集され、研究に利用される方法が制限されている。 その結果、プライバシー規制を満たさない不適切なデータ収集方法のために、人間の顔を含むいくつかのデータセットがインターネットから削除された。 合成データからなるデータセットは代替案として提案されているが、実際のデータ分布を正確に表現できない。 一方、ほとんどの利用可能なデータセットは単一のタスクのためにラベル付けされているため、適用性は制限される。 これらの問題に対処するため,我々は,顔認識や人種,性別,年齢分類など,さまざまな分類タスク用に設計された顔画像の集合であるmulti-task faces (mtf) 画像データセットを提案する。 MTFデータセットは、有名人の公開画像を活用し、著作権規制を厳格に遵守することで倫理的に収集されている。 本稿では,このデータセットとそれに続くデータ収集および処理手順の詳細について述べる。 さらに,上記の分類課題にまたがるMTFデータセット上での5つのディープラーニング(DL)モデルの性能評価を行った。 さらに,加工したMTFデータとインターネットからクロールした生データのDLモデルの性能を比較した。 報告された結果は、これらのデータを用いたさらなる研究のベースラインを構成する。 MTFデータセットは、以下のリンクを通じてアクセスすることができる(データセットを使用すると、この論文を引用する)。

Human facial data hold tremendous potential to address a variety of classification problems, including face recognition, age estimation, gender identification, emotion analysis, and race classification. However, recent privacy regulations, such as the EU General Data Protection Regulation and others, have restricted the ways in which human images may be collected and used for research. As a result, several previously published data sets containing human faces have been removed from the internet due to inadequate data collection methods that failed to meet privacy regulations. Data sets consisting of synthetic data have been proposed as an alternative, but they fall short of accurately representing the real data distribution. On the other hand, most available data sets are labeled for just a single task, which limits their applicability. To address these issues, we present the Multi-Task Faces (MTF) image data set, a meticulously curated collection of face images designed for various classification tasks, including face recognition, as well as race, gender, and age classification. The MTF data set has been ethically gathered by leveraging publicly available images of celebrities and strictly adhering to copyright regulations. In this paper, we present this data set and provide detailed descriptions of the followed data collection and processing procedures. Furthermore, we evaluate the performance of five deep learning (DL) models on the MTF data set across the aforementioned classification tasks. Additionally, we compare the performance of DL models over the processed MTF data and over raw data crawled from the internet. The reported results constitute a baseline for further research employing these data. The MTF data set can be accessed through the following link (please cite the present paper if you use the data set): https://github.com/RamiHaf/MTF_data_set
翻訳日:2023-11-21 18:02:43 公開日:2023-11-20
# 新しい角度:回転対称ブール関数の進化について

A New Angle: On Evolving Rotation Symmetric Boolean Functions ( http://arxiv.org/abs/2311.11881v1 )

ライセンス: Link先を確認
Claude Carlet, Marko {\DH}urasevic, Bruno Ga\v{s}perov, Domagoj Jakobovic, Luca Mariot, Stjepan Picek(参考訳) 回転対称ブール函数は一般ブール函数と比較して比較的稀であるため、ブール函数の興味深いクラスを表す。 同時に、このクラスの関数は優れた性質を持つことができ、様々な実用用途に興味深いものとなる。 回転対称ブール関数を構成するためのメタヒューリスティックスの利用は、ほぼ20年間研究されてきた方向である。 それにもかかわらず、進化的計算方法を考える結果はほとんどない。 本稿では,様々な特性を持つ回転対称ブール関数を進化させるために,いくつかの進化的アルゴリズムを用いる。 汎用的メタヒューリスティックスを用いるにもかかわらず、我々はカスタマイズされたヒューリスティックスに依存する先行作業と競合する結果を得る。 驚くべきことに、ビットストリングと浮動小数点エンコーディングはツリーエンコーディングよりもうまく機能する。 さらに、高度に非線形な一般ブール関数の進化は、回転対称関数よりも容易である。

Rotation symmetric Boolean functions represent an interesting class of Boolean functions as they are relatively rare compared to general Boolean functions. At the same time, the functions in this class can have excellent properties, making them interesting for various practical applications. The usage of metaheuristics to construct rotation symmetric Boolean functions is a direction that has been explored for almost twenty years. Despite that, there are very few results considering evolutionary computation methods. This paper uses several evolutionary algorithms to evolve rotation symmetric Boolean functions with different properties. Despite using generic metaheuristics, we obtain results that are competitive with prior work relying on customized heuristics. Surprisingly, we find that bitstring and floating point encodings work better than the tree encoding. Moreover, evolving highly nonlinear general Boolean functions is easier than rotation symmetric ones.
翻訳日:2023-11-21 18:02:17 公開日:2023-11-20
# 高磁場における窒素空孔中心を用いたJ結合NMR分光

J-coupling NMR Spectroscopy with Nitrogen Vacancy Centers at High Fields ( http://arxiv.org/abs/2311.11880v1 )

ライセンス: Link先を確認
P. Alsina-Bol\'ivar, A. Biteri-Uribarren, C. Munuera-Javaloy, J. Casanova(参考訳) 窒素空孔(NV)中心アンサンブルを利用したダイヤモンドベースのセンサーは、室温でのNMRによるミクロンサイズの試料の分析を可能にする。 現在の取り組みは、ターゲット試料のより大きな核スピン分極のポテンシャルと化学シフトの増強により、NV中心の動作範囲を高磁場に拡張することを目的としている。 特に興味深いのは、分子内部の化学結合の情報を運ぶJカップリングへのアクセスである。 本研究では,高磁場におけるnv中心を持つ準核と異核のいずれにおいてもj結合にアクセスするプロトコルを提案する。 我々のプロトコルは、高分解能のj結合機能のみを含む明確なスペクトルに繋がる。 この分解能は主に対象試料の非一貫性によって制限され,提案手法のノイズフィルタリング容量によって緩和される。

A diamond-based sensor utilizing nitrogen-vacancy (NV) center ensembles permits the analysis of micron-sized samples through NMR techniques at room temperature. Current efforts are directed towards extending the operating range of NV centers into high magnetic fields, driven by the potential for larger nuclear spin polarization of the target sample and the presence of enhanced chemical shifts. Especially interesting is the access to J-couplings as they carry information of chemical connectivity inside molecules. In this work, we present a protocol to access J-couplings in both homonuclear and heteronuclear cases with NV centers at high magnetic fields. Our protocol leads to a clear spectrum exclusively containing J-coupling features with high resolution. This resolution is limited primarily by the decoherence of the target sample, which is mitigated by the noise filtering capacities of our method.
翻訳日:2023-11-21 18:02:03 公開日:2023-11-20
# データ駆動CFD壁モデリングのための前方勾配

Forward Gradients for Data-Driven CFD Wall Modeling ( http://arxiv.org/abs/2311.11876v1 )

ライセンス: Link先を確認
Jan H\"uckelheim, Tadbhagya Kumar, Krishnan Raghavan, Pinaki Pal(参考訳) 計算流体力学(CFD、Computational Fluid Dynamics)は、ガスタービンの設計と最適化に用いられている。 しかし, 実用化は計算コストの増大によって制限されることが多く, ほぼ壁面流れの正確な分解能がこのコストに大きく寄与する。 機械学習(ML)や他のデータ駆動手法は、既存の壁モデルを補完することができる。 それでも、これらのモデルのトレーニングは、バックプロパゲーションによって要求される膨大な計算労力とメモリフットプリントによってボトルネックとなる。 最近の研究では、勾配の偏りのない推定器が単一の前方スイープで計算されるため、別個の前方および後方スイープが不要で、スイープ間の中間結果の保存が不要なニューラルネットワークの勾配を計算するための代替案が提示されている。 本稿では,予測精度を保ちつつ計算オーバーヘッドを削減するために,壁面境界流cfdシミュレーションにおけるサロゲートとして使用可能なサブグリッド壁モデルのトレーニングにおける,この手法の適用について述べる。

Computational Fluid Dynamics (CFD) is used in the design and optimization of gas turbines and many other industrial/ scientific applications. However, the practical use is often limited by the high computational cost, and the accurate resolution of near-wall flow is a significant contributor to this cost. Machine learning (ML) and other data-driven methods can complement existing wall models. Nevertheless, training these models is bottlenecked by the large computational effort and memory footprint demanded by back-propagation. Recent work has presented alternatives for computing gradients of neural networks where a separate forward and backward sweep is not needed and storage of intermediate results between sweeps is not required because an unbiased estimator for the gradient is computed in a single forward sweep. In this paper, we discuss the application of this approach for training a subgrid wall model that could potentially be used as a surrogate in wall-bounded flow CFD simulations to reduce the computational overhead while preserving predictive accuracy.
翻訳日:2023-11-21 18:01:51 公開日:2023-11-20
# 堅牢で一般化可能な量子模型の訓練

Training robust and generalizable quantum models ( http://arxiv.org/abs/2311.11871v1 )

ライセンス: Link先を確認
Julian Berberich, Daniel Fink, Daniel Pranji\'c, Christian Tutschku and Christian Holm(参考訳) 敵対的堅牢性と一般化はどちらも信頼性のある機械学習モデルの重要な特性である。 本稿では,これらの特性をリプシッツ境界に基づく量子機械学習の文脈で研究する。 我々は、トレーニング可能なエンコーディングを持つ量子モデルに対するパラメータ依存リプシッツ境界を導出し、入力データの摂動に対するロバスト性にデータエンコーディングのノルムが重大な影響を与えることを示した。 さらに、データ符号化のパラメータに明示的に依存する一般化誤差に基づく境界を導出する。 我々の理論的知見は、コストに縛られたリプシッツを正則化することにより、堅牢で一般化可能な量子モデルを訓練するための実用的な戦略をもたらす。 さらに,量子機械学習で頻繁に使用される固定エンコーディングや非学習エンコーディングでは,パラメータのチューニングによってリプシッツ境界が影響を受けないことを示す。 したがって、トレーニング中の堅牢性と一般化を体系的に適応させるには、トレーニング可能なエンコーディングが不可欠である。 数値的な結果から、実際にリプシッツの有界正規化はより堅牢で一般化可能な量子モデルをもたらすことを示した。

Adversarial robustness and generalization are both crucial properties of reliable machine learning models. In this paper, we study these properties in the context of quantum machine learning based on Lipschitz bounds. We derive tailored, parameter-dependent Lipschitz bounds for quantum models with trainable encoding, showing that the norm of the data encoding has a crucial impact on the robustness against perturbations in the input data. Further, we derive a bound on the generalization error which explicitly depends on the parameters of the data encoding. Our theoretical findings give rise to a practical strategy for training robust and generalizable quantum models by regularizing the Lipschitz bound in the cost. Further, we show that, for fixed and non-trainable encodings as frequently employed in quantum machine learning, the Lipschitz bound cannot be influenced by tuning the parameters. Thus, trainable encodings are crucial for systematically adapting robustness and generalization during training. With numerical results, we demonstrate that, indeed, Lipschitz bound regularization leads to substantially more robust and generalizable quantum models.
翻訳日:2023-11-21 18:01:35 公開日:2023-11-20
# 分散量子光相互作用に基づく自律計測におけるエネルギー交換の基礎機構

Fundamental mechanisms of energy exchanges in autonomous measurements based on dispersive qubit-light interaction ( http://arxiv.org/abs/2311.11870v1 )

ライセンス: Link先を確認
Nicol\`o Piccione, Maria Maffei, Xiayu Linpeng, Andrew N. Jordan, Kater W. Murch, Alexia Auff\`eves(参考訳) 系のハミルトニアンに可換でない可観測性を測定することは、通常、そのエネルギーの変動をもたらす。 フォン・ノイマン鎖の最初のリンクを解き放つと、量子メーターはこのエネルギー変化を考慮しなければならない。 本稿では,1次元導波路内を伝播する光パルスと分散的に相互作用する量子ビットの自律的メータ系力学について考察する。 光のパルス(計器)はz$軸に沿ってキュービットの状態を測定し、一方キュービットのハミルトニアンは別の方向に向かっている。 相互作用が分散するため、光パルスのスペクトル変形によってエネルギー収支が達成されるように光子番号が保存される。 正確かつ繰り返し可能な測定は、スペクトル変形が事実上検出不可能な短いパルスを用いることでのみ達成できる。 パルスの持続時間を増加させ、測定結果の品質が低下し、散乱磁場のスペクトル変形が観測される。 解析的および数値的解法に基づいて, このスペクトル変形のメカニズムを明らかにし, 量子ビットのエネルギー変化を補償する方法を示す。 出力スペクトルの3つのピーク構造の形成を説明し、観測可能な条件を提供する。

Measuring an observable that does not commute with the system's Hamiltonian usually leads to a variation of its energy. Unveiling the first link of the von Neumann chain, the quantum meter has to account for this energy change. Here, we consider an autonomous meter-system dynamics: a qubit interacting dispersively with a light pulse propagating in a one-dimensional waveguide. The light pulse (the meter) measures the qubit's state along the $z$-axis while the qubit's Hamiltonian is oriented along another direction. As the interaction is dispersive, photon number is conserved so that energy balance has to be attained by spectral deformations of the light pulse. An accurate and repeatable measurement can be achieved only by employing short pulses, where their spectral deformation is practically undetectable. Increasing the pulse's duration, the measurement's quality drops and the spectral deformation of the scattered field becomes visible. Building on analytical and numerical solutions, we reveal the mechanism underlying this spectral deformation and display how it compensates for the qubit's energy change. We explain the formation of a three-peak structure of the output spectrum and we provide the conditions under which this is observable.
翻訳日:2023-11-21 18:01:19 公開日:2023-11-20
# 制約モデルの探索的改革に向けて

Towards Exploratory Reformulation of Constraint Models ( http://arxiv.org/abs/2311.11868v1 )

ライセンス: Link先を確認
Ian Miguel and Andr\'as Z. Salamon and Christopher Stone(参考訳) 興味のある問題の効果的な制約モデルを定式化することは、その後解決できる効率に不可欠であるとよく確立されている。 そこで,本研究では,初期モデルからモデルの再編成プロセスを通じてモデル空間を探索するシステムについて,課題クラスから,一連のトレーニングインスタンスのパフォーマンスに導かれるシステムについて検討する。 我々は,ユーザが多くのモデリング決定を行う抽象レベル以上の問題を記述した制約仕様を記述した,洗練されたアプローチでこのシステムを構築する計画である。 そこで,本稿では,探索的改革システムの構想を策定し,これまでの進展について考察する。

It is well established that formulating an effective constraint model of a problem of interest is crucial to the efficiency with which it can subsequently be solved. Following from the observation that it is difficult, if not impossible, to know a priori which of a set of candidate models will perform best in practice, we envisage a system that explores the space of models through a process of reformulation from an initial model, guided by performance on a set of training instances from the problem class under consideration. We plan to situate this system in a refinement-based approach, where a user writes a constraint specification describing a problem above the level of abstraction at which many modelling decisions are made. In this position paper we set out our plan for an exploratory reformulation system, and discuss progress made so far.
翻訳日:2023-11-21 18:00:59 公開日:2023-11-20
# 人工貯水池における断熱量子軌道

Adiabatic quantum trajectories in engineered reservoirs ( http://arxiv.org/abs/2311.11937v1 )

ライセンス: Link先を確認
Emma C. King, Luigi Giannelli, Rapha\"el Menu, Johannes N. Kriel and Giovanna Morigi(参考訳) 工学的貯水池が支援する断熱量子状態転送プロトコルの効率を解析した。 対象動力学はヒルベルト空間における量子軌道であり、時間依存マスター方程式の不動点である。 量子状態移動を量子ビットで特殊化し,時間依存リンドブラッド方程式の最適スケジュールを決定する。 状態移動の速度制限は、リンドブラッド方程式がボルン・マルコフ極限から導出される貯水池に結合されたキュービットの物理モデルから抽出される。 分析の結果,結果の効率は最適ユニタリダイナミクスの効率に匹敵することがわかった。 数値研究では、貯水池設計プロトコルはボルン・マルコフ・マスター方程式のレジームの外にあるユニタリプロトコルよりも優れており、つまり、キュービットと貯水池の相関関係が関連する場合である。 本研究は,オープン量子システムにおけるショートカットの理論と,NISQ時代のプロトコルのツールボックスに寄与する。

We analyze the efficiency of protocols for adiabatic quantum state transfer assisted by an engineered reservoir. The target dynamics is a quantum trajectory in the Hilbert space and is the fixed point of a time-dependent master equation. We specialize to quantum state transfer in a qubit and determine the optimal schedule for a class of time-dependent Lindblad equations. The speed limit on state transfer is extracted from a physical model of a qubit coupled to a reservoir, from which the Lindblad equation is derived in the Born-Markov limit. Our analysis shows that the resulting efficiency is comparable to the efficiency of the optimal unitary dynamics. Numerical studies indicate that reservoir-engineered protocols could outperform unitary protocols outside the regime of the Born-Markov master equation, namely, when correlations between the qubit and reservoir become relevant. Our study contributes to the theory of shortcuts to adiabaticity for open quantum systems and to the toolbox of protocols of the NISQ era.
翻訳日:2023-11-21 17:54:14 公開日:2023-11-20
# 非コンパクト支援測度間のエントロピー正規化最適輸送写像の推定

Estimation of entropy-regularized optimal transport maps between non-compactly supported measures ( http://arxiv.org/abs/2311.11934v1 )

ライセンス: Link先を確認
Matthew Werenski, James M. Murphy, Shuchin Aeron(参考訳) 本稿では,原点と対象値の間の二乗ユークリッドコストを用いたエントロピー正規化最適輸送 (eot) マップの推定問題について述べる。 目標測度がコンパクトに支持されたり、強い対数対数を持つ場合、最近提案されたサンプル内推定器では、期待される$L^2$-エラー崩壊は少なくとも$O(n^{-1/3})$で、$n$はサンプルサイズである。 一般のガウスの場合には、予想される$L^1$-エラーは少なくとも$O(n^{-1/6})$と同じ速さで崩壊し、どちらの場合も正規化パラメータに多項式依存を持つ。 これらの結果は、ソースとターゲットの両方の尺度のコンパクト性(2乗$L^2$-error Converging at a rate $O(n^{-1})$)と、ターゲットがコンパクトにサポートされながらソースがサブガウス的である場合(2乗$L^2$-error Converging at a rate $O(n^{-1/2})$)の既知結果と比較して最適であるが、その重要性はコンパクトサポート要件の排除にある。 測定結果の標準濃度を用いて分散を制御し、サンプル複雑性とともにt1-トランスポート不等式でバイアスを処理したバイアス分散分解を用いて、サブガウシアン仮定によるeotコストの推定を行う。 実験結果から,分散項の制御におけるゆるさを指摘し,いくつかの未解決問題により結論づけた。

This paper addresses the problem of estimating entropy-regularized optimal transport (EOT) maps with squared-Euclidean cost between source and target measures that are subGaussian. In the case that the target measure is compactly supported or strongly log-concave, we show that for a recently proposed in-sample estimator, the expected squared $L^2$-error decays at least as fast as $O(n^{-1/3})$ where $n$ is the sample size. For the general subGaussian case we show that the expected $L^1$-error decays at least as fast as $O(n^{-1/6})$, and in both cases we have polynomial dependence on the regularization parameter. While these results are suboptimal compared to known results in the case of compactness of both the source and target measures (squared $L^2$-error converging at a rate $O(n^{-1})$) and for when the source is subGaussian while the target is compactly supported (squared $L^2$-error converging at a rate $O(n^{-1/2})$), their importance lie in eliminating the compact support requirements. The proof technique makes use of a bias-variance decomposition where the variance is controlled using standard concentration of measure results and the bias is handled by T1-transport inequalities along with sample complexity results in estimation of EOT cost under subGaussian assumptions. Our experimental results point to a looseness in controlling the variance terms and we conclude by posing several open problems.
翻訳日:2023-11-21 17:53:57 公開日:2023-11-20
# ディープラーニングを用いた卵巣癌データ解析:データ分析とai保証の重要機能の観点からの体系的考察

Ovarian Cancer Data Analysis using Deep Learning: A Systematic Review from the Perspectives of Key Features of Data Analysis and AI Assurance ( http://arxiv.org/abs/2311.11932v1 )

ライセンス: Link先を確認
Muta Tah Hira, Mohammad A. Razzaque, and Mosharraf Sarker(参考訳) 背景と目的: この情報を抽出することにより、ML/DL(Machine or Deep Learning)ベースの自律データ分析ツールは、臨床医やがん研究者が複雑なデータセットからパターンや関係を発見するのを助けることができる。 卵巣癌(OC)データに関する多くのDLベース分析が最近公表されている。 これらの分析は、がんの様々な側面(サブドメインやそれに対応するがんの種類など)やデータ分析の特徴において非常に多様である。 しかし、これらの特徴とAI保証(AIA)の観点から、これらの分析の包括的な理解は、現在不足している。 この体系的なレビューは、既存の文献を調べ、DLを使用してOCデータ分析の重要な側面を特定し、重要な特徴とAI保証の観点から明確に焦点を当てることで、このギャップを埋めることを目的としている。 方法: PRISMAフレームワークは3つのジャーナルデータベースで包括的な検索を行うために使用された。 2015年から2023年の間、査読付きジャーナルで発表された研究のみが分析に含まれていた。 結果: 総計96例のDL駆動分析を行った。 その結果, DL駆動性卵巣癌データ解析に関する重要な知見がいくつか示された: - ほとんどの研究は71% (96点中68点) で, 検出と診断に重点を置いているが, OCの予測と予防に対処する研究は行われていない。 -主に非多様性人口(75%(72/96研究))から採取した試料に基づいて分析を行い,地理的な地域や国に限定された。 -ごく一部の研究(33%(32/96)のみ)が統合分析を行い、そのほとんどが均質なデータ(clinicalまたは omics)を使用していた。 特に,本研究のわずか8.3%(8/96)は,外部および多種多様なデータセットを用いてモデルを検証し,モデル検証の強化の必要性を強調し,がんデータ解析へのAIAの関与はごく初期段階にある。

Background and objectives: By extracting this information, Machine or Deep Learning (ML/DL)-based autonomous data analysis tools can assist clinicians and cancer researchers in discovering patterns and relationships from complex data sets. Many DL-based analyses on ovarian cancer (OC) data have recently been published. These analyses are highly diverse in various aspects of cancer (e.g., subdomain(s) and cancer type they address) and data analysis features. However, a comprehensive understanding of these analyses in terms of these features and AI assurance (AIA) is currently lacking. This systematic review aims to fill this gap by examining the existing literature and identifying important aspects of OC data analysis using DL, explicitly focusing on the key features and AI assurance perspectives. Methods: The PRISMA framework was used to conduct comprehensive searches in three journal databases. Only studies published between 2015 and 2023 in peer-reviewed journals were included in the analysis. Results: In the review, a total of 96 DL-driven analyses were examined. The findings reveal several important insights regarding DL-driven ovarian cancer data analysis: - Most studies 71% (68 out of 96) focused on detection and diagnosis, while no study addressed the prediction and prevention of OC. - The analyses were predominantly based on samples from a non-diverse population (75% (72/96 studies)), limited to a geographic location or country. - Only a small proportion of studies (only 33% (32/96)) performed integrated analyses, most of which used homogeneous data (clinical or omics). - Notably, a mere 8.3% (8/96) of the studies validated their models using external and diverse data sets, highlighting the need for enhanced model validation, and - The inclusion of AIA in cancer data analysis is in a very early stage; only 2.1% (2/96) explicitly addressed AIA through explainability.
翻訳日:2023-11-21 17:53:21 公開日:2023-11-20
# 磁気基底における格子ゲージ理論のディジタイズ-基本可換関係の破れを減少させる

Digitizing lattice gauge theories in the magnetic basis: reducing the breaking of the fundamental commutation relations ( http://arxiv.org/abs/2311.11928v1 )

ライセンス: Link先を確認
Simone Romiti, Carsten Urbach(参考訳) 我々は、ゲージリンクがユニタリかつ対角的である \emph{magnetic basis} における格子 \(\mathrm{su}(2)\)ゲージ理論の数値化スキームを示す。 デジタル化は \(\mathrm{SU}(2)\) 群多様体の特定のパーティショニングから得られ、このパーティショニング上のリー微分の近似によって正準モータが構成される。 この構成は離散フーリエ変換(英語版)に類似しており、ハミルトンの運動部分のスペクトルとノルベルト空間の部分空間上の標準可換関係を正確に保存し、残りの部分空間は理論の切断の上に投影することができる。

We present a digitization scheme for the lattice \(\mathrm{SU}(2)\) gauge theory Hamiltonian in the \emph{magnetic basis}, where the gauge links are unitary and diagonal. The digitization is obtained from a particular partitioning of the \(\mathrm{SU}(2)\) group manifold, with the canonical momenta constructed by an approximation of the Lie derivatives on this partitioning. This construction, analogous to a discrete Fourier transform, preserves the spectrum of the kinetic part of the Hamiltonian and the canonical commutation relations exactly on a subspace of the truncated Hilbert space, while the residual subspace can be projected above the cutoff of the theory.
翻訳日:2023-11-21 17:52:49 公開日:2023-11-20
# 価値ある複数の単語:制約付きテキスト-画像合成のための多属性変換

An Image is Worth Multiple Words: Multi-attribute Inversion for Constrained Text-to-Image Synthesis ( http://arxiv.org/abs/2311.11919v1 )

ライセンス: Link先を確認
Aishwarya Agarwal, Srikrishna Karanam, Tripti Shukla, Balaji Vasan Srinivasan(参考訳) 拡散モデル出力をユーザ供給参照画像で制約する問題を考える。 私たちのキーとなる目的は、この単一の参照イメージから複数の属性(色、オブジェクト、レイアウト、スタイルなど)を抽出し、それを使って新しいサンプルを生成することです。 既存の研究の1行は、参照画像を単一のテキスト条件ベクトルに変換し、この学習トークンで新しいサンプルを生成することを提案する。 しかし、これらのメソッドは、上述の複数の属性のモデル出力を条件付けるために必要な複数のトークンを学習しない。 別の手法の行は反転空間を拡張して複数の埋め込みを学習するが、これらは層次元(例えばDDPMモデルの1層当たり)や時間ステップ次元(除音過程における一連のタイムステップ)に沿ってしか行わず、最適属性の非絡み合いをもたらす。 上記のギャップに対処するため,本稿の最初の貢献は,どの属性をどの次元で取得するかを決定するための広範な分析である。 上述したように、時間ステップ次元(逆騒音)とDDPMモデル層次元の両方を考慮する。 これらの属性のサブセットが、同じモデルレイヤや/または同じデノーミングタイムステップでキャプチャされることがよくあります。 例えば、色とスタイルは同一のu-netレイヤでキャプチャされ、レイアウトと色は同じタイムステップでキャプチャされます。 したがって、時間ステップ次元や層次元のみのために設計された反転過程は、すべての属性を乱すには不十分である。 これは、新しいマルチ属性逆変換アルゴリズムであるMATTEを設計し、関連するアンタングルメント強化正規化損失を伴って、両次元をまたいで動作し、4つのアンタングルトークン(色、スタイル、レイアウト、オブジェクト)を明示的に導く2番目の貢献につながります。

We consider the problem of constraining diffusion model outputs with a user-supplied reference image. Our key objective is to extract multiple attributes (e.g., color, object, layout, style) from this single reference image, and then generate new samples with them. One line of existing work proposes to invert the reference images into a single textual conditioning vector, enabling generation of new samples with this learned token. These methods, however, do not learn multiple tokens that are necessary to condition model outputs on the multiple attributes noted above. Another line of techniques expand the inversion space to learn multiple embeddings but they do this only along the layer dimension (e.g., one per layer of the DDPM model) or the timestep dimension (one for a set of timesteps in the denoising process), leading to suboptimal attribute disentanglement. To address the aforementioned gaps, the first contribution of this paper is an extensive analysis to determine which attributes are captured in which dimension of the denoising process. As noted above, we consider both the time-step dimension (in reverse denoising) as well as the DDPM model layer dimension. We observe that often a subset of these attributes are captured in the same set of model layers and/or across same denoising timesteps. For instance, color and style are captured across same U-Net layers, whereas layout and color are captured across same timestep stages. Consequently, an inversion process that is designed only for the time-step dimension or the layer dimension is insufficient to disentangle all attributes. This leads to our second contribution where we design a new multi-attribute inversion algorithm, MATTE, with associated disentanglement-enhancing regularization losses, that operates across both dimensions and explicitly leads to four disentangled tokens (color, style, layout, and object).
翻訳日:2023-11-21 17:52:32 公開日:2023-11-20
# 3量子ビットアダマールの同型と$e_8$

The Isomorphism of 3-Qubit Hadamards and $E_8$ ( http://arxiv.org/abs/2311.11918v1 )

ライセンス: Link先を確認
J. G. Moxness(参考訳) 本稿では、$H_4$ と $E_8$ の間の同型関係を示す行列 $\mathbb{U}$ のいくつかの顕著な性質を示す。 これらの性質の最も重要なものは、$\mathbb{U}$である。 $\mathbb{U}$ は、数字に対する黄金比が 8 の行列をランク付けする。 つまり、それとその逆の差は、ツイストがあるにもかかわらず、アイデンティティ要素である。 具体的には$\mathbb{U}$である。 以下は$\mathbb{u}$-$(\mathbb{u}$)である。 $\mathbb{U})^{-1}$ は、ランク8の逆恒等行列または標準不変置換行列である。 8ビットのバイナリ基底状態を持つ正規化された3ビットアダマール行列と同じパリンドロミック特性多項式係数を持ち、(8,4)ハミング符号を通じてE8に同型であることが知られている。

This paper presents several notable properties of the matrix $\mathbb{U}$ shown to be related to the isomorphism between $H_4$ and $E_8$. The most significant of these properties is that $\mathbb{U}$.$\mathbb{U}$ is to rank 8 matrices what the golden ratio is to numbers. That is to say, the difference between it and its inverse is the identity element, albeit with a twist. Specifically, $\mathbb{U}$.$\mathbb{U}$-$ (\mathbb{U}$.$\mathbb{U})^{-1}$ is the reverse identity matrix or standard involutory permutation matrix of rank 8. It has the same palindromic characteristic polynomial coefficients as the normalized 3-qubit Hadamard matrix with 8-bit binary basis states, which is known to be isomorphic to E8 through its (8,4) Hamming code.
翻訳日:2023-11-21 17:51:58 公開日:2023-11-20
# 神経密度推定器と埋め込みネットワークを用いた市場シミュレーションの深部校正

Deep Calibration of Market Simulations using Neural Density Estimators and Embedding Networks ( http://arxiv.org/abs/2311.11913v1 )

ライセンス: Link先を確認
Namid R. Stillman, Rory Baggott, Justin Lyon, Jianfei Zhang, Dingqiu Zhu, Tao Chen, Perukrishnen Vytelingum(参考訳) リミット・オーダー・ブックのダイナミクスを再現するなど、金融取引の現実的なシミュレータを構築する能力は、フラッシュクラッシュやマージンコール、マクロ経済の見通しの変化など、多くの非現実的シナリオに対する洞察を与えることができる。 近年,多くの取引所の特徴を再現するエージェントベースモデルが開発され,一連の形式化された事実と統計によって要約されている。 しかし、シミュレーターを特定の取引期間に調整する能力は、まだ未解決の課題である。 本研究では,近年の深層学習の進歩を活用し,特にニューラル密度推定器と組込みネットワークを用いた市場シミュレータの校正手法を開発する。 提案手法は,合成データや履歴データに適用した場合と,手作業による選択や重み付けによる事実のアンサンブルに依存することなく,高い確率パラメータ集合を正確に同定できることを実証する。

The ability to construct a realistic simulator of financial exchanges, including reproducing the dynamics of the limit order book, can give insight into many counterfactual scenarios, such as a flash crash, a margin call, or changes in macroeconomic outlook. In recent years, agent-based models have been developed that reproduce many features of an exchange, as summarised by a set of stylised facts and statistics. However, the ability to calibrate simulators to a specific period of trading remains an open challenge. In this work, we develop a novel approach to the calibration of market simulators by leveraging recent advances in deep learning, specifically using neural density estimators and embedding networks. We demonstrate that our approach is able to correctly identify high probability parameter sets, both when applied to synthetic and historical data, and without reliance on manually selected or weighted ensembles of stylised facts.
翻訳日:2023-11-21 17:51:45 公開日:2023-11-20
# 配当個人公平性の認定

Certification of Distributional Individual Fairness ( http://arxiv.org/abs/2311.11911v1 )

ライセンス: Link先を確認
Matthew Wicker, Vihari Piratia, and Adrian Weller(参考訳) アルゴリズムフェアネスの正式な保証を提供することは、社会的に責任を負う機械学習アルゴリズムの展開において最重要となる。 本研究は,ニューラルネットワークの個人公正性(IF)に関する公式な保証,すなわち証明について検討する。 まず,局所的公正性を保証するための計算コストを指数関数的に削減する,IF制約の新たな凸近似を導入する。 従来の手法はグローバルIF認証に重点を置いているため、数十個の隠されたニューロンを持つモデルにしかスケールできないため、実際の影響を抑えることができる。 本稿では,与えられた経験分布と,$\gamma$-Wassersteinボール内のすべての分布に対して,ニューラルネットワークが個別に公正な予測を保証していることを示す。 準凸最適化の進歩を生かして、分布的個性に関する新規かつ効率的な証明付き境界を提供し、本手法が従来の研究よりも数桁大きいニューラルネットワークの認証と正則化を可能にすることを示す。 さらに,実世界の分布変化について検討し,IF保証のスケーラブルで実用的で健全な情報源であることを示す。

Providing formal guarantees of algorithmic fairness is of paramount importance to socially responsible deployment of machine learning algorithms. In this work, we study formal guarantees, i.e., certificates, for individual fairness (IF) of neural networks. We start by introducing a novel convex approximation of IF constraints that exponentially decreases the computational cost of providing formal guarantees of local individual fairness. We highlight that prior methods are constrained by their focus on global IF certification and can therefore only scale to models with a few dozen hidden neurons, thus limiting their practical impact. We propose to certify distributional individual fairness which ensures that for a given empirical distribution and all distributions within a $\gamma$-Wasserstein ball, the neural network has guaranteed individually fair predictions. Leveraging developments in quasi-convex optimization, we provide novel and efficient certified bounds on distributional individual fairness and show that our method allows us to certify and regularize neural networks that are several orders of magnitude larger than those considered by prior works. Moreover, we study real-world distribution shifts and find our bounds to be a scalable, practical, and sound source of IF guarantees.
翻訳日:2023-11-21 17:51:27 公開日:2023-11-20
# ドメイン適応と少数ショット学習によるドップラー計測からのフィットネス運動認識の一般化

Generalization of Fitness Exercise Recognition from Doppler Measurements by Domain-adaption and Few-Shot Learning ( http://arxiv.org/abs/2311.11910v1 )

ライセンス: Link先を確認
Biying Fu, Naser Damer, Florian Kirchbuchner, and Arjan Kuijper(参考訳) 以前の研究では、未修正の市販オフザシェルフスマートフォンを使用して、全身運動を認識するモバイルアプリケーションを開発した。 動作原理は、内蔵ハードウェアを用いた超音波ドップラーセンシングに基づいていた。 このような実験室環境を訓練したモデルを現実的な応用のバリエーションに適用すると、性能が大幅に低下し、適用性が低下する。 性能低下の原因は多様体である。 現実的なシナリオでは、ユーザ、環境、デバイスのバリエーションによって引き起こされる可能性がある。 このようなシナリオは、多くの場合、より複雑で多様であり、初期トレーニングデータでは予測が難しい。 そこで本研究では,フィットネスエクササイズを制御・制御していないサブセットのデータベースを提案する。 制御されていない環境でのモデル一般化を成功させるために,小型適応データを利用する2つの概念を提案し,異なるユーザに対するベースラインと比較して,認識精度を2倍から6倍に向上させる。

In previous works, a mobile application was developed using an unmodified commercial off-the-shelf smartphone to recognize whole-body exercises. The working principle was based on the ultrasound Doppler sensing with the device built-in hardware. Applying such a lab-environment trained model on realistic application variations causes a significant drop in performance, and thus decimate its applicability. The reason of the reduced performance can be manifold. It could be induced by the user, environment, and device variations in realistic scenarios. Such scenarios are often more complex and diverse, which can be challenging to anticipate in the initial training data. To study and overcome this issue, this paper presents a database with controlled and uncontrolled subsets of fitness exercises. We propose two concepts to utilize small adaption data to successfully improve model generalization in an uncontrolled environment, increasing the recognition accuracy by two to six folds compared to the baseline for different users.
翻訳日:2023-11-21 17:51:07 公開日:2023-11-20
# 継続的学習: 応用と今後の展望

Continual Learning: Applications and the Road Forward ( http://arxiv.org/abs/2311.11908v1 )

ライセンス: Link先を確認
Eli Verwimp, Shai Ben-David, Matthias Bethge, Andrea Cossu, Alexander Gepperth, Tyler L. Hayes, Eyke H\"ullermeier, Christopher Kanan, Dhireesha Kudithipudi, Christoph H. Lampert, Martin Mundt, Razvan Pascanu, Adrian Popescu, Andreas S. Tolias, Joost van de Weijer, Bing Liu, Vincenzo Lomonaco, Tinne Tuytelaars, Gido M. van de Ven(参考訳) 継続的学習は機械学習のサブフィールドであり、過去の学習を忘れずに知識を蓄積することで、機械学習モデルが新しいデータを継続的に学習できるようにすることを目的としている。 この作業では、一歩後退して、"そもそも何故継続的な学習を気にすべきなのか"と尋ねます。 3つの主要な機械学習カンファレンスで発表された最近の連続学習論文を調査し、メモリ制約のある設定がこの分野を支配することを示した。 そして、機械学習における5つのオープン問題について議論し、それらは一見すると連続学習とは無関係に見えるものの、継続学習が必然的に彼らのソリューションの一部であることを示す。 これらの問題は、モデル編集、パーソナライゼーション、オンデバイス学習、高速(再)トレーニング、強化学習である。 最後に,未解決問題のデシデラタと継続学習における現在の仮定を比較し,継続学習研究の4つの今後の方向性について論じる。 この研究が、その潜在的な価値と成功のために追求しなければならない道を示しながら、継続的な学習の未来に対する興味深い視点を提供してくれることを願っています。 この研究は、2023年3月のDagtuhl Seminar on Deep Continual Learningで著者らが行った多くの議論の結果である。

Continual learning is a sub-field of machine learning, which aims to allow machine learning models to continuously learn on new data, by accumulating knowledge without forgetting what was learned in the past. In this work, we take a step back, and ask: "Why should one care about continual learning in the first place?". We set the stage by surveying recent continual learning papers published at three major machine learning conferences, and show that memory-constrained settings dominate the field. Then, we discuss five open problems in machine learning, and even though they seem unrelated to continual learning at first sight, we show that continual learning will inevitably be part of their solution. These problems are model-editing, personalization, on-device learning, faster (re-)training and reinforcement learning. Finally, by comparing the desiderata from these unsolved problems and the current assumptions in continual learning, we highlight and discuss four future directions for continual learning research. We hope that this work offers an interesting perspective on the future of continual learning, while displaying its potential value and the paths we have to pursue in order to make it successful. This work is the result of the many discussions the authors had at the Dagstuhl seminar on Deep Continual Learning, in March 2023.
翻訳日:2023-11-21 17:50:52 公開日:2023-11-20
# シミュレーションと機械学習を用いた実時間地対空ミサイルエンゲージメントゾーン予測

Real-Time Surface-to-Air Missile Engagement Zone Prediction Using Simulation and Machine Learning ( http://arxiv.org/abs/2311.11905v1 )

ライセンス: Link先を確認
Joao P. A. Dantas, Diego Geraldo, Felipe L. L. Medeiros, Marcos R. O. A. Maximo, Takashi Yoneyama(参考訳) 地対空ミサイル(SAM)は現代の防空システムにおいて不可欠である。 それらの効果の重要な側面はエンゲージメントゾーン(EZ)であり、SAMが標的を効果的に動かし中立化できる空間領域である。 特に、EZはミサイルの最大射程と本質的に関係しており、ミサイルが目標を迎撃できる最遠距離を定義している。 このezの正確な計算は必須であるが、動的で複雑な要因が原因で難しいため、従来のシミュレーション手法を用いた場合、高い計算コストと処理時間の延長に繋がることが多い。 これらの課題を踏まえて、機械学習技術の可能性を調査し、機械学習とカスタム設計のシミュレーションツールを統合して教師付きアルゴリズムを訓練するアプローチを提案する。 プリコンパイルされたSAM EZシミュレーションの包括的データセットを活用し、新しい入力パラメータに対してSAM EZを正確に予測することができる。 SAM EZシミュレーションを加速し、航空防衛戦略計画を強化し、リアルタイムの洞察を提供し、SAMシステムの性能を向上させる。 この研究には、機械学習アルゴリズムの比較分析、その能力とパフォーマンスメトリクスの照明、将来の研究分野の提案も含まれており、sam ezシミュレーションにおける機械学習の変換可能性を強調している。

Surface-to-Air Missiles (SAMs) are crucial in modern air defense systems. A critical aspect of their effectiveness is the Engagement Zone (EZ), the spatial region within which a SAM can effectively engage and neutralize a target. Notably, the EZ is intrinsically related to the missile's maximum range; it defines the furthest distance at which a missile can intercept a target. The accurate computation of this EZ is essential but challenging due to the dynamic and complex factors involved, which often lead to high computational costs and extended processing times when using conventional simulation methods. In light of these challenges, our study investigates the potential of machine learning techniques, proposing an approach that integrates machine learning with a custom-designed simulation tool to train supervised algorithms. We leverage a comprehensive dataset of pre-computed SAM EZ simulations, enabling our model to accurately predict the SAM EZ for new input parameters. It accelerates SAM EZ simulations, enhances air defense strategic planning, and provides real-time insights, improving SAM system performance. The study also includes a comparative analysis of machine learning algorithms, illuminating their capabilities and performance metrics and suggesting areas for future research, highlighting the transformative potential of machine learning in SAM EZ simulations.
翻訳日:2023-11-21 17:50:32 公開日:2023-11-20
# 視覚記述子としてのLLM:視覚記述の進化による画像分類の改善

LLMs as Visual Explainers: Advancing Image Classification with Evolving Visual Descriptions ( http://arxiv.org/abs/2311.11904v1 )

ライセンス: Link先を確認
Songhao Han, Le Zhuo, Yue Liao, Si Liu(参考訳) 視覚言語モデル(VLM)は、画像とクラス埋め込みの類似性を比較することにより、画像分類に有望なパラダイムを提供する。 重要な課題は、クラス名の正確なテキスト表現を作ることである。 これまでの研究では、これらの記述子を強化するために、大規模言語モデル(LLM)の最近の進歩を活用してきたが、その出力は曖昧さと不正確さに悩まされることが多い。 主な原因は2つあります 1) vlmsの潜在空間におけるテキストと視覚内容のミスマッチを招き、llmとのテキストの相互作用に一般的に依存する現象は「見ずとも」ジレンマと呼ばれる現象である。 2) クラス間の関係の監視は,類似したクラスを効果的に区別できない記述子をもたらす。 これらの問題に対処するために,VLM と LLM を組み合わせた新しい画像分類フレームワークを提案する。 特に,LLMに基づくエージェントを開発し,クラス記述子を改良する進化的最適化手法を用いる。 重要な点として,vlm分類メトリクスからの視覚フィードバックを取り入れ,具体的な視覚データを用いて最適化プロセスを導く。 本手法は, 画像分類ベンチマークの精度が向上し, 最先端手法と比較して平均3.47\%向上した。 また、結果の説明は、様々なバックボーンモデルのパフォーマンスを継続的に改善できる説明可能で堅牢な機能として役立ちます。

Vision-language models (VLMs) offer a promising paradigm for image classification by comparing the similarity between images and class embeddings. A critical challenge lies in crafting precise textual representations for class names. While previous studies have leveraged recent advancements in large language models (LLMs) to enhance these descriptors, their outputs often suffer from ambiguity and inaccuracy. We identify two primary causes: 1) The prevalent reliance on textual interactions with LLMs, leading to a mismatch between the generated text and the visual content in VLMs' latent space - a phenomenon we term the "explain without seeing" dilemma. 2) The oversight of the inter-class relationships, resulting in descriptors that fail to differentiate similar classes effectively. To address these issues, we propose a novel image classification framework combining VLMs with LLMs, named Iterative Optimization with Visual Feedback. In particular, our method develops an LLM-based agent, employing an evolutionary optimization strategy to refine class descriptors. Crucially, we incorporate visual feedback from VLM classification metrics, thereby guiding the optimization process with concrete visual data. Our method leads to improving accuracy on a wide range of image classification benchmarks, with 3.47\% average gains over state-of-the-art methods. We also highlight the resulting descriptions serve as explainable and robust features that can consistently improve the performance across various backbone models.
翻訳日:2023-11-21 17:50:11 公開日:2023-11-20
# 欠陥の同定 : 穀類外観検査における損傷粒の検出

Identifying the Defective: Detecting Damaged Grains for Cereal Appearance Inspection ( http://arxiv.org/abs/2311.11901v1 )

ライセンス: Link先を確認
Lei Fan, Yiwen Ding, Dongdong Fan, Yong Wu, Maurice Pagnucco and Yang Song(参考訳) 穀物は必須栄養素の主要な供給源としてヒトの食生活において重要な役割を担っている。 GAI(Grain Outearance Inspection)は、穀物の品質を判断し、穀物の循環と加工を容易にするための重要なプロセスである。 しかし、GAIは、スマート農業において重要なボトルネックとなる、煩雑な手順で検査者が手動で行う。 本稿では,自動GAIシステムであるAI4GrainInspの開発に尽力する。 粒粒核の特異な特性を解析することにより、gaをユビキタスな問題として定式化した: 正常な粒や食用の粒核を正常な試料とし、損傷した粒や未知の物体を異常と見なす異常検出(ad)である。 また、AD-GAIと呼ばれるADモデルを提案し、正規サンプルのみを用いてトレーニングするが、推論中に異常を識別できる。 さらに,データ取得のためのプロトタイプ装置をカスタマイズし,コムギおよびトウモロコシカーネルの220k高画質画像を含む大規模データセットを作成する。 広範な実験を通じてad-gaiは高度なad手法と比較して相当のパフォーマンスを達成し、ai4grainininspは人間のエキスパートに比べて高い一貫性を持ち、20倍のスピードアップで検査効率に優れている。 データセット、コード、モデルはhttps://github.com/hellodfan/AI4GrainInspでリリースされる。

Cereal grain plays a crucial role in the human diet as a major source of essential nutrients. Grain Appearance Inspection (GAI) serves as an essential process to determine grain quality and facilitate grain circulation and processing. However, GAI is routinely performed manually by inspectors with cumbersome procedures, which poses a significant bottleneck in smart agriculture. In this paper, we endeavor to develop an automated GAI system:AI4GrainInsp. By analyzing the distinctive characteristics of grain kernels, we formulate GAI as a ubiquitous problem: Anomaly Detection (AD), in which healthy and edible kernels are considered normal samples while damaged grains or unknown objects are regarded as anomalies. We further propose an AD model, called AD-GAI, which is trained using only normal samples yet can identify anomalies during inference. Moreover, we customize a prototype device for data acquisition and create a large-scale dataset including 220K high-quality images of wheat and maize kernels. Through extensive experiments, AD-GAI achieves considerable performance in comparison with advanced AD methods, and AI4GrainInsp has highly consistent performance compared to human experts and excels at inspection efficiency over 20x speedup. The dataset, code and models will be released at https://github.com/hellodfan/AI4GrainInsp.
翻訳日:2023-11-21 17:49:47 公開日:2023-11-20
# 自動車保険価格のバイアスの測定と緩和

Measuring and Mitigating Biases in Motor Insurance Pricing ( http://arxiv.org/abs/2311.11900v1 )

ライセンス: Link先を確認
Mulah Moriah, Franck Vermet, Arthur Charpentier(参考訳) 非生命保険部門は競争の激しい規制の厳しい枠組みの中で運営されており、価格戦略の定式化において重要な結束に直面している。 保険会社は、さまざまな統計手法と利用可能なデータを利用して、市場競争のダイナミクスを順守しながら、包括的な企業戦略に合わせた最適な価格構造を構築しなければならない。 保険が果たす基本的な社会的な役割を考えると、保険料は規制当局によって厳格に検査される。 これらのレートは透明性、説明可能性、倫理的考慮の原則に従わなければならない。 その結果、価格設定は単なる統計計算を超越し、戦略的および社会的要因の重みを担っている。 これらの多面的な懸念により、保険会社は様々な変数を考慮し、平等なプレミアムを確立することができる。 例えば、規制は、それぞれの企業戦略に従って、政策株主の性別や相互主義グループダイナミクスなどの要因を考慮して、公平なプレミアムの提供を委任する。 年齢によるプレミアムフェアネスも義務付けられている。 ある保険領域では、重篤な疾患や障害の存在などの変数が、公正性を評価するための新しい次元として現れている。 保険会社が特定の変数に対して公正な価格戦略を採用する動機付け要因が何であれ、保険会社は、一貫性とパフォーマンスの標準を維持しつつ、価格プラクティスに内在する倫理的バイアスを定義し、測定し、最終的に緩和する能力を持つ必要がある。 本研究は,自動車保険の文脈において,これらの取り組みの総合的なツールセットを提供し,その有効性を評価することを目的とする。

The non-life insurance sector operates within a highly competitive and tightly regulated framework, confronting a pivotal juncture in the formulation of pricing strategies. Insurers are compelled to harness a range of statistical methodologies and available data to construct optimal pricing structures that align with the overarching corporate strategy while accommodating the dynamics of market competition. Given the fundamental societal role played by insurance, premium rates are subject to rigorous scrutiny by regulatory authorities. These rates must conform to principles of transparency, explainability, and ethical considerations. Consequently, the act of pricing transcends mere statistical calculations and carries the weight of strategic and societal factors. These multifaceted concerns may drive insurers to establish equitable premiums, taking into account various variables. For instance, regulations mandate the provision of equitable premiums, considering factors such as policyholder gender or mutualist group dynamics in accordance with respective corporate strategies. Age-based premium fairness is also mandated. In certain insurance domains, variables such as the presence of serious illnesses or disabilities are emerging as new dimensions for evaluating fairness. Regardless of the motivating factor prompting an insurer to adopt fairer pricing strategies for a specific variable, the insurer must possess the capability to define, measure, and ultimately mitigate any ethical biases inherent in its pricing practices while upholding standards of consistency and performance. This study seeks to provide a comprehensive set of tools for these endeavors and assess their effectiveness through practical application in the context of automobile insurance.
翻訳日:2023-11-21 17:49:25 公開日:2023-11-20
# H-COAL:生物医学的名前付きエンティティ認識のためのAI生成ラベルの人間補正

H-COAL: Human Correction of AI-Generated Labels for Biomedical Named Entity Recognition ( http://arxiv.org/abs/2311.11981v1 )

ライセンス: Link先を確認
Xiaojing Duan, John P. Lalor(参考訳) NLPタスクのための機械学習モデルの急速な進歩により、AIモデルから高忠実度ラベルを収集することは現実的な可能性である。 企業は現在、予測アズ・ア・サービス(PaaS)を通じてAIを顧客に提供する。 これにはヘルスケア用のPaaS製品が含まれる。 これらのラベルが、社内の専門家による高価なアノテーションチェックなしで、ローカルモデルのトレーニングに使用できるかどうかは不明だ。 本研究では,AI生成ラベル(H-COAL)の補正のための新しい枠組みを提案する。 AI生成したアウトプットをランク付けすることで、ラベルを選択的に修正し、人間の努力をはるかに少なくして、金の標準パフォーマンス(100%の人間ラベル)にアプローチすることができる。 ラベルの5%の修正は、aiと人間のパフォーマンスのギャップを最大64%減らすことができ、20%のラベルの修正は、パフォーマンスのギャップを最大86%減らすことができることを示した。

With the rapid advancement of machine learning models for NLP tasks, collecting high-fidelity labels from AI models is a realistic possibility. Firms now make AI available to customers via predictions as a service (PaaS). This includes PaaS products for healthcare. It is unclear whether these labels can be used for training a local model without expensive annotation checking by in-house experts. In this work, we propose a new framework for Human Correction of AI-Generated Labels (H-COAL). By ranking AI-generated outputs, one can selectively correct labels and approach gold standard performance (100% human labeling) with significantly less human effort. We show that correcting 5% of labels can close the AI-human performance gap by up to 64% relative improvement, and correcting 20% of labels can close the performance gap by up to 86% relative improvement.
翻訳日:2023-11-21 17:42:22 公開日:2023-11-20
# 顔の感情認識における顔行動単位知識の活用

Leveraging Previous Facial Action Units Knowledge for Emotion Recognition on Faces ( http://arxiv.org/abs/2311.11980v1 )

ライセンス: Link先を確認
Pietro B. S. Masur and Willams Costa and Lucas S. Figueredo and Veronica Teichrieb(参考訳) 人は感情を自然に理解し、機械が同じことをできるようにすれば、人間とコンピュータのインタラクションのための新しい道が開ける。 表情は感情認識技術に非常に有用であり、これらは感情と相関できる非言語的手がかりの最も大きな送信者である。 いくつかのテクニックは、機械学習プロセスで情報を抽出する畳み込みニューラルネットワーク(CNN)に基づいている。 しかし、単純なCNNは感情と相関できる顔の関心点を見つけるのに必ずしも十分ではない。 本研究では,感情認識のための顔行動単位(aus)認識手法を提案することにより,感情認識技術の能力を拡大する。 この認識はFACS(Facial Action Coding System)に基づいており、機械学習システムによって計算される。 特に,マルチキュー感情認識のためのアプローチであるEmotiRAM上に拡張し,顔符号化モジュールを改良する。

People naturally understand emotions, thus permitting a machine to do the same could open new paths for human-computer interaction. Facial expressions can be very useful for emotion recognition techniques, as these are the biggest transmitters of non-verbal cues capable of being correlated with emotions. Several techniques are based on Convolutional Neural Networks (CNNs) to extract information in a machine learning process. However, simple CNNs are not always sufficient to locate points of interest on the face that can be correlated with emotions. In this work, we intend to expand the capacity of emotion recognition techniques by proposing the usage of Facial Action Units (AUs) recognition techniques to recognize emotions. This recognition will be based on the Facial Action Coding System (FACS) and computed by a machine learning system. In particular, our method expands over EmotiRAM, an approach for multi-cue emotion recognition, in which we improve over their facial encoding module.
翻訳日:2023-11-21 17:41:56 公開日:2023-11-20
# 税制作成ソフトの変成仕様作成のための少数ショットインコンテキスト学習の可能性と限界について

On the Potential and Limitations of Few-Shot In-Context Learning to Generate Metamorphic Specifications for Tax Preparation Software ( http://arxiv.org/abs/2311.11979v1 )

ライセンス: Link先を確認
Dananjay Srinivas, Rohan Das, Saeid Tizpaz-Niari, Ashutosh Trivedi, Maria Leonor Pacheco(参考訳) アメリカ合衆国における所得税法の複雑さが増す中、税準備ソフト(henceforth, tax software)を使用した納税者の数は増加を続けている。 アメリカ内国歳入庁(IRS)によると、FY22年、納税者の50%近くが税ソフトウェアを使って個人所得税を申告した。 納税者に対して不当に税金を課すことによる法的結果を考えると、納税ソフトウェアの正当性を保証することが最重要事項である。 メタモルフィックテストは、正当性要件と信頼できるデータセットがないため、法律クリティカルな税ソフトウェアをテストし、デバッグするための主要なソリューションとして浮上した。 メタモルフィックテストの背景にある重要な考え方は、1つの入力とわずかにメタモルフィックされた双対入力の関係の観点からシステムの特性を表現することである。 IRS税の出版物から変成特性を抽出することは退屈で時間を要するプロセスである。 そこで本稿では, 自然言語で表現された税制文書から抽出した属性を, 対照的な一階述語論理形式に翻訳する作業として, メタモルフィック仕様を生成するタスクを定式化する。 本稿では,大規模言語モデル(llms)を用いた文脈内学習の可能性と限界に関する体系的分析を行い,税準備ソフトウェアのメタモルフィック仕様生成の自動化に向けた研究課題について概説する。

Due to the ever-increasing complexity of income tax laws in the United States, the number of US taxpayers filing their taxes using tax preparation software (henceforth, tax software) continues to increase. According to the U.S. Internal Revenue Service (IRS), in FY22, nearly 50% of taxpayers filed their individual income taxes using tax software. Given the legal consequences of incorrectly filing taxes for the taxpayer, ensuring the correctness of tax software is of paramount importance. Metamorphic testing has emerged as a leading solution to test and debug legal-critical tax software due to the absence of correctness requirements and trustworthy datasets. The key idea behind metamorphic testing is to express the properties of a system in terms of the relationship between one input and its slightly metamorphosed twinned input. Extracting metamorphic properties from IRS tax publications is a tedious and time-consuming process. As a response, this paper formulates the task of generating metamorphic specifications as a translation task between properties extracted from tax documents - expressed in natural language - to a contrastive first-order logic form. We perform a systematic analysis on the potential and limitations of in-context learning with Large Language Models(LLMs) for this task, and outline a research agenda towards automating the generation of metamorphic specifications for tax preparation software.
翻訳日:2023-11-21 17:41:28 公開日:2023-11-20
# 日英ビジネスシーン対話のための文脈対応ニューラルマシン翻訳

Context-aware Neural Machine Translation for English-Japanese Business Scene Dialogues ( http://arxiv.org/abs/2311.11976v1 )

ライセンス: Link先を確認
Sumire Honda, Patrick Fernandes, Chrysoula Zerva(参考訳) 機械翻訳の顕著な進歩にもかかわらず、現在の文レベルパラダイムは、日本語のような高文脈言語を扱う際の課題に直面している。 本稿では、日英ビジネス対話翻訳における現在のニューラル・マシン・トランスフォーメーション(NMT)モデルの性能向上と、どのようなコンテキストが意味のある情報を提供し、翻訳を改善するかを検討する。 ビジネス対話には複雑な談話現象が伴うが、訓練資源が少ないため、事前訓練されたmBARTモデルを適用し、多文対話データに基づいて微調整を行い、異なる文脈で実験することができる。 本研究では,より大きなコンテキストサイズの影響を調査し,話者のターンやシーンタイプなどの外部情報を符号化する新しいコンテキストトークンを提案する。 我々は,CXMI(Conditional Cross-Mutual Information)を用いて,モデルがどの程度の文脈で使っているかを調べ,CXMIを一般化し,文脈外の影響を研究する。 全体として,モデルが先行文と超知覚文脈(cxmiは文脈サイズで増加する)の両方を活用することを見出し,より焦点を絞った正統翻訳分析を行う。 翻訳品質に関しては,シーン情報や話者情報と組み合わせたソース側コンテキストの増大は,BLEU と COMET のメトリクスで測定された従来の作業と文脈に依存しないベースラインと比較して,モデル性能を向上させる。

Despite the remarkable advancements in machine translation, the current sentence-level paradigm faces challenges when dealing with highly-contextual languages like Japanese. In this paper, we explore how context-awareness can improve the performance of the current Neural Machine Translation (NMT) models for English-Japanese business dialogues translation, and what kind of context provides meaningful information to improve translation. As business dialogue involves complex discourse phenomena but offers scarce training resources, we adapted a pretrained mBART model, finetuning on multi-sentence dialogue data, which allows us to experiment with different contexts. We investigate the impact of larger context sizes and propose novel context tokens encoding extra-sentential information, such as speaker turn and scene type. We make use of Conditional Cross-Mutual Information (CXMI) to explore how much of the context the model uses and generalise CXMI to study the impact of the extra-sentential context. Overall, we find that models leverage both preceding sentences and extra-sentential context (with CXMI increasing with context size) and we provide a more focused analysis on honorifics translation. Regarding translation quality, increased source-side context paired with scene and speaker information improves the model performance compared to previous work and our context-agnostic baselines, measured in BLEU and COMET metrics.
翻訳日:2023-11-21 17:40:48 公開日:2023-11-20
# 赤外線人口計数における監督レベルトレードオフの評価

Evaluating Supervision Levels Trade-Offs for Infrared-Based People Counting ( http://arxiv.org/abs/2311.11974v1 )

ライセンス: Link先を確認
David Latortue, Moetez Kdayem, Fidel A Guerrero Pe\~na, Eric Granger, Marco Pedersoli(参考訳) オブジェクト検出モデルは、多くのアプリケーションでカウント(およびローカライゼーション)するのに一般的に使用されるが、トレーニングには高価なバウンディングボックスアノテーションを備えたデータセットが必要である。 人を数えることにおけるプライバシーの重要性を考えると、これらのモデルはますます赤外線画像に依存しており、タスクをさらに難しくしている。 本稿では,画像分類とポイントレベルの局所化において,より弱い監視レベルがディープパーソン計数アーキテクチャの性能にどのように影響するかを検討する。 実験により,CNN画像レベルモデルを用いて人物を数えると,YOLO検出器や点レベルモデルとの競合結果が得られるが,フレームレートは高く,モデルパラメータも類似していることがわかった。

Object detection models are commonly used for people counting (and localization) in many applications but require a dataset with costly bounding box annotations for training. Given the importance of privacy in people counting, these models rely more and more on infrared images, making the task even harder. In this paper, we explore how weaker levels of supervision can affect the performance of deep person counting architectures for image classification and point-level localization. Our experiments indicate that counting people using a CNN Image-Level model achieves competitive results with YOLO detectors and point-level models, yet provides a higher frame rate and a similar amount of model parameters.
翻訳日:2023-11-21 17:39:45 公開日:2023-11-20
# スケーラブルオンラインバイレベル最適化による適応型トレーニング分布

Adaptive Training Distributions with Scalable Online Bilevel Optimization ( http://arxiv.org/abs/2311.11973v1 )

ライセンス: Link先を確認
David Grangier, Pierre Ablin, Awni Hannun(参考訳) webスケールコーパスで事前学習された大規模ニューラルネットワークは、現代の機械学習の中心である。 このパラダイムでは、大規模で異質な事前学習データの分布はアプリケーションドメインの分布とほとんど一致しない。 本研究は,対象とするテスト条件を反映したデータサンプルが小さい場合の事前学習分布の修正を検討する。 本稿では,この設定をオンライン・バイレベル最適化問題として最近定式化したアルゴリズムを提案する。 スケーラビリティを念頭に置いて,本アルゴリズムは,目標分布の損失を最も改善するであろうトレーニングポイントの計算勾配を優先する。 実証的に、このアプローチはドメイン適応文学の既存の戦略よりも有益であるが、他のケースでは成功しない可能性があることを示す。 我々は,我々のアプローチがうまく機能することを期待できるかを評価するための簡易なテストを提案し,現在の限界に対処するためのさらなる研究に向ける。

Large neural networks pretrained on web-scale corpora are central to modern machine learning. In this paradigm, the distribution of the large, heterogeneous pretraining data rarely matches that of the application domain. This work considers modifying the pretraining distribution in the case where one has a small sample of data reflecting the targeted test conditions. We propose an algorithm motivated by a recent formulation of this setting as an online, bilevel optimization problem. With scalability in mind, our algorithm prioritizes computing gradients at training points which are likely to most improve the loss on the targeted distribution. Empirically, we show that in some cases this approach is beneficial over existing strategies from the domain adaptation literature but may not succeed in other cases. We propose a simple test to evaluate when our approach can be expected to work well and point towards further research to address current limitations.
翻訳日:2023-11-21 17:39:31 公開日:2023-11-20
# LiDAR-HMR:LiDARからの3次元メッシュ復元

LiDAR-HMR: 3D Human Mesh Recovery from LiDAR ( http://arxiv.org/abs/2311.11971v1 )

ライセンス: Link先を確認
Bohao Fan, Wenzhao Zheng, Jianjiang Feng, Jie Zhou(参考訳) 近年,ポイントクラウド知覚タスクが注目を集めている。 本稿では,疎いLiDAR点雲から3次元人体メッシュを推定するための最初の試みを示す。 点雲から人のポーズやメッシュを推定する上での大きな課題は、LiDAR点雲の空間性、ノイズ、不完全性にあることがわかった。 これらの課題に対して,我々は3次元メッシュを再構築する効果的なスパース・ツー・ディエンス再構成手法を提案する。 これには、人間の3Dポーズのスパース表現を推定し、徐々に体メッシュを再構築することが含まれる。 ポイントクラウドの3次元構造情報を活用するため,我々はカスケードグラフトランスフォーマ(graphormer)を用いて,スパース・ツー・デンス復元時のポイントクラウド機能を導入する。 3つの公開データベースの実験結果から,提案手法の有効性が示された。 コード:https://github.com/soullessrobot/LiDAR-HMR/

In recent years, point cloud perception tasks have been garnering increasing attention. This paper presents the first attempt to estimate 3D human body mesh from sparse LiDAR point clouds. We found that the major challenge in estimating human pose and mesh from point clouds lies in the sparsity, noise, and incompletion of LiDAR point clouds. Facing these challenges, we propose an effective sparse-to-dense reconstruction scheme to reconstruct 3D human mesh. This involves estimating a sparse representation of a human (3D human pose) and gradually reconstructing the body mesh. To better leverage the 3D structural information of point clouds, we employ a cascaded graph transformer (graphormer) to introduce point cloud features during sparse-to-dense reconstruction. Experimental results on three publicly available databases demonstrate the effectiveness of the proposed approach. Code: https://github.com/soullessrobot/LiDAR-HMR/
翻訳日:2023-11-21 17:39:15 公開日:2023-11-20
# SA-Med2D-20Mデータセット:2000万マスクの2D医療画像のセグメンテーション

SA-Med2D-20M Dataset: Segment Anything in 2D Medical Imaging with 20 Million masks ( http://arxiv.org/abs/2311.11969v1 )

ライセンス: Link先を確認
Jin Ye, Junlong Cheng, Jianpin Chen, Zhongying Deng, Tianbin Li, Haoyu Wang, Yanzhou Su, Ziyan Huang, Jilong Chen, Lei Jiang, Hui Sun, Min Zhu, Shaoting Zhang, Junjun He, Yu Qiao(参考訳) Segment Anything Model (SAM) は、点やバウンディングボックスなどの入力プロンプトを持つ自然な画像のセグメンテーションにおいて、印象的な結果を得た。 その成功は主に大量のラベル付きトレーニングデータによる。 しかし、SAMは医学的な知識を欠いているため、医療画像のセグメンテーションにSAMを直接適用することはうまくいかない。 SAMに医療知識を組み込むために,多数の公開およびプライベートデータセット上に構築された2次元医用画像の大規模セグメンテーションデータセットであるSA-Med2D-20Mを導入する。 460万枚の医療画像と197万枚のマスクで構成され、ほぼ全体を覆い、かなりの多様性を示している。 本稿では,SA-Med2D-20Mで収集したすべてのデータセットについて述べる。 さらに、SA-Med2D-20Mの総合統計データを提示し、我々のデータセットをよりよく活用できるようにし、研究者が医療ビジョン基盤モデルを構築したり、下流の医療アプリケーションに適用したりするのに役立ちます。 我々は,SA-Med2D-20Mの大規模かつ多様性を活用して,診断,医用画像解析,知識共有,教育を強化する医療人工知能の開発を期待する。 再配布ライセンス付きデータはhttps://github.com/OpenGVLab/SAM-Med2Dで公開されている。

Segment Anything Model (SAM) has achieved impressive results for natural image segmentation with input prompts such as points and bounding boxes. Its success largely owes to massive labeled training data. However, directly applying SAM to medical image segmentation cannot perform well because SAM lacks medical knowledge -- it does not use medical images for training. To incorporate medical knowledge into SAM, we introduce SA-Med2D-20M, a large-scale segmentation dataset of 2D medical images built upon numerous public and private datasets. It consists of 4.6 million 2D medical images and 19.7 million corresponding masks, covering almost the whole body and showing significant diversity. This paper describes all the datasets collected in SA-Med2D-20M and details how to process these datasets. Furthermore, comprehensive statistics of SA-Med2D-20M are presented to facilitate the better use of our dataset, which can help the researchers build medical vision foundation models or apply their models to downstream medical applications. We hope that the large scale and diversity of SA-Med2D-20M can be leveraged to develop medical artificial intelligence for enhancing diagnosis, medical image analysis, knowledge sharing, and education. The data with the redistribution license is publicly available at https://github.com/OpenGVLab/SAM-Med2D.
翻訳日:2023-11-21 17:38:56 公開日:2023-11-20
# 科学的ピアレビューにおけるサブストラテネーションの自動解析

Automatic Analysis of Substantiation in Scientific Peer Reviews ( http://arxiv.org/abs/2311.11967v1 )

ライセンス: Link先を確認
Yanzhu Guo, Guokan Shang, Virgile Rennard, Michalis Vazirgiannis and Chlo\'e Clavel(参考訳) トップAIカンファレンスにおける問題のあるピアレビューの増加に伴い、コミュニティは緊急に自動品質管理対策を必要としている。 本稿では,検証におけるクレームが証拠によって十分に支持されているかどうかを示す人気のある品質側面であるサブストラテテーションに留意し,この評価プロセスを自動化したソリューションを提供する。 この目的を達成するために,まず,科学ピアレビューにおいてクレーム・エビデンスペア抽出として問題を定式化し,この課題に対する最初の注釈付きデータセットであるsubstanreviewを収集する。 substanreviewはドメインエキスパートによるnlpカンファレンスの550のレビューで構成されている。 このデータセットに基づいて、ピアレビューにおけるサブスタンレーションのレベルを自動的に解析する引数マイニングシステムを訓練する。 また,近年のnlpコンファレンスにおいて,ピアレビューの品質に関する有意義な洞察を得るために,サブスタンリビューデータセットのデータ分析を行う。

With the increasing amount of problematic peer reviews in top AI conferences, the community is urgently in need of automatic quality control measures. In this paper, we restrict our attention to substantiation -- one popular quality aspect indicating whether the claims in a review are sufficiently supported by evidence -- and provide a solution automatizing this evaluation process. To achieve this goal, we first formulate the problem as claim-evidence pair extraction in scientific peer reviews, and collect SubstanReview, the first annotated dataset for this task. SubstanReview consists of 550 reviews from NLP conferences annotated by domain experts. On the basis of this dataset, we train an argument mining system to automatically analyze the level of substantiation in peer reviews. We also perform data analysis on the SubstanReview dataset to obtain meaningful insights on peer reviewing quality in NLP conferences over recent years.
翻訳日:2023-11-21 17:38:31 公開日:2023-11-20
# 低位mdpにおける高効率cvar rl

Provably Efficient CVaR RL in Low-rank MDPs ( http://arxiv.org/abs/2311.11965v1 )

ライセンス: Link先を確認
Yulai Zhao, Wenhao Zhan, Xiaoyan Hu, Ho-fung Leung, Farzan Farnia, Wen Sun, Jason D. Lee(参考訳) リスクに敏感な強化学習(RL)について検討し,リスクに対する条件付き価値(CVaR)を一定のリスク許容率で最大化することを目的とした。 リスク感受性RLの研究以前の理論的研究は、表形式のマルコフ決定過程(MDP)の設定に焦点を当てていた。 CVaR RLを状態空間が大きい設定に拡張するには、関数近似をデプロイする必要がある。 非線形関数近似を用いた低ランクMDPにおけるCVaR RLについて検討した。 低ランクのmdpは、下位の遷移核が低ランク分解を受け入れると仮定するが、以前の線形モデルとは異なり、低ランクのmdpは特徴を仮定しない。 本稿では, CVaR RLにおける探索, エクスプロイト, 表現学習の相互作用を慎重にバランスさせる, 新しいアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。 我々は,このアルゴリズムが$\tilde{O}\left(\frac{H^7 A^2 d^4}{\tau^2 \epsilon^2}\right)$で,各エピソードの長さが$H$,アクション空間の容量が$A$であり,$d$が表現の次元であることを示す。 計算学的には,CVaRの目的を計画オラクルとする新たな離散化Last-Squares Value Iteration (LSVI) アルゴリズムを設計し,最大類似度推定オラクルを用いて多項式実行時間内に準最適ポリシーを求めることができることを示す。 我々の知る限り、これは低ランクMDPにおけるCVaR RLアルゴリズムとして初めて証明可能な効率である。

We study risk-sensitive Reinforcement Learning (RL), where we aim to maximize the Conditional Value at Risk (CVaR) with a fixed risk tolerance $\tau$. Prior theoretical work studying risk-sensitive RL focuses on the tabular Markov Decision Processes (MDPs) setting. To extend CVaR RL to settings where state space is large, function approximation must be deployed. We study CVaR RL in low-rank MDPs with nonlinear function approximation. Low-rank MDPs assume the underlying transition kernel admits a low-rank decomposition, but unlike prior linear models, low-rank MDPs do not assume the feature or state-action representation is known. We propose a novel Upper Confidence Bound (UCB) bonus-driven algorithm to carefully balance the interplay between exploration, exploitation, and representation learning in CVaR RL. We prove that our algorithm achieves a sample complexity of $\tilde{O}\left(\frac{H^7 A^2 d^4}{\tau^2 \epsilon^2}\right)$ to yield an $\epsilon$-optimal CVaR, where $H$ is the length of each episode, $A$ is the capacity of action space, and $d$ is the dimension of representations. Computational-wise, we design a novel discretized Least-Squares Value Iteration (LSVI) algorithm for the CVaR objective as the planning oracle and show that we can find the near-optimal policy in a polynomial running time with a Maximum Likelihood Estimation oracle. To our knowledge, this is the first provably efficient CVaR RL algorithm in low-rank MDPs.
翻訳日:2023-11-21 17:38:17 公開日:2023-11-20
# AutoMLは継続的学習に何ができるのか?

What Can AutoML Do For Continual Learning? ( http://arxiv.org/abs/2311.11963v1 )

ライセンス: Link先を確認
Mert Kilickaya, Joaquin Vanschoren(参考訳) このポジションペーパーでは、インクリメンタルな(連続的な)学習のためのAutoMLの可能性について概説する。 インクリメンタル学習は、強化された深層表現を学び、新しいタスクにもっと適応するために、一連のタスクとディストリビューションから新しいデータを取り込む。 しかし、インクリメンタル学習者の大きな制限は、ほとんどの現在の技術が学習と適応プロセスを通じて、バックボーンアーキテクチャ、ハイパーパラメータ、学習タスクの順序と構造を凍結していることである。 私たちはAutoMLがこれらの制限に対処するための有望なソリューションを提供し、より多様な現実世界のタスクに漸進的な学習を可能にすると強く信じています。 そこで本論文では,新しい手法を直接提案するのではなく,"automlはインクリメンタル学習に何ができるのか? 我々は、インクリメンタルラーニングをよりダイナミックにするために貢献できる3つの研究分野を概説し、AutoMLのメソッドを新しい方法で適用する具体的な機会と、AutoML研究における全く新しい課題を強調した。

This position paper outlines the potential of AutoML for incremental (continual) learning to encourage more research in this direction. Incremental learning involves incorporating new data from a stream of tasks and distributions to learn enhanced deep representations and adapt better to new tasks. However, a significant limitation of incremental learners is that most current techniques freeze the backbone architecture, hyperparameters, and the order & structure of the learning tasks throughout the learning and adaptation process. We strongly believe that AutoML offers promising solutions to address these limitations, enabling incremental learning to adapt to more diverse real-world tasks. Therefore, instead of directly proposing a new method, this paper takes a step back by posing the question: "What can AutoML do for incremental learning?" We outline three key areas of research that can contribute to making incremental learners more dynamic, highlighting concrete opportunities to apply AutoML methods in novel ways as well as entirely new challenges for AutoML research.
翻訳日:2023-11-21 17:37:42 公開日:2023-11-20
# ダイヤモンドスズ空孔中心の電荷状態と光遷移周波数の周知初期化

Heralded initialization of charge state and optical transition frequency of diamond tin-vacancy centers ( http://arxiv.org/abs/2311.11962v1 )

ライセンス: Link先を確認
Julia M. Brevoord, Lorenzo De Santis, Takashi Yamamoto, Matteo Pasini, Nina Codreanu, Tim Turan, Christopher Waas, Ronald Hanson(参考訳) Diamond Tin-Vacancy Centerは、量子情報科学と技術のための有望なプラットフォームとして登場した。 より複雑な量子実験やスケーラブルな応用で使用する上で重要な課題は、所望の電荷状態の中心を予め定義された周波数で光遷移させる能力である。 本稿では,レーザー励起,光子検出,リアルタイム論理を併用したヘラルド作成について報告する。 まず、最適化共振プローブパルス中の蛍光光子数とその後の電荷状態と光遷移周波数とを強く相関させ、閾値光子計数により所望の状態をリアルタイムに階層化することを示した。 次に,光発光励起測定,コヒーレント光駆動,光ラムゼイ実験に適用し,閾値の上昇に伴う光コヒーレンスを強く改善した。 最後に、作製した光周波数が不均質線幅を横切るプローブレーザに従い、複数の均質線幅上の遷移周波数のチューニングを可能にすることを実証する。

Diamond Tin-Vacancy centers have emerged as a promising platform for quantum information science and technology. A key challenge for their use in more complex quantum experiments and scalable applications is the ability to prepare the center in the desired charge state with the optical transition at a pre-defined frequency. Here we report on heralding such successful preparation using a combination of laser excitation, photon detection, and real-time logic. We first show that fluorescence photon counts collected during an optimized resonant probe pulse strongly correlate with the subsequent charge state and optical transition frequency, enabling real-time heralding of the desired state through threshold photon counting. We then implement and apply this heralding technique to photoluminescence excitation measurements, coherent optical driving, and an optical Ramsey experiment, finding strongly improved optical coherence with increasing threshold. Finally, we demonstrate that the prepared optical frequency follows the probe laser across the inhomogeneous linewidth, enabling tuning of the transition frequency over multiple homogeneous linewidths.
翻訳日:2023-11-21 17:37:24 公開日:2023-11-20
# NNG-Mix:擬似異常発生による半教師付き異常検出の改善

NNG-Mix: Improving Semi-supervised Anomaly Detection with Pseudo-anomaly Generation ( http://arxiv.org/abs/2311.11961v1 )

ライセンス: Link先を確認
Hao Dong, Ga\"etan Frusque, Yue Zhao, Eleni Chatzi, Olga Fink(参考訳) 異常検出(AD)は、複雑なシステムにおいて稀かつしばしば重要な事象を識別し、ネットワーク侵入検出、金融詐欺検出、インフラや産業システムにおける故障検出などの分野での応用を見つけるために不可欠である。 ADは通常、ラベルアノテーションのコストが高いため教師なしの学習タスクとして扱われるが、半教師付き異常検出のように、ドメインの専門家によるラベル付き異常サンプルの小さなセットにアクセスすることはより現実的である。 半教師付きおよび教師付きアプローチは、そのようなラベル付きデータを活用することができ、パフォーマンスが向上する。 本稿では,adに対する新しい半教師付きあるいは教師付きアプローチを提案するのではなく,限定ラベル付き異常と大量のラベル付きデータに基づいて擬似異常を新たに生成するアルゴリズムを提案する。 これは新しい異常の検出を容易にする拡張として機能する。 提案アルゴリズムはNearest Neighbor Gaussian Mixup (NNG-Mix) と名付けられ,ラベル付きデータとラベルなしデータの両方から情報を効率よく統合して擬似アノマリーを生成する。 本稿では,このアルゴリズムの性能を,MixupやCutoutといった一般的な拡張手法と比較する。 我々は,NNG-Mixの評価を,既存の半教師付きおよび教師付き異常検出アルゴリズムを,生成された擬似異常とともに元のトレーニングデータ上でトレーニングすることで行う。 ADBenchの57のベンチマークデータセットに関する広範な実験を通じて、異なるデータ型を反映し、NNG-Mixが他のデータ拡張手法より優れていることを示す。 オリジナルのトレーニングデータにのみトレーニングされたベースラインと比較して、パフォーマンスが大幅に向上する。 特に、NNG-MixはADBenchのClassical、CV、NLPデータセットを最大16.4%、8.8%、そして8.0%改善する。 ソースコードはhttps://github.com/donghao51/nng-mixで入手できる。

Anomaly detection (AD) is essential in identifying rare and often critical events in complex systems, finding applications in fields such as network intrusion detection, financial fraud detection, and fault detection in infrastructure and industrial systems. While AD is typically treated as an unsupervised learning task due to the high cost of label annotation, it is more practical to assume access to a small set of labeled anomaly samples from domain experts, as is the case for semi-supervised anomaly detection. Semi-supervised and supervised approaches can leverage such labeled data, resulting in improved performance. In this paper, rather than proposing a new semi-supervised or supervised approach for AD, we introduce a novel algorithm for generating additional pseudo-anomalies on the basis of the limited labeled anomalies and a large volume of unlabeled data. This serves as an augmentation to facilitate the detection of new anomalies. Our proposed algorithm, named Nearest Neighbor Gaussian Mixup (NNG-Mix), efficiently integrates information from both labeled and unlabeled data to generate pseudo-anomalies. We compare the performance of this novel algorithm with commonly applied augmentation techniques, such as Mixup and Cutout. We evaluate NNG-Mix by training various existing semi-supervised and supervised anomaly detection algorithms on the original training data along with the generated pseudo-anomalies. Through extensive experiments on 57 benchmark datasets in ADBench, reflecting different data types, we demonstrate that NNG-Mix outperforms other data augmentation methods. It yields significant performance improvements compared to the baselines trained exclusively on the original training data. Notably, NNG-Mix yields up to 16.4%, 8.8%, and 8.0% improvements on Classical, CV, and NLP datasets in ADBench. Our source code will be available at https://github.com/donghao51/NNG-Mix.
翻訳日:2023-11-21 17:37:05 公開日:2023-11-20
# 多変量時系列変換器の相関注意

Correlated Attention in Transformers for Multivariate Time Series ( http://arxiv.org/abs/2311.11959v1 )

ライセンス: Link先を確認
Quang Minh Nguyen, Lam M. Nguyen, Subhro Das(参考訳) 多変量時系列分析(MTS)は、金融、気候科学、医療といった現実世界の応用に広く用いられている。 最先端のTransformerベースのモデルのバックボーンである様々な自己注意機構は、時間的依存関係を効率的に発見するが、MTSデータの異なる特徴間の複雑な相互相関は、本質的には複雑な力学系に由来する。 そこで本研究では,特徴量依存を効率的にキャプチャするだけでなく,既存のよく知られたトランスフォーマーのエンコーダブロックにシームレスに統合することで,効率向上を実現するための新しいアテンション機構を提案する。 特に、相関した注意は機能チャネル間で動作し、異なるラグ値を持つクエリとキー間の相互分散行列を計算し、サブシリーズレベルで選択的に表現を集約する。 このアーキテクチャは、時系列の自己相関を本質的に捉えながら、瞬時だけでなく遅延した相互相関の自動発見と表現学習を促進する。 一般的なトランスのベースラインと組み合わせると、相関注意機構はエンコーダのみのアーキテクチャよりも優れた選択肢となり、インプテーション、異常検出、分類など幅広いタスクに適している。 基本変圧器モデルの強化における注意の相関機構の利点を一貫して強調するタスクに関する広範な実験を行い, インプテーション, 異常検出, 分類の結果を実証した。

Multivariate time series (MTS) analysis prevails in real-world applications such as finance, climate science and healthcare. The various self-attention mechanisms, the backbone of the state-of-the-art Transformer-based models, efficiently discover the temporal dependencies, yet cannot well capture the intricate cross-correlation between different features of MTS data, which inherently stems from complex dynamical systems in practice. To this end, we propose a novel correlated attention mechanism, which not only efficiently captures feature-wise dependencies, but can also be seamlessly integrated within the encoder blocks of existing well-known Transformers to gain efficiency improvement. In particular, correlated attention operates across feature channels to compute cross-covariance matrices between queries and keys with different lag values, and selectively aggregate representations at the sub-series level. This architecture facilitates automated discovery and representation learning of not only instantaneous but also lagged cross-correlations, while inherently capturing time series auto-correlation. When combined with prevalent Transformer baselines, correlated attention mechanism constitutes a better alternative for encoder-only architectures, which are suitable for a wide range of tasks including imputation, anomaly detection and classification. Extensive experiments on the aforementioned tasks consistently underscore the advantages of correlated attention mechanism in enhancing base Transformer models, and demonstrate our state-of-the-art results in imputation, anomaly detection and classification.
翻訳日:2023-11-21 17:36:35 公開日:2023-11-20
# FinanceBench: 財務質問に対する新たなベンチマーク

FinanceBench: A New Benchmark for Financial Question Answering ( http://arxiv.org/abs/2311.11944v1 )

ライセンス: Link先を確認
Pranab Islam, Anand Kannappan, Douwe Kiela, Rebecca Qian, Nino Scherrer, Bertie Vidgen(参考訳) FinanceBench(ファイナンスベンチ)は、オープンブックの財務質問応答(QA)でLLMのパフォーマンスを評価するためのテストスイートである。 公開企業に関する10,231の質問からなり、対応する回答と証拠がある。 FinanceBenchの質問は生態学的に有効であり、さまざまなシナリオをカバーする。 それらは、最小パフォーマンス標準として機能するように、明確で簡単に答えられるように意図されている。 本研究は,GPT-4-Turbo,Llama2,Claude2を含む16種類のアートモデル構成をファイナンスベンチから150例のサンプルを用いて検証し,手動で回答を検証した(n=2,400)。 ケースはオープンソースで入手できる。 既存のllmは財務qaに明確な制限があることを示します。 特に、GPT-4-Turboは検索システムで誤って81%の回答を拒んだ。 より長いコンテキストウインドウを使用して関連するエビデンスをフィードするといった拡張技術はパフォーマンスを向上させるが、レイテンシの増加によるエンタープライズ環境では非現実的であり、より大きな財務文書をサポートできない。 調査したすべてのモデルは、幻覚などの弱点を示しており、企業による使用の適性を制限している。

FinanceBench is a first-of-its-kind test suite for evaluating the performance of LLMs on open book financial question answering (QA). It comprises 10,231 questions about publicly traded companies, with corresponding answers and evidence strings. The questions in FinanceBench are ecologically valid and cover a diverse set of scenarios. They are intended to be clear-cut and straightforward to answer to serve as a minimum performance standard. We test 16 state of the art model configurations (including GPT-4-Turbo, Llama2 and Claude2, with vector stores and long context prompts) on a sample of 150 cases from FinanceBench, and manually review their answers (n=2,400). The cases are available open-source. We show that existing LLMs have clear limitations for financial QA. Notably, GPT-4-Turbo used with a retrieval system incorrectly answered or refused to answer 81% of questions. While augmentation techniques such as using longer context window to feed in relevant evidence improve performance, they are unrealistic for enterprise settings due to increased latency and cannot support larger financial documents. We find that all models examined exhibit weaknesses, such as hallucinations, that limit their suitability for use by enterprises.
翻訳日:2023-11-21 17:36:09 公開日:2023-11-20
# 効率的な変圧器を用いた3次元人物位置推定のための時間ガラストケナイザ

Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation ( http://arxiv.org/abs/2311.12028v1 )

ライセンス: Link先を確認
Wenhao Li, Mengyuan Liu, Hong Liu, Pichao Wang, Jialun Cai, Nicu Sebe(参考訳) トランスフォーマーはビデオベースの人間のポーズ推定の分野でうまく応用されている。 しかし、これらのビデオポーズトランスフォーマ(vpts)の計算コストが高いため、リソース制約されたデバイスでは実用的でない。 本稿では,Hourglass Tokenizer (HoT) と呼ばれる,効率的なトランスフォーマーに基づく3次元ポーズ推定のためのプラグアンドプレイプルーニング・リカバリフレームワークを提案する。 私たちのHoTは、冗長フレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで、中間トランスフォーマーブロックにいくつかのポーズトークンが発生し、モデル効率が向上する。 これを実現するために,ビデオフレームの冗長性を排除しつつ,意味的多様性の高いいくつかの代表トークンを動的に選択するトークンプルーニングクラスタ(TPC)を提案する。 また、選択したトークンに基づいて詳細な時空間情報を復元するトークン復元注意(tra)を開発し、ネットワーク出力を元のフル長時空間分解能に拡張し、高速な推論を行う。 2つのベンチマークデータセット(Human3.6MとMPI-INF-3DHP)の大規模な実験により、本手法は元のVPTモデルと比較して高い効率と推定精度を達成できることを示した。 例えば、Human3.6M上でMotionBERTとMixSTEを適用すると、私たちのHoTは精度を犠牲にすることなく50%近いFLOPを節約できます。 ソースコードはオープンソースになります。

Transformers have been successfully applied in the field of video-based 3D human pose estimation. However, the high computational costs of these video pose transformers (VPTs) make them impractical on resource-constrained devices. In this paper, we present a plug-and-play pruning-and-recovering framework, called Hourglass Tokenizer (HoT), for efficient transformer-based 3D human pose estimation from videos. Our HoT begins with pruning pose tokens of redundant frames and ends with recovering full-length tokens, resulting in a few pose tokens in the intermediate transformer blocks and thus improving the model efficiency. To effectively achieve this, we propose a token pruning cluster (TPC) that dynamically selects a few representative tokens with high semantic diversity while eliminating the redundancy of video frames. In addition, we develop a token recovering attention (TRA) to restore the detailed spatio-temporal information based on the selected tokens, thereby expanding the network output to the original full-length temporal resolution for fast inference. Extensive experiments on two benchmark datasets (i.e., Human3.6M and MPI-INF-3DHP) demonstrate that our method can achieve both high efficiency and estimation accuracy compared to the original VPT models. For instance, applying to MotionBERT and MixSTE on Human3.6M, our HoT can save nearly 50% FLOPs without sacrificing accuracy and nearly 40% FLOPs with only 0.2% accuracy drop, respectively. Our source code will be open-sourced.
翻訳日:2023-11-21 17:28:36 公開日:2023-11-20
# PF-LRM:共振器と形状予測のための多孔性大再構成モデル

PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction ( http://arxiv.org/abs/2311.12024v1 )

ライセンス: Link先を確認
Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang(参考訳) A100 GPUで相対カメラのポーズを約1.3秒で推定しながら、視覚的オーバーラップが少なく、少数の未提示画像から3Dオブジェクトを再構成するPF-LRMを提案する。 pf-lrmは3dオブジェクトトークンと2dイメージトークン間の情報を交換するために自己アテンションブロックを利用する高度にスケーラブルな手法であり、各ビューで粗いポイントクラウドを予測し、微分可能なpnpソルバを用いてカメラポーズを得る。 PF-LRMは, 約1Mオブジェクトの膨大な多ビューポーズデータに基づいてトレーニングを行うと, 強力なクロスデータセット一般化能力を示し, 様々な未知の評価データセットに対して, ポーズ予測精度と3次元再構成品質の点で, ベースライン手法を大きなマージンで上回っている。 また,高速フィードフォワード推論によるダウンストリームテキスト/画像間3dタスクにおけるモデルの適用性を示す。 プロジェクトのWebサイトは以下の通り。

We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .
翻訳日:2023-11-21 17:28:08 公開日:2023-11-20
# LQ-LoRA:効率的な言語モデルファインタニングのための低ランク・量子行列分解

LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning ( http://arxiv.org/abs/2311.12023v1 )

ライセンス: Link先を確認
Han Guo, Philip Greengard, Eric P. Xing, Yoon Kim(参考訳) 本稿では,事前学習言語モデルのメモリ効率向上のための簡単な手法を提案する。 本手法では,各行列を高精度低ランク成分とメモリ効率の良い量子化成分に分解する反復アルゴリズムを用いる。 微調整中、量子化コンポーネントは固定され、ローランクコンポーネントのみが更新される。 本稿では,各行列に対する量子化パラメータ(ビット幅,ブロックサイズなど)の動的構成を可能にする量子化成分の整数線形計画法について述べる。 本研究では,fisher情報行列の近似を用いて,行列分解時の復元目標の重み付けを行うアルゴリズムについて検討する。 RoBERTa と LLaMA-2 (7B, 70B) の適応実験により,我々の低ランク+量子化行列分解法 (LQ-LoRA) が強い QLoRA と GPTQ-LoRA ベースラインを上回り,より積極的な量子化を実現することを示した。 例えば、OpenAssistantベンチマークのLQ-LoRAでは、4ビットQLoRAで微調整されたモデルと競合する2.5ビットのLLaMA-2モデルを学習することができる。 この設定では、2.75ビットのLLaMA-2-70Bモデル(低ランクのコンポーネントを含めると平均2.85ビットで、27GBのGPUメモリを必要とする)は、元のモデルと完全な精度で競合する。

We propose a simple approach for memory-efficient adaptation of pretrained language models. Our approach uses an iterative algorithm to decompose each pretrained matrix into a high-precision low-rank component and a memory-efficient quantized component. During finetuning, the quantized component remains fixed and only the low-rank component is updated. We present an integer linear programming formulation of the quantization component which enables dynamic configuration of quantization parameters (e.g., bit-width, block size) for each matrix given an overall target memory budget. We further explore a data-aware version of the algorithm which uses an approximation of the Fisher information matrix to weight the reconstruction objective during matrix decomposition. Experiments on adapting RoBERTa and LLaMA-2 (7B and 70B) demonstrate that our low-rank plus quantized matrix decomposition approach (LQ-LoRA) outperforms strong QLoRA and GPTQ-LoRA baselines and moreover enables more aggressive quantization. For example, on the OpenAssistant benchmark LQ-LoRA is able to learn a 2.5-bit LLaMA-2 model that is competitive with a model finetuned with 4-bit QLoRA. When finetuned on a language modeling calibration dataset, LQ-LoRA can also be used for model compression; in this setting our 2.75-bit LLaMA-2-70B model (which has 2.85 bits on average when including the low-rank components and requires 27GB of GPU memory) is competitive with the original model in full precision.
翻訳日:2023-11-21 17:27:48 公開日:2023-11-20
# GPQA: 大学院レベルのGoogle-Proof Q&Aベンチマーク

GPQA: A Graduate-Level Google-Proof Q&A Benchmark ( http://arxiv.org/abs/2311.12022v1 )

ライセンス: Link先を確認
David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman(参考訳) GPQAは,生物,物理,化学の分野の専門家が作成した,448の質問の挑戦的データセットである。 関連する領域で博士号を取得または追跡している専門家は65%の精度(振り返りで特定した専門家の明確なミスを割引する場合74%)、高度に熟練していないバリデーターは34%の精度でウェブへのアクセスに30分以上を費やしているにも関わらず(すなわち、質問は「Google-proof」である)、高品質で極めて難しい。 我々の最強のGPT-4ベースのベースラインが39%の精度を達成している。 例えば、新しい科学的知識を開発する際に、将来のAIシステムを使って、人間がアウトプットを監督できるスケーラブルな監視方法を開発する必要がある。 熟練した非専門家とフロンティアAIシステムのGPQAの難しさは、現実的なスケーラブルな監視実験を可能にするだろう。

We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.
翻訳日:2023-11-21 17:27:20 公開日:2023-11-20
# 機械学習ソフトウェアにおける自己申告技術的負債の実証的研究

An Empirical Study of Self-Admitted Technical Debt in Machine Learning Software ( http://arxiv.org/abs/2311.12019v1 )

ライセンス: Link先を確認
Aaditya Bhatia, Foutse Khomh, Bram Adams, Ahmed E Hassan(参考訳) TensorFlowやGoogle Auto MLといったオープンソースのMLライブラリの出現により、開発者は最小限のオーバーヘッドで最先端のMLアルゴリズムを活用できるようになった。 しかし、この加速されたML開発プロセスの間、開発者はしばしば準最適設計と実装の決定を行うため、技術的負債がすぐに解決されないと、MLベースのソフトウェアの品質に重大な影響を与える可能性がある。 開発者は、ソフトウェア開発中にコードコメントを通じて、これらのサブ最適設計と開発の選択をよく認める。 これらのコメントは、将来追加の作業や改善を必要とする領域をしばしば強調しており、satd(self-admitted technical debt)として知られている。 本稿では,5つのドメインにわたる318のオープンソースMLプロジェクトと318の非MLプロジェクトを分析し,SATDをMLコードで解析することを目的とする。 我々は,各プロジェクトスナップショットのソースコードコメント中のSATDを検出し,識別されたSATDサンプルを手動で解析して,MLコードの技術的負債の性質を理解するとともに,SATDの生存分析を行い,それらの負債の進化を理解する。 観察した。 i) 機械学習のプロジェクトはsatdの中央値であり、非機械学習プロジェクトのsatの中央値の2倍である。 i) データ前処理とモデル生成ロジックのためのMLパイプラインコンポーネントは、モデル検証やデプロイメントコンポーネントよりも負債の影響を受けやすい。 三 SATDは、開発プロセスにおいて、非MLプロジェクトと比較して早期にMLプロジェクトに登場する。 iv) 長いsatは通常、複雑さの低い複数のファイルにまたがる広範なコード変更時に導入される。

The emergence of open-source ML libraries such as TensorFlow and Google Auto ML has enabled developers to harness state-of-the-art ML algorithms with minimal overhead. However, during this accelerated ML development process, said developers may often make sub-optimal design and implementation decisions, leading to the introduction of technical debt that, if not addressed promptly, can have a significant impact on the quality of the ML-based software. Developers frequently acknowledge these sub-optimal design and development choices through code comments during software development. These comments, which often highlight areas requiring additional work or refinement in the future, are known as self-admitted technical debt (SATD). This paper aims to investigate SATD in ML code by analyzing 318 open-source ML projects across five domains, along with 318 non-ML projects. We detected SATD in source code comments throughout the different project snapshots, conducted a manual analysis of the identified SATD sample to comprehend the nature of technical debt in the ML code, and performed a survival analysis of the SATD to understand the evolution of such debts. We observed: i) Machine learning projects have a median percentage of SATD that is twice the median percentage of SATD in non-machine learning projects. ii) ML pipeline components for data preprocessing and model generation logic are more susceptible to debt than model validation and deployment components. iii) SATDs appear in ML projects earlier in the development process compared to non-ML projects. iv) Long-lasting SATDs are typically introduced during extensive code changes that span multiple files exhibiting low complexity.
翻訳日:2023-11-21 17:26:56 公開日:2023-11-20
# 公開鍵擬似絡み合いと学習基底状態絡み合い構造の硬さ

Public-key pseudoentanglement and the hardness of learning ground state entanglement structure ( http://arxiv.org/abs/2311.12017v1 )

ライセンス: Link先を確認
Adam Bouland, Bill Fefferman, Soumik Ghosh, Tony Metger, Umesh Vazirani, Chenyi Zhang, Zixin Zhou(参考訳) 局所ハミルトニアンを考えると、その基底状態の絡み合い構造を決定することはどのくらい難しいか。 基底状態が体積法か面積法近傍の絡み合っているかどうかを判断しようとする場合であっても,この問題は計算的に難解であることを示す。 我々は、状態の準備に使用される回路が公的な知識である公開鍵設定において、強い形の擬似絡み目を構築することでこれを証明した。 特に、量子回路の2つのファミリーを構築し、体積法則と面積法則の絡み合った状態を生成するが、しかしながら、回路の古典的な記述はLearning with Errors (LWE) の仮定では区別できない。 回路の不明瞭さにより、ハミルトニアンにその構成を翻訳することができる。 私たちの研究はハミルトンの複雑性における新しい方向、例えばある段階の物質を学ぶのが難しいかどうかを開きます。

Given a local Hamiltonian, how difficult is it to determine the entanglement structure of its ground state? We show that this problem is computationally intractable even if one is only trying to decide if the ground state is volume-law vs near area-law entangled. We prove this by constructing strong forms of pseudoentanglement in a public-key setting, where the circuits used to prepare the states are public knowledge. In particular, we construct two families of quantum circuits which produce volume-law vs near area-law entangled states, but nonetheless the classical descriptions of the circuits are indistinguishable under the Learning with Errors (LWE) assumption. Indistinguishability of the circuits then allows us to translate our construction to Hamiltonians. Our work opens new directions in Hamiltonian complexity, for example whether it is difficult to learn certain phases of matter.
翻訳日:2023-11-21 17:26:27 公開日:2023-11-20
# ロボットのためのGPT-4V:人間によるマルチモーダルタスク計画

GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration ( http://arxiv.org/abs/2311.12015v1 )

ライセンス: Link先を確認
Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi(参考訳) 我々は,ロボット操作を容易にするため,人間の行動の観察を統合することで汎用視覚言語モデル(GPT-4V(ision))を強化するパイプラインを導入する。 このシステムは、タスクを実行する人のビデオを分析し、アフォーマンスインサイトを組み込んだ実行可能なロボットプログラムを作成する。 計算は、GPT-4Vでビデオを分析し、環境や行動の詳細をテキストに変換し、次にGPT-4を内蔵したタスクプランナーで始まる。 以下の分析では、視覚システムがタスクプランでビデオを再分析する。 オブジェクト名はopen-vocabulary object detectorを使用して接地されるが、手とオブジェクトの関係にフォーカスすることは、把持と解放の瞬間を検出するのに役立つ。 この時空間的接地により、視覚系はさらに可測データ(例えば、型、方向、姿勢など)を集めることができる。 様々なシナリオにおける実験により、この方法が人間の実演から実際のロボットの操作をゼロショットで達成する効果が示されている。 gpt-4v/gpt-4のプロンプトはこのプロジェクトページで入手できる。 https://microsoft.github.io/gpt4vision-robot-manipulation-prompts/

We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), by integrating observations of human actions to facilitate robotic manipulation. This system analyzes videos of humans performing tasks and creates executable robot programs that incorporate affordance insights. The computation starts by analyzing the videos with GPT-4V to convert environmental and action details into text, followed by a GPT-4-empowered task planner. In the following analyses, vision systems reanalyze the video with the task plan. Object names are grounded using an open-vocabulary object detector, while focus on the hand-object relation helps to detect the moment of grasping and releasing. This spatiotemporal grounding allows the vision systems to further gather affordance data (e.g., grasp type, way points, and body postures). Experiments across various scenarios demonstrate this method's efficacy in achieving real robots' operations from human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are available at this project page: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
翻訳日:2023-11-21 17:26:10 公開日:2023-11-20
# すべてのポートベーステレポーテーションプロトコルの効率的なアルゴリズム

Efficient Algorithms for All Port-Based Teleportation Protocols ( http://arxiv.org/abs/2311.12012v1 )

ライセンス: Link先を確認
Adam Wills, Min-Hsiu Hsieh, Sergii Strelchuk(参考訳) ポートベーステレポーテーション(英: port-based teleportation、pbt)は、受信機の一部に補正ユニタリが不要な量子テレポーテーションの一種である。 テレポーテーションが常に成功するが不完全である決定論的PBTと、テレポーテーションが1つ未満の確率で成功する確率的PBTとがあるが、テレポーテーションが成功するには完璧である。 さらに2つのレジームが存在し、テレポーテーションに使用されるリソース状態は最大に絡み合った状態に固定されるか、最適化が自由になる。 近年,quditsの2つの決定論的ケースに取り組み,ポートベーステレポーテーションを効率的に実装するという長年の課題が解決されている。 ここでは、キュービットの4つのレギュレーションすべてにアルゴリズムを提供する。 これらのアルゴリズムの実用性に重点を置いており、PBTの既知のゲート複雑性を多項式的に改善すると同時に、必要な数のアンシラを指数関数的に改善する(別々のプロトコルではあるが)。 一例として、ゲート複雑性を持つ$\epsilon$$\mathcal{O}(N\text{poly}(\log N, \log \frac{1}{\epsilon})$に対して実装された$N$ポート上の最大絡み合ったリソース状態を用いて確率的PBTのアルゴリズムを提供する。

Port-based teleportation (PBT) is a form of quantum teleportation in which no corrective unitary is required on the part of the receiver. Two primary regimes exist - deterministic PBT in which teleportation is always successful, but is imperfect, and probabilistic PBT, in which teleportation succeeds with probability less than one, but teleportation is perfect upon a success. Two further regimes exist within each of these in which the resource state used for the teleportation is fixed to a maximally entangled state, or free to be optimised. Recently, works resolved the long-standing problem of efficiently implementing port-based teleportation, tackling the two deterministic cases for qudits. Here, we provide algorithms in all four regimes for qubits. Emphasis is placed on the practicality of these algorithms, where we give polynomial improvements in the known gate complexity for PBT, as well as an exponential improvement in the required number of ancillas (albeit in separate protocols). As one example, we provide an algorithm for probabilistic PBT using a maximally entangled resource state over $N$ ports implemented to accuracy $\epsilon$ with gate complexity $\mathcal{O}(N\text{poly}(\log N, \log \frac{1}{\epsilon}))$.
翻訳日:2023-11-21 17:25:52 公開日:2023-11-20
# 責任あるaiを操る:アルゴリズム的多元主義の事例

Steering Responsible AI: A Case for Algorithmic Pluralism ( http://arxiv.org/abs/2311.12010v1 )

ライセンス: Link先を確認
Stefaan G. Verhulst(参考訳) 本稿では,既存の文献のプリズムを通じてAI中立性に関する疑問と,メディア多元主義とメディア多元主義に関する奨学金について考察する。 このような伝統は、AIメディエーションの(おそらく)差し迫った時代へのアプローチ方法に関する貴重な理論的枠組みを提供する、と私は主張する。 特に,アルゴリズム的多元性の概念をさらに検討することを提案する。 この概念をアルゴリズム的透明性という支配的な概念とは対照的に、アルゴリズム的多元主義とは何かを説明し、その可能性と課題を提示する。 私が思うに、アルゴリズム的あるいはai的多元主義は、民主主義にとって非常に不可欠である多様性、多元性、包括性を維持する可能性を秘めている。

In this paper, I examine questions surrounding AI neutrality through the prism of existing literature and scholarship about mediation and media pluralism. Such traditions, I argue, provide a valuable theoretical framework for how we should approach the (likely) impending era of AI mediation. In particular, I suggest examining further the notion of algorithmic pluralism. Contrasting this notion to the dominant idea of algorithmic transparency, I seek to describe what algorithmic pluralism may be, and present both its opportunities and challenges. Implemented thoughtfully and responsibly, I argue, Algorithmic or AI pluralism has the potential to sustain the diversity, multiplicity, and inclusiveness that are so vital to democracy.
翻訳日:2023-11-21 17:25:27 公開日:2023-11-20
# リスク回避バッチアクティブ逆報酬設計

Risk-averse Batch Active Inverse Reward Design ( http://arxiv.org/abs/2311.12004v1 )

ライセンス: Link先を確認
Panagiotis Liampas(参考訳) 意図した行動のすべての側面を描写する完全な報酬関数を設計することは、特にトレーニング環境外の一般化では、ほとんど不可能である。 Active Inverse Reward Design (AIRD) は、単一のトレーニング環境での報酬関数を比較する一連のクエリの使用を提案している。 これにより、意図された報酬関数上の確率分布を計算するために、人間はエージェントに最適な行動に関する情報を与えることができる。 しかし、現実の環境に現れる未知の機能の可能性や、エージェントが報酬機能を完全に学習するまでの安全対策は無視される。 この手法を改良してRBAIRD(Hass-averse Active Inverse Reward Design)を作成し、実世界で使用される際にエージェントが遭遇する環境の集合を構築し、それらを順次処理し、所定の回数のイテレーションに対して、人間がバッチの各環境に対して答える必要があるかを問い合わせる。 このプロセスが1つのバッチで完了した後、確率が改善され、次のバッチに転送される。 これにより、現実世界のシナリオに適応し、初めて遭遇する未知の機能をどのように扱うかを学ぶことができる。 また、確率分布から報酬関数のセットをサンプリングし、可能な限り特定の報酬を取る軌道を計算するinverse reward design(ird)と同様のリスク回避プランナーも統合しました。 これにより、エージェントが報酬関数を学習している間に安全性が保証され、慎重さが不可欠の状況においてこのアプローチが使用できる。 RBAIRDは、効率性、正確性、行動確実性の観点から以前のアプローチよりも優れており、新しい未知の機能への迅速な適応性を示し、重要で強力なAIモデルのアライメントに広く使用することができる。

Designing a perfect reward function that depicts all the aspects of the intended behavior is almost impossible, especially generalizing it outside of the training environments. Active Inverse Reward Design (AIRD) proposed the use of a series of queries, comparing possible reward functions in a single training environment. This allows the human to give information to the agent about suboptimal behaviors, in order to compute a probability distribution over the intended reward function. However, it ignores the possibility of unknown features appearing in real-world environments, and the safety measures needed until the agent completely learns the reward function. I improved this method and created Risk-averse Batch Active Inverse Reward Design (RBAIRD), which constructs batches, sets of environments the agent encounters when being used in the real world, processes them sequentially, and, for a predetermined number of iterations, asks queries that the human needs to answer for each environment of the batch. After this process is completed in one batch, the probabilities have been improved and are transferred to the next batch. This makes it capable of adapting to real-world scenarios and learning how to treat unknown features it encounters for the first time. I also integrated a risk-averse planner, similar to that of Inverse Reward Design (IRD), which samples a set of reward functions from the probability distribution and computes a trajectory that takes the most certain rewards possible. This ensures safety while the agent is still learning the reward function, and enables the use of this approach in situations where cautiousness is vital. RBAIRD outperformed the previous approaches in terms of efficiency, accuracy, and action certainty, demonstrated quick adaptability to new, unknown features, and can be more widely used for the alignment of crucial, powerful AI models.
翻訳日:2023-11-21 17:25:14 公開日:2023-11-20
# quditsを用いた量子アルゴリズムの実現

Realization of quantum algorithms with qudits ( http://arxiv.org/abs/2311.12003v1 )

ライセンス: Link先を確認
Evgeniy O. Kiktenko, Anastasiia S. Nikolaeva, Aleksey K. Fedorov(参考訳) デジタル量子コンピューティングのパラダイムはバイナリ情報処理の考え方を継承している。 この性質は、特に量子力学領域において興味深い、情報を符号化するのに使える物理オブジェクトのよりリッチな構造を与える。 本論では、量子アルゴリズムの効率的な実現にquditsとしても知られるマルチレベル量子システムをどのように利用できるかを示すいくつかのアイデアを概説する。 本稿では,マルチキュービットゲートの分解を単純化するためにquditを活用し,複数の量子ビットを1つのquditにエンコードすることで量子情報を圧縮する手法に注目する。 議論の通り、これらのアプローチは効率的に組み合わせることができる。 これにより、単純な量子ビット実現と比較して、絡み合い(2体)操作の数と使用済み量子情報キャリアの数を削減できる。 これらの理論スキームは、閉じ込められたイオン、中性原子、超伝導接合、量子光など、様々な性質の量子コンピューティングプラットフォームで実装することができる。 結論として,量子ビットアルゴリズムの実行に汎用quditベースのプロセッサを採用する上で,解決が重要なステップとなるオープン問題の組を要約する。

The paradigm behind digital quantum computing inherits the idea of using binary information processing. The nature in fact gives much more rich structures of physical objects that can be used for encoding information, which is especially interesting in the quantum mechanical domain. In this Colloquium, we review several ideas indicating how multilevel quantum systems, also known as qudits, can be used for efficient realization of quantum algorithms, which are represented via standard qubit circuits. We focus on techniques of leveraging qudits for simplifying decomposition of multiqubit gates, and for compressing quantum information by encoding multiple qubits in a single qudit. As we discuss, these approaches can be efficiently combined. This allows reducing in the number of entangling (two-body) operations and the number of the used quantum information carriers compared to straightforward qubit realizations. These theoretical schemes can be implemented with quantum computing platforms of various nature, such as trapped ions, neutral atoms, superconducting junctions, and quantum light. We conclude with summarizing a set of open problems, whose resolving is an important further step towards employing universal qudit-based processors for running qubit algorithms.
翻訳日:2023-11-21 17:24:42 公開日:2023-11-20
# BrainWash: 継続的な学習で忘れられるような攻撃

BrainWash: A Poisoning Attack to Forget in Continual Learning ( http://arxiv.org/abs/2311.11995v1 )

ライセンス: Link先を確認
Ali Abbasi, Parsa Nooralinejad, Hamed Pirsiavash, Soheil Kolouri(参考訳) 継続的学習はディープラーニングコミュニティで大きな注目を集め、シーケンシャル学習の難しい問題に対する有望な解決策を提供している。 しかし、このパラダイムのほとんど未熟な側面は、特に忘れることを誘発する目的で、敵対的な攻撃に対する感受性である。 本稿では,連続学習者に忘れを強いるように設計された新しいデータ中毒手法である"BrainWash"を紹介する。 様々なベースラインに洗脳ノイズを付加することにより、訓練された連続学習者が、これらの連続学習ベースラインを使用しても、過去の学習タスクを破滅的に忘れるように誘導できることを実証する。 このアプローチの重要な特徴は、攻撃者が以前のタスクのデータにアクセスする必要がなく、モデルの現在のパラメータと最新のタスクに属するデータだけで武装していることです。 本研究は,各種正規化型連続学習法におけるブレインウォッシュの有効性を強調する実験である。

Continual learning has gained substantial attention within the deep learning community, offering promising solutions to the challenging problem of sequential learning. Yet, a largely unexplored facet of this paradigm is its susceptibility to adversarial attacks, especially with the aim of inducing forgetting. In this paper, we introduce "BrainWash," a novel data poisoning method tailored to impose forgetting on a continual learner. By adding the BrainWash noise to a variety of baselines, we demonstrate how a trained continual learner can be induced to forget its previously learned tasks catastrophically, even when using these continual learning baselines. An important feature of our approach is that the attacker requires no access to previous tasks' data and is armed merely with the model's current parameters and the data belonging to the most recent task. Our extensive experiments highlight the efficacy of BrainWash, showcasing degradation in performance across various regularization-based continual learning methods.
翻訳日:2023-11-21 17:24:21 公開日:2023-11-20
# コンピュータビジョンにおける口唇分割法の検討:比較分析

Exploring Lip Segmentation Techniques in Computer Vision: A Comparative Analysis ( http://arxiv.org/abs/2311.11992v1 )

ライセンス: Link先を確認
Pietro B. S. Masur and Francisco Braulio Oliveira and Lucas Moreira Medino and Emanuel Huber and Milene Haraguchi Padilha and Cassio de Alcantara and Renata Sellaro(参考訳) リップセグメンテーションはコンピュータビジョン、特にリップリーディングにおいて重要である。 顔のセグメンテーションの研究にもかかわらず、唇のセグメンテーションは注目されている。 本研究の目的は,標準設定と公開データセットを用いて,最先端のリップセグメンテーションモデルを比較することである。 EHANet、Mask2Former、BiSeNet V2、PIDNet、STDC1の5つのテクニックは、報告されたパフォーマンス、推測時間、コード可用性、信頼性、人気度に基づいて定性的に選択される。 手動アノテーション付き顔画像からなるcelebamask-hqデータセットを用いて、選択したモデルの唇セグメンテーション性能を適切に評価する。 限定された計算資源をエミュレートするためにraspberry pi4で推論実験を行う。 その結果, Mask2Former と EHANet はmIoU スコアで最高の性能を示した。 BiSeNet V2は競合性能を示し、PIDNetはリコール時に優れているが精度は低い。 ほとんどのモデルでは、raspberry pi4上で1000ミリ秒から約3000ミリ秒の推論時間があり、pidnetは平均推定時間が最も低い。 本研究は,リップセグメンテーションモデルの総合評価を行い,その性能と推測時間を明らかにする。 この発見は,特にIoTやエッジコンピューティングのシナリオにおいて,リップセグメンテーションの今後の進歩のための,軽量な技術開発とベンチマークの確立に寄与する。

Lip segmentation is crucial in computer vision, especially for lip reading. Despite extensive face segmentation research, lip segmentation has received limited attention. The aim of this study is to compare state-of-the-art lip segmentation models using a standardized setting and a publicly available dataset. Five techniques, namely EHANet, Mask2Former, BiSeNet V2, PIDNet, and STDC1, are qualitatively selected based on their reported performance, inference time, code availability, recency, and popularity. The CelebAMask-HQ dataset, comprising manually annotated face images, is used to fairly assess the lip segmentation performance of the selected models. Inference experiments are conducted on a Raspberry Pi4 to emulate limited computational resources. The results show that Mask2Former and EHANet have the best performances in terms of mIoU score. BiSeNet V2 demonstrate competitive performance, while PIDNet excels in recall but has lower precision. Most models present inference time ranging from 1000 to around 3000 milliseconds on a Raspberry Pi4, with PIDNet having the lowest mean inference time. This study provides a comprehensive evaluation of lip segmentation models, highlighting their performance and inference times. The findings contribute to the development of lightweight techniques and establish benchmarks for future advances in lip segmentation, especially in IoT and edge computing scenarios.
翻訳日:2023-11-21 17:24:07 公開日:2023-11-20
# Wurtzite AlNの高速及び量子精度熱シミュレーションのためのマシンラーニング原子クラスター膨張電位

Machine-Learned Atomic Cluster Expansion Potentials for Fast and Quantum-Accurate Thermal Simulations of Wurtzite AlN ( http://arxiv.org/abs/2311.11990v1 )

ライセンス: Link先を確認
Guang Yang, Yuan-Bin Liu, Lei Yang, Bing-Yang Cao(参考訳) 本研究では, 原子クラスター展開(ACE)フレームワークを用いて, 窒化ウルツイトアルミニウムのフォノン輸送特性を高速かつ正確にモデル化するための機械学習原子間ポテンシャルを開発した。 密度汎関数理論(英語版)(dft)に対するaceポテンシャルの予測力は、基底状態格子パラメータ、比熱容量、熱膨張係数、バルク弾性率、高調波フォノン分散を含む、w-alnの幅広い性質にわたって実証されている。 さらに、ACE予測値とDFT計算および実験値を比較し、無調波フォノン相互作用を十分に記述する上でのACEポテンシャルの全体的な能力を示すことにより、格子熱伝導率の検証を行う。 本稿では,w-AlN系電子の近接接合熱設計のための重要なチューニング因子として同定されたw-AlNの熱伝導率とフォノン特性に及ぼす二軸ひずみの影響を明らかにするためのポテンシャルを用いた格子動力学解析を行う。

Using the atomic cluster expansion (ACE) framework, we develop a machine learning interatomic potential for fast and accurately modelling the phonon transport properties of wurtzite aluminum nitride. The predictive power of the ACE potential against density functional theory (DFT) is demonstrated across a broad range of properties of w-AlN, including ground-state lattice parameters, specific heat capacity, coefficients of thermal expansion, bulk modulus, and harmonic phonon dispersions. Validation of lattice thermal conductivity is further carried out by comparing the ACE-predicted values to the DFT calculations and experiments, exhibiting the overall capability of our ACE potential in sufficiently describing anharmonic phonon interactions. As a practical application, we perform a lattice dynamics analysis using the potential to unravel the effects of biaxial strains on thermal conductivity and phonon properties of w-AlN, which is identified as a significant tuning factor for near-junction thermal design of w-AlN-based electronics.
翻訳日:2023-11-21 17:23:43 公開日:2023-11-20
# 犬の視覚環境の分類と視覚注意の分析

Categorizing the Visual Environment and Analyzing the Visual Attention of Dogs ( http://arxiv.org/abs/2311.11988v1 )

ライセンス: Link先を確認
Shreyas Sundara Raman, Madeline H. Pelgrim, Daphna Buchsbaum and Thomas Serre(参考訳) 犬は人間と独特の進化的関係を持ち、探索や救助、盲目の援助、感情的支援など、多くの重要な役割を担っている。 しかし、犬に利用可能な視覚特徴やオブジェクトを分類するためのデータセットは少なく、犬がどのようにして環境の中で視覚的な注意を向けるかもわからない。 11,698点以上の視線を持つデータセットを収集・調査し,大学キャンパスや都市部を歩き回る屋外環境において,11匹の犬が視認できる対象を分類した。 本研究は,頭部装着眼球追跡装置を用いて,これらの対象カテゴリの利用可能性と,これらのカテゴリに対する犬の視覚的注意力について検討した。 収集されたデータの小さな部分(約600画像または全データセットの20%)を用いて、新しい画像領域のMaskRCNNを微調整し、シーンに存在するオブジェクトをセグメント化し、犬の視線傾向のさらなる統計的解析を可能にする。 目追跡装置を備えたMaskRCNNは、犬の視覚的固定を自動的に分類するエンドエンドエンドモデルとして機能する。 微調整されたMaskRCNNは、偶然よりもはるかに優れている。 11匹の犬の間には個人差がほとんどなく、バス、植物、舗装、建設設備の視認性が向上している。 この研究は、犬の視覚行動とその物理的世界との相互作用を理解するための一歩を踏み出します。

Dogs have a unique evolutionary relationship with humans and serve many important roles e.g. search and rescue, blind assistance, emotional support. However, few datasets exist to categorize visual features and objects available to dogs, as well as how dogs direct their visual attention within their environment. We collect and study a dataset with over 11,698 gazes to categorize the objects available to be gazed at by 11 dogs in everyday outdoor environments i.e. a walk around a college campus and urban area. We explore the availability of these object categories and the visual attention of dogs over these categories using a head mounted eye tracking apparatus. A small portion (approx. 600 images or < 20% of total dataset) of the collected data is used to fine tune a MaskRCNN for the novel image domain to segment objects present in the scene, enabling further statistical analysis on the visual gaze tendencies of dogs. The MaskRCNN, with eye tracking apparatus, serves as an end to end model for automatically classifying the visual fixations of dogs. The fine tuned MaskRCNN performs far better than chance. There are few individual differences between the 11 dogs and we observe greater visual fixations on buses, plants, pavement, and construction equipment. This work takes a step towards understanding visual behavior of dogs and their interaction with the physical world.
翻訳日:2023-11-21 17:23:22 公開日:2023-11-20