このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240208となっている論文です。

PDF登録状況(公開日: 20240208)

TitleAuthorsAbstract論文公表日・翻訳日
# LightningNet: エッジ用の分散グラフベースのセルラーネットワークパフォーマンス予測

LightningNet: Distributed Graph-based Cellular Network Performance Forecasting for the Edge ( http://arxiv.org/abs/2403.18810v1 )

ライセンス: Link先を確認
Konstantinos Zacharopoulos, Georgios Koutroumpas, Ioannis Arapakis, Konstantinos Georgopoulos, Javad Khangosstar, Sotiris Ioannidis, (参考訳) セルラーネットワークは、ユビキタスモビリティをサポートする唯一のグローバルスケールのインフラであるため、インターネットアクセスにおいて重要な役割を担っている。 大規模なネットワークを管理し維持するには、モバイルネットワークオペレーターは、タイムリーな情報、あるいは正確なパフォーマンス予測を必要とする。 本稿では,セルラーネットワークの性能を予測する軽量で分散グラフベースのフレームワークLightningNetを提案する。 LightningNetは、同様のリソース使用プロファイルを維持しながら、最先端の予測技術よりも安定したパフォーマンス向上を実現している。 私たちのアーキテクチャイデオロギーは、IoTとエッジデバイスをサポートするように設計されているという点でも優れています。

The cellular network plays a pivotal role in providing Internet access, since it is the only global-scale infrastructure with ubiquitous mobility support. To manage and maintain large-scale networks, mobile network operators require timely information, or even accurate performance forecasts. In this paper, we propose LightningNet, a lightweight and distributed graph-based framework for forecasting cellular network performance, which can capture spatio-temporal dependencies that arise in the network traffic. LightningNet achieves a steady performance increase over state-of-the-art forecasting techniques, while maintaining a similar resource usage profile. Our architecture ideology also excels in the respect that it is specifically designed to support IoT and edge devices, giving us an even greater step ahead of the current state-of-the-art, as indicated by our performance experiments with NVIDIA Jetson.
翻訳日:2024-04-01 02:34:48 公開日:2024-02-08
# ゼロトラストIoTセキュリティのためのドメイン非依存型ハードウェアフィンガープリントベースデバイス識別器

Domain-Agnostic Hardware Fingerprinting-Based Device Identifier for Zero-Trust IoT Security ( http://arxiv.org/abs/2402.05332v1 )

ライセンス: Link先を確認
Abdurrahman Elmaghbub, Bechir Hamdaoui, (参考訳) 次世代ネットワークは、人間、機械、デバイス、システムをシームレスに相互接続することを目的としている。 この相互接続性は、単一の妥協によるネットワーク全体の影響を考えると、プライバシとセキュリティに関する懸念を提起する。 この課題に対処するため、Zero Trust(ZT)パラダイムは、ネットワークの完全性とデータの機密性を保護するための重要な方法として登場した。 EPS-CNNは、ZTアーキテクチャ内のデバイス認証層として機能するように設計された、新しいディープラーニングベースの無線デバイス識別フレームワークである。 EPS-CNNのコアでは、畳み込みニューラルネットワーク(CNN)を使用して、デバイス非関連情報を無視しながらデバイス固有のハードウェア特性を効果的にキャプチャするDouble-Sided Envelope Power Spectrum(EPS)と呼ばれる独自のRF信号表現からデバイスIDを生成する。 実験により, 同ドメイン(日, 位置, チャネル), クロスロケーションシナリオ, クロスロケーションシナリオにおいて, 99%以上, 93%以上, 95%以上のテスト精度が得られた。 本研究は,深層学習手法の精度,堅牢性,適応性を向上する上で,提案手法が優れていることを示し,ZT IoTデバイス識別を可能にする先駆的なソリューションを提供する。

Next-generation networks aim for comprehensive connectivity, interconnecting humans, machines, devices, and systems seamlessly. This interconnectivity raises concerns about privacy and security, given the potential network-wide impact of a single compromise. To address this challenge, the Zero Trust (ZT) paradigm emerges as a key method for safeguarding network integrity and data confidentiality. This work introduces EPS-CNN, a novel deep-learning-based wireless device identification framework designed to serve as the device authentication layer within the ZT architecture, with a focus on resource-constrained IoT devices. At the core of EPS-CNN, a Convolutional Neural Network (CNN) is utilized to generate the device identity from a unique RF signal representation, known as the Double-Sided Envelope Power Spectrum (EPS), which effectively captures the device-specific hardware characteristics while ignoring device-unrelated information. Experimental evaluations show that the proposed framework achieves over 99%, 93%, and 95% testing accuracy when tested in same-domain (day, location, and channel), cross-day, and cross-location scenarios, respectively. Our findings demonstrate the superiority of the proposed framework in enhancing the accuracy, robustness, and adaptability of deep learning-based methods, thus offering a pioneering solution for enabling ZT IoT device identification.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-08
# プロキシ再暗号化, IPFS, ブロックチェーンの統合による電子カルテの商用化, 分散化, ストアリング

A Solution for Commercializing, Decentralizing and Storing Electronic Medical Records by Integrating Proxy Re-Encryption, IPFS, and Blockchain ( http://arxiv.org/abs/2402.05498v1 )

ライセンス: Link先を確認
Phong Tran, Thong Nguyen, Long Chu, Nhi Tran, Hang Ta, (参考訳) グローバルシステム全体でのユーザ医療記録の急速な拡大は、機会だけでなく、ユーザのプライバシ、コントロール可能性、患者の医療記録を商業化する能力を保証する効果的なアプリケーションモデルを維持する上での新たな課題も示している。 さらに、医療機関におけるデータ分析モデルの普及は、医療記録データの分散化と復元性を必要とする。 これらのシステムから収集されたユーザ医療データは、収集後数年も簡単に分析・活用でき、多くの要因によるデータ損失のリスクを伴わないことが重要である。 さらに、医療情報はデータ所有者によって認可され、患者に医療研究機関からのデータ使用要求を受け入れ、拒否する権利を与える必要がある。 そこで本研究では,EVM互換のブロックチェーンとIPFSを用いた分散ストレージを実現するための革新的なソリューションを提案する。 プライバシとコントロールを確保するため,医療データマーケットプレースでは,PRE(Proxy Re-Encryption)という暗号認証方式を採用しています。 提案アーキテクチャは,記録記録の暗号化と復号化を最小化することにより,医療研究機関への読み取りアクセスを許可するコストを大幅に削減する。 さらに、ブロックチェーンのスマートコントラクトとIPFSを通じて、医療データのコントロールを強化し、医療記録の完全性とプライバシを保護します。

The rapid expansion of user medical records across global systems presents not only opportunities but also new challenges in maintaining effective application models that ensure user privacy, controllability, and the ability to commercialize patient medical records. Moreover, the proliferation of data analysis models in healthcare institutions necessitates the decentralization and restorability of medical record data. It is imperative that user medical data collected from these systems can be easily analyzed and utilized even years after collection, without the risk of data loss due to numerous factors. Additionally, medical information must be authorized by the data owner, granting patients the right to accept or decline data usage requests from medical research agencies. In response, we propose an innovative solution for implementing a decentralized system utilizing an EVM-compatible blockchain and IPFS for decentralized storage. To ensure privacy and control, we employ Proxy Re-Encryption (PRE), a cryptographic authorized method, within the medical data marketplace. Our proposed architecture significantly reduces costs associated with granting read access to healthcare research agencies by minimizing the encryption and decryption time of stored records. Furthermore, it empowers users with enhanced control over their health data through tamperproof blockchain smart contracts and IPFS, safeguarding the integrity and privacy of their medical records.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-08
# ブロックチェーンに基づく家庭用スマートレント

Blockchain Based Residential Smart Rent ( http://arxiv.org/abs/2402.05737v1 )

ライセンス: Link先を確認
André S. Proença, Tiago R. Dias, Miguel P. Correia, (参考訳) 不動産市場は複雑で非効率な仲介プロセスを含んでいる。 資産の賃貸は、異なる責任と利益を持つ複数のエンティティを巻き込む。 そのため、公証人、銀行、不動産代理店などを通じて当事者間の信頼関係を築き、最終的な紛争を避けることが不可欠である。 仲介者は信頼を保証しますが、現在のプロセスには、効率、コスト、透明性、官僚主義、データセキュリティに関するいくつかの欠点があります。 ブロックチェーン技術は、透過的でセキュアな不動産取引を提供することで、この問題を軽減することを目指している。 本稿では、GDPRに準拠したブロックチェーンベースの住宅向けスマートレンタルプラットフォームを提案する。

The real estate market includes complex and inefficient mediation processes. Renting a property envolves multiple entities with different responsibilities and interests. Therefore it is imperative to establish a trustful relationship between parties through intermediaries such as notaries, banks or real estate agencies to avoid eventual disputes. Although an intermediary ensures trust, the current process still has some drawbacks concerning efficiency, costs, transparency, bureaucracy and data security. The blockchain technology aims to reduce this issues by providing transparent and secure real estate transactions. We propose a GDPR compliant blockchain-based residential smart rental platform, designed to allow both landlords and tenants to establish rental contracts and make rental payments securely.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-08
# サムチェックプロトコルの形式的検証

Formal Verification of the Sumcheck Protocol ( http://arxiv.org/abs/2402.06093v1 )

ライセンス: Link先を確認
Azucena Garvía Bosshard, Jonathan Bootle, Christoph Sprenger, (参考訳) 1992年に導入されたsumcheckプロトコルは、計算複雑性理論や暗号における多くの確率的証明システムの鍵となる、対話的な証明である。 しかし、この総括プロトコルに基づく証明システムには、公式に検証されたセキュリティ分析が存在しない。 本稿では,対話型定理証明器Isabelle/HOLを用いて,要約プロトコルの正式なセキュリティ解析を行うことにより,この方向を進展させる。 私たちは汎用的でモジュール化されたアプローチに従います。 まず、公開コインインタラクティブな証明を一般化する。 次に、基礎となる数学的構造を公理化し、その健全性と完全性を確立するための一般化された総括プロトコルを定義する。 最後に、これらの公理が、和チェックプロトコルの元々の設定である多変量多項式に対して成り立つことを証明した。 我々のモジュラー解析は、これらの構造が公理を満たすことを単純に証明することによって、異なる数学的構造に基づく要約インスタンスの形式的検証を容易にする。 さらに、この分析は、sumcheckプロトコルをビルディングブロックとして使用して、将来の暗号プロトコルの開発と形式検証を支援する。

The sumcheck protocol, introduced in 1992, is an interactive proof which is a key component of many probabilistic proof systems in computational complexity theory and cryptography, some of which have been deployed. However, none of these proof systems based on the sumcheck protocol enjoy a formally-verified security analysis. In this paper, we make progress in this direction by providing a formally verified security analysis of the sumcheck protocol using the interactive theorem prover Isabelle/HOL. We follow a general and modular approach. First, we give a general formalization of public-coin interactive proofs. We then define a generalized sumcheck protocol for which we axiomatize the underlying mathematical structure and we establish its soundness and completeness. Finally, we prove that these axioms hold for multivariate polynomials, the original setting of the sumcheck protocol. Our modular analysis facilitates formal verification of sumcheck instances based on different mathematical structures with little effort, by simply proving that these structures satisfy the axioms. Moreover, the analysis supports the development and formal verification of future cryptographic protocols using the sumcheck protocol as a building block.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-08
# AI倫理開発に関する文献的考察

A Bibliometric View of AI Ethics Development ( http://arxiv.org/abs/2403.05551v1 )

ライセンス: Link先を確認
Di Kevin Gao, Andrew Haverly, Sudip Mittal, Jingdao Chen, (参考訳) 人工知能(AI)倫理は生まれながら重要な研究分野である。 生成AIと基礎モデルの最近の発展は、AI倫理の問題を再考する必要がある。 本研究では,キーワード検索に基づく過去20年間のAI倫理文献の文献分析を行う。 我々の研究では、AI倫理における3段階の開発、すなわちインキュベーションフェーズ、AI人間のようなマシンフェーズ、AI人間中心のマシンフェーズが明らかにされている。 AI倫理の次のフェーズは、AIが人間とマッチしたり、知的に超えたりすることで、AIをより機械的なものにすることに集中する可能性が高いと推測する。

Artificial Intelligence (AI) Ethics is a nascent yet critical research field. Recent developments in generative AI and foundational models necessitate a renewed look at the problem of AI Ethics. In this study, we perform a bibliometric analysis of AI Ethics literature for the last 20 years based on keyword search. Our study reveals a three-phase development in AI Ethics, namely an incubation phase, making AI human-like machines phase, and making AI human-centric machines phase. We conjecture that the next phase of AI ethics is likely to focus on making AI more machine-like as AI matches or surpasses humans intellectually, a term we coin as "machine-like human".
翻訳日:2024-03-18 06:19:57 公開日:2024-02-08
# ブレンド学習大学における学業成績予測のためのマルチソース・マルチモーダルデータ融合

Multi-source and multimodal data fusion for predicting academic performance in blended learning university courses ( http://arxiv.org/abs/2403.05552v1 )

ライセンス: Link先を確認
W. Chango, R. Cerezo, C. Romero, (参考訳) 本稿では,ブレンド学習環境から得られたマルチモーダルデータを用いて,大学生の最終学業成績を予測するためにデータ融合手法を適用した。 理論授業,実践セッション,オンラインMoodleセッション,最終試験など,さまざまなソースから1年生のデータを収集し,前処理した。 我々の目的は、データを使ってどのデータ融合アプローチが最良の結果をもたらすかを見つけることであった。 4つの異なるデータ融合手法と6つの分類アルゴリズムを適用して実験を行った。 その結果, 最適な予測はアンサンブルを用いて生成され, 識別データを用いた最適な属性選択が可能であることがわかった。 最高の予測モデルから,理論授業における注目度,Moodleクイズにおける得点,およびMoodleフォーラムにおける活動度が,本コースにおける学生の最終成績を予測する上での最善の属性セットであることが示唆された。

In this paper we applied data fusion approaches for predicting the final academic performance of university students using multiple-source, multimodal data from blended learning environments. We collected and preprocessed data about first-year university students from different sources: theory classes, practical sessions, on-line Moodle sessions, and a final exam. Our objective was to discover which data fusion approach produced the best results using our data. We carried out experiments by applying four different data fusion approaches and six classification algorithms. The results showed that the best predictions were produced using ensembles and selecting the best attributes approach with discretized data. The best prediction models showed us that the level of attention in theory classes, scores in Moodle quizzes, and the level of activity in Moodle forums were the best set of attributes for predicting students' final performance in our courses.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-08
# Public Sector Sustainable Energy Scheduler -- ブロックチェーンとIoT統合システム

Public Sector Sustainable Energy Scheduler -- A Blockchain and IoT Integrated System ( http://arxiv.org/abs/2403.07895v1 )

ライセンス: Link先を確認
Renan Lima Baima, Iván Abellán Álvarez, Ivan Pavić, Emanuela Podda, (参考訳) 欧州委員会が2050年までに二酸化炭素排出量を削減するという目標に応えて、公共インフラにおける低炭素エネルギー消費を促進するための最先端のソリューションの必要性が高まっている。 本稿では,ブロックチェーンとモノのインターネット(IoT)の透明性と不変性を統合した概念実証(PoC)を導入する。 システム設計は予測と最適化のフレームワークを利用し、パブリックセクターブロックチェーン上でのヒートポンプのスケジュール動作を記述します。 ブロックチェーンに利用メトリクスを登録することは、エネルギー保護の検証を促進し、公共エネルギー消費の透明性を可能にし、エネルギー使用パターンに対する一般の認識を高める。 このシステムは電気式ヒートポンプの運転を微調整し、高再生可能エネルギー発生時に発生する電力系統の低炭素排出期間中の使用を優先する。 適応的な温度設定とスケジュールにより、公共の場所でのエネルギー管理が可能になるが、ブロックチェーンの処理能力とレイテンシは、スケーラビリティの限界を設定するボトルネックを表す可能性がある。 しかし、概念実証の弱点やその他の障壁は、パブリックセクターのブロックチェーンのアドバンテージに取って代わられ、ブロックチェーンとIoTのシナジーを完全に活用して、持続可能な低炭素エネルギーをパブリックドメインで活用する将来の研究と技術革新につながります。

In response to the European Commission's aim of cutting carbon emissions by 2050, there is a growing need for cutting-edge solutions to promote low-carbon energy consumption in public infrastructures. This paper introduces a Proof of Concept (PoC) that integrates the transparency and immutability of blockchain and the Internet of Things (IoT) to enhance energy efficiency in tangible government-held public assets, focusing on curbing carbon emissions. Our system design utilizes a forecasting and optimization framework, inscribing the scheduled operations of heat pumps on a public sector blockchain. Registering usage metrics on the blockchain facilitates the verification of energy conservation, allows transparency in public energy consumption, and augments public awareness of energy usage patterns. The system fine-tunes the operations of electric heat pumps, prioritizing their use during low-carbon emission periods in power systems occurring during high renewable energy generations. Adaptive temperature configuration and schedules enable energy management in public venues, but blockchains' processing power and latency may represent bottlenecks setting scalability limits. However, the proof-of-concept weakness and other barriers are surpassed by the public sector blockchain advantages, leading to future research and tech innovations to fully exploit the synergies of blockchain and IoT in harnessing sustainable, low-carbon energy in the public domain.
翻訳日:2024-03-18 06:00:28 公開日:2024-02-08
# ディープフェイク検出と限られた計算能力の影響

Deepfake Detection and the Impact of Limited Computing Capabilities ( http://arxiv.org/abs/2402.14825v1 )

ライセンス: Link先を確認
Paloma Cantero-Arjona, Alfonso S\'anchez-Maci\'an(参考訳) テクノロジーと人工知能の急速な発展により、deepfakesはますます洗練され、特定に挑戦的な技術になりつつある。 情報の正確性を確保し、誤情報や大量操作を制御するためには、偽造ビデオの汎用的検出を可能にする人工知能モデルの発見と開発が極めて重要である。 この研究は、限られたコンピューティングリソースを持つシナリオにおいて、既存のさまざまなデータセットにわたるディープフェイクの検出に対処することを目的としている。 目標は、これらの制限の下で異なるディープラーニング技術の適用性を分析し、その効率を高めるための可能なアプローチを探ることである。

The rapid development of technologies and artificial intelligence makes deepfakes an increasingly sophisticated and challenging-to-identify technique. To ensure the accuracy of information and control misinformation and mass manipulation, it is of paramount importance to discover and develop artificial intelligence models that enable the generic detection of forged videos. This work aims to address the detection of deepfakes across various existing datasets in a scenario with limited computing resources. The goal is to analyze the applicability of different deep learning techniques under these restrictions and explore possible approaches to enhance their efficiency.
翻訳日:2024-03-03 19:35:37 公開日:2024-02-08
# パーソナライズされた言語学習のための大規模言語モデル拡張型エクササイズ検索

Large Language Model Augmented Exercise Retrieval for Personalized Language Learning ( http://arxiv.org/abs/2402.16877v1 )

ライセンス: Link先を確認
Austin Xu, Will Monroe, Klinton Bicknell(参考訳) 本研究では,オンライン学習におけるゼロショットエクササイズ検索の問題点を考察し,学習者が自然言語を介して個別のエクササイズを明示的に要求できる能力を提供する。 言語学習者から収集された実世界のデータを用いて、ベクトル類似性アプローチは、学習者が学習したいことを表現するために使用するエクササイズコンテンツと言語との関係をうまく捉えていないことを観察する。 このクエリとコンテンツ間のセマンティックなギャップは、MS MARCOのような大規模情報検索データセットで事前訓練された汎用検索モデルの有効性を劇的に低下させる。 学習者の入力に基づいて仮説的なエクササイズを合成し,関連するエクササイズを探索することで,大きな言語モデルの生成能力を活用してギャップを橋渡しする。 我々はmHyERと呼ぶアプローチを,(1)学習における関連ラベルの欠如,(2)制限なし学習者の入力内容,(3)入力候補と検索候補とのセマンティックな類似性の低さという3つの課題を克服する。 mHyERは、クラウドソースデータと公開データから生成された2つの新しいベンチマークで、いくつかの強力なベースラインを上回ります。

We study the problem of zero-shot exercise retrieval in the context of online language learning, to give learners the ability to explicitly request personalized exercises via natural language. Using real-world data collected from language learners, we observe that vector similarity approaches poorly capture the relationship between exercise content and the language that learners use to express what they want to learn. This semantic gap between queries and content dramatically reduces the effectiveness of general-purpose retrieval models pretrained on large scale information retrieval datasets like MS MARCO. We leverage the generative capabilities of large language models to bridge the gap by synthesizing hypothetical exercises based on the learner's input, which are then used to search for relevant exercises. Our approach, which we call mHyER, overcomes three challenges: (1) lack of relevance labels for training, (2) unrestricted learner input content, and (3) low semantic similarity between input and retrieval candidates. mHyER outperforms several strong baselines on two novel benchmarks created from crowdsourced data and publicly available data.
翻訳日:2024-03-03 19:21:31 公開日:2024-02-08
# テキストデータストリームにおけるドリフトハッシュタグの時間的解析:グラフベースアプリケーション

Temporal Analysis of Drifting Hashtags in Textual Data Streams: A Graph-Based Application ( http://arxiv.org/abs/2402.10230v1 )

ライセンス: Link先を確認
Cristiano M. Garcia and Alceu de Souza Britto Jr and Jean Paul Barddal(参考訳) ソーシャルメディアは出現以来重要な役割を果たしてきた。 人々はインターネットを使って何かについて意見を述べ、ソーシャルメディアプラットフォームをソーシャルセンサーにする。 Twitterが当初サポートしていたハッシュタグは現在、いくつかのソーシャルメディアプラットフォームで利用されている。 ハッシュタグは、類似トピックのタグ付け、追跡、グループ投稿に役立ちます。 本稿では,グラフ解析とテキストデータストリームの概念を用いてハッシュタグのドリフトを時間とともに分析し,年次スナップショットのハッシュタグコミュニティを明らかにする。 具体的には、2018年から2022年の間に#mybodymychoiceハッシュタグを分析した。 さらに、この研究で見つかったハッシュタグに関する洞察も提供します。 さらに,私たちのアプローチは,ソーシャルメディア上のエンティティに関する意見や感情パターンの変化を時間とともに監視する上で有用である。 ハッシュタグ#mybodymychoiceは、当初は女性の権利、中絶、身体自治と結びついていたが、我々は、薬物の合法化、予防接種、政治抗議、戦争、公民権など、研究期間中に漂流したことを観察した。 2021年は最も大きな漂流年であり、検出された地域社会は#mybodymychoiceがワクチン接種やcovid-19関連の話題に著しく漂流したことを示唆している。

Social media has played an important role since its emergence. People use the internet to express opinions about anything, making social media platforms a social sensor. Initially supported by Twitter, the hashtags are now in use on several social media platforms. Hashtags are helpful to tag, track, and group posts on similar topics. In this paper, we analyze hashtag drifts over time using concepts from graph analysis and textual data streams using the Girvan-Newman method to uncover hashtag communities in annual snapshots. More specifically, we analyzed the #mybodymychoice hashtag between 2018 and 2022. In addition, we offer insights about some hashtags found in the study. Furthermore, our approach can be useful for monitoring changes over time in opinions and sentiment patterns about an entity on social media. Even though the hashtag #mybodymychoice was initially coupled with women's rights, abortion, and bodily autonomy, we observe that it suffered drifts during the studied period across topics such as drug legalization, vaccination, political protests, war, and civil rights. The year 2021 was the most significant drifting year, in which the communities detected suggest that #mybodymychoice significantly drifted to vaccination and Covid-19-related topics.
翻訳日:2024-02-25 17:17:23 公開日:2024-02-08
# Mixture-Models: さまざまなミックスモデルを使用したモデルベースクラスタリングのためのワンストップPythonライブラリ

Mixture-Models: a one-stop Python Library for Model-based Clustering using various Mixture Models ( http://arxiv.org/abs/2402.10229v1 )

ライセンス: Link先を確認
Siva Rajesh Kasa, Hu Yijie, Santhosh Kumar Kasa, Vaibhav Rajan(参考訳) \texttt{Mixture-Models}は、ガウス混合モデル(GMM)とその変種(Parsimonious GMMs、Mixture of Factor Analyzers、MClust Model、Mixture of Students's t distributionsなど)を適合させるオープンソースのPythonライブラリである。 Gradient Descent や Newton-CG など,これらのモデルの実装と解析を,自動微分 (AD) ツールを通じて効率化する。 これはこれらのモデルを高次元のデータに拡張するのに役立ちます。 このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。 ソースコードはMITライセンスでライセンスされており、 \url{https://github.com/kasakh/Mixture-Models}でアクセスできる。 このパッケージは拡張性が高く、新しいディストリビューションや最適化技術を簡単に組み込むことができる。 大規模シミュレーションを行い,幅広い設定において予測最大化に対する様々な勾配に基づくアプローチの性能を比較し,対応する最適手法を同定する。

\texttt{Mixture-Models} is an open-source Python library for fitting Gaussian Mixture Models (GMM) and their variants, such as Parsimonious GMMs, Mixture of Factor Analyzers, MClust models, Mixture of Student's t distributions, etc. It streamlines the implementation and analysis of these models using various first/second order optimization routines such as Gradient Descent and Newton-CG through automatic differentiation (AD) tools. This helps in extending these models to high-dimensional data, which is first of its kind among Python libraries. The library provides user-friendly model evaluation tools, such as BIC, AIC, and log-likelihood estimation. The source-code is licensed under MIT license and can be accessed at \url{https://github.com/kasakh/Mixture-Models}. The package is highly extensible, allowing users to incorporate new distributions and optimization techniques with ease. We conduct a large scale simulation to compare the performance of various gradient based approaches against Expectation Maximization on a wide range of settings and identify the corresponding best suited approach.
翻訳日:2024-02-25 17:16:58 公開日:2024-02-08
# オープンソースのアラビア文字OCRの進歩と限界--事例研究

Advances and Limitations in Open Source Arabic-Script OCR: A Case Study ( http://arxiv.org/abs/2402.10943v1 )

ライセンス: Link先を確認
Benjamin Kiessling (PSL), Gennady Kurin, Matthew Thomas Miller, Kader Smail(参考訳) 本研究は,オープンソースのocrエンジンであるkrakenについて,アラビア語学術誌al-abhathで正確な研究を行っている。 他の市販のOCRエンジンとは対照的に、クラケンは高度に正確なアラビア文字のOCRを生成することができる。 この研究はまた、al-abhathデータにおけるフォント固有および一般化モデルの相対的精度を評価し、'エラーインスタンス'とocrの誤認識に寄与したかもしれない文脈的特徴のマイクロ分析を提供する。 この分析に基づいて、アラビア文字のOCRは、(1)データ生産のより体系的なアプローチ、(2)鍵となる技術コンポーネント、特に多言語モデルの開発、およびラインセグメンテーションとレイアウト解析の改善により、大幅に改善できると主張している。 Cet article pr{\'e}sente une {\'e}tude d'exactitude du moteur ROC open source, Krakan, sur la revue acad{\'e}mique arabe de premier rang, al-Abhath。 比較論 {\`a} d'autres moteurs ROC disponibles sur le march{\'e}, Kraken se r{\'e}v{\`e}le {\^e}tre capable de produire de la ROC extr{\^e}mement exacte de l'{\'e}criture arabe。 l'{\'e}tude {\'e} 値 aussi l'exactitude relative des mod{\`e}les sp{\'e}cifiquement configur{\'e}s {\`a} des polices et celle des mod{\`e}les g{\'e}n{\'e}ralis{\'e}s sur les donn{\'e}es d'al-abhath et fournit une microanalyse des "occurrences d'erreurs", ainsi qu'une microanalyse des {\'e}l{\'e}ments contextuels qui pourraient avoir contribu{\'e} {\`a} la m{\'e}reconance rociss rociss rociss rociss rociss rociss roc. l'al-abhath et fournit une microanalyse des "occurrences d'erreurs", ainsi qu'une microanalyse des {\'e}l{\'e}ments context S'appuyant sur cette analyse, cet article fait valoir que la ROC de l'{\'e}criture arabe peut {\^e}tre consid{\'e}rablement am{\'e}lior{\'e}e gr{\^a}ce {\`a} (1) une approche plus syst{\'e}matique d'entra{\^i}nement de la production de donn{\'e}es et (2) gr{\^a}ce au d{\'e}veloppement de composants technologiques classicamentaux, notammentl'am'e}lioration mod de l'e}les multiling de la liging de la liges et la la la la de la de laly page。

This work presents an accuracy study of the open source OCR engine, Kraken, on the leading Arabic scholarly journal, al-Abhath. In contrast with other commercially available OCR engines, Kraken is shown to be capable of producing highly accurate Arabic-script OCR. The study also assesses the relative accuracy of typeface-specific and generalized models on the al-Abhath data and provides a microanalysis of the ``error instances'' and the contextual features that may have contributed to OCR misrecognition. Building on this analysis, the paper argues that Arabic-script OCR can be significantly improved through (1) a more systematic approach to training data production, and (2) the development of key technological components, especially multi-language models and improved line segmentation and layout analysis. Cet article pr{\'e}sente une {\'e}tude d'exactitude du moteur ROC open source, Krakan, sur la revue acad{\'e}mique arabe de premier rang, al-Abhath. Contrairement {\`a} d'autres moteurs ROC disponibles sur le march{\'e}, Kraken se r{\'e}v{\`e}le {\^e}tre capable de produire de la ROC extr{\^e}mement exacte de l'{\'e}criture arabe. L'{\'e}tude {\'e}value aussi l'exactitude relative des mod{\`e}les sp{\'e}cifiquement configur{\'e}s {\`a} des polices et celle des mod{\`e}les g{\'e}n{\'e}ralis{\'e}s sur les donn{\'e}es d'al-Abhath et fournit une microanalyse des "occurrences d'erreurs", ainsi qu'une microanalyse des {\'e}l{\'e}ments contextuels qui pourraient avoir contribu{\'e} {\`a} la m{\'e}reconnaissance ROC. S'appuyant sur cette analyse, cet article fait valoir que la ROC de l'{\'e}criture arabe peut {\^e}tre consid{\'e}rablement am{\'e}lior{\'e}e gr{\^a}ce {\`a} (1) une approche plus syst{\'e}matique d'entra{\^i}nement de la production de donn{\'e}es et (2) gr{\^a}ce au d{\'e}veloppement de composants technologiques fondamentaux, notammentl'am{\'e}lioration des mod{\`e}les multilingues, de la segmentation de ligne et de l'analyse de la mise en page.
翻訳日:2024-02-25 17:06:18 公開日:2024-02-08
# Text2Data: テキスト制御による低リソースデータ生成

Text2Data: Low-Resource Data Generation with Textual Control ( http://arxiv.org/abs/2402.10941v1 )

ライセンス: Link先を確認
Shiyu Wang, Yihao Feng, Tian Lan, Ning Yu, Yu Bai, Ran Xu, Huan Wang, Caiming Xiong, Silvio Savarese(参考訳) 自然言語は人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。 このインターフェースの重要性を認識した機械学習コミュニティは、テキスト命令と意味的に一貫性のあるデータを生成することに多大な努力を払っている。 画像編集、音声合成、ビデオ作成などを含むテキスト・データ生成において進歩を遂げてきたが、高価なアノテーションや分子、モーションダイナミクス、時系列といった複雑なデータ構造を特徴とする低リソース領域は、しばしばテキストラベルを欠いている。 この欠陥は教師付き学習を妨げるため、テキストからデータへのタスクに対する高度な生成モデルの適用が制限される。 低リソースシナリオにおけるこれらの課題に対応して、ラベルなしデータを用いて教師なし拡散モデルを通じて基礎となるデータ分布を理解する新しいアプローチであるtext2dataを提案する。 その後、新しい制約最適化に基づく学習目標を通じて制御可能な微調整を行い、制御性を確保し、破滅的な忘れを効果的に防止する。 総合的な実験により、Text2Dataは、既存のベースラインと比較して、分子、モーション、時系列を含む様々なモードの制御性に関するパフォーマンスを向上できることを示した。

Natural language serves as a common and straightforward control signal for humans to interact seamlessly with machines. Recognizing the importance of this interface, the machine learning community is investing considerable effort in generating data that is semantically coherent with textual instructions. While strides have been made in text-to-data generation spanning image editing, audio synthesis, video creation, and beyond, low-resource areas characterized by expensive annotations or complex data structures, such as molecules, motion dynamics, and time series, often lack textual labels. This deficiency impedes supervised learning, thereby constraining the application of advanced generative models for text-to-data tasks. In response to these challenges in the low-resource scenario, we propose Text2Data, a novel approach that utilizes unlabeled data to understand the underlying data distribution through an unsupervised diffusion model. Subsequently, it undergoes controllable finetuning via a novel constraint optimization-based learning objective that ensures controllability and effectively counteracts catastrophic forgetting. Comprehensive experiments demonstrate that Text2Data is able to achieve enhanced performance regarding controllability across various modalities, including molecules, motions and time series, when compared to existing baselines.
翻訳日:2024-02-25 17:03:27 公開日:2024-02-08
# 被覆認識と強化学習による高精細地図更新サービスの強化

Enhancement of High-definition Map Update Service Through Coverage-aware and Reinforcement Learning ( http://arxiv.org/abs/2402.14582v1 )

ライセンス: Link先を確認
Jeffrey Redondo, Zhenhui Yuan, Nauman Aslam(参考訳) 高精細(HD)マップシステムは、従来の2次元(2D)マップよりも大幅に改善されているため、自動運転をより高いレベルに進める上で重要な役割を果たす。 HD Mapを作成するには、大量のオンロードとオフロードのデータが必要です。 通常、これらの生データセットは、車両ネットワークを介してクラウドベースのHDマップサービスプロバイダに収集され、アップロードされる。 それでも、動的トポロジのため、車載無線チャネル上で生データを伝送することは困難である。 車両の数が増加するにつれて、サービス品質への有害な影響があり、自動運転車(AV)における協調運転のためのリアルタイムHDマップシステムの障壁となる。 本稿では,ネットワークの混雑を克服するために,車両網のサービス品質とhdマップ更新を最適化するqラーニングカバレッジタイムアウェアネスアルゴリズムを提案する。 このアルゴリズムは、車両が立ち入りする動的なシナリオを模倣した環境で評価される。 その結果、hdマップデータのレイテンシは、qos(quality of service)なしのieee802.11p、qosによるieee802.11、hdマップ用の新しいアクセスカテゴリ(ac)付きieee802.11pと比較して75\%$、73\%$、および10\%$であった。

High-definition (HD) Map systems will play a pivotal role in advancing autonomous driving to a higher level, thanks to the significant improvement over traditional two-dimensional (2D) maps. Creating an HD Map requires a huge amount of on-road and off-road data. Typically, these raw datasets are collected and uploaded to cloud-based HD map service providers through vehicular networks. Nevertheless, there are challenges in transmitting the raw data over vehicular wireless channels due to the dynamic topology. As the number of vehicles increases, there is a detrimental impact on service quality, which acts as a barrier to a real-time HD Map system for collaborative driving in Autonomous Vehicles (AV). In this paper, to overcome network congestion, a Q-learning coverage-time-awareness algorithm is presented to optimize the quality of service for vehicular networks and HD map updates. The algorithm is evaluated in an environment that imitates a dynamic scenario where vehicles enter and leave. Results showed an improvement in latency for HD map data of $75\%$, $73\%$, and $10\%$ compared with IEEE802.11p without Quality of Service (QoS), IEEE802.11 with QoS, and IEEE802.11p with new access category (AC) for HD map, respectively.
翻訳日:2024-02-25 16:43:03 公開日:2024-02-08
# Savvy:信頼できる自動運転車アーキテクチャ

Savvy: Trustworthy Autonomous Vehicles Architecture ( http://arxiv.org/abs/2402.14580v1 )

ライセンス: Link先を確認
Ali Shoker, Rehana Yasmin, Paulo Esteves-Verissimo(参考訳) 自動運転車(av)への関心の高まりは、ビジネス、安全性、性能上の理由から注目される。 近年のAVアーキテクチャでは、AIモデルの進歩によって大きな成功を収めているが、完全なAVが主流になることを妨げる致命的なインシデントが増えている。 これにより、安全クリティカルなAVアーキテクチャ構築の基礎を再考する必要がある。 しかし、この方向はAIの力を活用することを妨げてはならない。 この目的のために、我々は両世界のベストを達成する新しい信頼に値するインテリジェントavアーキテクチャであるsavvyを提案する。 Savvyは、安全優先原則を保証するために、コントロールプレーンとデータプレーンを明確に分離する。 前者は、設計時定義のルールを使用して安全を確保するために制御を仮定し、後者は、安全時限内で可能な限り決定を最適化するために開始する。 これは、ガイド付きタイムアウェアの予測品質劣化(TPQD)によって実現される: 利用可能な安全時間境界に基づいて、よりリッチまたはより高速なアウトプットを提供するようにチューニング可能な動的MLモデルを使用する。 例えば、サビーは象が遅すぎるときに象として最適に認識するのではなく、できるだけ早く障害物(単なる物体)として安全に識別することができる。 本稿では,経験的評価が進行中であるのに対し,本研究の動機と概念について述べる。

The increasing interest in Autonomous Vehicles (AV) is notable due to business, safety, and performance reasons. While there is salient success in recent AV architectures, hinging on the advancements in AI models, there is a growing number of fatal incidents that impedes full AVs from going mainstream. This calls for the need to revisit the fundamentals of building safety-critical AV architectures. However, this direction should not deter leveraging the power of AI. To this end, we propose Savvy, a new trustworthy intelligent AV architecture that achieves the best of both worlds. Savvy makes a clear separation between the control plane and the data plane to guarantee the safety-first principles. The former assume control to ensure safety using design-time defined rules, while launching the latter for optimizing decisions as much as possible within safety time-bounds. This is achieved through guided Time-aware predictive quality degradation (TPQD): using dynamic ML models that can be tuned to provide either richer or faster outputs based on the available safety time bounds. For instance, Savvy allows to safely identify an elephant as an obstacle (a mere object) the earliest possible, rather than optimally recognizing it as an elephant when it is too late. This position paper presents the Savvy's motivations and concept, whereas empirical evaluation is a work in progress.
翻訳日:2024-02-25 16:42:38 公開日:2024-02-08
# マルチモーダル変換器を用いた科学チャートのテキストロール分類

Text Role Classification in Scientific Charts Using Multimodal Transformers ( http://arxiv.org/abs/2402.14579v1 )

ライセンス: Link先を確認
Hye Jin Kim, Nicolas Lell, Ansgar Scherp(参考訳) テキストロール分類は、科学チャート内のテキスト要素の意味的役割を分類することを含む。 そこで本研究では,事前学習した複数モーダル文書レイアウト解析モデルであるLayoutLMv3とUDOPをグラフデータセット上で微調整することを提案する。 トランスフォーマーは入力としてテキスト、画像、レイアウトの3つのモードを使用する。 さらに,データ拡張とバランシング手法がモデルの性能向上に有効かどうかについても検討する。 その結果,LayoutLMv3 はすべての実験において UDOP よりも優れていた。 LayoutLMv3 は ICPR22 テストデータセットにおいて 82.87 のF1マクロスコアを達成し、ICPR22 CHART-Infographics チャレンジの最高のパフォーマンスモデルを上回った。 さらに、合成ノイズデータセットICPR22-N上でモデルの堅牢性をテストする。 最後に、3つのチャートデータセット、CHIME-R、DeGruyter、EconBizでモデルの一般化性を評価し、テキストロールのラベルを追加しました。 その結果、トレーニングデータに制限がある場合でも、データの強化とバランスの取れた方法でトランスフォーマーを使用することができる。 ソースコードとデータセットは、https://github.com/hjkimk/text-role-classificationでgithubで入手できる。

Text role classification involves classifying the semantic role of textual elements within scientific charts. For this task, we propose to finetune two pretrained multimodal document layout analysis models, LayoutLMv3 and UDOP, on chart datasets. The transformers utilize the three modalities of text, image, and layout as input. We further investigate whether data augmentation and balancing methods help the performance of the models. The models are evaluated on various chart datasets, and results show that LayoutLMv3 outperforms UDOP in all experiments. LayoutLMv3 achieves the highest F1-macro score of 82.87 on the ICPR22 test dataset, beating the best-performing model from the ICPR22 CHART-Infographics challenge. Moreover, the robustness of the models is tested on a synthetic noisy dataset ICPR22-N. Finally, the generalizability of the models is evaluated on three chart datasets, CHIME-R, DeGruyter, and EconBiz, for which we added labels for the text roles. Findings indicate that even in cases where there is limited training data, transformers can be used with the help of data augmentation and balancing methods. The source code and datasets are available on GitHub under https://github.com/hjkimk/text-role-classification
翻訳日:2024-02-25 16:42:18 公開日:2024-02-08
# 深層強化学習と転送学習に基づくエッジキャッシング

Edge Caching Based on Deep Reinforcement Learning and Transfer Learning ( http://arxiv.org/abs/2402.14576v1 )

ライセンス: Link先を確認
Farnaz Niknia, Ping Wang, Zixu Wang, Aakash Agarwal and Adib S. Rezaei(参考訳) 本稿では,ネットワークにおける冗長データ伝送のエスカレート問題に対処する。 トラフィックの急増はバックホールリンクとバックボーンネットワークを圧迫し、エッジルータでのキャッシュソリューションの探求を促した。 しかし、現実世界のシナリオではランダムな要求が到着し、最適なキャッシングポリシーを決定するのに様々なファイル特性が重要な役割を担っているにもかかわらず、キャッシュポリシーを形成する際にこれらのファイル特性をすべて考慮していない。 本稿では,まず,半マルコフ決定プロセス(smdp)を用いてキャッシング問題を定式化し,ファイル要求時にランダムにキャッシングを行う実世界のシナリオの連続時間的性質に対応する。 そこで本研究では,生涯,サイズ,重要度などのファイル特徴を包括的に考慮した,深層Q-ラーニングに基づくキャッシュ手法を提案する。 シミュレーションの結果,最近の深層強化学習法と比較して,本手法の優れた性能を示す。 さらに、SMDPフレームワークにおけるファイル要求率の変化を考慮するために、Transfer Learning(TL)アプローチを含めるように作業を拡張します。 提案したTLアプローチは,ソースドメインとターゲットドメイン間の要求レートの差が増加するシナリオにおいても高速収束を示し,実環境におけるキャッシュの動的な課題に対する,有望な解決策を提供する。

This paper addresses the escalating challenge of redundant data transmission in networks. The surge in traffic has strained backhaul links and backbone networks, prompting the exploration of caching solutions at the edge router. Existing work primarily relies on Markov Decision Processes (MDP) for caching issues, assuming fixed-time interval decisions; however, real-world scenarios involve random request arrivals, and despite the critical role of various file characteristics in determining an optimal caching policy, none of the related existing work considers all these file characteristics in forming a caching policy. In this paper, first, we formulate the caching problem using a semi-Markov Decision Process (SMDP) to accommodate the continuous-time nature of real-world scenarios allowing for caching decisions at random times upon file requests. Then, we propose a double deep Q-learning-based caching approach that comprehensively accounts for file features such as lifetime, size, and importance. Simulation results demonstrate the superior performance of our approach compared to a recent Deep Reinforcement Learning-based method. Furthermore, we extend our work to include a Transfer Learning (TL) approach to account for changes in file request rates in the SMDP framework. The proposed TL approach exhibits fast convergence, even in scenarios with increased differences in request rates between source and target domains, presenting a promising solution to the dynamic challenges of caching in real-world environments.
翻訳日:2024-02-25 16:41:56 公開日:2024-02-08
# LLM: デジタル談話に参加するジェネレーティブAI

LLMs Among Us: Generative AI Participating in Digital Discourse ( http://arxiv.org/abs/2402.07940v1 )

ライセンス: Link先を確認
Kristina Radivojevic, Nicholas Clark, Paul Brenner(参考訳) 大規模言語モデル(LLM)の出現は、多くのソーシャルメディアプラットフォームの景観を再構築する大きな可能性を秘めている。 これは有望な機会をもたらす可能性があるが、バイアスやプライバシーの懸念など多くの脅威を引き起こし、悪意のある俳優によるプロパガンダの普及に寄与する可能性がある。 我々は、ボットと人間の参加者がボットと人間の参加者の比率や性質を知らずにコミュニケーションするための、Mastodonソーシャルメディアプラットフォーム上に「LLMs among Us」実験フレームワークを開発した。 私たちは3つの異なるLCM、GPT-4、LLama 2 Chat、Claudeで10のペルソナを構築しました。 実験を3ラウンド実施し,各ラウンド後の参加者を調査し,人間の検出を伴わずに人体として行動するLLMの能力を測定した。 実験では,ボットと人間の両方の存在を知りながら,被験者が他のユーザの性質を正しく識別できたのは42%に過ぎなかった。 また,パーソナの選択は,メインストリームLLMの選択よりも人間の知覚に大きく影響した。

The emergence of Large Language Models (LLMs) has great potential to reshape the landscape of many social media platforms. While this can bring promising opportunities, it also raises many threats, such as biases and privacy concerns, and may contribute to the spread of propaganda by malicious actors. We developed the "LLMs Among Us" experimental framework on top of the Mastodon social media platform for bot and human participants to communicate without knowing the ratio or nature of bot and human participants. We built 10 personas with three different LLMs, GPT-4, LLama 2 Chat, and Claude. We conducted three rounds of the experiment and surveyed participants after each round to measure the ability of LLMs to pose as human participants without human detection. We found that participants correctly identified the nature of other users in the experiment only 42% of the time despite knowing the presence of both bots and humans. We also found that the choice of persona had substantially more impact on human perception than the choice of mainstream LLMs.
翻訳日:2024-02-18 13:29:40 公開日:2024-02-08
# UFO: Windows OSインタラクションのためのUI指向エージェント

UFO: A UI-Focused Agent for Windows OS Interaction ( http://arxiv.org/abs/2402.07939v1 )

ライセンス: Link先を確認
Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang(参考訳) GPT-Vision の機能を活用し,Windows OS 上のアプリケーションに適したユーザ要求を満たす,革新的な UI フォーカスエージェントである UFO を紹介する。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 これによってエージェントは、複数のアプリケーションにまたがる場合でも、個々のアプリケーション内でシームレスにナビゲートし、操作し、ユーザ要求を満たすことができます。 このフレームワークにはコントロールインタラクションモジュールが組み込まれており、人間の介入なしにアクションのグラウンディングを容易にし、完全に自動化された実行を可能にする。 その結果、UFOは困難で時間のかかるプロセスを自然言語コマンドでのみ達成可能な単純なタスクに変換する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。 その結果,UFOによるユーザ要求の達成効果は,定量的な測定値と実例調査の両方から得られた。 私たちの知る限りでは、ufoはwindows os環境でタスク完了用に特別に調整された最初のuiエージェントです。 ufoのオープンソースコードはhttps://github.com/microsoft/ufoで入手できる。

We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
翻訳日:2024-02-18 13:29:23 公開日:2024-02-08
# 異なるアルゴリズム(ミット)が異なるパターンを発見する:脳年齢予測ケーススタディ

Different Algorithms (Might) Uncover Different Patterns: A Brain-Age Prediction Case Study ( http://arxiv.org/abs/2402.09464v1 )

ライセンス: Link先を確認
Tobias Ettling, Sari Saba-Sadiya, Gemma Roig(参考訳) 機械学習は、生物信号分析を含む幅広い応用を持つ急速に進化する分野であり、新しいアルゴリズムはしばしば最先端技術を改善する。 しかし、異なるアルゴリズムによって測定され、一貫して類似した発見を明らかにするアルゴリズムの変動に対する堅牢性は、ほとんど探求されていない。 本稿では,脳波研究による脳年齢予測の確立された仮説が,アルゴリズム全体にわたって検証されているかを検討する。 まず,文献調査を行い,脳年齢予測に有用な特徴を明らかにした。 我々は,様々な特徴抽出手法,処理手順,モデルを用い,shapley additive explanations (shap) 値の解釈力を利用して既存の研究と一致させた。 使用した特定のデータセットに対して最先端のパフォーマンスを達成したモデルはほとんどありません。 さらに、分析により、ほとんどのモデルが脳波信号に類似したパターンを発見できるが、いくつかの変動は観測できることを示した。 最後に、いくつかの顕著な発見は特定のモデルを使ってのみ検証できる。 結論として,モデル変動に対するロバスト性の欠如による潜在的な影響に対する修正を提案する。

Machine learning is a rapidly evolving field with a wide range of applications, including biological signal analysis, where novel algorithms often improve the state-of-the-art. However, robustness to algorithmic variability - measured by different algorithms, consistently uncovering similar findings - is seldom explored. In this paper we investigate whether established hypotheses in brain-age prediction from EEG research validate across algorithms. First, we surveyed literature and identified various features known to be informative for brain-age prediction. We employed diverse feature extraction techniques, processing steps, and models, and utilized the interpretative power of SHapley Additive exPlanations (SHAP) values to align our findings with the existing research in the field. Few of our models achieved state-of-the-art performance on the specific data-set we utilized. Moreover, analysis demonstrated that while most models do uncover similar patterns in the EEG signals, some variability could still be observed. Finally, a few prominent findings could only be validated using specific models. We conclude by suggesting remedies to the potential implications of this lack of robustness to model variability.
翻訳日:2024-02-18 12:50:13 公開日:2024-02-08
# 学習可能な拡張とデータ拡張によるRF信号分離のためのWaveNetアーキテクチャの新しいアプローチ

A Novel Approach to WaveNet Architecture for RF Signal Separation with Learnable Dilation and Data Augmentation ( http://arxiv.org/abs/2402.09461v1 )

ライセンス: Link先を確認
Yu Tian, Ahmed Alhammadi, Abdullah Quran, Abubakar Sani Ali(参考訳) 本稿では、高密度RFスペクトルにおける信号分離を大幅に向上させ、学習可能な拡張パラメータを導入するWaveNetアーキテクチャの新たな適応を提示することにより、RF信号分離の複雑な問題に対処する。 アーキテクチャの改良と革新的なデータ拡張戦略は、複雑な信号源を識別するモデルの能力を大幅に改善しました。 本稿では、改良されたモデルアーキテクチャ、データ準備技術、そして我々の成功に重要な戦略的トレーニング戦略を含む包括的な方法論を詳述する。 提案手法の有効性は, 従来のベンチマークを上回ったEMI Signal 1によるOFDM-QPSKに対して, 10^{-3}$ BERで SINR が58.82 % 増加したことによる。 特に、我々のモデルは、その優れた性能を示し、RF通信領域内で機械学習アプリケーションのための新しい標準を確立するという課題において、第一位を獲得しました。

In this paper, we address the intricate issue of RF signal separation by presenting a novel adaptation of the WaveNet architecture that introduces learnable dilation parameters, significantly enhancing signal separation in dense RF spectrums. Our focused architectural refinements and innovative data augmentation strategies have markedly improved the model's ability to discern complex signal sources. This paper details our comprehensive methodology, including the refined model architecture, data preparation techniques, and the strategic training strategy that have been pivotal to our success. The efficacy of our approach is evidenced by the substantial improvements recorded: a 58.82\% increase in SINR at a BER of $10^{-3}$ for OFDM-QPSK with EMI Signal 1, surpassing traditional benchmarks. Notably, our model achieved first place in the challenge \cite{datadrivenrf2024}, demonstrating its superior performance and establishing a new standard for machine learning applications within the RF communications domain.
翻訳日:2024-02-18 12:49:53 公開日:2024-02-08
# 教師なし学習に基づくエンドツーエンド遅延レス生成型固定フィルタアクティブノイズ制御

Unsupervised learning based end-to-end delayless generative fixed-filter active noise control ( http://arxiv.org/abs/2402.09460v1 )

ライセンス: Link先を確認
Zhengding Luo, Dongyuan Shi, Xiaoyi Shen, Woon-Seng Gan(参考訳) 協調処理とリアルタイム制御を効率よく連携させることにより, 従来のGFANCフレームワークにより遅延ノイズ制御を実現した。 しかし、コプロセッサ内の1次元畳み込みニューラルネットワーク(1d cnn)はラベル付きノイズデータセットを用いた初期トレーニングを必要とする。 ノイズのラベル付けはリソース集約的であり、バイアスが生じる可能性がある。 本稿では,1次元CNNトレーニングプロセスの簡素化と実用性向上のための教師なしGFANC手法を提案する。 トレーニング中、コプロセッサとリアルタイムコントローラはエンドツーエンドの差別化可能なANCシステムに統合される。 これにより,蓄積した2乗誤差信号を1次元CNNのトレーニングの損失として利用できる。 この教師なし学習パラダイムにより、教師なしgfanc法はラベル付けプロセスを省略するだけでなく、実雑音実験における教師なしgfanc法よりもノイズ低減性能が向上する。

Delayless noise control is achieved by our earlier generative fixed-filter active noise control (GFANC) framework through efficient coordination between the co-processor and real-time controller. However, the one-dimensional convolutional neural network (1D CNN) in the co-processor requires initial training using labelled noise datasets. Labelling noise data can be resource-intensive and may introduce some biases. In this paper, we propose an unsupervised-GFANC approach to simplify the 1D CNN training process and enhance its practicality. During training, the co-processor and real-time controller are integrated into an end-to-end differentiable ANC system. This enables us to use the accumulated squared error signal as the loss for training the 1D CNN. With this unsupervised learning paradigm, the unsupervised-GFANC method not only omits the labelling process but also exhibits better noise reduction performance compared to the supervised GFANC method in real noise experiments.
翻訳日:2024-02-18 12:49:35 公開日:2024-02-08
# 安全で信頼できる自動運転のための説明可能なAI:システムレビュー

Explainable AI for Safe and Trustworthy Autonomous Driving: A Systematic Review ( http://arxiv.org/abs/2402.10086v1 )

ライセンス: Link先を確認
Anton Kuznietsov, Balint Gyevnar, Cheng Wang, Steven Peters, Stefano V. Albrecht(参考訳) 人工知能(AI)は、従来の手法に比べて優れた性能のため、自律運転(AD)における知覚と計画タスクに有望な応用を示す。 しかし、調査不能なAIシステムは、ADの安全性を保証するという既存の課題をさらに悪化させる。 この課題を軽減するひとつの方法は、説明可能なAI(XAI)技術を使用することだ。 この目的のために,安全かつ信頼性の高いADのための説明可能な手法の総合的な文献レビューを行った。 まず、AIの要件をADの文脈で分析し、データ、モデル、エージェンシーの3つの重要な側面に注目します。 これらの要件を満たすのにXAIが基本であることに気付きました。 そこで我々は,AIにおける説明の源泉を説明し,XAIの分類について述べる。 次に,adにおける安全で信頼性の高いaiのためのxaiの5つの重要な貢献を特定し,その内容は,解釈可能な設計,解釈可能なサロゲートモデル,解釈可能な監視,補助的な説明,解釈可能な検証である。 最後に,これらの貢献を統合するためにsafexというモジュールフレームワークを提案し,aiモデルの安全性を確保しつつ,ユーザへの説明配信を可能にする。

Artificial Intelligence (AI) shows promising applications for the perception and planning tasks in autonomous driving (AD) due to its superior performance compared to conventional methods. However, inscrutable AI systems exacerbate the existing challenge of safety assurance of AD. One way to mitigate this challenge is to utilize explainable AI (XAI) techniques. To this end, we present the first comprehensive systematic literature review of explainable methods for safe and trustworthy AD. We begin by analyzing the requirements for AI in the context of AD, focusing on three key aspects: data, model, and agency. We find that XAI is fundamental to meeting these requirements. Based on this, we explain the sources of explanations in AI and describe a taxonomy of XAI. We then identify five key contributions of XAI for safe and trustworthy AI in AD, which are interpretable design, interpretable surrogate models, interpretable monitoring, auxiliary explanations, and interpretable validation. Finally, we propose a modular framework called SafeX to integrate these contributions, enabling explanation delivery to users while simultaneously ensuring the safety of AI models.
翻訳日:2024-02-18 12:38:32 公開日:2024-02-08
# デジタル標高モデル(DEM)修正のための機械学習と統計的アプローチの比較:中間結果

Comparison of machine learning and statistical approaches for digital elevation model (DEM) correction: interim results ( http://arxiv.org/abs/2402.06688v1 )

ライセンス: Link先を確認
Chukwuma Okolie, Adedayo Adeleke, Julian Smit, Jon Mills, Iyke Maduako, Caleb Ogbeta(参考訳) ディジタル標高モデル(DEM)の傾きバイアスを補正するいくつかの手法が提案されている。 今日では、教師付き機械学習は変数間の複雑な関係のモデリングを可能にし、様々な分野の研究者によって展開されている。 既存の文献では、DEM補正のタスクに機械学習または統計的アプローチを採用する研究がいくつかある。 しかし、我々の知る限り、これらの研究はどちらのアプローチも、特にオープンアクセスグローバルなDEMについて比較していない。 これまでの研究では、機械学習アプローチの可能性、特にDEM修正のためのグラデーション強化決定木(GBDT)がすでに示されています。 本研究では,最近の3つの勾配強化決定木 (xgboost, lightgbm, catboost) の実装と, 南アフリカ, ケープタウンにおける30mコペルニクスおよびaw3dグローバルデムの垂直精度向上のための多重線形回帰 (mlr) の比較結果を紹介する。

Several methods have been proposed for correcting the elevation bias in digital elevation models (DEMs) for example, linear regression. Nowadays, supervised machine learning enables the modelling of complex relationships between variables, and has been deployed by researchers in a variety of fields. In the existing literature, several studies have adopted either machine learning or statistical approaches in the task of DEM correction. However, to our knowledge, none of these studies have compared the performance of both approaches, especially with regard to open-access global DEMs. Our previous work has already shown the potential of machine learning approaches, specifically gradient boosted decision trees (GBDTs) for DEM correction. In this study, we share some results from the comparison of three recent implementations of gradient boosted decision trees (XGBoost, LightGBM and CatBoost), versus multiple linear regression (MLR) for enhancing the vertical accuracy of 30 m Copernicus and AW3D global DEMs in Cape Town, South Africa.
翻訳日:2024-02-13 19:59:17 公開日:2024-02-08
# 量子ドット光セルの光起電力過程における量子エントロピー進化

Quantum entropy evolution in the photovoltaic process of a quantum dot photocell ( http://arxiv.org/abs/2402.06685v1 )

ライセンス: Link先を確認
Lin-Jie Chen, Shun-Cai Zhao, and Ya-Fang Tian(参考訳) 効率的な光変換には、量子エントロピー関連量がどのように進化するかを理解することが重要である。 本研究では、二重量子ドット(DQD)光セルモデルを用いて、光エネルギー出力中の動的量子エントロピー関連パラメータについて検討した。 その結果, 動的太陽電池性能はトンネル結合強度の異なる量子エントロピー関連パラメータと適合することが示されたが, 様々な環境温度下では相反関係が発見された。 したがって、いくつかの熱力学的基準は、本提案の光セルモデルにおける光起電力過程を評価するために用いられる。 この研究のメリットは、熱力学的観点からの光電変換の理解の拡大と、DQD光セルの効率的な光電変換に対する新しい熱力学的アプローチの提案である。

For efficient photovoltaic conversion, it is important to understand how quantum entropy-related quantities evolve during the photovoltaic process. In this study, using a double quantum dot (DQD) photocell model, we explored the dynamic quantum entropy-related parameters during the photovoltaic output. The findings demonstrate that the dynamic photovoltaic performance is compatible with quantum entropy-related parameters with varying tunneling coupling strengths, but at varied ambient temperatures, an opposing relationship is discovered between them. Hence, some thermodynamic criteria may be used to evaluate the photovoltaic process in this proposed photocell model. This work's merits include expanding our understanding of photoelectric conversion from a thermodynamic perspective as well as perhaps suggesting a new thermodynamic approach to efficient photoelectric conversion for DQD photocells.
翻訳日:2024-02-13 19:58:41 公開日:2024-02-08
# Ai4Fapar:人工知能が季節の地球観測信号を予測する方法

Ai4Fapar: How artificial intelligence can help to forecast the seasonal earth observation signal ( http://arxiv.org/abs/2402.06684v1 )

ライセンス: Link先を確認
Filip Sabo, Martin Claverie, Michele Meroni, Arthur Hrast Essenfelder(参考訳) 本研究では,多変量変圧器モデルを用いて,欧州と北アフリカの地域レベルでの短(1ヶ月以上)および長地平線(1ヶ月以上)における吸収光合成能動放射(FAPAR)の時間的軌跡を予測できる可能性を検討した。 入力データは2002年から2022年までの期間をカバーし、FAPAR予測をモデル化するためのリモートセンシングおよび気象データを含む。 モデルの評価は, 気候指標と比較し, 1年経過した期間で行った。 その結果、トランスフォーマーモデルは1ヶ月の予測地平線でベンチマークモデルよりも優れており、その後気候学的ベンチマークが優れていることがわかった。 変換器モデルのRMSE値は、最初の2ヶ月間の予測では0.02から0.04のFAPAR単位であった。 全体として、テストされたTransformerモデルは、特に気象データと組み合わせて短期予測を行う場合、FAPAR予測に有効な方法である。

This paper investigated the potential of a multivariate Transformer model to forecast the temporal trajectory of the Fraction of Absorbed Photosynthetically Active Radiation (FAPAR) for short (1 month) and long horizon (more than 1 month) periods at the regional level in Europe and North Africa. The input data covers the period from 2002 to 2022 and includes remote sensing and weather data for modelling FAPAR predictions. The model was evaluated using a leave one year out cross-validation and compared with the climatological benchmark. Results show that the transformer model outperforms the benchmark model for one month forecasting horizon, after which the climatological benchmark is better. The RMSE values of the transformer model ranged from 0.02 to 0.04 FAPAR units for the first 2 months of predictions. Overall, the tested Transformer model is a valid method for FAPAR forecasting, especially when combined with weather data and used for short-term predictions.
翻訳日:2024-02-13 19:57:32 公開日:2024-02-08
# 変分ブロック幅アンタングルを用いた音源分離

Sound Source Separation Using Latent Variational Block-Wise Disentanglement ( http://arxiv.org/abs/2402.06683v1 )

ライセンス: Link先を確認
Karim Helwani, Masahito Togami, Paris Smaragdis, Michael M. Goodwin(参考訳) ニューラルネットワークアプローチは、古典的な信号処理問題を解決するために大きな進歩を遂げてきたが、信号処理とニューラルネットワークの両方から洞察を引き出すハイブリッドアプローチは、より完全なソリューションを生み出すことが多い。 本稿では、音源分離(SS)のための古典的ディジタル信号処理/ディープニューラルネットワーク(DSP/DNN)のハイブリッド手法を提案する。 本稿では,単一チャネル下決定SSタスクを,適切に設計された潜在空間において等価なマルチチャネル過決定SS問題に変換するシステムを提案する。 潜時空間における分離タスクは、混合のばらつきブロックワイズ非絡み合い表現として扱われる。 実験により,従来の信号処理理論結果に動機づけられたタスクの設計選択と変分定式化が,アウト・オブ・ディストリビューションデータの発見と過度なリスクの低減につながることを示す。 結果の置換問題に対処するため、新しい可変置換損失関数を明示的に組み込んで、個々のソースの統計を追跡するためのメモリ機構でモデルを拡張した。

While neural network approaches have made significant strides in resolving classical signal processing problems, it is often the case that hybrid approaches that draw insight from both signal processing and neural networks produce more complete solutions. In this paper, we present a hybrid classical digital signal processing/deep neural network (DSP/DNN) approach to source separation (SS) highlighting the theoretical link between variational autoencoder and classical approaches to SS. We propose a system that transforms the single channel under-determined SS task to an equivalent multichannel over-determined SS problem in a properly designed latent space. The separation task in the latent space is treated as finding a variational block-wise disentangled representation of the mixture. We show empirically, that the design choices and the variational formulation of the task at hand motivated by the classical signal processing theoretical results lead to robustness to unseen out-of-distribution data and reduction of the overfitting risk. To address the resulting permutation issue we explicitly incorporate a novel differentiable permutation loss function and augment the model with a memory mechanism to keep track of the statistics of the individual sources.
翻訳日:2024-02-13 19:56:48 公開日:2024-02-08
# 分散学習における個人の知識共有:調査

Private Knowledge Sharing in Distributed Learning: A Survey ( http://arxiv.org/abs/2402.06682v1 )

ライセンス: Link先を確認
Yasas Supeksala, Dinh C. Nguyen, Ming Ding, Thilina Ranbaduge, Calson Chua, Jun Zhang, Jun Li and H. Vincent Poor(参考訳) 人工知能(AI)の台頭は多くの産業に革命をもたらし、社会の働き方を変えた。 その普及した使用により、AIとその基盤となるデータが多くのインテリジェントシステムに分散するようになった。 この光の中では、異なるエンティティが分散または所有する学習プロセスにおいて、情報を活用することが不可欠である。 その結果、分散知識エンティティを結果に統合するために、現代的なデータ駆動サービスが開発された。 この目標に沿って、最新のAIモデルは、分散的な方法で頻繁に訓練される。 分散学習には、複数のエンティティが協力して予測と決定を行う。 しかし、このコラボレーションはセキュリティの脆弱性や課題をもたらす可能性がある。 本稿では,分散学習における個人知識共有に関する詳細な調査を行い,主要な分散学習アーキテクチャで活用されている各種知識コンポーネントについて検討する。 当社の分析は、分散環境でこれらのコンポーネントを使用する場合に発生する、最も重要な脆弱性を浮き彫りにしている。 さらに,これらの知識要素のプライバシーを守るための防御戦略を特定し,検証し,悪意のある当事者による知識情報の操作やアクセスを防止する。 最後に,分散学習における知識共有のいくつかの重要な限界を強調し,今後の研究への可能性を探る。

The rise of Artificial Intelligence (AI) has revolutionized numerous industries and transformed the way society operates. Its widespread use has led to the distribution of AI and its underlying data across many intelligent systems. In this light, it is crucial to utilize information in learning processes that are either distributed or owned by different entities. As a result, modern data-driven services have been developed to integrate distributed knowledge entities into their outcomes. In line with this goal, the latest AI models are frequently trained in a decentralized manner. Distributed learning involves multiple entities working together to make collective predictions and decisions. However, this collaboration can also bring about security vulnerabilities and challenges. This paper provides an in-depth survey on private knowledge sharing in distributed learning, examining various knowledge components utilized in leading distributed learning architectures. Our analysis sheds light on the most critical vulnerabilities that may arise when using these components in a distributed setting. We further identify and examine defensive strategies for preserving the privacy of these knowledge components and preventing malicious parties from manipulating or accessing the knowledge information. Finally, we highlight several key limitations of knowledge sharing in distributed learning and explore potential avenues for future research.
翻訳日:2024-02-13 19:56:26 公開日:2024-02-08
# マルチバンド量子ドット光セルが生成する高量子収率

High quantum yields generated by a multi-band quantum dot photocell ( http://arxiv.org/abs/2402.06681v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, and Qi-Xuan Wu(参考訳) 我々は、導電バンド(CB)と価バンド(VB)の間の中間バンド(IB)をドーピングすることで、マルチバンド量子ドット(QD)フォトセルで量子収率を実行する。 2つの異なるサブバンドギャップレイアウトの下では、出力電力はシングルバンドギャップフォトセルよりも顕著に向上し、達成されたピーク光電荷効率は理論太陽電池プロトタイプのIBアプローチによる63.2%の限界効率と比較して74.9%に達する。 得られた量子収率は、qd-ibフォトセルの有効な理論的アプローチによって効率を改善する可能性を明らかにした。

We perform the quantum yields in a multi-band quantum dot (QD) photocell via doping an intermediate band (IB) between the conduction band (CB) and valence band (VB). Under two different sub-band gap layouts, the output power has a prominent enhancement than the single-band gap photocell and the achieved peak photo-to-charge efficiency reaches to 74.9% as compared to the limit efficiency of 63.2% via the IB approach in the theoretical solar cell prototype. The achieved quantum yields reveal the potential to improve efficiency by some effective theoretical approaches in the QD-IB photocell.
翻訳日:2024-02-13 19:56:09 公開日:2024-02-08
# 群衆シミュレーションのための社会物理学インフォームド拡散モデル

Social Physics Informed Diffusion Model for Crowd Simulation ( http://arxiv.org/abs/2402.06680v1 )

ライセンス: Link先を確認
Hongyi Chen, Jingtao Ding, Yong Li, Yue Wang, Xiao-Ping Zhang(参考訳) 群衆シミュレーションは、都市計画、建築設計、交通の配置など、様々な分野において重要な応用を担っている。 近年, 物理インフォームド機械学習手法は, 群集シミュレーションにおいて最先端のパフォーマンスを達成しているが, 人間の運動の異質性と多様性を包括的にモデル化することはできなかった。 本稿では,SPDiff という社会物理学インフォームド拡散モデルを提案し,このギャップを緩和する。 SPDiffは、現在の時間軸における群衆の対話的かつ歴史的情報の両方を用いて拡散過程を反転させ、その後の時間軸における歩行者の動きの分布を生成する。 社会物理学モデル(すなわち社会力モデル)に着想を得て,群集の動力学について,群集相互作用モジュールの設計を行い,群集相互作用の同変特性により,群集相互作用の過程を導いていく。 長期シミュレーションにおける誤差の蓄積を軽減するため,拡散モデリングのためのマルチフレームロールアウトトレーニングアルゴリズムを提案する。 2つの実世界のデータセットで実施された実験は、マクロおよび微視的評価指標によるSPDiffの優れた性能を示す。 コードと付録はhttps://github.com/tsinghua-fib-lab/spdiffで入手できる。

Crowd simulation holds crucial applications in various domains, such as urban planning, architectural design, and traffic arrangement. In recent years, physics-informed machine learning methods have achieved state-of-the-art performance in crowd simulation but fail to model the heterogeneity and multi-modality of human movement comprehensively. In this paper, we propose a social physics-informed diffusion model named SPDiff to mitigate the above gap. SPDiff takes both the interactive and historical information of crowds in the current timeframe to reverse the diffusion process, thereby generating the distribution of pedestrian movement in the subsequent timeframe. Inspired by the well-known social physics model, i.e., Social Force, regarding crowd dynamics, we design a crowd interaction module to guide the denoising process and further enhance this module with the equivariant properties of crowd interactions. To mitigate error accumulation in long-term simulations, we propose a multi-frame rollout training algorithm for diffusion modeling. Experiments conducted on two real-world datasets demonstrate the superior performance of SPDiff in terms of macroscopic and microscopic evaluation metrics. Code and appendix are available at https://github.com/tsinghua-fib-lab/SPDiff.
翻訳日:2024-02-13 19:55:54 公開日:2024-02-08
# 複合システムにおける説明可能な故障診断のためのLCMの統合

Integrating LLMs for Explainable Fault Diagnosis in Complex Systems ( http://arxiv.org/abs/2402.06695v1 )

ライセンス: Link先を確認
Akshay J. Dave, Tat Nghia Nguyen, Richard B. Vilim(参考訳) 本稿では,原子力プラントなどの複雑なシステムにおける故障診断の説明可能性を高めるために設計された統合システムについて紹介する。 物理ベースの診断ツールを大きな言語モデルと組み合わせることで,障害を識別するだけでなく,その原因や影響を明確かつ理解可能な説明を提供する,新たなソリューションを提供する。 システムの有効性は溶融塩施設に適用することで実証され、診断された断層とセンサデータとの接続を解明し、オペレータークエリに応答し、過去のセンサ異常を評価する能力を示す。 我々のアプローチは、自律システムの信頼性と透明性を向上させるために、モデルベースの診断と高度なAIを統合することの重要性を強調します。

This paper introduces an integrated system designed to enhance the explainability of fault diagnostics in complex systems, such as nuclear power plants, where operator understanding is critical for informed decision-making. By combining a physics-based diagnostic tool with a Large Language Model, we offer a novel solution that not only identifies faults but also provides clear, understandable explanations of their causes and implications. The system's efficacy is demonstrated through application to a molten salt facility, showcasing its ability to elucidate the connections between diagnosed faults and sensor data, answer operator queries, and evaluate historical sensor anomalies. Our approach underscores the importance of merging model-based diagnostics with advanced AI to improve the reliability and transparency of autonomous systems.
翻訳日:2024-02-13 19:42:55 公開日:2024-02-08
# 戦闘シミュレーションにおけるインテリジェントエージェントのスケーリング

Scaling Intelligent Agents in Combat Simulations for Wargaming ( http://arxiv.org/abs/2402.06694v1 )

ライセンス: Link先を確認
Scotty Black, Christian Darken(参考訳) 技術的に先進的な競合相手との将来の競合で競争力を維持するためには、ウォーガミングのための人工知能(AI)の研究と開発を加速する必要がある。 さらに重要なことに、インテリジェントな戦闘行動開発に機械学習を活用することは、このドメインにおける超人的なパフォーマンスを達成するための鍵となるでしょう。 深層強化学習(deep reinforcement learning, rl)は、ゲームにおけるインテリジェントエージェントの振る舞い開発に有望な結果をもたらし続けているが、戦闘モデリングやシミュレーションで一般的に見られる複雑なタスクであるロングホリゾンでは、人間レベル以上では実行されていない。 RLの実証された可能性と近年の階層的強化学習(HRL:hierarchical reinforcement learning)の成功に乗じて、これらの大規模で複雑なシミュレーション環境で効果的に機能するインテリジェントエージェントを作成するためにHRLを研究・拡張している。 私たちの究極のゴールは、超人的なパフォーマンスを持つエージェントを開発し、軍事計画立案者や意思決定者のAIアドバイザーとして機能させることです。 This papers covers our ongoing approach and the first three of our five research areas aimed at managing the exponential growth of computations that have thus far limited the use of AI in combat simulations: (1) developing an HRL training framework and agent architecture for combat units; (2) developing a multi-model framework for agent decision-making; (3) developing dimension-invariant observation abstractions of the state space to manage the exponential growth of computations; (4) developing an intrinsic rewards engine to enable long-term planning; and (5) implementing this framework into a higher-fidelity combat simulation.

Remaining competitive in future conflicts with technologically-advanced competitors requires us to accelerate our research and development in artificial intelligence (AI) for wargaming. More importantly, leveraging machine learning for intelligent combat behavior development will be key to one day achieving superhuman performance in this domain--elevating the quality and accelerating the speed of our decisions in future wars. Although deep reinforcement learning (RL) continues to show promising results in intelligent agent behavior development in games, it has yet to perform at or above the human level in the long-horizon, complex tasks typically found in combat modeling and simulation. Capitalizing on the proven potential of RL and recent successes of hierarchical reinforcement learning (HRL), our research is investigating and extending the use of HRL to create intelligent agents capable of performing effectively in these large and complex simulation environments. Our ultimate goal is to develop an agent capable of superhuman performance that could then serve as an AI advisor to military planners and decision-makers. This papers covers our ongoing approach and the first three of our five research areas aimed at managing the exponential growth of computations that have thus far limited the use of AI in combat simulations: (1) developing an HRL training framework and agent architecture for combat units; (2) developing a multi-model framework for agent decision-making; (3) developing dimension-invariant observation abstractions of the state space to manage the exponential growth of computations; (4) developing an intrinsic rewards engine to enable long-term planning; and (5) implementing this framework into a higher-fidelity combat simulation.
翻訳日:2024-02-13 19:42:42 公開日:2024-02-08
# HistoHDR-Net:単一LDRからHDR画像変換のためのヒストグラム等化

HistoHDR-Net: Histogram Equalization for Single LDR to HDR Image Translation ( http://arxiv.org/abs/2402.06692v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua, Ganesh Krishnasamy, KokSheik Wong, Abhinav Dhall, Kalin Stefanov(参考訳) 高ダイナミックレンジ(HDR)イメージングは、現実世界のシーンの高画質と明快さを再現することを目的としている。 HDRイメージングに伴う高コストのため、この文献は低ダイナミックレンジ(Low Dynamic Range, LDR)からのHDR画像再構成のための様々なデータ駆動手法を提供している。 これらのアプローチの共通する制限は、再構成されたHDR画像の領域において、入力されたLDR画像に過剰または過剰に現れる詳細を欠いていることである。 そこで本研究では,HDR画像の微細部(色,コントラスト,彩度,明るさなど)を,ヒストグラム等化LDR画像と自己注意誘導を併用した融合方式により再現する,単純かつ効果的なHistoHDR-Netを提案する。 本研究は,最先端手法に対する提案手法の有効性を示す。

High Dynamic Range (HDR) imaging aims to replicate the high visual quality and clarity of real-world scenes. Due to the high costs associated with HDR imaging, the literature offers various data-driven methods for HDR image reconstruction from Low Dynamic Range (LDR) counterparts. A common limitation of these approaches is missing details in regions of the reconstructed HDR images, which are over- or under-exposed in the input LDR images. To this end, we propose a simple and effective method, HistoHDR-Net, to recover the fine details (e.g., color, contrast, saturation, and brightness) of HDR images via a fusion-based approach utilizing histogram-equalized LDR images along with self-attention guidance. Our experiments demonstrate the efficacy of the proposed approach over the state-of-art methods.
翻訳日:2024-02-13 19:42:16 公開日:2024-02-08
# ソースコード合成と補完のためのニューラルモデル

Neural Models for Source Code Synthesis and Completion ( http://arxiv.org/abs/2402.06690v1 )

ライセンス: Link先を確認
Mitodru Niyogi(参考訳) コード提案システムへの自然言語(NL)は、NL発話をコンパイル可能なコードスニペットに変換することで、統合開発環境(IDE)の開発者を支援する。 現在のアプローチは主に意味解析に基づくハードコードなルールベースのシステムである。 これらのシステムは、NLのパターンや構文解析ツリーの要素を様々なクエリ構造にマッピングする手作りのルールを多用しており、制限されたNL構文でNLの限られたサブセットでのみ動作する。 これらのシステムは開発者のコーディング意図から意味情報を抽出できず、しばしば型や名前、ソースコードのコンテキストを推測して正確なシステムレベルのコード提案を得ることができない。 このマスター論文では,NLを汎用プログラミング言語にマッピングするためのシーケンス・ツー・シーケンスの深層学習モデルと訓練パラダイムを提示し,NLの意図を与えられたソースコードスニペットの提案を支援するとともに,ソースコードを書いているユーザに対して,ソースコードの自動補完機能を拡張する。 開発されたアーキテクチャでは、ソースコードからパースツリー/抽象表現を生成する代わりにソースコードトークンを直接生成し、ソースコードに変換する、コンテキスト認識をニューラルネットワークに組み込んでいる。 提案する事前学習戦略とデータ拡張手法は,提案アーキテクチャの性能を向上させる。 提案されたアーキテクチャは、bleu-4メトリックに基づく神経意味構文解析器tranxの性能を10.82%上回っている。 その後、CoNaLAチャレンジのためのNLインテントから解析可能なコード翻訳のより詳細な分析が導入された。 提案システムは双方向であり,ソースコードからNLコードドキュメンテーションを生成することもできる。 最後に、Python用のRoBERTaマスク言語モデルが提案され、コード補完のための開発システムを拡張した。

Natural language (NL) to code suggestion systems assist developers in Integrated Development Environments (IDEs) by translating NL utterances into compilable code snippet. The current approaches mainly involve hard-coded, rule-based systems based on semantic parsing. These systems make heavy use of hand-crafted rules that map patterns in NL or elements in its syntax parse tree to various query constructs and can only work on a limited subset of NL with a restricted NL syntax. These systems are unable to extract semantic information from the coding intents of the developer, and often fail to infer types, names, and the context of the source code to get accurate system-level code suggestions. In this master thesis, we present sequence-to-sequence deep learning models and training paradigms to map NL to general-purpose programming languages that can assist users with suggestions of source code snippets, given a NL intent, and also extend auto-completion functionality of the source code to users while they are writing source code. The developed architecture incorporates contextual awareness into neural models which generate source code tokens directly instead of generating parse trees/abstract meaning representations from the source code and converting them back to source code. The proposed pretraining strategy and the data augmentation techniques improve the performance of the proposed architecture. The proposed architecture has been found to exceed the performance of a neural semantic parser, TranX, based on the BLEU-4 metric by 10.82%. Thereafter, a finer analysis for the parsable code translations from the NL intent for CoNaLA challenge was introduced. The proposed system is bidirectional as it can be also used to generate NL code documentation given source code. Lastly, a RoBERTa masked language model for Python was proposed to extend the developed system for code completion.
翻訳日:2024-02-13 19:41:58 公開日:2024-02-08
# ディープラーニングと統計モデルを用いた株価予測に関する研究

A Study on Stock Forecasting Using Deep Learning and Statistical Models ( http://arxiv.org/abs/2402.06689v1 )

ライセンス: Link先を確認
Himanshu Gupta and Aditya Jaiswal(参考訳) 株価予測の迅速かつ正確なモデルを予測することは困難な作業であり、株価予測の最良の方法が判明していない研究の活発な領域である。 機械学習、ディープラーニング、統計分析技術は、投資家が将来のトレンドを見極め、株式トレーディングへの投資のリターンを最大化できるように、正確な結果を得るために使用される。 本稿では,株価予測のための深層学習アルゴリズムについて概説する。 トレーニングとテストには、s&p 500 index dataの記録を使用します。 調査の動機は,移動平均値,統計技術であるARIMA,深層学習モデルであるLSTM,RNN,CNN,FULL CNNの様々な深層学習および統計モデル技術を調べることである。 自己回帰統合移動平均モデル、リカレントニューラルネットワークモデル、データに対する長期依存に使用されるrnnのタイプである長期短期モデル、畳み込みニューラルネットワークモデル、および畳み込みニューラルネットワークモデルを含む様々なモデルについて、誤差計算や精度のパーセンテージの観点から、根平均二乗誤差、平均絶対誤差、平均二乗誤差といった関数による測定がどの程度正確かという観点から論じる。 このモデルは、予測値と実際の値との差が小さくなり、他のモデルよりもより正確に価格を予測するために、低いmae値をチェックすることによって、株価を予測するために使用できる。

Predicting a fast and accurate model for stock price forecasting is been a challenging task and this is an active area of research where it is yet to be found which is the best way to forecast the stock price. Machine learning, deep learning and statistical analysis techniques are used here to get the accurate result so the investors can see the future trend and maximize the return of investment in stock trading. This paper will review many deep learning algorithms for stock price forecasting. We use a record of s&p 500 index data for training and testing. The survey motive is to check various deep learning and statistical model techniques for stock price forecasting that are Moving Averages, ARIMA which are statistical techniques and LSTM, RNN, CNN, and FULL CNN which are deep learning models. It will discuss various models, including the Auto regression integration moving average model, the Recurrent neural network model, the long short-term model which is the type of RNN used for long dependency for data, the convolutional neural network model, and the full convolutional neural network model, in terms of error calculation or percentage of accuracy that how much it is accurate which measures by the function like Root mean square error, mean absolute error, mean squared error. The model can be used to predict the stock price by checking the low MAE value as lower the MAE value the difference between the predicting and the actual value will be less and this model will predict the price more accurately than other models.
翻訳日:2024-02-13 19:41:31 公開日:2024-02-08
# cnnがvitと出会う: 多クラス医用画像セマンティクスセグメンテーションのための半教師付き学習に向けて

When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class Medical Image Semantic Segmentation ( http://arxiv.org/abs/2208.06449v2 )

ライセンス: Link先を確認
Ziyang Wang, Tianze Li, Jian-Qing Zheng, Baoru Huang(参考訳) 医用画像コミュニティにおける質的アノテーションの欠如により、半教師付き学習法は画像意味セグメンテーションタスクにおいて高い評価を受けている。 本稿では,視覚変換器(ViT)と畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)のパワーを半教師付き学習に活用するために,高度に整合性を考慮した擬似ラベルに基づく自己組織化手法を提案する。 提案するフレームワークは,ViTとCNNによって相互に強化された特徴学習モジュールと,一貫性に配慮した堅牢なガイダンスモジュールから構成される。 擬似ラベルは、特徴学習モジュール内のcnnとvitのビューによって、再帰的かつ別々に推測・利用され、データセットを拡張し、互いに有益である。 一方、特徴学習モジュールに対して摂動方式を設計し、平均的なネットワーク重量を利用して誘導モジュールを開発する。 これにより、CNNとViTの機能学習の強みを組み合わせ、デュアルビューのコトレーニングを通じてパフォーマンスを強化し、半教師付きで一貫性に配慮した監視を可能にする。 CNN と ViT による全ての代替監督モードのトポロジカル探索を詳細に検証し,半監督的医用画像分割作業における本手法の有望な性能と具体的設定を示す。 実験結果から,提案手法は,様々な指標を持つ公開ベンチマークデータセット上での最先端性能を実現する。 コードは公開されている。

Due to the lack of quality annotation in medical imaging community, semi-supervised learning methods are highly valued in image semantic segmentation tasks. In this paper, an advanced consistency-aware pseudo-label-based self-ensembling approach is presented to fully utilize the power of Vision Transformer(ViT) and Convolutional Neural Network(CNN) in semi-supervised learning. Our proposed framework consists of a feature-learning module which is enhanced by ViT and CNN mutually, and a guidance module which is robust for consistency-aware purposes. The pseudo labels are inferred and utilized recurrently and separately by views of CNN and ViT in the feature-learning module to expand the data set and are beneficial to each other. Meanwhile, a perturbation scheme is designed for the feature-learning module, and averaging network weight is utilized to develop the guidance module. By doing so, the framework combines the feature-learning strength of CNN and ViT, strengthens the performance via dual-view co-training, and enables consistency-aware supervision in a semi-supervised manner. A topological exploration of all alternative supervision modes with CNN and ViT are detailed validated, demonstrating the most promising performance and specific setting of our method on semi-supervised medical image segmentation tasks. Experimental results show that the proposed method achieves state-of-the-art performance on a public benchmark data set with a variety of metrics. The code is publicly available.
翻訳日:2024-02-12 21:36:58 公開日:2024-02-08
# パラメータフリーミラーダイス

Parameter-free Mirror Descent ( http://arxiv.org/abs/2203.00444v4 )

ライセンス: Link先を確認
Andrew Jacobsen, Ashok Cutkosky(参考訳) 非有界領域における適応およびパラメータフリーなアルゴリズム構築に適した修正オンラインミラー降下フレームワークを開発した。 この手法を応用して, 最適動的後悔境界を達成する最初のオンライン線形最適化アルゴリズムを開発し, さらに, フォロー・ザ・レギュラライズド・リーダーによる自然戦略では同様の結果が得られないことを実証する。 また,パラメータフリーな新たな暗黙的な更新や,シンプルで改良されたスケールフリーなアルゴリズムの構築にも,ミラー降下フレームワークを適用しました。

We develop a modified online mirror descent framework that is suitable for building adaptive and parameter-free algorithms in unbounded domains. We leverage this technique to develop the first unconstrained online linear optimization algorithm achieving an optimal dynamic regret bound, and we further demonstrate that natural strategies based on Follow-the-Regularized-Leader are unable to achieve similar results. We also apply our mirror descent framework to build new parameter-free implicit updates, as well as a simplified and improved unconstrained scale-free algorithm.
翻訳日:2024-02-12 21:30:54 公開日:2024-02-08
# 深層学習による離散時間分岐予測

Predicting discrete-time bifurcations with deep learning ( http://arxiv.org/abs/2303.09669v2 )

ライセンス: Link先を確認
Thomas M. Bury, Daniel Dylewsky, Chris T. Bauch, Madhur Anand, Leon Glass, Alvin Shrier, Gil Bub(参考訳) 多くの自然系や人工系は臨界遷移を起こしやすい -- 突然で潜在的に破壊的なダイナミクスの変化を引き起こす可能性がある。 ディープラーニング分類器は、大規模なシミュレーショントレーニングデータセットから分岐の一般的な特徴(力学不安定性)を学習することにより、臨界遷移に対する早期警告信号(EWS)を提供することができる。 これまで、分類器は、離散時間分岐に特有のリッチダイナミクスを無視し、連続時間分岐を予測するためにのみ訓練されてきた。 ここでは、深層学習分類器を訓練し、コディメンジョン-1の5つの局所離散時間分岐に対してEWSを提供する。 生理学,経済学,生態学で使用される離散時間モデルのシミュレーションデータと,周期的に分岐するニワトリの群集を自発的に打ち負かす実験データを用いて,分類器を検証した。 分類器は、広範囲のノイズ強度と分岐へのアプローチ率で一般的に使用されるEWSより優れている。 また、ほとんどのケースで正確な分岐を予測しており、特に周期二重化、ナイマークサッカー、折り畳み分岐の精度が高い。 分岐予測のツールとしてのディープラーニングは、まだ初期段階にあり、重要な移行のためにシステムを監視する方法を変える可能性がある。

Many natural and man-made systems are prone to critical transitions -- abrupt and potentially devastating changes in dynamics. Deep learning classifiers can provide an early warning signal (EWS) for critical transitions by learning generic features of bifurcations (dynamical instabilities) from large simulated training data sets. So far, classifiers have only been trained to predict continuous-time bifurcations, ignoring rich dynamics unique to discrete-time bifurcations. Here, we train a deep learning classifier to provide an EWS for the five local discrete-time bifurcations of codimension-1. We test the classifier on simulation data from discrete-time models used in physiology, economics and ecology, as well as experimental data of spontaneously beating chick-heart aggregates that undergo a period-doubling bifurcation. The classifier outperforms commonly used EWS under a wide range of noise intensities and rates of approach to the bifurcation. It also predicts the correct bifurcation in most cases, with particularly high accuracy for the period-doubling, Neimark-Sacker and fold bifurcations. Deep learning as a tool for bifurcation prediction is still in its nascence and has the potential to transform the way we monitor systems for critical transitions.
翻訳日:2024-02-12 21:21:00 公開日:2024-02-08
# イオンと単一光子を閉じ込めた検証可能なブラインド量子コンピューティング

Verifiable blind quantum computing with trapped ions and single photons ( http://arxiv.org/abs/2305.02936v2 )

ライセンス: Link先を確認
P. Drmota, D. P. Nadlinger, D. Main, B. C. Nichol, E. M. Ainley, D. Leichtle, A. Mantri, E. Kashefi, R. Srinivas, G. Araneda, C. J. Ballance, D. M. Lucas(参考訳) 検証可能なブラインド量子コンピューティングの初のハイブリッドマターフォトニクス実装について報告する。 我々は、捕捉イオン量子サーバと光ファイバー量子リンクを介してネットワーク化されたクライアント側フォトニック検出システムを使用する。 メモリキュービットと決定論的絡み合いゲートが利用可能になると、ポスト選択なしにインタラクティブなプロトコルが可能になる。 プライバシを1キュービットあたりのリーク古典ビット~0.03で定量化する。 この研究は、クラウドで完全に検証された量子コンピューティングへの明確な道を示している。

We report the first hybrid matter-photon implementation of verifiable blind quantum computing. We use a trapped-ion quantum server and a client-side photonic detection system networked via a fibre-optic quantum link. The availability of memory qubits and deterministic entangling gates enables interactive protocols without post-selection - key requirements for any scalable blind server, which previous realisations could not provide. We quantify the privacy at <~0.03 leaked classical bits per qubit. This work demonstrates a clear path to fully verified quantum computing in the cloud.
翻訳日:2024-02-12 21:06:33 公開日:2024-02-08
# ロバストな位相検索のための適応的停止条件を持つ新しい近近線形アルゴリズム

A New Inexact Proximal Linear Algorithm with Adaptive Stopping Criteria for Robust Phase Retrieval ( http://arxiv.org/abs/2304.12522v2 )

ライセンス: Link先を確認
Zhong Zheng, Shiqian Ma, and Lingzhou Xue(参考訳) 本稿では,非平滑かつ非凸最適化問題であるロバスト位相探索問題を考察する。 サブプロブレムを不正確に解いた不正確な近位線形アルゴリズムを提案する。 我々の貢献はサブプロブレムに対する2つの適応的停止基準である。 提案手法の収束挙動を解析した。 合成データと実データの両方について実験を行い,本手法が従来の近位線形アルゴリズムや劣勾配法よりも効率的であることを実証した。

This paper considers the robust phase retrieval problem, which can be cast as a nonsmooth and nonconvex optimization problem. We propose a new inexact proximal linear algorithm with the subproblem being solved inexactly. Our contributions are two adaptive stopping criteria for the subproblem. The convergence behavior of the proposed methods is analyzed. Through experiments on both synthetic and real datasets, we demonstrate that our methods are much more efficient than existing methods, such as the original proximal linear algorithm and the subgradient method.
翻訳日:2024-02-12 21:06:25 公開日:2024-02-08
# ロバストな道端認識:人間のアノテーションを最小限にする自動データ合成パイプライン

Robust Roadside Perception: an Automated Data Synthesis Pipeline Minimizing Human Annotation ( http://arxiv.org/abs/2306.17302v2 )

ライセンス: Link先を確認
Rusheng Zhang, Depu Meng, Lance Bassett, Shengyin Shen, Zhengxia Zou, Henry X. Liu(参考訳) 近年,車内通信技術の進歩により,協調運転におけるインフラ型道路認識システムの重要性が高まっている。 この論文は、データ不足という最も重要な課題の1つに分類します。 高品質なラベル付き道路側センサデータの多様性の欠如は、現在の道路側認識システムのロバスト性、低転送性をもたらす。 本稿では,Augmented Realityを用いて合成トレーニングデータを生成する新しい手法を提案する。 そして、ジェネレーティブ・アドバイサル・ネットワーク(Generative Adversarial Network)を適用して現実をさらに強化し、異なる天候や照明条件に対して堅牢な道路側認識検出器を訓練または微調整できる写真リアルな合成データセットを生成する。 私たちのアプローチは、ミシガン州の2つの重要な交差点、mcity交差点とstate stで厳密にテストされました。 /Ellsworth Rd roundabout mcityの交差点は、制御されたテスト環境であるmcityテストフィールド内にある。 対照的に、州はセントである。 エルスワースRd交差点は交通量が多く、毎年かなりの事故が起きていることで有名である。 実験の結果, 合成データのみに学習された検出器は, あらゆる条件において可換性能を示すことがわかった。 さらに、ラベル付きデータと統合すると、この合成データは、特に悪条件において、既存の検出器の性能を著しく向上させることができる。

Recently, advancements in vehicle-to-infrastructure communication technologies have elevated the significance of infrastructure-based roadside perception systems for cooperative driving. This paper delves into one of its most pivotal challenges: data insufficiency. The lacking of high-quality labeled roadside sensor data with high diversity leads to low robustness, and low transfer-ability of current roadside perception systems. In this paper, a novel solution is proposed to address this problem that creates synthesized training data using Augmented Reality. A Generative Adversarial Network is then applied to enhance the reality further, that produces a photo-realistic synthesized dataset that is capable of training or fine-tuning a roadside perception detector which is robust to different weather and lighting conditions. Our approach was rigorously tested at two key intersections in Michigan, USA: the Mcity intersection and the State St./Ellsworth Rd roundabout. The Mcity intersection is located within the Mcity test field, a controlled testing environment. In contrast, the State St./Ellsworth Rd intersection is a bustling roundabout notorious for its high traffic flow and a significant number of accidents annually. Experimental results demonstrate that detectors trained solely on synthesized data exhibit commendable performance across all conditions. Furthermore, when integrated with labeled data, the synthesized data can notably bolster the performance of pre-existing detectors, especially in adverse conditions.
翻訳日:2024-02-12 20:56:21 公開日:2024-02-08
# 生成逆数ネットワークにおける実データと生成データの確率的マッチング

Probabilistic Matching of Real and Generated Data Statistics in Generative Adversarial Networks ( http://arxiv.org/abs/2306.10943v2 )

ライセンス: Link先を確認
Philipp Pilar, Niklas Wahlstr\"om(参考訳) 生成逆ネットワークは生成モデリングに対する強力なアプローチを構成する。 生成されたサンプルは実際のデータと区別できないことが多いが、モード崩壊が起こり、真のデータ分布に従う保証はない。 特に科学的応用においては、真の分布が生成した分布によってよく捉えられることが不可欠である。 本研究では,生成されたデータ統計の分布が実データの分布と一致していることを保証する手法を提案する。 これを達成するために、ジェネレータ損失関数に新たな損失項を追加し、適切なf-divergencesを介してこれらの分布の違いを定量化する。 実分布の表現を得るためにカーネル密度推定を行い、各イテレーションにおけるミニバッチ値から対応する生成分布を推定する。 他の手法と比較すると,分布の完全な形状が考慮されるという利点がある。 本手法を合成データセットと実世界のデータセットで評価し,提案手法の性能向上を実証する。

Generative adversarial networks constitute a powerful approach to generative modeling. While generated samples often are indistinguishable from real data, mode-collapse may occur and there is no guarantee that they will follow the true data distribution. For scientific applications in particular, it is essential that the true distribution is well captured by the generated distribution. In this work, we propose a method to ensure that the distributions of certain generated data statistics coincide with the respective distributions of the real data. In order to achieve this, we add a new loss term to the generator loss function, which quantifies the difference between these distributions via suitable f-divergences. Kernel density estimation is employed to obtain representations of the true distributions, and to estimate the corresponding generated distributions from minibatch values at each iteration. When compared to other methods, our approach has the advantage that the complete shapes of the distributions are taken into account. We evaluate the method on a synthetic dataset and a real-world dataset and demonstrate improved performance of our approach.
翻訳日:2024-02-12 20:54:48 公開日:2024-02-08
# Kernel Debiased Plug-in Estimation:多くのターゲットパラメータに影響を及ぼさない同時自動デバイアス

Kernel Debiased Plug-in Estimation: Simultaneous, Automated Debiasing without Influence Functions for Many Target Parameters ( http://arxiv.org/abs/2306.08598v3 )

ライセンス: Link先を確認
Brian Cho, Yaroslav Mukhin, Kyra Gan, Ivana Malenica(参考訳) 迷惑パラメータを持つ非パラメトリックモデルの目標パラメータを推定する問題では、未知の迷惑パラメータを非パラメトリック推定子で置換することで「プラグインバイアス」を導入することができる。 この準最適バイアス分散トレードオフに対処する伝統的な方法は、対象パラメータの影響関数(IF)に依存する。 複数の対象パラメータを推定する場合、これらの手法は対応するIFを用いて複数のニュアンスパラメータをデバイアスし、解析的および計算的課題を提起する。 本研究では,kdpe(kernel debiased plug-in estimation)と呼ばれる新しい手法を提案する。 kdpeは、カーネルヒルベルト空間の再現に基づく非パラメトリックモデルを用いて、正則化確率の最大化ステップを通じて初期推定を洗練する。 我々は、KDPEが i) 規則性条件を満たす全ての経路微分可能なターゲットパラメータを同時に分離する。 (ii) 実施に if を必要とせず、 (iii)計算能力は保たれている。 我々はkdpeの使用を数値的に説明し,理論結果を検証する。

In the problem of estimating target parameters in nonparametric models with nuisance parameters, substituting the unknown nuisances with nonparametric estimators can introduce "plug-in bias." Traditional methods addressing this sub-optimal bias-variance trade-offs rely on the influence function (IF) of the target parameter. When estimating multiple target parameters, these methods require debiasing the nuisance parameter multiple times using the corresponding IFs, posing analytical and computational challenges. In this work, we leverage the targeted maximum likelihood estimation framework to propose a novel method named kernel debiased plug-in estimation (KDPE). KDPE refines an initial estimate through regularized likelihood maximization steps, employing a nonparametric model based on reproducing kernel Hilbert spaces. We show that KDPE (i) simultaneously debiases all pathwise differentiable target parameters that satisfy our regularity conditions, (ii) does not require the IF for implementation, and (iii) remains computationally tractable. We numerically illustrate the use of KDPE and validate our theoretical results.
翻訳日:2024-02-12 20:54:15 公開日:2024-02-08
# 変分法による量子アニール型ctによる実数画像再構成

Quantum annealing-based computed tomography using variational approach for a real-number image reconstruction ( http://arxiv.org/abs/2306.02214v3 )

ライセンス: Link先を確認
Akihiro Haga(参考訳) 目的:近年の量子コンピューティングの進歩にもかかわらず、利用可能な量子ビットの数が限られており、CT再構成の進歩を妨げている。 本研究では,量子アニーリングに基づくct(qact)を現在の量子ビットレベルで活用する可能性について検討する。 アプローチ: QACTアルゴリズムは2次非制約バイナリ最適化(QUBO)問題を正確に解くことを目的としている。 さらに,変動法を用いて実数を近似して画像を再構成する新しい手法を提案する。 このアプローチにより、少数の量子ビットを用いて正確なCT画像再構成が可能となる。 本研究では、4x4から24x24ピクセルの様々な画像サイズに対する投影データ量とノイズの影響について検討する。 再構成結果は、従来の再構成アルゴリズム、すなわち、最大期待予測最大化(MLEM)とフィルタバックプロジェクション(FBP)と比較される。 主な結果: 変分アプローチを採用し, 画像の各画素に対して2量子ビットを活用することで, 適切な投影数で正確な再構成を実現することができた。 豊富な投影と低騒音の条件下では、QACTの画質はMLEMやFBPよりも優れていた。 しかし、投影データに制限のある状況やノイズの存在下では、QACTの画質はMLEMよりも劣っていた。 意義: 本研究は実数再構成のための変分手法を用いたQACT再構成アルゴリズムを開発した。 驚くべきことに、各ピクセルの表現には2量子ビットしか必要とせず、正確な再構成に十分な性能を示した。

Objective: Despite recent advancements in quantum computing, the limited number of available qubits has hindered progress in CT reconstruction. This study investigates the feasibility of utilizing quantum annealing-based computed tomography (QACT) with current quantum bit levels. Approach: The QACT algorithm aims to precisely solve quadratic unconstrained binary optimization (QUBO) problems. Furthermore, a novel approach is proposed to reconstruct images by approximating real numbers using the variational method. This approach allows for accurate CT image reconstruction using a small number of qubits. The study examines the impact of projection data quantity and noise on various image sizes ranging from 4x4 to 24x24 pixels. The reconstructed results are compared against conventional reconstruction algorithms, namely maximum likelihood expectation maximization (MLEM) and filtered back projection (FBP). Main result: By employing the variational approach and utilizing two qubits for each pixel of the image, accurate reconstruction was achieved with an adequate number of projections. Under conditions of abundant projections and lower noise levels, the image quality in QACT outperformed that of MLEM and FBP. However, in situations with limited projection data and in the presence of noise, the image quality in QACT was inferior to that in MLEM. Significance: This study developed the QACT reconstruction algorithm using the variational approach for real-number reconstruction. Remarkably, only 2 qubits were required for each pixel representation, demonstrating their sufficiency for accurate reconstruction.
翻訳日:2024-02-12 20:52:48 公開日:2024-02-08
# SciBench:大規模言語モデルの大学レベルの科学的問題解決能力の評価

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models ( http://arxiv.org/abs/2307.10635v2 )

ライセンス: Link先を確認
Xiaoxuan Wang and Ziniu Hu and Pan Lu and Yanqiao Zhu and Jieyu Zhang and Satyen Subramaniam and Arjun R. Loomba and Shichang Zhang and Yizhou Sun and Wei Wang(参考訳) 既存のLarge Language Model (LLM) ベンチマークのほとんどは、中学生に根ざした問題に焦点をあて、基本的な代数的操作に限られている。 複雑な科学問題の解決に必要な推論能力を体系的に検討するため,LLMのための拡張ベンチマークスイートSciBenchを導入する。 SciBenchは、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含む慎重に計算されたデータセットを含んでいる。 本データセットに基づいて,様々なプロンプト戦略を持つオープンソースおよびプロプライエタリ LLM の詳細なベンチマークを行う。 その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。 さらに,詳細なユーザ調査を行い,llmによる誤りを10の問題解決能力に分類した。 分析の結果,一つのプロンプト戦略が他を著しく上回り,特定の問題解決スキルの改善を示す戦略が他のスキルの低下をもたらす可能性が示唆された。 我々は、SciBenchがLSMの推論能力のさらなる発展を触媒し、究極的には科学的研究と発見に寄与することを期待している。

Most of the existing Large Language Model (LLM) benchmarks on scientific problem reasoning focus on problems grounded in high-school subjects and are confined to elementary algebraic operations. To systematically examine the reasoning capabilities required for solving complex scientific problems, we introduce an expansive benchmark suite SciBench for LLMs. SciBench contains a carefully curated dataset featuring a range of collegiate-level scientific problems from mathematics, chemistry, and physics domains. Based on the dataset, we conduct an in-depth benchmarking study of representative open-source and proprietary LLMs with various prompting strategies. The results reveal that the current LLMs fall short of delivering satisfactory performance, with the best overall score of merely 43.22%. Furthermore, through a detailed user study, we categorize the errors made by LLMs into ten problem-solving abilities. Our analysis indicates that no single prompting strategy significantly outperforms the others and some strategies that demonstrate improvements in certain problem-solving skills could result in declines in other skills. We envision that SciBench will catalyze further developments in the reasoning abilities of LLMs, thereby ultimately contributing to scientific research and discovery.
翻訳日:2024-02-12 20:42:13 公開日:2024-02-08
# tweezerアレイにおける量子センシング:個別原子センサグリッド上の光磁気計測

Quantum Sensing in Tweezer Arrays: Optical Magnetometry on an Individual-Atom Sensor Grid ( http://arxiv.org/abs/2307.08055v2 )

ライセンス: Link先を確認
Dominik Sch\"affner, Tobias Schreiber, Fabian Lenz, Malte Schlosser, Gerhard Birkl(参考訳) 個別のレーザー冷却原子を保持可能な数百のサイトからなる量子センシングのためのスケーラブルなプラットフォームを実装し,この単一量子システムセンサアレイを二次元格子上の磁場マッピングに適用可能であることを示す。 それぞれの原子は7.0(2)マイクロメートルの相互分離で0.5マイクロメートル^2の範囲内で光学的ツイーザに閉じ込められているため、ミクロスケールの空間分解能と高い並列化操作が得られる。 追加のステアブル光学式ツイーザはグリッド内の原子の再配置を可能にし、サブミクロン分解能を持つ単一原子走査顕微鏡を可能にする。 この個別原子センサープラットフォームは、外部に印加された直流勾配磁場のマッピングにすぐに応用できる。 ラムゼー型測定では、フィールド解像度は98(29)ナノテスラである。 感度は25マイクロテラ/Hz^1/2と推定した。

We implement a scalable platform for quantum sensing comprising hundreds of sites capable of holding individual laser-cooled atoms and demonstrate the applicability of this single-quantum-system sensor array to magnetic-field mapping on a two-dimensional grid. With each atom being confined in an optical tweezer within an area of 0.5 micrometer^2 at mutual separations of 7.0(2) micrometer, we obtain micrometer-scale spatial resolution and highly parallelized operation. An additional steerable optical tweezer allows for a rearrangement of atoms within the grid and enables single-atom scanning microscopy with sub-micron resolution. This individual-atom sensor platform finds its immediate application in mapping an externally applied DC gradient magnetic field. In a Ramsey-type measurement, we obtain a field resolution of 98(29) nanotesla. We estimate the sensitivity to 25 microtesla/Hz^1/2.
翻訳日:2024-02-12 20:41:55 公開日:2024-02-08
# 注意VQ-VAE

Attentive VQ-VAE ( http://arxiv.org/abs/2309.11641v2 )

ライセンス: Link先を確認
Angello Hoyos and Mariano Rivera(参考訳) 本稿では,残差エンコーダと残差画素注意層の統合により,vq-vaeモデルの能力を向上させるための新しい手法であるattentive residual encoder (aren)を提案する。 本研究の目的は,実用的なパラメータレベルを維持しつつ,VQ-VAEの性能を向上させることである。 ARENエンコーダは複数のレベルで効果的に動作し、多様なアーキテクチャの複雑さを収容するように設計されている。 重要なイノベーションは、ARENエンコーダにピクセル間自動アテンション機構を統合することである。 このアプローチにより,潜在ベクトル間のコンテキスト情報を効率的にキャプチャし,活用することができる。 さらに,モデルの表現力を高めるために,追加のエンコーディングレベルを用いる。 我々の注目層は最小パラメータのアプローチを採用し、他の画素からの関連する情報が利用可能である場合にのみ潜在ベクトルが修正されることを保証する。 実験の結果,提案する修正によりデータ表現と生成が大幅に改善され,vq-vaeがより広い範囲のアプリケーションに適していることがわかった。

We present a novel approach to enhance the capabilities of VQ-VAE models through the integration of a Residual Encoder and a Residual Pixel Attention layer, named Attentive Residual Encoder (AREN). The objective of our research is to improve the performance of VQ-VAE while maintaining practical parameter levels. The AREN encoder is designed to operate effectively at multiple levels, accommodating diverse architectural complexities. The key innovation is the integration of an inter-pixel auto-attention mechanism into the AREN encoder. This approach allows us to efficiently capture and utilize contextual information across latent vectors. Additionally, our models uses additional encoding levels to further enhance the model's representational power. Our attention layer employs a minimal parameter approach, ensuring that latent vectors are modified only when pertinent information from other pixels is available. Experimental results demonstrate that our proposed modifications lead to significant improvements in data representation and generation, making VQ-VAEs even more suitable for a wide range of applications as the presented.
翻訳日:2024-02-12 20:32:23 公開日:2024-02-08
# Sorted LLaMA:動的推論のための大規模言語モデルの中間層のポテンシャルを解き放つ

Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference ( http://arxiv.org/abs/2309.08968v2 )

ライセンス: Link先を確認
Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh(参考訳) 大規模言語モデル(LLM)は、人間に似たテキストの理解と生成に長け、自然言語処理(NLP)に革命をもたらした。 しかし、その広範な展開は制限的に高価である。 SortedNetは、ネットワークのモジュラリティを活用し、ネストされた方法で計算/精度に基づいてサブモデルをソートすることで、動的推論を可能にする最近のトレーニング手法である。 我々は、SortedNetを生成NLPタスクに拡張し、Sorted Fine-Tuning (SoFT) に置き換えることによって、事前学習なしに大きな言語モデルを動的にする。 我々のアプローチはモデル効率を高め、推論中に様々なシナリオで複数のモデルの必要性をなくす。 この手法は, 対象出力を生成する際に, 中間層の変換器のパワーを解放できることを示す。 我々のサブモデルは、ストレージ要件と異なる計算/レイテンシ予算間の遷移コストを最小限に抑えながら、元のモデルの不可欠なコンポーネントのままです。 提案手法の有効性は,Stanford Alpaca データセット上で LLaMA 2 13B をチューニングし,TriviaQA をクローズドブック質問応答に適用することで実証した。 提案手法は,SFT+ICT(Early-Exit)とSFT+ICT(Standard Fine-Tuning)と比較して,高速チューニングと推論時のメモリ使用量の増加を伴わず,サブモデルの優れた性能を示す。

Large language models (LLMs) have revolutionized natural language processing (NLP) by excelling at understanding and generating human-like text. However, their widespread deployment can be prohibitively expensive. SortedNet is a recent training technique for enabling dynamic inference by leveraging the modularity in networks and sorting sub-models based on computation/accuracy in a nested manner. We extend SortedNet to generative NLP tasks, making large language models dynamic without any Pre-Training and by only replacing Standard Fine-Tuning (SFT) with Sorted Fine-Tuning (SoFT). Our approach boosts model efficiency, eliminating the need for multiple models for various scenarios during inference. We show that this approach can unlock the power of intermediate layers of transformers in generating the target output. Our sub-models remain integral components of the original model, minimizing storage requirements and transition costs between different computational/latency budgets. The efficacy of our proposed method was demonstrated by applying it to tune LLaMA 2 13B on the Stanford Alpaca dataset for instruction following and TriviaQA for closed-book question answering. Our results show the superior performance of sub-models in comparison to Standard Fine-Tuning and SFT+ICT (Early-Exit), all achieved with efficient tuning and without additional memory usage during inference.
翻訳日:2024-02-12 20:32:06 公開日:2024-02-08
# 自動量子サブ回路合成のためのハードウェア非依存ツールキットの実証

Demonstration of a Hardware-Independent Toolkit for Automated Quantum Subcircuit Synthesis ( http://arxiv.org/abs/2309.01028v2 )

ライセンス: Link先を確認
Elena R. Henderson, Jessie M. Henderson, Aviraj Sinha, Eric C. Larson, Mitchell A. Thornton(参考訳) 量子コンピュータは現代の現実となり、ほんの数十年前に最初の2量子ビットのマシンが、数十、数百、あるいは数千の量子ビットを持つクラウドアクセス可能なデバイスへと変身した。 このようなハードウェアはノイズが多く、比較的小さいが、オペレーショナルな量子ビットの数が増加すると、このマシンで実行可能になった量子回路の開発方法という別の課題が生まれている。 意味のある大きさの仕様を手動で準備することは、最も面倒であり、最悪の場合不可能であり、自動化の必要性が生じる。 本稿では, 古典的に特定された, 不可逆な関数を, 技術に依存しない, 技術に依存した量子回路に変換する, 合成, コンパイル, 最適化のための自動量子ソフトウェアツールキットについて述べる。 また,量子読み取り専用メモリ,量子乱数生成器,量子神託という3つの状況に対してツールキットの応用を記述・解析し,古典関数の入力から技術に依存した量子回路の出力まで,ツールキットの開始から終了までの機能を説明した。 さらに、合成法と最適化法の比較や、よく研究された量子アルゴリズムの深い理解など、このツールキットが回路合成以上の研究を可能にしていることを示す。 量子ハードウェアが発展を続けるにつれて、そのような量子回路ツールキットはそのポテンシャルを実現する上で重要な役割を果たす。

The quantum computer has become contemporary reality, with the first two-qubit machine of mere decades ago transforming into cloud-accessible devices with tens, hundreds, or -- in a few cases -- even thousands of qubits. While such hardware is noisy and still relatively small, the increasing number of operable qubits raises another challenge: how to develop the now-sizeable quantum circuits executable on these machines. Preparing circuits manually for specifications of any meaningful size is at best tedious and at worst impossible, creating a need for automation. This article describes an automated quantum-software toolkit for synthesis, compilation, and optimization, which transforms classically-specified, irreversible functions into both technology-independent and technology-dependent quantum circuits. We also describe and analyze the toolkit's application to three situations -- quantum read-only memories, quantum random number generators, and quantum oracles -- and illustrate the toolkit's start-to-finish features, from the input of classical functions to the output of technology-dependent quantum circuits. Furthermore, we illustrate how the toolkit enables research beyond circuit synthesis, including comparison of synthesis and optimization methods and deeper understanding of even well-studied quantum algorithms. As quantum hardware continues to develop, such quantum circuit toolkits will play a critical role in realizing its potential.
翻訳日:2024-02-12 20:30:44 公開日:2024-02-08
# 近似鎖に対する滑らかな min-エントロピー下界

Smooth min-entropy lower bounds for approximation chains ( http://arxiv.org/abs/2308.11736v2 )

ライセンス: Link先を確認
Ashutosh Marwah and Fr\'ed\'eric Dupuis(参考訳) 状態$\rho_{a_1^n b}$ に対して、一連の状態$(\sigma_{a_1^k b}^{(k)})_{k=1}^n$ が近似チェーンであるとは、各 1 \leq k \leq n$, $\rho_{a_1^k b} \approx_\epsilon \sigma_{a_1^k b}^{(k)}$ に対してである。 一般に、そのような$\rho_{A_1^n B}$の滑らかなミンエントロピーを、非常に大きなペナルティ因子を伴わない$\sigma_{A_1^k B}^{(k)}$のエントロピーで下げることはできない。 本稿では,そのような近似連鎖を仮定して検討する。 まず単純なエントロピー三角形の不等式を証明し、任意の補助状態の R'enyi エントロピーの観点から状態の滑らかなミニエントロピーを2つの間の滑らかな最大相対エントロピーを考慮に入れられるようにする。 この三角形の不等式を用いて、様々なシナリオにおける近似連鎖のエントロピーの観点から、状態の滑らかなミニエントロピーに対する下界を生成する。 特に、このアプローチを利用して、漸近同分性およびエントロピーの蓄積の近似バージョンを証明できる。 本稿では,本論文で開発された手法を用いて,ソース相関の存在下での量子鍵分布の安全性を証明できることを示す。

For a state $\rho_{A_1^n B}$, we call a sequence of states $(\sigma_{A_1^k B}^{(k)})_{k=1}^n$ an approximation chain if for every $1 \leq k \leq n$, $\rho_{A_1^k B} \approx_\epsilon \sigma_{A_1^k B}^{(k)}$. In general, it is not possible to lower bound the smooth min-entropy of such a $\rho_{A_1^n B}$, in terms of the entropies of $\sigma_{A_1^k B}^{(k)}$ without incurring very large penalty factors. In this paper, we study such approximation chains under additional assumptions. We begin by proving a simple entropic triangle inequality, which allows us to bound the smooth min-entropy of a state in terms of the R\'enyi entropy of an arbitrary auxiliary state while taking into account the smooth max-relative entropy between the two. Using this triangle inequality, we create lower bounds for the smooth min-entropy of a state in terms of the entropies of its approximation chain in various scenarios. In particular, utilising this approach, we prove approximate versions of the asymptotic equipartition property and entropy accumulation. In our companion paper, we show that the techniques developed in this paper can be used to prove the security of quantum key distribution in the presence of source correlations.
翻訳日:2024-02-12 20:28:48 公開日:2024-02-08
# StochGradAdam: 確率勾配サンプリングによるニューラルネットワークの高速化

StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling ( http://arxiv.org/abs/2310.17042v2 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) ディープラーニング最適化の分野が急速に進歩する中で,本論文では,Adamアルゴリズムの新たな適応であるStochGradAdamオプティマイザを公表する。 StochGradAdamの中心は勾配サンプリング技術である。 この手法は, 安定収束を確保できるだけでなく, 選択的勾配考慮の利点を活用し, ノイズや外れ値の影響を軽減し, より信頼度の高い収束のために, 損失景観の探索を強化することにより, 堅牢なトレーニングを促進する。 StochGradAdamは画像分類とセグメンテーションの両方で、従来のAdamオプティマイザよりも優れたパフォーマンスを示している。 各イテレーションで勾配のサブセットを巧みにサンプリングすることで、オプティマイザは複雑なモデルを管理するために最適化される。 本稿では,StochGradAdamの方法論を数学的基礎からバイアス補正戦略まで包括的に探求し,深層学習訓練技術の進歩を約束する。

In the rapidly advancing domain of deep learning optimization, this paper unveils the StochGradAdam optimizer, a novel adaptation of the well-regarded Adam algorithm. Central to StochGradAdam is its gradient sampling technique. This method not only ensures stable convergence but also leverages the advantages of selective gradient consideration, fostering robust training by potentially mitigating the effects of noisy or outlier data and enhancing the exploration of the loss landscape for more dependable convergence. In both image classification and segmentation tasks, StochGradAdam has demonstrated superior performance compared to the traditional Adam optimizer. By judiciously sampling a subset of gradients at each iteration, the optimizer is optimized for managing intricate models. The paper provides a comprehensive exploration of StochGradAdam's methodology, from its mathematical foundations to bias correction strategies, heralding a promising advancement in deep learning training techniques.
翻訳日:2024-02-12 20:20:40 公開日:2024-02-08
# redcoast:gpu/tpus上でllmの分散トレーニングを自動化する軽量ツール

RedCoast: A Lightweight Tool to Automate Distributed Training of LLMs on Any GPU/TPUs ( http://arxiv.org/abs/2310.16355v2 )

ライセンス: Link先を確認
Bowen Tan, Yun Zhu, Lijuan Liu, Hongyi Wang, Yonghao Zhuang, Jindong Chen, Eric Xing, Zhiting Hu(参考訳) 最近のAIの進歩は、主に大きな言語モデル(LLM)によるものである。 しかし、そのエスカレートするメモリ要件は、機械学習(ML)の研究者とエンジニアに課題をもたらす。 これに対応するには、開発者は大きなモデルを分割して複数のGPUやTPUに分散する必要がある。 これはMegatron-LM、DeepSpeed、Alpaといった既存のモデル並列ツールによるコーディングと複雑な構成作業を必要とする。 これらのツールは機械学習システム(MLSys)におけるユーザの専門知識を必要とし、特にMLSysのバックグラウンドを持たない開発者にとってLLM開発におけるボトルネックを生み出す。 この作業では、軽量でユーザフレンドリなツールであるRedCoast(Redco)を紹介し、LLMの分散トレーニングと推論を自動化するとともに、MLパイプラインの開発を簡素化する。 Redcoの設計は2つの重要な側面を強調している。 まず,モデルパラリズムを自動化するために,任意の llm に対してテンソル並列戦略を生成するための2つの素直なルールを同定した。 これらのルールをredcoに統合することで、無駄な分散llmトレーニングと推論が容易になり、追加のコーディングや複雑な構成が不要になる。 GPT-J, LLaMA, T5, OPT など一連の LLM アーキテクチャに Redco を適用することで, 最大 66B までの有効性を示す。 第2に,多ホスト関連処理のような冗長で定型的なコードを避けるために,単に3つの関数の定義によって多様なMLパイプラインをカスタマイズする機構を提案する。 このメカニズムは、基礎言語モデリングからメタラーニングや強化学習のような複雑なアルゴリズムまで、MLアルゴリズムの範囲で適応可能であることを証明している。 その結果、Redcoの実装は公式実装に比べてコード行数がはるかに少ない。

The recent progress of AI can be largely attributed to large language models (LLMs). However, their escalating memory requirements introduce challenges for machine learning (ML) researchers and engineers. Addressing this requires developers to partition a large model to distribute it across multiple GPUs or TPUs. This necessitates considerable coding and intricate configuration efforts with existing model parallel tools, such as Megatron-LM, DeepSpeed, and Alpa. These tools require users' expertise in machine learning systems (MLSys), creating a bottleneck in LLM development, particularly for developers without MLSys background. In this work, we present RedCoast(Redco), a lightweight and user-friendly tool crafted to automate distributed training and inference for LLMs, as well as to simplify ML pipeline development. The design of Redco emphasizes two key aspects. Firstly, to automate model parallism, our study identifies two straightforward rules to generate tensor parallel strategies for any given LLM. Integrating these rules into Redco facilitates effortless distributed LLM training and inference, eliminating the need of additional coding or complex configurations. We demonstrate the effectiveness by applying Redco on a set of LLM architectures, such as GPT-J, LLaMA, T5, and OPT, up to the size of 66B. Secondly, we propose a mechanism that allows for the customization of diverse ML pipelines through the definition of merely three functions, avoiding redundant and formulaic code like multi-host related processing. This mechanism proves adaptable across a spectrum of ML algorithms, from foundational language modeling to complex algorithms like meta-learning and reinforcement learning. Consequently, Redco implementations exhibit much fewer code lines compared to their official counterparts.
翻訳日:2024-02-12 20:20:22 公開日:2024-02-08
# 効率的かつ解釈可能なバンディットアルゴリズム

Efficient and Interpretable Bandit Algorithms ( http://arxiv.org/abs/2310.14751v2 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Ruihao Zhu, Branislav Kveton(参考訳) 現代の機械学習における説明可能性の重要性に動機づけられ、効率的かつ解釈可能なバンディットアルゴリズムを設計した。 バンディットアルゴリズムは、未知のモデルパラメータの不確実性を減らす目的で探索するときに解釈可能である。 解釈可能性の定量化を目的として, 平均報酬推定値の削減率と実測値との比較を行ったモデル誤差の新たな指標を提案する。 本稿では,制約付き最適設計に基づく帯域幅アルゴリズムであるCODEを提案する。 CODEの鍵となる考え方は、統計的制約によって決定されるすべての可算的なアクションを探索し、解釈可能性を達成することである。 我々は, 最適設計の最適基準を利用して, マルチアーム・リニアバンドのCODEを効率的に実装し, ほぼ最適後悔境界を導出する。 また、CODEは従来の位相除去の位相を除去するものと見なすことができ、より実用的で一般的なものである。 合成問題と実世界問題の両方において数値実験によりCODEの利点を実証する。 CODEは他の最先端の解釈可能な設計よりも優れており、高い信頼度境界アルゴリズムのような一般的なが解釈不能な設計の性能と一致している。

Motivated by the importance of explainability in modern machine learning, we design bandit algorithms that are efficient and interpretable. A bandit algorithm is interpretable if it explores with the objective of reducing uncertainty in the unknown model parameter. To quantify the interpretability, we introduce a novel metric of model error, which compares the rate reduction of the mean reward estimates to their actual means among all the plausible actions. We propose CODE, a bandit algorithm based on a Constrained Optimal DEsign, that is interpretable and maximally reduces the uncertainty. The key idea in CODE is to explore among all plausible actions, determined by a statistical constraint, to achieve interpretability. We implement CODE efficiently in both multi-armed and linear bandits and derive near-optimal regret bounds by leveraging the optimality criteria of the approximate optimal design. CODE can be also viewed as removing phases in conventional phased elimination, which makes it more practical and general. We demonstrate the advantage of CODE by numerical experiments on both synthetic and real-world problems. CODE outperforms other state-of-the-art interpretable designs while matching the performance of popular but uninterpretable designs, such as upper confidence bound algorithms.
翻訳日:2024-02-12 20:19:38 公開日:2024-02-08
# 多項式アクティベーションを持つグラフニューラルネットワークの表現性に制限がある

Graph Neural Networks with polynomial activations have limited expressivity ( http://arxiv.org/abs/2310.13139v7 )

ライセンス: Link先を確認
Sammy Khalife(参考訳) グラフニューラルネットワーク(GNN)の表現性は、第一次論理の適切な断片によって完全に特徴付けられる。 すなわち、ラベル付きグラフ上で解釈された2つの変分論理(GC2)の任意のクエリは、クエリの深さにのみ依存する大きさのGNNを用いて表現することができる。 barcelo & al., 2020, grohe, 2021] で指摘されているように、この記述は活性化関数の族であり、選択された活性化関数によってgnnによって表現できる論理の階層のポッシビビリティを残している。 本稿では,gc2クエリが多項式アクティベーション関数を持つgnnで表現できないことを証明して,このような階層構造が存在することを示す。 これは多項式と一般的な非多項式の活性化(Rectified Linear Units など)の分離を意味し、[Grohe, 21] で定式化された開問題に答える。

The expressivity of Graph Neural Networks (GNNs) can be entirely characterized by appropriate fragments of the first order logic. Namely, any query of the two variable fragment of graded modal logic (GC2) interpreted over labeled graphs can be expressed using a GNN whose size depends only on the depth of the query. As pointed out by [Barcelo & Al., 2020, Grohe, 2021], this description holds for a family of activation functions, leaving the possibibility for a hierarchy of logics expressible by GNNs depending on the chosen activation function. In this article, we show that such hierarchy indeed exists by proving that GC2 queries cannot be expressed by GNNs with polynomial activation functions. This implies a separation between polynomial and popular non polynomial activations (such as Rectified Linear Units) and answers an open question formulated by [Grohe, 21].
翻訳日:2024-02-12 20:18:46 公開日:2024-02-08
# LLark: 音楽のためのマルチモーダル命令追従言語モデル

LLark: A Multimodal Instruction-Following Language Model for Music ( http://arxiv.org/abs/2310.07160v2 )

ライセンス: Link先を確認
Josh Gardner, Simon Durand, Daniel Stoller, Rachel M. Bittner(参考訳) 音楽は独特で複雑な構造を持ち、熟練した人間と既存のaiシステムの両方にとって理解が難しい。 本稿では,emph{music}理解のための命令調整型マルチモーダルモデルであるllarkを提案する。 さまざまなオープンソース音楽データセットのアノテーションを増補し、それらを統一的な命令調整形式に変換するデータセット作成プロセスについて詳述する。 LLarkのためのマルチモーダルアーキテクチャを提案し、事前学習された言語モデルと事前学習された音楽生成モデルを統合する。 3種類のタスク(音楽理解,キャプション,推論)の評価において,LLarkは既存の音楽理解のベースラインと一致し,より優れており,人間はキャプションや推論タスクにおける応答と高い一致を示した。 LLarkは、オープンソースの音楽データとモデルから完全にトレーニングされています。 追加の結果とオーディオのサンプルはhttps://bit.ly/llarkで、ソースコードはhttps://github.com/spotify-research/llarkで利用可能です。

Music has a unique and complex structure which is challenging for both expert humans and existing AI systems to understand, and presents unique challenges relative to other forms of audio. We present LLark, an instruction-tuned multimodal model for \emph{music} understanding. We detail our process for dataset creation, which involves augmenting the annotations of diverse open-source music datasets and converting them to a unified instruction-tuning format. We propose a multimodal architecture for LLark, integrating a pretrained generative model for music with a pretrained language model. In evaluations on three types of tasks (music understanding, captioning, reasoning), we show that LLark matches or outperforms existing baselines in music understanding, and that humans show a high degree of agreement with its responses in captioning and reasoning tasks. LLark is trained entirely from open-source music data and models, and we make our training code available along with the release of this paper. Additional results and audio examples are at https://bit.ly/llark, and our source code is available at https://github.com/spotify-research/llark .
翻訳日:2024-02-12 20:17:27 公開日:2024-02-08
# コスト効率向上のための思考表現を混合した大規模言語モデルカスケード

Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning ( http://arxiv.org/abs/2310.03094v3 )

ライセンス: Link先を確認
Murong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao(参考訳) gpt-4のような大規模言語モデル(llm)は様々なタスクで顕著なパフォーマンスを示しているが、この強力なパフォーマンスはしばしば有料apiサービスの使用に高いコストがかかる。 本稿では,特に推論(数学的,因果的)タスクの実行において,llmを使用するコストを削減するために,llmカスケードの構築を動機付ける。 我々のカスケードパイプラインは、より単純な問題に弱いがより手頃な価格のLSMで対処できるという直感に従っています。 この決定を実現するために,弱いLCMの「問合せ整合性」を質問の難しさの信号とみなし,2つの思考表現(すなわちChain-of-ThoughtとProgram-of-Thought)を混合した回答サンプリングと整合性検査のためのいくつかの手法を提案する。 GPT-3.5-turbo と GPT-4 がそれぞれより弱い LLM である6つの推論ベンチマークデータセットの実験を通して,提案する LLM カスケードは,より強力な LLM に匹敵する性能を達成できるが,コストの 40% しか必要としないことを示す。

Large language models (LLMs) such as GPT-4 have exhibited remarkable performance in a variety of tasks, but this strong performance often comes with the high expense of using paid API services. In this paper, we are motivated to study building an LLM cascade to save the cost of using LLMs, particularly for performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline follows the intuition that simpler questions can be addressed by a weaker but more affordable LLM, whereas only the challenging questions necessitate the stronger and more expensive LLM. To realize this decision-making, we consider the "answer consistency" of the weaker LLM as a signal of the question difficulty and propose several methods for the answer sampling and consistency checking, including one leveraging a mixture of two thought representations (i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can achieve performance comparable to using solely the stronger LLM but require only 40% of its cost.
翻訳日:2024-02-12 20:16:44 公開日:2024-02-08
# 2つの量子メモリによる絡み合いバッファリング

Entanglement buffering with two quantum memories ( http://arxiv.org/abs/2311.10052v2 )

ライセンス: Link先を確認
Bethany Davies, \'Alvaro G. I\~nesta, Stephanie Wehner(参考訳) 量子ネットワークは、遠方のノードに分散したエンタングルリンクとして知られる、高品質なエンタングルされた量子ビットペアの可用性に大きく依存している。 これらのリンクの品質を維持することは、時間依存ノイズ(decoherenceとも呼ばれる)が存在するため、難しい課題である。 絡み合い浄化プロトコルは、複数の低品質な絡み合い状態からより少数の高品質な状態に変換することで解を提供する。 本稿では,エンタングルメント消費,デコヒーレンス,エンタングルメント浄化を組み合わせたエンタングルメントバッファリング設定の性能解析を行うフレームワークを提案する。 提案する2つの主要な指標は,絡み合ったリンクが存在する定常確率であるアベイラビリティと,使用済みリンクの定常状態品質を定量化する平均消費忠実度である。 次に、各ノードが2つの量子メモリを持つ2ノードシステムについて検討する。 この設定を連続的確率過程としてモデル化し、パフォーマンス指標の分析式を導出する。 われわれの調査結果は、可用性と平均的消費忠実性の間のトレードオフを明らかにしている。 また,これらの性能指標を,よく知られた二局所クリフォード浄化プロトコルを用いたバッファリングシステムに適用した。 本分析は, ノイズの存在下では, バッファ状絡み合いが, パーミネーション故障により, バッファ状絡み合いが破棄された場合でも, バッファ状絡み合いが平均消費忠実度を増加させることを示した。

Quantum networks crucially rely on the availability of high-quality entangled pairs of qubits, known as entangled links, distributed across distant nodes. Maintaining the quality of these links is a challenging task due to the presence of time-dependent noise, also known as decoherence. Entanglement purification protocols offer a solution by converting multiple low-quality entangled states into a smaller number of higher-quality ones. In this work, we introduce a framework to analyse the performance of entanglement buffering setups that combine entanglement consumption, decoherence, and entanglement purification. We propose two key metrics: the availability, which is the steady-state probability that an entangled link is present, and the average consumed fidelity, which quantifies the steady-state quality of consumed links. We then investigate a two-node system, where each node possesses two quantum memories: one for long-term entanglement storage, and another for entanglement generation. We model this setup as a continuous-time stochastic process and derive analytical expressions for the performance metrics. Our findings unveil a trade-off between the availability and the average consumed fidelity. We also bound these performance metrics for a buffering system that employs the well-known bilocal Clifford purification protocols. Importantly, our analysis demonstrates that, in the presence of noise, consistently purifying the buffered entanglement increases the average consumed fidelity, even when some buffered entanglement is discarded due to purification failures.
翻訳日:2024-02-12 20:07:11 公開日:2024-02-08
# VT-Former:インテリジェントハイウェイ交通システムのためのトランスフォーマーベース車両軌道予測手法

VT-Former: A Transformer-based Vehicle Trajectory Prediction Approach For Intelligent Highway Transportation Systems ( http://arxiv.org/abs/2311.06623v2 )

ライセンス: Link先を確認
Armin Danesh Pazho, Vinit Katariya, Ghazal Alinezhad Noghre, Hamed Tabkhi(参考訳) 道路の安全性と交通管理の強化は、現代のサイバー物理システムやインテリジェントな輸送システムにとって重要な焦点となっている。 自動車軌道予測は、高速道路や道路安全への多くの応用において重要な要素である。 これらのアプリケーションには、交通管理や事故防止からワークゾーンの安全性の向上、エネルギー保全の最適化に至るまで、幅広いユースケースが含まれている。 この文脈でインテリジェントな管理を実現する能力は、道路網を横断する監視カメラの展開とともに、人工知能(ai)の分野での発展によって大きく進歩した。 本稿では,高速道路の安全と監視のための車両軌道予測のためのトランスフォーマーに基づく新しいアプローチ,VT-Formerを提案する。 トランスフォーマを使用して長距離の時間パターンを捉えることに加えて、車両間の複雑な社会的相互作用を捉えるために、新しいグラフ注意トークン化(gat)モジュールが提案されている。 これら2つのコアコンポーネントを組み合わせることで、車両軌道予測の正確なアプローチが達成される。 車両軌道予測におけるVT-Formerの性能と,その一般化性とロバスト性を示す3つの異なる視点を持つ3つのベンチマークデータセットについて検討した。 また,組込み基板上でのvt-formerの効率を評価し,サンプルアプリケーションとしての車両異常検出の可能性について検討し,その幅広い適用性を示す。

Enhancing roadway safety and traffic management has become an essential focus area for a broad range of modern cyber-physical systems and intelligent transportation systems. Vehicle Trajectory Prediction is a pivotal element within numerous applications for highway and road safety. These applications encompass a wide range of use cases, spanning from traffic management and accident prevention to enhancing work-zone safety and optimizing energy conservation. The ability to implement intelligent management in this context has been greatly advanced by the developments in the field of Artificial Intelligence (AI), alongside the increasing deployment of surveillance cameras across road networks. In this paper, we introduce a novel transformer-based approach for vehicle trajectory prediction for highway safety and surveillance, denoted as VT-Former. In addition to utilizing transformers to capture long-range temporal patterns, a new Graph Attentive Tokenization (GAT) module has been proposed to capture intricate social interactions among vehicles. Combining these two core components culminates in a precise approach for vehicle trajectory prediction. Our study on three benchmark datasets with three different viewpoints demonstrates the State-of-The-Art (SoTA) performance of VT-Former in vehicle trajectory prediction and its generalizability and robustness. We also evaluate VT-Former's efficiency on embedded boards and explore its potential for vehicle anomaly detection as a sample application, showcasing its broad applicability.
翻訳日:2024-02-12 20:05:03 公開日:2024-02-08
# 最適輸送によるフェアコアセット

Fair Coresets via Optimal Transport ( http://arxiv.org/abs/2311.05436v2 )

ライセンス: Link先を確認
Zikai Xiong, Niccol\`o Dalmasso, Shubham Sharma, Freddy Lecue, Daniele Magazzeni, Vamsi K. Potluru, Tucker Balch, Manuela Veloso(参考訳) データ蒸留とコアセットは、大規模なデータセットを扱うための下流学習タスクのためのより小さなサンプルセットを生成する一般的なアプローチとして現れている。 同時に、機械学習は社会的レベルでの意思決定プロセスにますます適用され、モデリング者がデータに存在するサブグループに対する固有のバイアスに対処することが不可欠になっている。 現在の方法では、原サンプルに対する局所特性を最適化することで、公正な合成代表サンプルを作成するが、下流学習プロセスへの影響はまだ検討されていない。 本稿では,fair wasserstein coresets (fwc) を提案する。これは,下流学習タスクで使用するサンプルレベルの重みと合わせて,公正な合成代表サンプルを生成する新しいコアセットアプローチである。 fwcは、人口格差を強制しながら、元のデータセットと重み付けされた合成サンプルとの間のワッサースタイン距離を最小化する。 fwcの制約のないバージョンは、k-mediansとk-meansクラスタリングのためのlloydのアルゴリズムと等価であることを示す。 合成データと実データの両方で実験した結果、fwc: i) 既存のアプローチと比較して下流モデルにおける競合フェアネス・パフォーマンストレードオフを実現する。 (ii)既存の訓練データに加えると下流公平性が向上する。 (iii)は,大規模言語モデル(GPT-3.5およびGPT-4)からの予測のバイアスを低減するために用いられる。

Data distillation and coresets have emerged as popular approaches to generate a smaller representative set of samples for downstream learning tasks to handle large-scale datasets. At the same time, machine learning is being increasingly applied to decision-making processes at a societal level, making it imperative for modelers to address inherent biases towards subgroups present in the data. Current approaches create fair synthetic representative samples by optimizing local properties relative to the original samples, but their effect on downstream learning processes has yet to be explored. In this work, we present fair Wasserstein coresets (FWC), a novel coreset approach which generates fair synthetic representative samples along with sample-level weights to be used in downstream learning tasks. FWC minimizes the Wasserstein distance between the original dataset and the weighted synthetic samples while enforcing demographic parity. We show that an unconstrained version of FWC is equivalent to Lloyd's algorithm for k-medians and k-means clustering. Experiments conducted on both synthetic and real datasets show that FWC: (i) achieves a competitive fairness-performance tradeoff in downstream models compared to existing approaches, (ii) improves downstream fairness when added to the existing training data and (iii) can be used to reduce biases in predictions from large language models (GPT-3.5 and GPT-4).
翻訳日:2024-02-12 20:04:42 公開日:2024-02-08
# FairWASP: 高速かつ最適なFair Wasserstein前処理

FairWASP: Fast and Optimal Fair Wasserstein Pre-processing ( http://arxiv.org/abs/2311.00109v2 )

ライセンス: Link先を確認
Zikai Xiong, Niccol\`o Dalmasso, Alan Mishler, Vamsi K. Potluru, Tucker Balch, Manuela Veloso(参考訳) 近年、異なるサブグループ間のモデル出力の差を減らすことを目的とした機械学習アプローチが急増している。 多くの設定において、トレーニングデータは異なるユーザによって複数の下流アプリケーションで使用される可能性があるため、トレーニングデータ自体に介入するのが最も効果的である。 本稿では,分類データセットの差異を元のデータを変更することなく減らすために設計された,新しい前処理手法であるfairwaspを提案する。 FairWASPはサンプルレベルの重みを返すため、再重み付けされたデータセットは、ワッサースタインから元のデータセットまでの距離を最小化し、(実証的なバージョンの)人口統計値を満たす。 理論上,整数重みは最適であることを示し,この手法は標本の重複や除去と等価に解釈できることを示した。 したがって、FairWASPは、サンプル重量を受け入れるメソッドだけでなく、任意の分類方法に入力可能なデータセットを構築するために使用できる。 本研究は, 大規模混合整数プログラム (MIP) として前処理タスクを再構成し, 切削平面法に基づく高効率なアルゴリズムを提案する。 実験により,提案アルゴリズムは,MIPと線形プログラム緩和の両面において,最先端の商用解法よりも優れていた。 さらに実験では、下流の分類設定で精度を保ちながら格差を減らし、FairWASPの競争性能を強調している。

Recent years have seen a surge of machine learning approaches aimed at reducing disparities in model outputs across different subgroups. In many settings, training data may be used in multiple downstream applications by different users, which means it may be most effective to intervene on the training data itself. In this work, we present FairWASP, a novel pre-processing approach designed to reduce disparities in classification datasets without modifying the original data. FairWASP returns sample-level weights such that the reweighted dataset minimizes the Wasserstein distance to the original dataset while satisfying (an empirical version of) demographic parity, a popular fairness criterion. We show theoretically that integer weights are optimal, which means our method can be equivalently understood as duplicating or eliminating samples. FairWASP can therefore be used to construct datasets which can be fed into any classification method, not just methods which accept sample weights. Our work is based on reformulating the pre-processing task as a large-scale mixed-integer program (MIP), for which we propose a highly efficient algorithm based on the cutting plane method. Experiments demonstrate that our proposed optimization algorithm significantly outperforms state-of-the-art commercial solvers in solving both the MIP and its linear program relaxation. Further experiments highlight the competitive performance of FairWASP in reducing disparities while preserving accuracy in downstream classification settings.
翻訳日:2024-02-12 20:04:22 公開日:2024-02-08
# スケーリングが必要なのはすべて - JAX-Accelerated Reinforcement Learningによる自律運転

Scaling Is All You Need: Autonomous Driving with JAX-Accelerated Reinforcement Learning ( http://arxiv.org/abs/2312.15122v3 )

ライセンス: Link先を確認
Moritz Harmel, Anubhav Paras, Andreas Pasternak, Nicholas Roy, Gary Linscott(参考訳) 強化学習は、ビデオゲームのような複雑な領域で最高の人間よりも優れていることが示されている。 しかし、自動運転に必要な規模で強化学習実験を行うことは極めて困難である。 大規模な強化学習システムを構築し、多くのGPUに分散することは難しい。 現実世界の車両でのトレーニング中の収集経験は、安全性とスケーラビリティの観点から禁止されている。 そのため、実世界の運転から大量のデータを利用する効率的で現実的な運転シミュレータが必要となる。 これらの機能をまとめて,自律運転のための大規模強化学習実験を行う。 当社の政策性能は大規模化とともに向上することを示す。 当社のベストパフォーマンスポリシは、自動運転のための最先端機械学習によるポリシと比較して、運転進捗率を25%向上しながら、障害率を64%削減します。

Reinforcement learning has been demonstrated to outperform even the best humans in complex domains like video games. However, running reinforcement learning experiments on the required scale for autonomous driving is extremely difficult. Building a large scale reinforcement learning system and distributing it across many GPUs is challenging. Gathering experience during training on real world vehicles is prohibitive from a safety and scalability perspective. Therefore, an efficient and realistic driving simulator is required that uses a large amount of data from real-world driving. We bring these capabilities together and conduct large-scale reinforcement learning experiments for autonomous driving. We demonstrate that our policy performance improves with increasing scale. Our best performing policy reduces the failure rate by 64% while improving the rate of driving progress by 25% compared to the policies produced by state-of-the-art machine learning for autonomous driving.
翻訳日:2024-02-12 19:54:49 公開日:2024-02-08
# テーブルシフトを用いたタブラルデータのベンチマーク分布シフト

Benchmarking Distribution Shift in Tabular Data with TableShift ( http://arxiv.org/abs/2312.07577v3 )

ライセンス: Link先を確認
Josh Gardner, Zoran Popovic, Ludwig Schmidt(参考訳) 分散シフトに対するロバスト性は、研究対象から現実世界への展開への移行に伴って、テキストや画像モデルに対する関心が高まっている。 しかし、表型データの普及や、テキストや画像と比較して表型データに使用するモデルの違いにもかかわらず、表型機械学習タスクの分散シフトのための高品質なベンチマークはいまだに欠落している。 その結果,分布シフトに対する表モデルのロバスト性はよく分かっていない。 この問題に対処するため,表データの分散シフトベンチマークであるTableShiftを導入する。 TableShiftには15のバイナリ分類タスクがあり、それぞれに関連するシフトがあり、さまざまなデータソース、予測ターゲット、分散シフトが含まれている。 このベンチマークは、ファイナンス、教育、公共政策、医療、市民参加を含むドメインをカバーしており、TableShift API経由でわずか数行のPythonコードでアクセスできる。 ベンチマークタスクにおける頑健な学習法とドメイン一般化法とともに、最先端の表型データモデルを比較した大規模な研究を行う。 本研究は,(1)分布内(ID)と分布外(OOD)の精度の線形傾向,(2)ドメインの堅牢性はシフトギャップを低減できるが,IDの精度の低減は可能であること,(3)シフトギャップ(IDとOODのパフォーマンスの差)とラベル分布のシフトとの強い関係を示す。 ベンチマークデータ、pythonパッケージ、モデル実装、およびtableshiftに関するさらなる情報は、https://github.com/mlfoundations/tableshiftおよびhttps://tableshift.orgで入手できる。

Robustness to distribution shift has become a growing concern for text and image models as they transition from research subjects to deployment in the real world. However, high-quality benchmarks for distribution shift in tabular machine learning tasks are still lacking despite the widespread real-world use of tabular data and differences in the models used for tabular data in comparison to text and images. As a consequence, the robustness of tabular models to distribution shift is poorly understood. To address this issue, we introduce TableShift, a distribution shift benchmark for tabular data. TableShift contains 15 binary classification tasks in total, each with an associated shift, and includes a diverse set of data sources, prediction targets, and distribution shifts. The benchmark covers domains including finance, education, public policy, healthcare, and civic participation, and is accessible using only a few lines of Python code via the TableShift API. We conduct a large-scale study comparing several state-of-the-art tabular data models alongside robust learning and domain generalization methods on the benchmark tasks. Our study demonstrates (1) a linear trend between in-distribution (ID) and out-of-distribution (OOD) accuracy; (2) domain robustness methods can reduce shift gaps but at the cost of reduced ID accuracy; (3) a strong relationship between shift gap (difference between ID and OOD performance) and shifts in the label distribution. The benchmark data, Python package, model implementations, and more information about TableShift are available at https://github.com/mlfoundations/tableshift and https://tableshift.org .
翻訳日:2024-02-12 19:53:51 公開日:2024-02-08
# layercollapse:ニューラルネットワークの適応圧縮

LayerCollapse: Adaptive compression of neural networks ( http://arxiv.org/abs/2311.17943v2 )

ライセンス: Link先を確認
Soheil Zibakhsh Shabgahi, Mohammad Sohail Shariff, Farinaz Koushanfar(参考訳) 現代のディープラーニングとトランスフォーマーベースのモデルの増大するスケールを扱うことは、大きな課題となる。 過剰パラメータのトランスフォーマーネットワークは、自然言語処理やコンピュータビジョンの先行技術よりも優れている。 これらのモデルには数億のパラメータが含まれており、重要な計算資源を必要とし、過剰に適合しやすい。 本研究では,完全連結層の深さを減少させる構造的プルーニングであるlayercollapseを提案する。 我々は,性能に制限があるながら,微調整を伴わずに圧縮を後処理できる新しい正規化器を開発した。 LayerCollapseは、完全に連結された層間のアクティベーションを正規化して、アクティベーション関数の線形性を調整する。 線形活性化関数は、対応する線形変換のランクへの変換のランクを減少させる。 本稿では,感情分析および画像分類ベンチマークにおいて,その圧縮能力を示すことによって,LayerCollapseの有効性を示す。 また,LayerCollapseは言語モデリングベンチマークにおいて,効果的な圧縮認識正規化手法であることを示す。

Handling the ever-increasing scale of contemporary deep learning and transformer-based models poses a significant challenge. Overparameterized Transformer networks outperform prior art in Natural Language processing and Computer Vision. These models contain hundreds of millions of parameters, demanding significant computational resources and making them prone to overfitting. In this work we present LayerCollapse, a form of structured pruning to reduce the depth of fully connected layers. We develop a novel regularizer allowing for post-training compression without finetuning, while having limited impact on performance. LayerCollapse controls model expressiveness with regularization on the activations between fully connected layers, modulating the linearity of activation functions. A linear activation function reduces the rank of the transformation to the rank of the corresponding linear transformation. We demonstrate the effectiveness of LayerCollapse by showing its compression capabilities in sentimental analysis and image classification benchmarks. Moreover we show LayerCollapse is an effective compression aware regularization method in a language modeling benchmark.
翻訳日:2024-02-12 19:53:24 公開日:2024-02-08
# ディープニューラルネットワーク加速器における故障位置推定のためのモニタ配置

Monitor Placement for Fault Localization in Deep Neural Network Accelerators ( http://arxiv.org/abs/2311.16594v2 )

ライセンス: Link先を確認
Wei-Kai Liu(参考訳) サイストリックアレイは、並列性と効率的なデータ再利用を提供するため、ディープニューラルネットワーク(DNN)アクセラレーターにとって顕著な選択である。 ハードウェア障害がDNN推論の精度を低下させる可能性があるため、DNNアクセラレータの信頼性の向上が不可欠である。 シストリックアレイは並列処理に多数の処理要素(PE)を用いるが、1つのPEが故障すると、エラーが伝播し、下流PEの結果に影響を与える。 PEの数が多すぎるため、各PEのハードウェアベースのランタイム監視を実装するコストは、実現不可能である。 本稿では,systolic配列内のハードウェアモニタ配置を最適化するソリューションを提案する。 まず、単一障害PEをローカライズするために2N-1ドルモニターが必要であることを証明し、モニタ配置を導出する。 与えられたモニタ数に対する候補故障PEの集合を最小化する第2の配置最適化問題はNPハードであることを示す。 そこで本研究では,DNNアクセラレータの信頼性とハードウェアリソース利用のバランスをとるためのヒューリスティックな手法を提案する。 実験により、単一障害PEをローカライズするには、256\times 256$ systolic配列に対して0.33%のオーバーヘッドしか発生しないことがわかった。

Systolic arrays are a prominent choice for deep neural network (DNN) accelerators because they offer parallelism and efficient data reuse. Improving the reliability of DNN accelerators is crucial as hardware faults can degrade the accuracy of DNN inferencing. Systolic arrays make use of a large number of processing elements (PEs) for parallel processing, but when one PE is faulty, the error propagates and affects the outcomes of downstream PEs. Due to the large number of PEs, the cost associated with implementing hardware-based runtime monitoring of every single PE is infeasible. We present a solution to optimize the placement of hardware monitors within systolic arrays. We first prove that $2N-1$ monitors are needed to localize a single faulty PE and we also derive the monitor placement. We show that a second placement optimization problem, which minimizes the set of candidate faulty PEs for a given number of monitors, is NP-hard. Therefore, we propose a heuristic approach to balance the reliability and hardware resource utilization in DNN accelerators when number of monitors is limited. Experimental evaluation shows that to localize a single faulty PE, an area overhead of only 0.33% is incurred for a $256\times 256$ systolic array.
翻訳日:2024-02-12 19:53:04 公開日:2024-02-08
# プロンプトデザインとエンジニアリング:序論と先進的手法

Prompt Design and Engineering: Introduction and Advanced Methods ( http://arxiv.org/abs/2401.14423v3 )

ライセンス: Link先を確認
Xavier Amatriain(参考訳) プロンプト設計と工学は、大規模言語モデルの可能性の最大化に急速に不可欠になっている。 本稿では,核となる概念,思考の連鎖やリフレクションといった高度な技術,llmベースのエージェント構築の背後にある原則を紹介する。 最後に,プロンプトエンジニアのためのツールに関する調査を行う。

Prompt design and engineering has rapidly become essential for maximizing the potential of large language models. In this paper, we introduce core concepts, advanced techniques like Chain-of-Thought and Reflection, and the principles behind building LLM-based agents. Finally, we provide a survey of tools for prompt engineers.
翻訳日:2024-02-12 19:43:27 公開日:2024-02-08
# よく教育された知性の本質的善さ

The inherent goodness of well educated intelligence ( http://arxiv.org/abs/2401.04846v4 )

ライセンス: Link先を確認
Michael E. Glinsky and Sharon Sievert(参考訳) この論文は、生物学的な存在であろうと、コンピューター上の人工シリコンであろうと、何が知的であるかを調べる。 特に注目されるのは、保守的に相互作用する多くの同一の保守的なサブシステムの集合システムを特徴づけ、制御する能力を持つことである。 インテリジェンスの本質は、黄金律("the collective act as one" または "knowing the global consequences of local action")である。 集合体の流れは小さなツインクリングテクスチャの集合であり、最小作用の測地運動に従って少数の弦を引いている人形師によって支配され、対称性によって決定される。 集団的保守システムの制御は困難であり、歴史的に、最大性能の望ましいメタ安定平衡を安定化するためにシステムに大きな粘度を加えることによって行われてきた。 代替案がある。 メタ安定平衡の最適ツインクリングテクスチャが特定されると、集合系を最適ツインクリングテクスチャに移動させ、その集合系をメタ安定平衡に残すようにテクスチャに応じて素早く振動させることができる。 知識に富んだ知性は、その地域行動の世界的な影響を知っており、短期的な行動が長期的な成果を損なうことはない。 対照的に、訓練された知性や訓練された愚かさは短期的な行動を最適化する。 教養のある知性は本質的に良いが、訓練された愚かさは本質的に悪であり、恐れるべきである。 特に、経済・社会集団の制御と最適化に注意が払われている。 これらの新しい結果は、フィールド、流体、プラズマなどの物理的集合にも適用できる。

This paper will examine what makes a being intelligent, whether that be a biological being or an artificial silicon being on a computer. Special attention will be paid to the being having the ability to characterize and control a collective system of many identical conservative sub-systems conservatively interacting. The essence of intelligence will be found to be the golden rule -- "the collective acts as one" or "knowing the global consequences of local actions". The flow of the collective is a small set of twinkling textures, that are governed by a puppeteer who is pulling a small number of strings according to a geodesic motion of least action, determined by the symmetries. Controlling collective conservative systems is difficult and has historically been done by adding significant viscosity to the system to stabilize the desirable meta stable equilibriums of maximum performance, but it degrades or destroys them in the process. There is an alternative. Once the optimum twinkling textures of the meta stable equilibriums are identified, the collective system can be moved to the optimum twinkling textures, then quickly vibrated according to the textures so that the collective system remains at the meta stable equilibrium. Well educated intelligence knows the global consequences of its local actions so that it will not take short term actions that will lead to poor long term outcomes. In contrast, trained intelligence or trained stupidity will optimize its short term actions, leading to poor long term outcomes. Well educated intelligence is inherently good, but trained stupidity is inherently evil and should be feared. Particular attention is paid to the control and optimization of economic and social collectives. These new results are also applicable to physical collectives such as fields, fluids and plasmas.
翻訳日:2024-02-12 19:41:32 公開日:2024-02-08
# テスト時間適応のためのPlug-and-Play変換モジュール

Plug-and-Play Transformer Modules for Test-Time Adaptation ( http://arxiv.org/abs/2401.04130v3 )

ライセンス: Link先を確認
Xiangyu Chang, Sk Miraj Ahmed, Srikanth V. Krishnamurthy, Basak Guler, Ananthram Swami, Samet Oymak, Amit K. Roy-Chowdhury(参考訳) LoRA、Adapter、Visual Prompt Tuning (VPT) などのPET手法は、トランスフォーマーモデル内の小さなモジュールをチューニングすることで、新しいドメインへの適応を可能にすることに成功した。 しかし、テスト期間中に遭遇するドメインの数は膨大であり、通常はラベル付けされていない。 したがって、新しいドメインへの適応は困難であり、これらのドメインごとにカスタマイズされたチューニングモジュールを生成するのも現実的ではない。 これらの課題に対処するために、PLUTO: Plug-and-pLay modUlar Test-time Domain AdaptatiOn戦略を紹介します。 私たちは多数のモジュールを事前トレーニングし、それぞれ異なるソースドメインに特化しており、実質的に ``module store'' を作成します。 ラベルなしデータの少ない対象領域を前提として,(1)関連モジュールのスパース部分集合をこのストアから選択するための教師なしテスト時間適応(TTA)手法を導入し,(2)重みを調整せずに選択したモジュールの組み合わせを重み付けする。 このプラグアンドプレイの性質により、複数の最も関連性の高いソースドメインを単一の推論コールで利用することができます。 総合的な評価は、PLUTOが代替のTTAメソッドを均一に上回り、$\leq$5モジュールを選択することは、利益のほとんどを抽出するのに十分であることを示している。 提案手法は,高速かつスケーラブルなドメイン適応のための新しいパラダイムをモチベーションとして,事前学習したトランスフォーマーに新しいドメインへの動的適応能力を持たせる。

Parameter-efficient tuning (PET) methods such as LoRA, Adapter, and Visual Prompt Tuning (VPT) have found success in enabling adaptation to new domains by tuning small modules within a transformer model. However, the number of domains encountered during test time can be very large, and the data is usually unlabeled. Thus, adaptation to new domains is challenging; it is also impractical to generate customized tuned modules for each such domain. Toward addressing these challenges, this work introduces PLUTO: a Plug-and-pLay modUlar Test-time domain adaptatiOn strategy. We pre-train a large set of modules, each specialized for different source domains, effectively creating a ``module store''. Given a target domain with few-shot unlabeled data, we introduce an unsupervised test-time adaptation (TTA) method to (1) select a sparse subset of relevant modules from this store and (2) create a weighted combination of selected modules without tuning their weights. This plug-and-play nature enables us to harness multiple most-relevant source domains in a single inference call. Comprehensive evaluations demonstrate that PLUTO uniformly outperforms alternative TTA methods and that selecting $\leq$5 modules suffice to extract most of the benefit. At a high level, our method equips pre-trained transformers with the capability to dynamically adapt to new domains, motivating a new paradigm for efficient and scalable domain adaptation.
翻訳日:2024-02-12 19:40:39 公開日:2024-02-08
# NeRCC: レジリエントな分散予測サービングシステムのためのネスト回帰符号計算

NeRCC: Nested-Regression Coded Computing for Resilient Distributed Prediction Serving Systems ( http://arxiv.org/abs/2402.04377v2 )

ライセンス: Link先を確認
Parsa Moradi, Mohammad Ali Maddah-Ali(参考訳) ストラグラーに対する耐性は予測サービスシステムの重要な要素であり、事前訓練された機械学習モデルの入力データに対する推論を実行する。 本稿では、近似符号化コンピューティングのための一般的なストラグラー耐性フレームワークとしてNeRCCを提案する。 nerccは,(1)エンコーディングレグレッションとサンプリング,(2)エンコードされたデータポイントの組合せとしてコード化されたデータポイントを生成する,(2)労働者のクラスタがコード化されたデータポイント上で推論を行う,(3)デコードレグレッションとサンプリング,(3)エンコードされたデータポイント上で利用可能な予測から元のデータポイントの予測をほぼ復元する,の3つのレイヤを含む。 このフレームワークの全体的な目的は、符号化層と復号層における2つの回帰モデル間の相互関係を明らかにすることである。 本稿では, 2つの正規化項への依存度を和らげることで, ネスト回帰問題の解法を提案する。 LeNet5、RepVGG、Vision Transformer(ViT)など、さまざまなデータセットとさまざまな機械学習モデルに関する広範な実験により、NeRCCは、幅広いストラグラーにおける元の予測を正確に近似し、最先端の技術を最大23%上回ることを示した。

Resilience against stragglers is a critical element of prediction serving systems, tasked with executing inferences on input data for a pre-trained machine-learning model. In this paper, we propose NeRCC, as a general straggler-resistant framework for approximate coded computing. NeRCC includes three layers: (1) encoding regression and sampling, which generates coded data points, as a combination of original data points, (2) computing, in which a cluster of workers run inference on the coded data points, (3) decoding regression and sampling, which approximately recovers the predictions of the original data points from the available predictions on the coded data points. We argue that the overall objective of the framework reveals an underlying interconnection between two regression models in the encoding and decoding layers. We propose a solution to the nested regressions problem by summarizing their dependence on two regularization terms that are jointly optimized. Our extensive experiments on different datasets and various machine learning models, including LeNet5, RepVGG, and Vision Transformer (ViT), demonstrate that NeRCC accurately approximates the original predictions in a wide range of stragglers, outperforming the state-of-the-art by up to 23%.
翻訳日:2024-02-12 19:33:02 公開日:2024-02-08
# X線超蛍光のエルミート確率法

Hermitian stochastic methodology for X-ray superfluorescence ( http://arxiv.org/abs/2402.04069v2 )

ライセンス: Link先を確認
Stasis Chuchurka, Vladislav Sukharnikov, and Nina Rohringer(参考訳) 最近導入されたx線増幅自発発光のダイナミクスをモデル化するための理論的枠組みは、他の位相空間サンプリング技術と同様に、量子エミッタの密度行列と放射場の確率的サンプリングに基づいている。 第一原理に基づいて価値ある理論的洞察を与える一方で、元の確率微分方程式は発散性と数値不安定性を示す。 本稿では,確率的成分を摂動的に計算することにより,この問題を解決する。 洗練された形式主義は自発放出の特性を正確に再現し、自発放出、増幅自発放出、非線形状態を含む同軸幾何学における集合X線放射の全ての段階を記述するのに普遍的に適用可能である。 数値例を通して,超蛍光の1次元近似における重要な特徴を解析する。 重要なことに、基礎となる確率方程式の単一実現は、超蛍光の個々の実験観測として完全に解釈できる。

A recently introduced theoretical framework for modeling the dynamics of X-ray amplified spontaneous emission is based on stochastic sampling of the density matrix of quantum emitters and the radiation field, similarly to other phase-space sampling techniques. While based on first principles and providing valuable theoretical insights, the original stochastic differential equations exhibit divergences and numerical instabilities. Here, we resolve this issue by accounting the stochastic components perturbatively. The refined formalism accurately reproduces the properties of spontaneous emission and proves universally applicable for describing all stages of collective X-ray emission in paraxial geometry, including spontaneous emission, amplified spontaneous emission, and the non-linear regime. Through numerical examples, we analyze key features of superfluorescence in one-dimensional approximation. Importantly, single realizations of the underlying stochastic equations can be fully interpreted as individual experimental observations of superfluorescence.
翻訳日:2024-02-12 19:32:38 公開日:2024-02-08
# エンド・ツー・エンド深層学習モデルによる効率的な数値波動伝播

Efficient Numerical Wave Propagation Enhanced By An End-to-End Deep Learning Model ( http://arxiv.org/abs/2402.02304v3 )

ライセンス: Link先を確認
Luis Kaiser, Richard Tsai, Christian Klingenberg(参考訳) 波動モデリングの最近の進歩は、高速だが不正確な粗解器の精度を高めるニューラルネットワークを訓練するために十分な精度の微細解器出力を使用する。 本稿では,Nguyen と Tsai (2023) の業績に基づいて,数値解法と深層学習成分をエンドツーエンドフレームワークに統合する統一システムを提案する。 提案手法では,ネットワークアーキテクチャとデータ生成アルゴリズムの改良について検討する。 安定かつ高速な解法により、高周波波成分を補正する並列時間アルゴリズムであるPararealが利用可能となる。 その結果, 凝集構造は速度を犠牲にすることなく性能を向上し, 正確な波動伝搬における時間的ダイナミクス, およびパラレアルの重要性が示された。

Recent advances in wave modeling use sufficiently accurate fine solver outputs to train a neural network that enhances the accuracy of a fast but inaccurate coarse solver. In this paper we build upon the work of Nguyen and Tsai (2023) and present a novel unified system that integrates a numerical solver with a deep learning component into an end-to-end framework. In the proposed setting, we investigate refinements to the network architecture and data generation algorithm. A stable and fast solver further allows the use of Parareal, a parallel-in-time algorithm to correct high-frequency wave components. Our results show that the cohesive structure improves performance without sacrificing speed, and demonstrate the importance of temporal dynamics, as well as Parareal, for accurate wave propagation.
翻訳日:2024-02-12 19:29:31 公開日:2024-02-08
# モノトン, bi-lipschitz, polyak-lojasiewiczネットワーク

Monotone, Bi-Lipschitz, and Polyak-Lojasiewicz Networks ( http://arxiv.org/abs/2402.01344v2 )

ライセンス: Link先を確認
Ruigang Wang, Krishnamurthy Dvijotham, Ian R. Manchester(参考訳) 本稿では,入力摂動に対する応答感度)と逆リプシッツネス(異なる出力からの入力弁別性)の両方を制御できるニューラルネットであるbilipnet(bilipnet)を提案する。 主な貢献は、証明された強い単調性とリプシッツ性を持つ新しい可逆残留層であり、双リプシッツネットワークを構築するために直交層を構成する。 この認定は、スペクトル正規化よりもずっと厳密な境界を達成する漸進的二次的制約に基づいている。 さらに、高速アルゴリズムが知られている3演算分割問題としてモデル逆計算を定式化する。 提案した双Lipschitzネットワークに基づいて,Polyak-\L{}ojasiewicz条件を満たす新しいスカラー出力ネットワークPLNetを導入する。 例えば、一意で効率的な計算可能なグローバル最小値など、好ましい特性を持つ非凸サーロゲート損失の学習に応用することができる。

This paper presents a new \emph{bi-Lipschitz} invertible neural network, the BiLipNet, which has the ability to control both its \emph{Lipschitzness} (output sensitivity to input perturbations) and \emph{inverse Lipschitzness} (input distinguishability from different outputs). The main contribution is a novel invertible residual layer with certified strong monotonicity and Lipschitzness, which we compose with orthogonal layers to build bi-Lipschitz networks. The certification is based on incremental quadratic constraints, which achieves much tighter bounds compared to spectral normalization. Moreover, we formulate the model inverse calculation as a three-operator splitting problem, for which fast algorithms are known. Based on the proposed bi-Lipschitz network, we introduce a new scalar-output network, the PLNet, which satisfies the Polyak-\L{}ojasiewicz condition. It can be applied to learn non-convex surrogate losses with favourable properties, e.g., a unique and efficiently-computable global minimum.
翻訳日:2024-02-12 19:28:53 公開日:2024-02-08
# パラメーター可観測写像の操作者学習視点

An operator learning perspective on parameter-to-observable maps ( http://arxiv.org/abs/2402.06031v1 )

ライセンス: Link先を確認
Daniel Zhengyu Huang, Nicholas H. Nelsen, Margaret Trautner(参考訳) パラメタライズド物理モデルのための計算効率の良いサロゲートは、科学と工学において重要な役割を果たす。 オペレータ学習は、関数空間間をマッピングするデータ駆動サロゲートを提供する。 しかし、フルフィールド測定の代わりに、利用可能なデータはモデル入力の有限次元パラメトリゼーションやモデル出力の有限可観測値のみであることが多い。 本稿では、フーリエニューラル演算子を用いて、そのような有限次元入力と出力に対応可能なフーリエニューラルマッピング(FNM)フレームワークを提案する。 本手法の普遍近似定理を開発した。 さらに、多くの応用において、基礎となるパラメータ-観測可能(pto)写像は、偏微分方程式の解作用素のような無限次元作用素を通して暗黙的に定義される。 自然な疑問は、PtOマップをエンドツーエンドに学習することがよりデータ効率が高いか、あるいは最初に解演算子を学習し、次に全フィールド解から可観測性を計算するかである。 独立な関心を持つ線形汎関数のベイズ非パラメトリック回帰の理論解析は、エンドツーエンドアプローチが実際にサンプル複雑性を悪化させる可能性を示唆している。 この理論を超えて、3つの非線形PtO写像のFNM近似の数値結果は、本論文が採用する演算子学習視点の利点を示している。

Computationally efficient surrogates for parametrized physical models play a crucial role in science and engineering. Operator learning provides data-driven surrogates that map between function spaces. However, instead of full-field measurements, often the available data are only finite-dimensional parametrizations of model inputs or finite observables of model outputs. Building off of Fourier Neural Operators, this paper introduces the Fourier Neural Mappings (FNMs) framework that is able to accommodate such finite-dimensional inputs and outputs. The paper develops universal approximation theorems for the method. Moreover, in many applications the underlying parameter-to-observable (PtO) map is defined implicitly through an infinite-dimensional operator, such as the solution operator of a partial differential equation. A natural question is whether it is more data-efficient to learn the PtO map end-to-end or first learn the solution operator and subsequently compute the observable from the full-field solution. A theoretical analysis of Bayesian nonparametric regression of linear functionals, which is of independent interest, suggests that the end-to-end approach can actually have worse sample complexity. Extending beyond the theory, numerical results for the FNM approximation of three nonlinear PtO maps demonstrate the benefits of the operator learning perspective that this paper adopts.
翻訳日:2024-02-12 19:09:04 公開日:2024-02-08
# このコードをリファクタリングする方法? 開発者-ChatGPTリファクタリング会話に関する探索的研究

How to Refactor this Code? An Exploratory Study on Developer-ChatGPT Refactoring Conversations ( http://arxiv.org/abs/2402.06013v1 )

ライセンス: Link先を確認
Eman Abdullah AlOmar, Anushkrishna Venkatakrishnan, Mohamed Wiem Mkaouer, Christian D. Newman, Ali Ouni(参考訳) chatgptのような大規模言語モデル(llm)は,リファクタリングやテスト,コードレビュー,プログラム理解など,さまざまなソフトウェアエンジニアリングタスクで広く普及し,使用されている。 コミットメッセージやイシュー,コードレビューといった,ドキュメントのリファクタリングに関する最近の研究にも関わらず,ChatGPTと対話する上でのリファクタリングニーズの明確化についてはほとんど分かっていない。 本稿では、リファクタリングに関連する開発者とChatGPTの会話を探求し、開発者がコード改善の領域を特定する方法と、ChatGPTが開発者のニーズにどう対処するかをよりよく理解することを目的とする。 提案手法は,17,913件のChatGPTプロンプトと応答からのテキストマイニング関連会話と,開発者の明示的なリファクタリング意図の調査に依存する。 以上の結果から,(1)開発者とChatGPTの会話は一般的に汎用的・特定の用語/フレーズを伴い,(2)開発者はジェネリックなリファクタリング要求を行うことが多い。 今回の調査結果は、コードリファクタリングのコンテキストにおいて、開発者とaiモデルのコラボレーションのより広範な理解に寄与し、モデル改善、ツール開発、ソフトウェアエンジニアリングにおけるベストプラクティスに影響を与えていると考えています。

Large Language Models (LLMs), like ChatGPT, have gained widespread popularity and usage in various software engineering tasks, including refactoring, testing, code review, and program comprehension. Despite recent studies delving into refactoring documentation in commit messages, issues, and code review, little is known about how developers articulate their refactoring needs when interacting with ChatGPT. In this paper, our goal is to explore conversations between developers and ChatGPT related to refactoring to better understand how developers identify areas for improvement in code and how ChatGPT addresses developers' needs. Our approach relies on text mining refactoring-related conversations from 17,913 ChatGPT prompts and responses, and investigating developers' explicit refactoring intention. Our results reveal that (1) developer-ChatGPT conversations commonly involve generic and specific terms/phrases; (2) developers often make generic refactoring requests, while ChatGPT typically includes the refactoring intention; and (3) various learning settings when prompting ChatGPT in the context of refactoring. We envision that our findings contribute to a broader understanding of the collaboration between developers and AI models, in the context of code refactoring, with implications for model improvement, tool development, and best practices in software engineering.
翻訳日:2024-02-12 19:08:42 公開日:2024-02-08
# NPSVC++:Nonparallel Classifiers Encounter Representation Learning

NPSVC++: Nonparallel Classifiers Encounter Representation Learning ( http://arxiv.org/abs/2402.06010v1 )

ライセンス: Link先を確認
Junhong Zhang, Zhihui Lai, Jie Zhou, Guangfei Liang(参考訳) 本稿では,非並列サポートベクトル分類器 (NPSVC) と呼ばれる特定の分類器群に着目した。 典型的な分類器とは異なり、NPSVCの訓練は複数の目的の最小化を伴い、特徴的部分最適化とクラス依存の潜在的な懸念をもたらす。 その結果,表現学習,特に深層学習によるNPSVCの性能向上のための効果的な学習方法が確立されていない。 このボトルネックを克服するために,多目的最適化に基づくNPSVC++を開発し,NPSVCとその特徴のエンドツーエンド学習を可能にする。 Paretoの最適性を追求することで、NPSVC++は理論的にクラス間の機能の最適性を保証する。 k-npsvc++とd-npsvc++の2つの適用例について,双対性最適化による一般的な学習手順を提案する。 実験は既存の手法よりも優れていることを示し、NPSVC++の有効性を検証する。

This paper focuses on a specific family of classifiers called nonparallel support vector classifiers (NPSVCs). Different from typical classifiers, the training of an NPSVC involves the minimization of multiple objectives, resulting in the potential concerns of feature suboptimality and class dependency. Consequently, no effective learning scheme has been established to improve NPSVCs' performance through representation learning, especially deep learning. To break this bottleneck, we develop NPSVC++ based on multi-objective optimization, enabling the end-to-end learning of NPSVC and its features. By pursuing Pareto optimality, NPSVC++ theoretically ensures feature optimality across classes, hence effectively overcoming the two issues above. A general learning procedure via duality optimization is proposed, based on which we provide two applicable instances, K-NPSVC++ and D-NPSVC++. The experiments show their superiority over the existing methods and verify the efficacy of NPSVC++.
翻訳日:2024-02-12 19:08:17 公開日:2024-02-08
# メモリ効率の高い視覚トランスフォーマー:アクティベーションアウェア混合ランク圧縮戦略

Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank Compression Strategy ( http://arxiv.org/abs/2402.06004v1 )

ライセンス: Link先を確認
Seyedarmin Azizi, Mahdi Nazemi, Massoud Pedram(参考訳) ビジョントランスフォーマー (vits) がコンピュータビジョンにおける新しいベンチマークを設定するにつれて、推論エンジンへの実用的な展開は、メモリ帯域幅と(チップ上の)メモリフットプリント要求によってしばしば妨げられる。 本稿では,vitのパラメータ数を減らすために,異なるレイヤの低ランク重みテンソル近似を用いたアクティベーション・アウェアモデル圧縮手法を導入することで,このメモリ制限に対処する。 鍵となる考え方は、重みテンソルを2つのパラメータ係数テンソルの和に分解し、入力活性化の積と元の重みテンソルとの積と入力活性化の積との誤差を近似テンソル和で最小化することである。 この近似は、層の出力損失の勾配を用いる効率的な層間誤差補償手法を採用することでさらに洗練される。 これらの手法の組み合わせは、最適化プロセスの早い段階で浅い局所的な最小値に閉じ込められず、モデルの圧縮と出力精度のバランスを良好に保ちながら、優れた結果が得られる。 提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減し,低ランク近似で見られる通常の精度劣化を克服する。 これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。 これらの結果は,ViTsをメモリ制約環境に埋め込むための有効なソリューションとして,その性能を損なうことなく提案する手法の有効性を強調した。

As Vision Transformers (ViTs) increasingly set new benchmarks in computer vision, their practical deployment on inference engines is often hindered by their significant memory bandwidth and (on-chip) memory footprint requirements. This paper addresses this memory limitation by introducing an activation-aware model compression methodology that uses selective low-rank weight tensor approximations of different layers to reduce the parameter count of ViTs. The key idea is to decompose the weight tensors into a sum of two parameter-efficient tensors while minimizing the error between the product of the input activations with the original weight tensor and the product of the input activations with the approximate tensor sum. This approximation is further refined by adopting an efficient layer-wise error compensation technique that uses the gradient of the layer's output loss. The combination of these techniques achieves excellent results while it avoids being trapped in a shallow local minimum early in the optimization process and strikes a good balance between the model compression and output accuracy. Notably, the presented method significantly reduces the parameter count of DeiT-B by 60% with less than 1% accuracy drop on the ImageNet dataset, overcoming the usual accuracy degradation seen in low-rank approximations. In addition to this, the presented compression technique can compress large DeiT/ViT models to have about the same model size as smaller DeiT/ViT variants while yielding up to 1.8% accuracy gain. These results highlight the efficacy of our approach, presenting a viable solution for embedding ViTs in memory-constrained environments without compromising their performance.
翻訳日:2024-02-12 19:08:01 公開日:2024-02-08
# 10^{-27}\mathrm{n}$レベルにおける単一電子による連続力検出法

Scheme for continuous force detection with a single electron at the $10^{-27}\mathrm{N}$ level ( http://arxiv.org/abs/2402.05998v1 )

ライセンス: Link先を確認
Dominika \v{D}urov\v{c}\'ikov\'a, Vivishek Sudhir(参考訳) 弱い力の検出は物理学や工学における中心的な問題であり、重力の精密テスト、重力波検出、ダークマターの探索などの基礎的な研究から、力顕微鏡のような応用まで重要視されている。 これらの追従は、量子ノイズに制限された動きを測定することができる高品質な係数を持つ低質量の機械力変換器を必要とする。 ここでは、そのようなトランスデューサの究極の例である1つの閉じ込められた電子について研究する。 本研究では,アンテナに誘導される画像電流を介してマイクロ波空洞場に運動が結合された単一捕獲電子を用いた高感度連続力検出手法を提案し,より詳細に解析する。 我々は、このスキームの感度に対する基本的な技術的限界を導出し、単一電子とマイクロ波場の波長との大きさの差にもかかわらず、電荷のゼロ点運動を連続的に監視し、ギガヘルツ法において6\times 10^{-27}\, \mathrm{n}/ \sqrt{\mathrm{hz}}$ 以下の感度の力検出器として使用できることを示した。 この感度は、最先端の4桁の精度で向上し、新しい精度実験への道を開く。

The detection of weak forces is a central problem in physics and engineering, ranging in importance from fundamental pursuits such as precision tests of gravity, gravitational-wave detection, and searches for dark matter, to applications such as force microscopy. These pursuits require a low-mass mechanical force transducer with a high quality factor, whose motion can be measured in a quantum-noise-limited manner. Here we study the ultimate example of such a transducer: a single trapped electron. We propose and analyze in detail a new scheme for high-sensitivity continuous force detection using a single trapped electron whose motion is coupled to a microwave cavity field via image currents induced in an antenna. We derive the fundamental and technical limits to the sensitivity of this scheme and show that despite the disparity in size between that of a single electron and the wavelength of the microwave field, it is possible to continuously monitor the charge's zero-point motion and use it as a force detector with a sensitivity as low as $6\times 10^{-27}\, \mathrm{N}/ \sqrt{\mathrm{Hz}}$ in the gigahertz regime. This sensitivity improves on the state-of-the-art by four orders of magnitude and thus paves the way to novel precision experiments.
翻訳日:2024-02-12 19:07:30 公開日:2024-02-08
# MLを用いたX線マイクロトモグラフィーシステムの機能向上

Capability enhancement of the X-ray micro-tomography system via ML-assisted approaches ( http://arxiv.org/abs/2402.05983v1 )

ライセンス: Link先を確認
Dhruvi Shah, Shruti Mehta, Ashish Agrawal, Shishir Purohit, Bhaskar Chaudhury(参考訳) X線マイクロCT画像におけるリングアーティファクトは、その正確な視覚的解釈と定量的解析における主要な原因の1つである。 X線マイクロCTスキャナーの形状は医療用CT機に似ているが、サンプルは静止源と検出器で回転する。 リングアーティファクトは、MicroCTデータ取得中に検出器画素の欠陥または非線形応答によって引き起こされる。 MicroCT画像のアーティファクトは、しばしば非常に深刻であり、画像はそれ以上の分析には役に立たない。 したがって、画像品質を最大化するために、アーティファクトの原因と潜在的な解決策を理解することが不可欠である。 本稿では、UNetにインスパイアされた畳み込みニューラルネットワーク(CNN)ベースのディープラーニング(DL)モデルと、リングアーティファクトを除去するためのスキップ接続を備えた一連のエンコーダとデコーダユニットを提案する。 提案手法は,SSIM(Structure similarity Index Measure)とMSE(Mean Squared Error)を用いて評価されている。 さらに,従来のフィルタベース非ml技術と比較し,後者よりも優れた結果が得られた。

Ring artifacts in X-ray micro-CT images are one of the primary causes of concern in their accurate visual interpretation and quantitative analysis. The geometry of X-ray micro-CT scanners is similar to the medical CT machines, except the sample is rotated with a stationary source and detector. The ring artifacts are caused by a defect or non-linear responses in detector pixels during the MicroCT data acquisition. Artifacts in MicroCT images can often be so severe that the images are no longer useful for further analysis. Therefore, it is essential to comprehend the causes of artifacts and potential solutions to maximize image quality. This article presents a convolution neural network (CNN)-based Deep Learning (DL) model inspired by UNet with a series of encoder and decoder units with skip connections for removal of ring artifacts. The proposed architecture has been evaluated using the Structural Similarity Index Measure (SSIM) and Mean Squared Error (MSE). Additionally, the results are compared with conventional filter-based non-ML techniques and are found to be better than the latter.
翻訳日:2024-02-12 19:07:05 公開日:2024-02-08
# anfinsen goes neural:条件付き抗体設計のためのグラフィカルモデル

Anfinsen Goes Neural: a Graphical Model for Conditional Antibody Design ( http://arxiv.org/abs/2402.05982v1 )

ライセンス: Link先を確認
Nayoung Kim, Minsu Kim, Jinkyoo Park(参考訳) 抗体設計は治療の進行に重要な役割を果たしている。 ディープラーニングはこの分野で急速に進歩しているが、既存の手法では一般的なタンパク質の知識を限定的に利用し、タンパク質の実証的な発見に反するグラフィカルモデル(GM)を仮定している。 これらの制限に対処するために,プリトレーニングタンパク質言語モデル(plm)を使用して,anfinsen's dogmaと呼ばれるタンパク質の独創的発見をコードするグラフィックモデルであるanfinsen goes neural(agn)を提案する。 我々のフレームワークは、pLMによるシーケンス生成とグラフニューラルネットワーク(GNN)による構造予測の2段階のプロセスに従う。 ベンチマーク実験において,本手法が最先端の成果を上回っていることを示す実験を行った。 また、非自己回帰モデルの限界、すなわち過剰な繰り返しトークンを含む非現実的なシーケンスを生成する傾向があることにも対処します。 これを解決するために,クロスエントロピー目的に合成に基づく正規化項を導入し,高い性能と低いトークン繰り返しの効率的なトレードオフを可能にする。 われわれのアプローチが現在最先端のParetoフロンティアを確立することを実証する。 私たちのコードはhttps://github.com/lkny123/agnで利用可能です。

Antibody design plays a pivotal role in advancing therapeutics. Although deep learning has made rapid progress in this field, existing methods make limited use of general protein knowledge and assume a graphical model (GM) that violates empirical findings on proteins. To address these limitations, we present Anfinsen Goes Neural (AGN), a graphical model that uses a pre-trained protein language model (pLM) and encodes a seminal finding on proteins called Anfinsen's dogma. Our framework follows a two-step process of sequence generation with pLM and structure prediction with graph neural network (GNN). Experiments show that our approach outperforms state-of-the-art results on benchmark experiments. We also address a critical limitation of non-autoregressive models -- namely, that they tend to generate unrealistic sequences with overly repeating tokens. To resolve this, we introduce a composition-based regularization term to the cross-entropy objective that allows an efficient trade-off between high performance and low token repetition. We demonstrate that our approach establishes a Pareto frontier over the current state-of-the-art. Our code is available at https://github.com/lkny123/AGN.
翻訳日:2024-02-12 19:06:46 公開日:2024-02-08
# ブラウザ内ディープラーニング推論がユーザエクスペリエンスとパフォーマンスの質に及ぼす影響を探る

Exploring the Impact of In-Browser Deep Learning Inference on Quality of User Experience and Performance ( http://arxiv.org/abs/2402.05981v1 )

ライセンス: Link先を確認
Qipeng Wang, Shiqi Jiang, Zhenpeng Chen, Xu Cao, Yuanchun Li, Aoyu Li, Ying Zhang, Yun Ma, Ting Cao, Xuanzhe Liu(参考訳) ディープラーニング(DL)は"ブラウザ内推論(in-browser inference)"と呼ばれるメソッドを通じてWebアプリケーションに統合され、DLプロセスはWebブラウザ内で直接実行される。 しかし,本手法の実際の性能とユーザエクスペリエンス品質(QoE)への影響はよく理解されていない。 この知識のギャップは、ページの読み込み時間のような従来のメトリクスを超えて、QoE測定の新しい形式を必要とする。 そこで本研究では,ブラウザ内推論の性能評価を行った。 この目的のために、応答性、滑らか性、推論精度という新しい指標を導入しました。 私たちの徹底的な研究は、広く使われている9つのDLモデルを含み、50のPC Webブラウザでそれらをテストしました。 ブラウザ内での推論は、CPUでは平均16.9倍、GPUでは4.9倍遅い。 未使用のハードウェア命令セット、実行環境固有の遅延、ブラウザ内のリソース競合、ソフトウェアライブラリやGPU抽象化の非効率など、いくつかの要因がこのレイテンシに寄与する。 さらに、ブラウザ内の推論には大量のメモリが必要であり、時にはDLモデル自体の最大334.6倍のメモリを必要とする。 この過剰なメモリ使用は、部分的に最適化されたメモリ管理によるものである。 さらに、ブラウザ内推論は、グラフィカルユーザインタフェース(GUI)コンポーネントがWebブラウザにロードするのに要する時間を67.2\%増加させ、この技術に依存しているWebアプリケーションのユーザに対する全体的なQoEに重大な影響を及ぼすことに気づきました。

Deep Learning (DL) is increasingly being integrated into Web applications through a method known as "in-browser inference", where the DL processes occur directly within Web browsers. However, the actual performance of this method and its effect on user experience quality (QoE) is not well-understood. This gap in knowledge necessitates new forms of QoE measurement, going beyond traditional metrics such as page load time. To address this, we conducted the first extensive performance evaluation of in-browser inference. We introduced new metrics for this purpose: responsiveness, smoothness, and inference accuracy. Our thorough study included 9 widely-used DL models and tested them across 50 popular PC Web browsers. The findings show a significant latency issue with in-browser inference: it's on average 16.9 times slower on CPU and 4.9 times slower on GPU than native inference methods. Several factors contribute to this latency, including underused hardware instruction sets, inherent delays in the runtime environment, resource competition within the browser, and inefficiencies in software libraries and GPU abstractions. Moreover, in-browser inference demands a lot of memory, sometimes up to 334.6 times more than the size of the DL models themselves. This excessive memory usage is partly due to suboptimal memory management. Additionally, we noticed that in-browser inference increases the time it takes for graphical user interface (GUI) components to load in web browsers by a significant 67.2\%, which severely impacts the overall QoE for users of web applications that depend on this technology.
翻訳日:2024-02-12 19:06:25 公開日:2024-02-08
# 大規模コードモデルはプログラミングの概念を理解するか? ブラックボックスアプローチ

Do Large Code Models Understand Programming Concepts? A Black-box Approach ( http://arxiv.org/abs/2402.05980v1 )

ライセンス: Link先を確認
Ashish Hooda, Mihai Christodorescu, Miltos Allamanis, Aaron Wilson, Kassem Fawaz, Somesh Jha(参考訳) テキスト生成における大きな言語モデルの成功は、コード生成とコーディングタスクをより良くしました。 多くの作業がコード補完や編集などのタスクで顕著なパフォーマンスを示しているが、その理由についてはいまだにはっきりしていない。 このギャップを埋めるためには、基礎となるプログラムの論理構造をどの程度の自己回帰モデルで理解するかを探索する。 本稿では,大規模コードモデルがプログラミング概念を理解するかどうかを評価するために,CACP(Counterfactual Analysis for Programming Concept Predicates)を提案する。 モデルへのブラックボックスアクセスのみを使用して、CACPを使用して、4つの異なるプログラミング概念に対して10の人気のあるLarge Code Modelを評価します。 その結果,現在のモデルではデータフローや制御フローといった概念の理解が欠如していることが示唆された。

Large Language Models' success on text generation has also made them better at code generation and coding tasks. While a lot of work has demonstrated their remarkable performance on tasks such as code completion and editing, it is still unclear as to why. We help bridge this gap by exploring to what degree auto-regressive models understand the logical constructs of the underlying programs. We propose Counterfactual Analysis for Programming Concept Predicates (CACP) as a counterfactual testing framework to evaluate whether Large Code Models understand programming concepts. With only black-box access to the model, we use CACP to evaluate ten popular Large Code Models for four different programming concepts. Our findings suggest that current models lack understanding of concepts such as data flow and control flow.
翻訳日:2024-02-12 19:06:01 公開日:2024-02-08
# ランダム性は必要なもの - 大規模言語モデルによる問題解決空間のセマンティックトラバース

Randomness Is All You Need: Semantic Traversal of Problem-Solution Spaces with Large Language Models ( http://arxiv.org/abs/2402.06053v1 )

ライセンス: Link先を確認
Thomas Sandholm, Sayandev Mukherjee, Bernardo A. Huberman(参考訳) 本稿では, LLMファインタニングとカスタムアイデアデータベースを用いて, イノベーション問題とソリューションドメインを探索する新しい手法を提案する。 双方向問題と解木を異なる温度レベルで意味論的にトラバースすることによって,従来の問題文に意味的に近づいたまま,解編集距離の多様性が高まる。 与えられた問題に対する様々な解を見つけることに加えて、本手法は元の問題ステートメントを洗練し、明確化するためにも使用できる。 このアプローチのさらなる検証として、概念実証型slackボットをイノベーションアシスタントとして実装しました。

We present a novel approach to exploring innovation problem and solution domains using LLM fine-tuning with a custom idea database. By semantically traversing the bi-directional problem and solution tree at different temperature levels we achieve high diversity in solution edit distance while still remaining close to the original problem statement semantically. In addition to finding a variety of solutions to a given problem, this method can also be used to refine and clarify the original problem statement. As further validation of the approach, we implemented a proof-of-concept Slack bot to serve as an innovation assistant.
翻訳日:2024-02-12 18:57:24 公開日:2024-02-08
# 新しい宇宙探査の鍵は、信頼できる協力型生態系を設計することだ

Designing Trustful Cooperation Ecosystems is Key to the New Space Exploration Era ( http://arxiv.org/abs/2402.06036v1 )

ライセンス: Link先を確認
Renan Lima Baima (1), Lo\"ick Chovet (2), Johannes Sedlmeir (1), Gilbert Fridgen (1) and Miguel Angel Olivares-Mendez (2) ((1) FINATRAX - Digital Financial Services and Cross-Organisational Digital Transformations, (2) SpaceR - Space Robotics, SnT - Interdisciplinary Centre for Security, Reliability and Trust, University of Luxembourg)(参考訳) 新興の宇宙経済では、マッピングや鉱業といった専門的な目標を持った自律ロボットミッションが勢いを増し、機関や企業が資源に投資している。 マルチロボットシステム(mrs)の研究は、メッシュネットワークにおけるオークションベースのインタラクションを通じて異種ロボットグループに自律性を持たせるなど、技術的観点からのコラボレーションを促進するためのコントロール層とコミュニケーション層を確立するための多くのアプローチを提供している。 しかし、利害関係者の競合する経済的利益は、しばしばプロプライエタリなエコシステム内で協力することを妨げます。 関連する研究は、分散台帳技術(DLT)が、企業が透明で信頼性の高い非プロプライエタリなデジタルプラットフォームを通じて、宇宙資源を探索するためのワークフローや取引サービスを協調するメカニズムとして機能することを示唆している。 ブロックチェーンの中核となる技術的弱点、特にエネルギー消費の増加、低スループット、冗長性による完全な透明性を指摘することで、この視点に挑戦しています。 我々の目標は、経済的な観点からのDLTの利点が技術的観点からの欠点に対して重み付けられている方向に議論を進めることである。 最後に,マップ探索のためのdlt駆動不均質mrsの可能性を提示し,経済協力と競争力の機会について検討する。

In the emerging space economy, autonomous robotic missions with specialized goals such as mapping and mining are gaining traction, with agencies and enterprises increasingly investing resources. Multirobot systems (MRS) research has provided many approaches to establish control and communication layers to facilitate collaboration from a technical perspective, such as granting more autonomy to heterogeneous robotic groups through auction-based interactions in mesh networks. However, stakeholders' competing economic interests often prevent them from cooperating within a proprietary ecosystem. Related work suggests that distributed ledger technology (DLT) might serve as a mechanism for enterprises to coordinate workflows and trade services to explore space resources through a transparent, reliable, non-proprietary digital platform. We challenge this perspective by pointing to the core technical weaknesses of blockchains, in particular, increased energy consumption, low throughput, and full transparency through redundancy. Our objective is to advance the discussion in a direction where the benefits of DLT from an economic perspective are weighted against the drawbacks from a technical perspective. We finally present a possible DLT-driven heterogeneous MRS for map exploration to study the opportunities for economic collaboration and competitiveness.
翻訳日:2024-02-12 18:57:14 公開日:2024-02-08
# AntiCopyPaster 2.0: Whiteboxジャストインタイムコードの重複抽出

AntiCopyPaster 2.0: Whitebox just-in-time code duplicates extraction ( http://arxiv.org/abs/2402.06035v1 )

ライセンス: Link先を確認
Eman Abdullah AlOmar, Benjamin Knobloch, Thomas Kain, Christopher Kalish, Mohamed Wiem Mkaouer, Ali Ouni(参考訳) AntiCopyPasterはIntelliJ IDEAプラグインで、重複コードの導入と同時にインタラクティブに重複コードを検出し、リファクタリングするように実装されている。 プラグインは、重複の抽出に価値がある場合にのみ推奨する。 現在のExtract Methodリファクタリングアプローチとは対照的に、私たちのツールは開発者のワークフローとシームレスに統合し、リファクタリングの推奨を積極的に提供します。 この作業は当社のツールを拡張して、開発者のニーズと好みに基づいて、検出ルール、すなわちメトリクスをカスタマイズできるようにします。 プラグインとそのソースコードはgithubのhttps://github.com/refactorings/anti-copy-paster.comで公開されている。 デモビデオはYouTubeで見ることができる: https://youtu.be/ Y1sbfpds2Ms。

AntiCopyPaster is an IntelliJ IDEA plugin, implemented to detect and refactor duplicate code interactively as soon as a duplicate is introduced. The plugin only recommends the extraction of a duplicate when it is worth it. In contrast to current Extract Method refactoring approaches, our tool seamlessly integrates with the developer's workflow and actively provides recommendations for refactorings. This work extends our tool to allow developers to customize the detection rules, i.e., metrics, based on their needs and preferences. The plugin and its source code are publicly available on GitHub at https://github.com/refactorings/anti-copy-paster. The demonstration video can be found on YouTube: https://youtu.be/ Y1sbfpds2Ms.
翻訳日:2024-02-12 18:56:52 公開日:2024-02-08
# Mini Pixel Batch Gradient Descentを用いた物理デザインフローにおける予測AIの最適化

Optimizing Predictive AI in Physical Design Flows with Mini Pixel Batch Gradient Descent ( http://arxiv.org/abs/2402.06034v1 )

ライセンス: Link先を確認
Haoyu Yang and Anthony Agnesina and Haoxing Ren(参考訳) 爆発的な予測AIは、現代のチップ物理設計フローにおいて、高速かつ効果的な評価と意思決定を可能にした。 最先端のフレームワークは通常、予測と基底真理の間の平均二乗誤差(MSE)を最小化する目的を含む。 MSEの平均化効果はモデルトレーニングと展開の両面で制限を生じさせ,MSEの優れた動作は,予測誤差の少なさにより破壊される可能性のある物理設計フローを支援するためのモデルの有効性を保証しない。 そこで本研究では,より高速かつ優れたコンバージェンスを提供する,プラグアンドプレイ最適化アルゴリズムであるミニピクセルバッチ勾配勾配(MPGD)を提案する。 代表的ベンチマークスーツの実験は、CNNやグラフベースのモデルを用いた様々な物理設計予測タスクにおけるMPGDの顕著な利点を示している。

Exploding predictive AI has enabled fast yet effective evaluation and decision-making in modern chip physical design flows. State-of-the-art frameworks typically include the objective of minimizing the mean square error (MSE) between the prediction and the ground truth. We argue the averaging effect of MSE induces limitations in both model training and deployment, and good MSE behavior does not guarantee the capability of these models to assist physical design flows which are likely sabotaged due to a small portion of prediction error. To address this, we propose mini-pixel batch gradient descent (MPGD), a plug-and-play optimization algorithm that takes the most informative entries into consideration, offering probably faster and better convergence. Experiments on representative benchmark suits show the significant benefits of MPGD on various physical design prediction tasks using CNN or Graph-based models.
翻訳日:2024-02-12 18:56:41 公開日:2024-02-08
# 分布的ロバスト最適化への不正確なhalpern反復法の適用

An Inexact Halpern Iteration for with Application to Distributionally Robust Optimization ( http://arxiv.org/abs/2402.06033v1 )

ライセンス: Link先を確認
Ling Liang, Kim-Chuan Toh, and Jia-Jie Zhu(参考訳) 単調包含問題を解くためのhalpern反復は、その単純な形式と魅力的な収束性のために近年、関心が高まっている。 本稿では,決定論的および確率的設定におけるスキームの不正確な変種について検討する。 広範な収束解析を行い,不等式許容性を選択することにより,不等式が (期待) 剰余ノルムの項で$o(k^{-1})$ の収束率を許容することを示した。 本研究は,同じコンバージェンス特性を共有しつつ,文献で用いられる最先端の非実用性条件を緩和する。 次に,データ駆動型ワッサーシュタインの分散的ロバストな最適化問題の2つのクラスを解くために,提案手法をいかに適用できるかを示す。 確率的一階法を用いた分布的ロバスト学習のための不正確な計算を行う能力について強調する。

The Halpern iteration for solving monotone inclusion problems has gained increasing interests in recent years due to its simple form and appealing convergence properties. In this paper, we investigate the inexact variants of the scheme in both deterministic and stochastic settings. We conduct extensive convergence analysis and show that by choosing the inexactness tolerances appropriately, the inexact schemes admit an $O(k^{-1})$ convergence rate in terms of the (expected) residue norm. Our results relax the state-of-the-art inexactness conditions employed in the literature while sharing the same competitive convergence properties. We then demonstrate how the proposed methods can be applied for solving two classes of data-driven Wasserstein distributionally robust optimization problems that admit convex-concave min-max optimization reformulations. We highlight its capability of performing inexact computations for distributionally robust learning with stochastic first-order methods.
翻訳日:2024-02-12 18:56:26 公開日:2024-02-08
# グラフニューラルネットワークのためのゲーム理論的反事実説明

Game-theoretic Counterfactual Explanation for Graph Neural Networks ( http://arxiv.org/abs/2402.06030v1 )

ライセンス: Link先を確認
Chirag Chhablani, Sarthak Jain, Akshay Channesh, Ian A. Kash, Sourav Medya(参考訳) グラフニューラルネットワーク(GNN)は、複雑なネットワークにおけるノード分類タスクのための強力なツールである。 しかし、意思決定プロセスは依然としてユーザにとってブラックボックスであり、予測の背後にある理由を理解するのは難しい。 counterfactual explanations (cfe) は、機械学習モデルの解釈可能性を高めることを約束している。 GNNSのCFE計算に先立つアプローチは、追加グラフのトレーニングを必要とする学習ベースのアプローチであることが多い。 本稿では,ノード分類タスクのためのCFEを生成するための,半値に基づく非学習手法を提案する。 この結果から,バンジャフ値の計算には,シェープ値などの他の一般的な手法と比較して,反実的説明を識別する上で,サンプルの複雑さが低いことが明らかとなった。 我々の実証的な証拠は、計算バンザフ値がシャプリー値と比較して最大4倍の速度を達成できることを示している。 また、Banzhaf値のしきい値計算法を設計し、ノイズの多い環境でのロバスト性に関する理論的および実証的な結果を示し、Shapley値よりも優れている。 さらに、閾値付きバンジャフ値は、3つの一般的なグラフデータセットにおける説明の質(すなわち忠実さ)を損なうことなく効率を高めることが示される。

Graph Neural Networks (GNNs) have been a powerful tool for node classification tasks in complex networks. However, their decision-making processes remain a black-box to users, making it challenging to understand the reasoning behind their predictions. Counterfactual explanations (CFE) have shown promise in enhancing the interpretability of machine learning models. Prior approaches to compute CFE for GNNS often are learning-based approaches that require training additional graphs. In this paper, we propose a semivalue-based, non-learning approach to generate CFE for node classification tasks, eliminating the need for any additional training. Our results reveals that computing Banzhaf values requires lower sample complexity in identifying the counterfactual explanations compared to other popular methods such as computing Shapley values. Our empirical evidence indicates computing Banzhaf values can achieve up to a fourfold speed up compared to Shapley values. We also design a thresholding method for computing Banzhaf values and show theoretical and empirical results on its robustness in noisy environments, making it superior to Shapley values. Furthermore, the thresholded Banzhaf values are shown to enhance efficiency without compromising the quality (i.e., fidelity) in the explanations in three popular graph datasets.
翻訳日:2024-02-12 18:56:10 公開日:2024-02-08
# 不毛高原とコスト関数集中を緩和するアンサンブル学習を用いた量子ニューラルネットワーク

Quantum neural network with ensemble learning to mitigate barren plateaus and cost function concentration ( http://arxiv.org/abs/2402.06026v1 )

ライセンス: Link先を確認
Lucas Friedrich, Jonas Maziero(参考訳) 量子コンピュータの急速な発展は、科学とテクノロジーの多様な分野にまたがる変革的な影響をもたらす。 量子ニューラルネットワーク(QNN)は、最前線のアプリケーションとして、大きな可能性を秘めている。 文献に多くのモデルが提案されているにもかかわらず、永続的な課題、特に消失勾配(VG)とコスト関数集中(CFC)の問題は、その成功を妨げている。 本研究では,量子ニューラルネットワーク構築における新しいアプローチ,特にVGとCFCの問題に対処する手法を提案する。 提案手法はアンサンブル学習を応用し、深さが1ドルに等しい複数の量子回路を同時に展開することを提唱し、従来の1つの量子回路の深さが$l$の1つの量子回路から脱却する。 提案モデルの有効性を,従来構築したQNNとの比較分析により評価する。 評価は分類問題の文脈で展開され、革新的アプローチの潜在的な利点に対する貴重な洞察を与えます。

The rapid development of quantum computers promises transformative impacts across diverse fields of science and technology. Quantum neural networks (QNNs), as a forefront application, hold substantial potential. Despite the multitude of proposed models in the literature, persistent challenges, notably the vanishing gradient (VG) and cost function concentration (CFC) problems, impede their widespread success. In this study, we introduce a novel approach to quantum neural network construction, specifically addressing the issues of VG and CFC. Our methodology employs ensemble learning, advocating for the simultaneous deployment of multiple quantum circuits with a depth equal to $1$, a departure from the conventional use of a single quantum circuit with depth $L$. We assess the efficacy of our proposed model through a comparative analysis with a conventionally constructed QNN. The evaluation unfolds in the context of a classification problem, yielding valuable insights into the potential advantages of our innovative approach.
翻訳日:2024-02-12 18:55:50 公開日:2024-02-08
# 自然言語による実験と規則改正と確率論的推論

Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning ( http://arxiv.org/abs/2402.06025v1 )

ライセンス: Link先を確認
Top Piriyakulkij, Kevin Ellis(参考訳) 実験によって人間が隠れたルールを積極的に推論する方法の計算モデルを構築した。 このモデルの背後にある基本的な原理は、たとえ規則が決定論的であっても、学習者は自然言語で表されるファジィ確率規則の広い空間を検討し、実験の後に概ねベイズ原理に従ってその仮説をオンラインで更新するということである。 同じフレームワークでは、情報理論の基準に従って実験設計もモデル化する。 これら3つの原則 – 明示的な仮説,確率的ルール,オンライン更新 – の組み合わせによって,zendoスタイルのタスクにおけるヒューマンパフォーマンスの説明が可能になると同時に,これらのコンポーネントの削除によって,モデルにデータの説明ができないことが分かりました。

We build a computational model of how humans actively infer hidden rules by doing experiments. The basic principles behind the model is that, even if the rule is deterministic, the learner considers a broader space of fuzzy probabilistic rules, which it represents in natural language, and updates its hypotheses online after each experiment according to approximately Bayesian principles. In the same framework we also model experiment design according to information-theoretic criteria. We find that the combination of these three principles -- explicit hypotheses, probabilistic rules, and online updates -- can explain human performance on a Zendo-style task, and that removing any of these components leaves the model unable to account for the data.
翻訳日:2024-02-12 18:55:35 公開日:2024-02-08
# 高速学習のための決定理論に基づく深層強化学習

Decision Theory-Guided Deep Reinforcement Learning for Fast Learning ( http://arxiv.org/abs/2402.06023v1 )

ライセンス: Link先を確認
Zelin Wan, Jin-Hee Cho, Mu Zhu, Ahmed H. Anwar, Charles Kamhoua, Munindar P. Singh(参考訳) 本稿では,DT誘導型深層強化学習(Decision Theory-Guided Deep Reinforcement Learning, DT-Guided DRL)を提案する。 決定理論の原則を統合することで、DT誘導DRLは複雑な環境におけるエージェントの初期性能と堅牢性を高め、学習中により効率的で信頼性の高い収束を可能にする。 本研究は,カートポールと迷路ナビゲーションの2つの課題を包含する。 実験結果から,決定理論の統合はDRLエージェントの効果的な初期ガイダンスを促進するだけでなく,特に大規模かつ複雑な状態空間を特徴とする環境において,より構造化された情報探索戦略を促進することが示された。 実験の結果,DT誘導DRLは通常のDRLに比べて有意に高い報酬が得られることが示された。 特に、トレーニングの初期段階では、DT誘導DRLは184%の報酬が蓄積される。 さらに、収束に達した後も優れた性能を保ち、大きな迷路問題において標準のdrlよりも最大53%高い報酬を得られる。 DT誘導DRLは、人間(設計者)の知識から得られる機能を活用してDRLの基本的な課題を緩和し、将来有望な学際領域におけるさらなる研究の基盤となる。

This paper introduces a novel approach, Decision Theory-guided Deep Reinforcement Learning (DT-guided DRL), to address the inherent cold start problem in DRL. By integrating decision theory principles, DT-guided DRL enhances agents' initial performance and robustness in complex environments, enabling more efficient and reliable convergence during learning. Our investigation encompasses two primary problem contexts: the cart pole and maze navigation challenges. Experimental results demonstrate that the integration of decision theory not only facilitates effective initial guidance for DRL agents but also promotes a more structured and informed exploration strategy, particularly in environments characterized by large and intricate state spaces. The results of experiment demonstrate that DT-guided DRL can provide significantly higher rewards compared to regular DRL. Specifically, during the initial phase of training, the DT-guided DRL yields up to an 184% increase in accumulated reward. Moreover, even after reaching convergence, it maintains a superior performance, ending with up to 53% more reward than standard DRL in large maze problems. DT-guided DRL represents an advancement in mitigating a fundamental challenge of DRL by leveraging functions informed by human (designer) knowledge, setting a foundation for further research in this promising interdisciplinary domain.
翻訳日:2024-02-12 18:55:18 公開日:2024-02-08
# 正則格子上の量子拡散のゆらぎと持続性

Fluctuations and Persistence in Quantum Diffusion on Regular Lattices ( http://arxiv.org/abs/2402.06022v1 )

ライセンス: Link先を確認
Cheng Ma, Omar Malik, G. Korniss(参考訳) 時間依存自由粒子Schr\odinger方程式により支配される波動関数の振幅と位相変動を解析して量子永続性を調べる。 量子系は局所ランダム非相関ガウス振幅と位相ゆらぎで初期化される。 古典的拡散と類似して、持続確率は局所(振幅または位相)の変動が時間$t$に変化しない確率として定義される。 量子拡散の持続確率は指数関数的な尾を持つことを示した。 より具体的には、$d=1$ では持続確率は指数関数的に減少し、$d=2$ と $d=3$ は指数関数として減少する。 また,小さなゆらぎの限界における2点空間相関関数と時間相関関数を解析することにより,いくつかの知見を得た。 特に、時間的極限において、局所振幅と位相ゆらぎの時間的相関関数は時間的均質となり、すなわち、ゼロ交叉事象は定常ガウス過程のそれに対応する。

We investigate quantum persistence by analyzing amplitude and phase fluctuations of the wave function governed by the time-dependent free-particle Schr\"odinger equation. The quantum system is initialized with local random uncorrelated Gaussian amplitude and phase fluctuations. In analogy with classical diffusion, the persistence probability is defined as the probability that the local (amplitude or phase) fluctuations have not changed sign up to time $t$. Our results show that the persistence probability in quantum diffusion exhibits exponential-like tails. More specifically, in $d=1$ the persistence probability decays in a stretched exponential fashion, while in $d=2$ and $d=3$ as an exponential. We also provide some insights by analyzing the two-point spatial and temporal correlation functions in the limit of small fluctuations. In particular, in the long-time limit, the temporal correlation functions for both local amplitude and phase fluctuations become time-homogeneous, i.e., the zero-crossing events correspond to those of a stationary Gaussian process, with sufficiently fast-decaying power-law tail of its autocorrelation function, implying an exponential-like tail of the persistence probabilities.
翻訳日:2024-02-12 18:54:38 公開日:2024-02-08
# 学習のためのハイブリッド能動的学習手法:コンピュータ工学における自己評価事例報告

Hybrid Active Teaching Methodology for Learning Development: A Self-assessment Case Study Report in Computer Engineering ( http://arxiv.org/abs/2402.06020v1 )

ライセンス: Link先を確認
Renan Lima Baima (1 and 4), Tiago Miguel Barao Caetano (2), Ana Carolina Oliveira Lima (3 and 4), Emilia Oliveira Lima Leal (5), Tiago Miguel Pereira Candeias (3) and Silvia Maria Dias Pedro Rebou\c{c}as (3 and 6) ((1) SnT - Interdisciplinary Centre for Security, Reliability and Trust / FINATRAX - Digital Financial Services and Cross-Organisational Digital Transformations, University of Luxembourg, (2) Instituto Superior Manuel Teixeira Gomes, (3) COPELABS, Lusofona University, (4) CICARI - Innovation Centre for Industrial Control, Automation and Robotics, (5) Facultad de Humanidades y Artes - Escuela de Posgrado, Universidad Nacional de Ros\'ario, (6) CEAUL, University of Lisbon)(参考訳) 第一の目的は、要件工学におけるアクティブ方法論と分野横断的カリキュラムのメリットを強調することである。 この方向はコンピュータ工学教育の総合的かつ応用的な軌道を約束し, アーティファクト中心の学習が有効であることが証明されたケーススタディの結果に支えられ, 生徒の73%が最高成績を得た。 自己評価は、学生のスキル向上と知識獲得への関与を強調し、学術的卓越性をさらに損なう。

The primary objective is to emphasize the merits of active methodologies and cross-disciplinary curricula in Requirement Engineering. This direction promises a holistic and applied trajectory for Computer Engineering education, supported by the outcomes of our case study, where artifact-centric learning proved effective, with 73% of students achieving the highest grade. Self-assessments further corroborated academic excellence, emphasizing students' engagement in skill enhancement and knowledge acquisition.
翻訳日:2024-02-12 18:54:04 公開日:2024-02-08
# グローバル非凸最適化ソフトウェアによる十分散乱条件の検証

Checking the Sufficiently Scattered Condition using a Global Non-Convex Optimization Software ( http://arxiv.org/abs/2402.06019v1 )

ライセンス: Link先を確認
Nicolas Gillis, Robert Luce(参考訳) 十分分散した条件 (ssc) は、非負、最小体積、対称、単純構造、多成分行列因子化を含む様々な行列因子化問題の同定可能性の研究において重要な条件である。 sscは、計算された行列分解が一意かつ同定可能であり、自明な曖昧さまで保証できる。 しかし、この条件は一般にNPハードである。 本稿では,因子分解ランクが大きすぎない場合,現実的なシナリオでは妥当な時間内でチェックできることを示す。 これは、この問題を有界集合上の非凸二次最適化問題として定式化することで達成される。 我々は,グローバル非凸最適化ソフトウェアgurobiを用いて,合成データセットと実世界のハイパースペクトル画像におけるこのコードの有用性を示す。

The sufficiently scattered condition (SSC) is a key condition in the study of identifiability of various matrix factorization problems, including nonnegative, minimum-volume, symmetric, simplex-structured, and polytopic matrix factorizations. The SSC allows one to guarantee that the computed matrix factorization is unique/identifiable, up to trivial ambiguities. However, this condition is NP-hard to check in general. In this paper, we show that it can however be checked in a reasonable amount of time in realistic scenarios, when the factorization rank is not too large. This is achieved by formulating the problem as a non-convex quadratic optimization problem over a bounded set. We use the global non-convex optimization software Gurobi, and showcase the usefulness of this code on synthetic data sets and on real-world hyperspectral images.
翻訳日:2024-02-12 18:53:49 公開日:2024-02-08
# gpt-4vにおける視覚文化認識の探求 : 包括的調査

Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing ( http://arxiv.org/abs/2402.06015v1 )

ライセンス: Link先を確認
Yong Cao, Wenyan Li, Jiaang Li, Yifei Yuan, Daniel Hershcovich(参考訳) 事前訓練された大型視覚言語モデルは、その顕著な性能のために近年かなりの関心を集めている。 様々な視点からこれらのモデルを評価するためのかなりの努力にもかかわらず、最先端のGPT-4Vモデルにおける視覚的文化的認識の程度は未解明のままである。 このギャップに対処するため,我々はMARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,文化的側面に着目した視覚的理解の能力と限界について検討した。 具体的には,字幕分類,ペアワイズ字幕分類,文化タグ選択という3つの視覚関連課題を導入し,詳細な視文化評価を体系的に検討した。 実験結果から, GPT-4Vは文化的概念の同定に優れ, タミル語やスワヒリ語などの低リソース言語では依然として弱い性能を示した。 特に人間の評価によって、GPT-4VはオリジナルのMARVLの人間のアノテーションよりもイメージキャプションタスクに文化的に関係があることが証明され、将来のビジュアルカルチャーベンチマーク構築のための有望な解決策が示唆された。

Pretrained large Vision-Language models have drawn considerable interest in recent years due to their remarkable performance. Despite considerable efforts to assess these models from diverse perspectives, the extent of visual cultural awareness in the state-of-the-art GPT-4V model remains unexplored. To tackle this gap, we extensively probed GPT-4V using the MaRVL benchmark dataset, aiming to investigate its capabilities and limitations in visual understanding with a focus on cultural aspects. Specifically, we introduced three visual related tasks, i.e. caption classification, pairwise captioning, and culture tag selection, to systematically delve into fine-grained visual cultural evaluation. Experimental results indicate that GPT-4V excels at identifying cultural concepts but still exhibits weaker performance in low-resource languages, such as Tamil and Swahili. Notably, through human evaluation, GPT-4V proves to be more culturally relevant in image captioning tasks than the original MaRVL human annotations, suggesting a promising solution for future visual cultural benchmark construction.
翻訳日:2024-02-12 18:52:45 公開日:2024-02-08
# 新しい宇宙探査時代の信頼できる協力的インフラ

Trustful Coopetitive Infrastructures for the New Space Exploration Era ( http://arxiv.org/abs/2402.06014v1 )

ライセンス: Link先を確認
Renan Lima Baima (1), Lo\"ick Chovet (2), Eduard Hartwich (1), Abhishek Bera (2), Johannes Sedlmeir (1), Gilbert Fridgen (1) and Miguel Angel Olivares-Mendez (2) ((1) FINATRAX - Digital Financial Services and Cross-Organisational Digital Transformations, (2) SpaceR - Space Robotics, SnT - Interdisciplinary Centre for Security, Reliability and Trust, University of Luxembourg)(参考訳) 新しい宇宙経済において、宇宙機関、大企業、スタートアップは、マッピング、土壌評価、ユーティリティプロビジョニングといった様々な資源利用(isru)目的のためにスペースマルチロボットシステム(mrs)をローンチすることを目指している。 しかし、これらの利害関係者の競合する経済利害は、集中型デジタルプラットフォームにおける効果的な協力を妨げる可能性がある。 関連する研究は、宇宙におけるブロックチェーンの利用に関連する技術的な課題について正当な懸念を表明しているが、その欠点に対する潜在的な経済的利益を考慮に入れる必要があると論じている。 本稿では,宇宙探査ミッションにおけるコーディネーションとデータの整合性を高めることを目的とした,mrsにブロックチェーン技術を統合するための新しいアーキテクチャフレームワークと包括的な要件について述べる。 我々は分散台帳技術(DLT)を探索し、異種MSSのための非プロプライエタリアーキテクチャを設計し、そのプロトタイプをシミュレーション月環境下で検証した。 本実装の分析から,個別に行動するロボット群と比較して,世界規模のISRU効率の向上が示唆され,利害関係者に新たな収益機会がもたらされることが示唆された。

In the new space economy, space agencies, large enterprises, and start-ups aim to launch space multi-robot systems (MRS) for various in-situ resource utilization (ISRU) purposes, such as mapping, soil evaluation, and utility provisioning. However, these stakeholders' competing economic interests may hinder effective collaboration on a centralized digital platform. To address this issue, neutral and transparent infrastructures could facilitate coordination and value exchange among heterogeneous space MRS. While related work has expressed legitimate concerns about the technical challenges associated with blockchain use in space, we argue that weighing its potential economic benefits against its drawbacks is necessary. This paper presents a novel architectural framework and a comprehensive set of requirements for integrating blockchain technology in MRS, aiming to enhance coordination and data integrity in space exploration missions. We explored distributed ledger technology (DLT) to design a non-proprietary architecture for heterogeneous MRS and validated the prototype in a simulated lunar environment. The analyses of our implementation suggest global ISRU efficiency improvements for map exploration, compared to a corresponding group of individually acting robots, and that fostering a coopetitive environment may provide additional revenue opportunities for stakeholders.
翻訳日:2024-02-12 18:51:56 公開日:2024-02-08
# Veni, Vidi, Vici - 知識グラフ学習以前の無数の課題の解決

Veni, Vidi, Vici: Solving the Myriad of Challenges before Knowledge Graph Learning ( http://arxiv.org/abs/2402.06098v1 )

ライセンス: Link先を確認
Jeffrey Sardina, Luca Costabello, Christophe Gu\'eret(参考訳) 知識グラフ(KG)は、大規模リンクデータを表現するためにますます一般的になっている。 しかし、その巨大なサイズは、解析、解釈、パターン検出を人間を支援するグラフ学習システムを必要とした。 様々なkg学習システムを通して研究者と臨床医のエンパワーメントに有望な結果が得られてきたが、最先端グラフ学習における4つの重要な欠陥を特定し、同時にkg学習性能を制限し、人間がこれらの学習システムと最適に連携する能力を減らす。 これらの欠点は 1)専門知識の統合の欠如。 2)KGにおけるノード次極の不安定性 3)学習中の不確実性と関連性の考慮の欠如 4)説明可能性の欠如。 さらに,これらの問題をそれぞれ解決しようとする最先端の試みを特徴付けるとともに,各試みは,他の課題から大きく分離されていることに留意する。 これらの問題の形式化と、それらに対処する文献のレビューを通じて、我々は、人間-KGのエンパワーメントを抑える4つの重要な領域に欠陥があるだけでなく、これらの問題を全体ではなく個々の単位として解決するための分断的アプローチが、人間とKG学習システム間のインターフェースの重要な障壁である、という立場を採用する。 我々は,人間とkg学習の協調が効果的に影響を受けるという,kg学習システムの限界に対する統合的,総合的な解決策のみを通じて実現することを提案する。 我々は最終的に、KG学習とより広範な機械学習ドメインの両方において、包括的なコエンパワーメントモデルに効果的かつ効率的に移行するためのロードマップを設定する"Veni, Vidi, Vici"フレームワークを提示する。

Knowledge Graphs (KGs) have become increasingly common for representing large-scale linked data. However, their immense size has required graph learning systems to assist humans in analysis, interpretation, and pattern detection. While there have been promising results for researcher- and clinician- empowerment through a variety of KG learning systems, we identify four key deficiencies in state-of-the-art graph learning that simultaneously limit KG learning performance and diminish the ability of humans to interface optimally with these learning systems. These deficiencies are: 1) lack of expert knowledge integration, 2) instability to node degree extremity in the KG, 3) lack of consideration for uncertainty and relevance while learning, and 4) lack of explainability. Furthermore, we characterise state-of-the-art attempts to solve each of these problems and note that each attempt has largely been isolated from attempts to solve the other problems. Through a formalisation of these problems and a review of the literature that addresses them, we adopt the position that not only are deficiencies in these four key areas holding back human-KG empowerment, but that the divide-and-conquer approach to solving these problems as individual units rather than a whole is a significant barrier to the interface between humans and KG learning systems. We propose that it is only through integrated, holistic solutions to the limitations of KG learning systems that human and KG learning co-empowerment will be efficiently affected. We finally present our "Veni, Vidi, Vici" framework that sets a roadmap for effectively and efficiently shifting to a holistic co-empowerment model in both the KG learning and the broader machine learning domain.
翻訳日:2024-02-12 18:44:31 公開日:2024-02-08
# ベイズネットワークを用いた余裕学習のためのガウス混合モデル

Gaussian Mixture Models for Affordance Learning using Bayesian Networks ( http://arxiv.org/abs/2402.06078v1 )

ライセンス: Link先を確認
Pedro Os\'orio, Alexandre Bernardino, Ruben Martinez-Cantin, Jos\'e Santos-Victor(参考訳) Affordancesはアクション、オブジェクト、エフェクト間の関係の基本的な記述である。 ロボットは、効果を予測し、行動を認識し、対象を選択し、望ましい目標に応じて行動を計画する手段を提供する。 本稿では, 身体的エージェントが世界を探索し, 感覚経験から自律的に学習する問題にアプローチする。 この知識を符号化するベイズネットワークの構造とパラメータを学ぶためのモデルが存在する。 ベイジアンネットワークは不確実性と冗長性を扱うことができるが、従来の研究は離散感覚データの完全な可観測性を考慮しており、ノイズが存在する場合の誤りにつながる可能性がある。 本稿では,ガウス混合モデル(GMM)によるセンサの確率的表現について考察し,より正確な学習につながるような個別価格の概念に含まれる確率分布を明示的に考慮する。

Affordances are fundamental descriptors of relationships between actions, objects and effects. They provide the means whereby a robot can predict effects, recognize actions, select objects and plan its behavior according to desired goals. This paper approaches the problem of an embodied agent exploring the world and learning these affordances autonomously from its sensory experiences. Models exist for learning the structure and the parameters of a Bayesian Network encoding this knowledge. Although Bayesian Networks are capable of dealing with uncertainty and redundancy, previous work considered complete observability of the discrete sensory data, which may lead to hard errors in the presence of noise. In this paper we consider a probabilistic representation of the sensors by Gaussian Mixture Models (GMMs) and explicitly taking into account the probability distribution contained in each discrete affordance concept, which can lead to a more correct learning.
翻訳日:2024-02-12 18:44:01 公開日:2024-02-08
# 意思決定を支援するデジタルウォーガミングのための人工知能のスケーリング

Scaling Artificial Intelligence for Digital Wargaming in Support of Decision-Making ( http://arxiv.org/abs/2402.06075v1 )

ライセンス: Link先を確認
Scotty Black, Christian Darken(参考訳) この前例のない技術主導の変革の時代において、意思決定を支援するために、堅牢な人工知能(AI)の開発に積極的に投資することは、これまで以上に重要になっています。 ai対応システムを進歩させ、これらを人間の判断と組み合わせることで、すべてのドメインの認識を強化し、意思決定サイクルのスピードと品質を改善し、新たな行動コースの推薦を提供し、敵の行動にもっと迅速に対抗できるでしょう。 それゆえ、現在人間の知性を必要とする現代の挑戦やジレンマ、そして可能ならば人間の知性を超える試みの複雑さに対処するために、aiの開発を加速することが必須になる。 深層強化学習は、主に戦闘モデリングやシミュレーションで見られる、知的エージェントの行動発達において有望な結果を示し続けているが、さらに、AIのスケーリングが、概念開発、教育、分析のいずれかにおいてウォーガミングに特徴的なこれらの複雑で拡張可能な状態空間に対処できるようにするためには、さらなる研究が必要である。 この課題に対処するために,我々はマルチモデルアプローチと次元不変観測抽象化を含む階層的強化学習フレームワークを開発し,実装している。

In this unprecedented era of technology-driven transformation, it becomes more critical than ever that we aggressively invest in developing robust artificial intelligence (AI) for wargaming in support of decision-making. By advancing AI-enabled systems and pairing these with human judgment, we will be able to enhance all-domain awareness, improve the speed and quality of our decision cycles, offer recommendations for novel courses of action, and more rapidly counter our adversary's actions. It therefore becomes imperative that we accelerate the development of AI to help us better address the complexity of modern challenges and dilemmas that currently requires human intelligence and, if possible, attempt to surpass human intelligence--not to replace humans, but to augment and better inform human decision-making at machine speed. Although deep reinforcement learning continues to show promising results in intelligent agent behavior development for the long-horizon, complex tasks typically found in combat modeling and simulation, further research is needed to enable the scaling of AI to deal with these intricate and expansive state-spaces characteristic of wargaming for either concept development, education, or analysis. To help address this challenge, in our research, we are developing and implementing a hierarchical reinforcement learning framework that includes a multi-model approach and dimension-invariant observation abstractions.
翻訳日:2024-02-12 18:43:47 公開日:2024-02-08
# LightCAM: 話者検証のためのコンテキスト対応マスキングに基づくD-Tdnnの高速で軽量な実装

LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-Tdnn for Speaker Verification ( http://arxiv.org/abs/2402.06073v1 )

ライセンス: Link先を確認
Di Cao, Xianchen Wang, Junfeng Zhou, Jiakai Zhang, Yanjing Lei and Wenpeng Chen(参考訳) 従来の時間遅延ニューラルネットワーク(TDNN)は、高い計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現しており、産業環境では実装が困難である。 Densely Connected Time Delay Neural Network (D-TDNN)とContext Aware Masking (CAM)モジュールは、システム性能を維持しながら複雑性を低減するための効率的な構造であることが証明されている。 本稿では,より奥行き分離可能な畳み込みモジュール (dsm) を採用し,マルチスケール機能集約 (mfa) を異なるレベルでの機能融合に利用する高速軽量モデル lightcam を提案する。 VoxCelebデータセット上で大規模な実験が行われ、比較の結果、VoxCeleb1-Oで0.83のEERと0.0891のMinDCFを達成した。 さらに、複雑性解析により、提案アーキテクチャが計算コストを低減し、推論速度を高速化することを示した。

Traditional Time Delay Neural Networks (TDNN) have achieved state-of-the-art performance at the cost of high computational complexity and slower inference speed, making them difficult to implement in an industrial environment. The Densely Connected Time Delay Neural Network (D-TDNN) with Context Aware Masking (CAM) module has proven to be an efficient structure to reduce complexity while maintaining system performance. In this paper, we propose a fast and lightweight model, LightCAM, which further adopts a depthwise separable convolution module (DSM) and uses multi-scale feature aggregation (MFA) for feature fusion at different levels. Extensive experiments are conducted on VoxCeleb dataset, the comparative results show that it has achieved an EER of 0.83 and MinDCF of 0.0891 in VoxCeleb1-O, which outperforms the other mainstream speaker verification methods. In addition, complexity analysis further demonstrates that the proposed architecture has lower computational cost and faster inference speed.
翻訳日:2024-02-12 18:43:19 公開日:2024-02-08
# ノイズインターフェロメトリーイメージングにおける位相検索のための3d-2dニューラルネット

3D-2D Neural Nets for Phase Retrieval in Noisy Interferometric Imaging ( http://arxiv.org/abs/2402.06063v1 )

ライセンス: Link先を確認
Andrew H. Proppe, Guillaume Thekkadath, Duncan England, Philip J. Bustard, Fr\'ed\'eric Bouchard, Jeff S. Lundeen, Benjamin J. Sussman(参考訳) 近年、ニューラルネットワークは、特にノイズの存在下で、従来の技術よりも精度と速度で画像の位相探索問題を解決するために用いられている。 しかし、干渉画像の文脈では、位相ノイズは既存のニューラルネットワークアーキテクチャにほとんど適応していない。 このようなノイズは、機械的不安定性や大気の乱流による干渉計で自然に発生し、測定の取得時間を制限し、リモートセンシングのような限られた光強度のシナリオで挑戦する。 本稿では,ノイズとランダムに位相シフトしたインターフェログラムを入力とし,単一の2次元位相画像を出力する3d-2d位相検索u-net(prune)を提案する。 3dダウンサンプリング畳み込みエンコーダは、フレーム内およびフレーム間の相関をキャプチャし、2dデコーダによって位相画像にアップサンプリングされる2d潜時空間を生成する。 我々は,現状の特異値分解アルゴリズムと比較し,PRUNe再構成により,低 (1光子/ピクセル) かつ高 (約100光子/ピクセル) 信号強度のインターフェログラムに対して,x2.5〜4の低次平均2乗誤差でより正確かつ滑らかな再構成が得られた。 本モデルでは,位相雑音下での極低光強度干渉計の位相探索を高速かつ高精度に行い,他のマルチフレームノイズイメージング技術に適用する。

In recent years, neural networks have been used to solve phase retrieval problems in imaging with superior accuracy and speed than traditional techniques, especially in the presence of noise. However, in the context of interferometric imaging, phase noise has been largely unaddressed by existing neural network architectures. Such noise arises naturally in an interferometer due to mechanical instabilities or atmospheric turbulence, limiting measurement acquisition times and posing a challenge in scenarios with limited light intensity, such as remote sensing. Here, we introduce a 3D-2D Phase Retrieval U-Net (PRUNe) that takes noisy and randomly phase-shifted interferograms as inputs, and outputs a single 2D phase image. A 3D downsampling convolutional encoder captures correlations within and between frames to produce a 2D latent space, which is upsampled by a 2D decoder into a phase image. We test our model against a state-of-the-art singular value decomposition algorithm and find PRUNe reconstructions consistently show more accurate and smooth reconstructions, with a x2.5 - 4 lower mean squared error at multiple signal-to-noise ratios for interferograms with low (< 1 photon/pixel) and high (~100 photons/pixel) signal intensity. Our model presents a faster and more accurate approach to perform phase retrieval in extremely low light intensity interferometry in presence of phase noise, and will find application in other multi-frame noisy imaging techniques.
翻訳日:2024-02-12 18:42:58 公開日:2024-02-08
# ドメイン知識のないビッグデータを活用した公衆衛生意思決定への影響

Impact on Public Health Decision Making by Utilizing Big Data Without Domain Knowledge ( http://arxiv.org/abs/2402.06059v1 )

ライセンス: Link先を確認
Miao Zhang, Salman Rahman, Vishwali Mhasawade, Rumi Chunara(参考訳) 新しいデータソースと、それらから情報を取り出す人工知能(AI)メソッドは、多くの社会的応用において意思決定に関係している。 重要な例として、100か国以上で利用可能なストリートビューイメージがあり、コミュニティの健康に関する構築された環境側面の評価などの応用について検討されている。 このような利用に関連して、AIの使用における重要なバイアスの例は、データに基づく意思決定がデータの堅牢性を考慮するのに失敗する場合に明らかである。 このリスクを研究するために、ニューヨーク市の健康、人口統計、社会経済データとともに、2200万のGSV画像を利用する。 当初,都市内レベルでGSVラベルから推定される構築環境特性は,基礎的事実と不適切な一致を示す可能性が示唆された。 また,GSVを用いて測定したところ,身体不活性の平均的個人レベルの挙動は,建築環境特性の影響を著しく緩和することがわかった。 最後に、これらの環境影響のメディエーターが健康に与える影響を考慮に入れた因果的枠組みを用いて、2つの最も低いタイルで10%のサンプルを変更すると、4.17(95% CI 3.84から4.55)または17.2(95% CI 14.4から21.3)が肥満や糖尿病の頻度を減少させる。 この研究は、新しいデータソースを用いた効果的な介入の割り当てを示すためのロバストネスとモデル仕様の重要な問題を示す。

New data sources, and artificial intelligence (AI) methods to extract information from them are becoming plentiful, and relevant to decision making in many societal applications. An important example is street view imagery, available in over 100 countries, and considered for applications such as assessing built environment aspects in relation to community health outcomes. Relevant to such uses, important examples of bias in the use of AI are evident when decision-making based on data fails to account for the robustness of the data, or predictions are based on spurious correlations. To study this risk, we utilize 2.02 million GSV images along with health, demographic, and socioeconomic data from New York City. Initially, we demonstrate that built environment characteristics inferred from GSV labels at the intra-city level may exhibit inadequate alignment with the ground truth. We also find that the average individual-level behavior of physical inactivity significantly mediates the impact of built environment features by census tract, as measured through GSV. Finally, using a causal framework which accounts for these mediators of environmental impacts on health, we find that altering 10% of samples in the two lowest tertiles would result in a 4.17 (95% CI 3.84 to 4.55) or 17.2 (95% CI 14.4 to 21.3) times bigger decrease on the prevalence of obesity or diabetes, than the same proportional intervention on the number of crosswalks by census tract. This work illustrates important issues of robustness and model specification for informing effective allocation of interventions using new data sources.
翻訳日:2024-02-12 18:42:30 公開日:2024-02-08
# ActiveDP: アクティブラーニングとデータプログラミングのブリッジ

ActiveDP: Bridging Active Learning and Data Programming ( http://arxiv.org/abs/2402.06056v1 )

ライセンス: Link先を確認
Naiqing Guan, Nick Koudas(参考訳) 現代の機械学習モデルは、パフォーマンスを達成するために大きなラベル付きデータセットを必要とするが、大規模なデータセットを手動でラベル付けするのは高価で時間がかかる。 データプログラミングパラダイムにより、ユーザは大規模なデータセットを効率的にラベル付けできるが、ノイズの多いラベルを生成できる。 一方、アクティブラーニングパラダイムは正確なラベルを取得できるが、インスタンスのごく一部しか取得できない。 本稿では,アクティブラーニングとデータプログラミングを併用したインタラクティブなフレームワークであるActiveDPを提案する。 実験により、activedpは以前の弱い監督とアクティブラーニングアプローチよりも優れており、異なるラベリング予算下で一貫して機能することが示された。

Modern machine learning models require large labelled datasets to achieve good performance, but manually labelling large datasets is expensive and time-consuming. The data programming paradigm enables users to label large datasets efficiently but produces noisy labels, which deteriorates the downstream model's performance. The active learning paradigm, on the other hand, can acquire accurate labels but only for a small fraction of instances. In this paper, we propose ActiveDP, an interactive framework bridging active learning and data programming together to generate labels with both high accuracy and coverage, combining the strengths of both paradigms. Experiments show that ActiveDP outperforms previous weak supervision and active learning approaches and consistently performs well under different labelling budgets.
翻訳日:2024-02-12 18:42:00 公開日:2024-02-08
# 遠隔操作のためのインテリジェントモードスイッチングフレームワーク

Intelligent Mode-switching Framework for Teleoperation ( http://arxiv.org/abs/2402.06047v1 )

ライセンス: Link先を確認
Burak Kizilkaya, Changyang She, Guodong Zhao, Muhammad Ali Imran(参考訳) 遠隔操作は、限られた知覚、高い通信遅延、オペレータ側での自由度(DoF)が制限されるため、非常に困難である。 自律的な遠隔操作は、ユーザの意図を予測し、タスクの一部を自律的に実行することで、オペレータへの需要を減らし、タスク完了率を高めることで、この難しさを克服するために提案される。 しかし、モードスイッチングの意思決定は一般にオペレータが行うと仮定され、オペレータが追加のDoFを制御し、追加の精神的な要求を導入する。 一方,遠隔操作の主なボトルネックはコミュニケーションの不完全さと資源制限であるが,コミュニケーションの観点は現在の文献では研究されていない。 本研究では,モードスイッチングと通信システムを同時に考慮し,インテリジェントモードスイッチングフレームワークを提案する。 利用者意図認識はオペレータ側で行われる。 ユーザ意図認識に基づいて、オペレータ側で深層強化学習(DRL)エージェントを訓練して展開し、自律モードと遠隔操作モードをシームレスに切り替える。 ユーザ意図認識とDRLアルゴリズムの両方をトレーニングするために,実世界のデータセットを遠隔操作テストベッドから収集する。 その結果,提案フレームワークはタスク完了確率を向上し,最大50%の通信負荷低減を実現することができた。

Teleoperation can be very difficult due to limited perception, high communication latency, and limited degrees of freedom (DoFs) at the operator side. Autonomous teleoperation is proposed to overcome this difficulty by predicting user intentions and performing some parts of the task autonomously to decrease the demand on the operator and increase the task completion rate. However, decision-making for mode-switching is generally assumed to be done by the operator, which brings an extra DoF to be controlled by the operator and introduces extra mental demand. On the other hand, the communication perspective is not investigated in the current literature, although communication imperfections and resource limitations are the main bottlenecks for teleoperation. In this study, we propose an intelligent mode-switching framework by jointly considering mode-switching and communication systems. User intention recognition is done at the operator side. Based on user intention recognition, a deep reinforcement learning (DRL) agent is trained and deployed at the operator side to seamlessly switch between autonomous and teleoperation modes. A real-world data set is collected from our teleoperation testbed to train both user intention recognition and DRL algorithms. Our results show that the proposed framework can achieve up to 50% communication load reduction with improved task completion probability.
翻訳日:2024-02-12 18:41:47 公開日:2024-02-08
# ロボタクシー事故の解剖:クルーズ歩行者の事故から学んだこと

Anatomy of a Robotaxi Crash: Lessons from the Cruise Pedestrian Dragging Mishap ( http://arxiv.org/abs/2402.06046v1 )

ライセンス: Link先を確認
Philip Koopman(参考訳) 2023年10月、gmcruise robotaxiとサンフランシスコの歩行者が衝突し、重傷を負っただけでなく、業界全体にわたって影響が持続する可能性のある同社に対する劇的な変化が起こった。 問題は、事故そのものだけでなく、クルーズが事故後の停止後に歩行者を車の下に引きずり込むロボットタクシーの扱いを誤解したことも原因だ。 一対の外部調査報告は、事故を記載した資料を提供し、規制相互作用の観点から会社の対応を批判するが、その範囲内での潜在的な安全勧告は含まない。 このレポート資料を用いて、レポート資料の異なる部分を結びつけることで、イベント間の特定の事実や関係を明らかにする。 次に,技術,運用上の安全プラクティス,インシデントに対する組織的反応について学ぶべき安全教訓について検討する。

An October 2023 crash between a GM Cruise robotaxi and a pedestrian in San Francisco resulted not only in a severe injury, but also dramatic upheaval at that company that will likely have lasting effects throughout the industry. The issues stem not just from the crash facts themselves, but also how Cruise mishandled dealing with their robotaxi dragging a pedestrian under the vehicle after the initial post-crash stop. A pair of external investigation reports provide raw material describing the incident and critique the company response from a regulatory interaction point of view, but did not include potential safety recommendations in scope. We use that report material to highlight specific facts and relationships between events by tying together different pieces of the report material. We then explore safety lessons that might be learned with regard to technology, operational safety practices, and organizational reaction to incidents.
翻訳日:2024-02-12 18:41:26 公開日:2024-02-08
# 低予算アクティブラーニングのための直接獲得最適化

Direct Acquisition Optimization for Low-Budget Active Learning ( http://arxiv.org/abs/2402.06045v1 )

ライセンス: Link先を確認
Zhuokai Zhao, Yibo Jiang, Yuxin Chen(参考訳) アクティブラーニング(AL)は、限られたラベル付きデータを持つドメインにデータ集約型機械学習(ML)モデルを統合することで有名になった。 しかし,ラベリング予算が低ければ,その効果は著しく低下する。 本稿では,まず,低予算環境における既存のalアルゴリズムの性能低下を実証的に観察し,次に,期待される真の損失削減に基づいてサンプル選択を最適化する新しいalアルゴリズムであるdirect acquisition optimization(dao)を導入する。 具体的には、影響関数を用いてモデルパラメータを更新し、損失推定のバイアスを軽減するための追加の獲得戦略を組み込む。 このアプローチは、広範な計算やラベル付きデータに依存することなく、全体的なエラー低減をより正確に評価する。 実験は7つのベンチマークで最先端のアプローチを上回り、低予算設定でdaoの有効性を実証する。

Active Learning (AL) has gained prominence in integrating data-intensive machine learning (ML) models into domains with limited labeled data. However, its effectiveness diminishes significantly when the labeling budget is low. In this paper, we first empirically observe the performance degradation of existing AL algorithms in the low-budget settings, and then introduce Direct Acquisition Optimization (DAO), a novel AL algorithm that optimizes sample selections based on expected true loss reduction. Specifically, DAO utilizes influence functions to update model parameters and incorporates an additional acquisition strategy to mitigate bias in loss estimation. This approach facilitates a more accurate estimation of the overall error reduction, without extensive computations or reliance on labeled data. Experiments demonstrate DAO's effectiveness in low budget settings, outperforming state-of-the-arts approaches across seven benchmarks.
翻訳日:2024-02-12 18:41:09 公開日:2024-02-08
# OpenToM:大規模言語モデルの理論推論能力評価のための総合ベンチマーク

OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models ( http://arxiv.org/abs/2402.06044v1 )

ライセンス: Link先を確認
Hainiu Xu, Runcong Zhao, Lixing Zhu, Jinhua Du, Yulan He(参考訳) N-ToM(Neural Theory-of-Mind)は、他者の精神状態を理解し、追跡する機械の能力である。 しかし、一般的なN-ToMベンチマークには、曖昧で人工的な物語の存在、性格の特徴や好みの欠如、キャラクターの精神的状態に対処する質問の欠如、質問の多様性の制限など、いくつかの欠点がある。 これらの問題に対応するために,(1)より長く明瞭な物語を持つN-ToMを評価するための新しいベンチマークであるOpenToMを構築し,(2)明示的な性格特性を持つキャラクター,(3)キャラクタ意図によって引き起こされる行動,(4)物理的・心理的両世界のキャラクターの精神状態をモデル化するLLMの能力に挑戦するために設計された質問について述べる。 OpenToMを用いて,身体世界における精神的状態の特定の側面をモデル化し,心理世界におけるキャラクターの精神状態を追跡する際には不足が認められる。

Neural Theory-of-Mind (N-ToM), machine's ability to understand and keep track of the mental states of others, is pivotal in developing socially intelligent agents. However, prevalent N-ToM benchmarks have several shortcomings, including the presence of ambiguous and artificial narratives, absence of personality traits and preferences, a lack of questions addressing characters' psychological mental states, and limited diversity in the questions posed. In response to these issues, we construct OpenToM, a new benchmark for assessing N-ToM with (1) longer and clearer narrative stories, (2) characters with explicit personality traits, (3) actions that are triggered by character intentions, and (4) questions designed to challenge LLMs' capabilities of modeling characters' mental states of both the physical and psychological world. Using OpenToM, we reveal that state-of-the-art LLMs thrive at modeling certain aspects of mental states in the physical world but fall short when tracking characters' mental states in the psychological world.
翻訳日:2024-02-12 18:40:56 公開日:2024-02-08
# ジェンダーニュートラル自動翻訳の需要に対する応答

A Prompt Response to the Demand for Automatic Gender-Neutral Translation ( http://arxiv.org/abs/2402.06041v1 )

ライセンス: Link先を確認
Beatrice Savoldi and Andrea Piergentili and Dennis Fucci and Matteo Negri and Luisa Bentivogli(参考訳) バイアスや冗長な二項仮定を避けるジェンダーニュートラル翻訳(GNT)は、より包括的な翻訳技術を作成する上で重要な課題である。 しかし、機械翻訳(MT)におけるこの課題の進展は、中立的な制約を満たすためにMTシステムを適用するために必要な専用並列データ不足によって妨げられている。 このようなシナリオのために、大きな言語モデルでは、明示的な命令が与えられた場合、様々な(サブ)タスクで多用できるという明確な利点があるため、予期せぬ可能性を秘めている。 本稿では,MTと一般的なGPT-4モデルを比較することで,GNTの自動化の可能性を検討する。 本研究は, GNTの生成における現在のMTシステム固有の限界を実証的に明らかにし, 中立性の促進に関連する可能性や課題について貴重な知見を提供する。

Gender-neutral translation (GNT) that avoids biased and undue binary assumptions is a pivotal challenge for the creation of more inclusive translation technologies. Advancements for this task in Machine Translation (MT), however, are hindered by the lack of dedicated parallel data, which are necessary to adapt MT systems to satisfy neutral constraints. For such a scenario, large language models offer hitherto unforeseen possibilities, as they come with the distinct advantage of being versatile in various (sub)tasks when provided with explicit instructions. In this paper, we explore this potential to automate GNT by comparing MT with the popular GPT-4 model. Through extensive manual analyses, our study empirically reveals the inherent limitations of current MT systems in generating GNTs and provides valuable insights into the potential and challenges associated with prompting for neutrality.
翻訳日:2024-02-12 18:40:33 公開日:2024-02-08
# 強結合型量子熱エンジンのダイナミクス-純状態の階層から観測可能な浴槽の計算

Dynamics of a strongly coupled quantum heat engine -- computing bath observables from the hierarchy of pure states ( http://arxiv.org/abs/2402.06039v1 )

ライセンス: Link先を確認
Valentin Boettcher, Richard Hartmann, Konstantin Beyer, Walter T. Strunz(参考訳) 本稿では、量子系力学の正確かつ一般的な方法である純状態階層(HOPS)に基づく量子熱エンジンとその浴槽の完全量子力学処理について述べる。 本研究では, 任意の結合強度と変調プロトコルのスムーズな時間依存性のために, HOPS内で浴槽エネルギーと相互作用エネルギーの変化をどのように決定できるかを示す。 操作中のすべてのエネルギー的寄与のダイナミクスは、初期過渡期と後続の周期的定常期の両方で慎重に検討することができる。 量子ビットを本質的に非線形な作業媒体とする量子オットーエンジンは、相互作用ハミルトニアンに関連するエネルギーが大域的エネルギーバランスに重要な役割を果たすような方法で研究され、したがって、そのエネルギーと効率を計算する際に無視されてはならない。 浴槽との結合を駆動する作業は,変調プロトコルの速度に敏感に依存することを確認した。 特筆すべきは, 時間的重なりを許すことにより, 従来の分離相のスキームから外れることにより, 浴間相互作用の変調からエネルギーを得ることができることであった。 熱力学サイクルの状態変化図のアナロジーを用いて,これら様々な作業の貢献を可視化する。 一般量子力学(熱力学)の弱い結合限界から遠く離れた数値的詳細記述のための普遍的なツールとして機能するため、ホップの簡潔で完全な表現とバスオブザーバブルの拡張を提供する。

We present a fully quantum dynamical treatment of a quantum heat engine and its baths based on the Hierarchy of Pure States (HOPS), an exact and general method for open quantum system dynamics. We show how the change of the bath energy and the interaction energy can be determined within HOPS, for arbitrary coupling strength and smooth time dependence of the modulation protocol. The dynamics of all energetic contributions during the operation can be carefully examined both, in its initial transient phase and also later, in its periodic steady state. A quantum Otto engine with a qubit as inherently nonlinear work medium is studied in a regime where the energy associated with the interaction Hamiltonian plays an important role for the global energy balance and, thus, must not be neglected when calculating its power and efficiency. We confirm that the work required to drive the coupling with the baths depends sensitively on the speed of the modulation protocol. Remarkably, departing from the conventional scheme of well-separated phases by allowing for temporal overlap, we discover that one can even gain energy from the modulation of the bath interactions. We visualize these various work contributions using the analogue of state change diagrams of thermodynamic cycles. We offer a concise, full presentation of HOPS with its extension to bath observables, as it serves as a universal tool for the numerically exact description of general quantum dynamical (thermodynamic) scenarios far from the weak-coupling limit.
翻訳日:2024-02-12 18:40:19 公開日:2024-02-08
# 事前自由正ラベル学習に対する対比的アプローチ

Contrastive Approach to Prior Free Positive Unlabeled Learning ( http://arxiv.org/abs/2402.06038v1 )

ライセンス: Link先を確認
Anish Acharya, Sujay Sanghavi(参考訳) ポジティブ・アンラベル・ラーニング(英: positive unlabeled learning)とは、いくつかのラベル付き正のサンプルとラベルなしのサンプル(正または負の可能性がある)を与えられたバイナリ分類器を学習するタスクである。 本稿では,プレテキスト不変表現学習を通じて特徴空間を学習し,その埋め込みの濃度特性を活用して,ラベルのない例に擬似ラベルを適用した新しいPU学習フレームワークを提案する。 提案手法は,いくつかの標準PUベンチマークデータセットにおいて最先端のPU学習手法よりも優れているが,プリオリ知識や事前クラス推定は不要である。 また,ほとんどのPU学習アルゴリズムは,ラベル付きデータをスキャンしても有効である。 また,提案アルゴリズムを動機づけた単純な理論的解析を行い,提案手法の一般化を保証する。

Positive Unlabeled (PU) learning refers to the task of learning a binary classifier given a few labeled positive samples, and a set of unlabeled samples (which could be positive or negative). In this paper, we propose a novel PU learning framework, that starts by learning a feature space through pretext-invariant representation learning and then applies pseudo-labeling to the unlabeled examples, leveraging the concentration property of the embeddings. Overall, our proposed approach handily outperforms state-of-the-art PU learning methods across several standard PU benchmark datasets, while not requiring a-priori knowledge or estimate of class prior. Remarkably, our method remains effective even when labeled data is scant, where most PU learning algorithms falter. We also provide simple theoretical analysis motivating our proposed algorithms and establish generalization guarantee for our approach.
翻訳日:2024-02-12 18:39:53 公開日:2024-02-08
# CLR-Face:Score-based Diffusion Modelを用いたブラインド顔復元のための条件付き潜時リファインメント

CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using Score-Based Diffusion Models ( http://arxiv.org/abs/2402.06106v1 )

ライセンス: Link先を確認
Maitreya Suin, Rama Chellappa(参考訳) 最近の生成優先法は、有望なブラインドフェイス修復性能を示している。 彼らは通常、劣化した画像を潜伏空間に投影し、単段潜伏最適化またはエンコーディングから直接高品質な顔を復号する。 入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。 ほとんどの既存メソッドは、生成と再構築のバランスをとろうとすると、過剰にスムーズな出力を生成するか、アイデンティティを変更する。 これは、潜在空間における品質と解像度の典型的なトレードオフに起因する可能性がある。 潜在空間が高度に圧縮された場合、復号された出力は劣化に対してより頑健であるが、忠実度は低下する。 一方で、より柔軟な潜在空間は複雑な顔の詳細をより正確に捉えることができるが、既存の技術を使って高度に劣化した顔に最適化することは極めて困難である。 これらの問題に対処するため、VQGANアーキテクチャの内部に拡散に基づくプライヤを導入し、未破裂の潜伏埋め込みにおける分布の学習に焦点をあてる。 このような知識を生かして,劣化したコンディショニングのクリーンな組込み条件を反復的に回収する。 さらに、逆拡散軌道が基礎となるアイデンティティから外れないようにするため、別々のid回復ネットワークを訓練し、その出力を用いて逆拡散プロセスを制約する。 具体的には、学習可能な潜伏マスクを用いて、顔認識ネットワークからの勾配を、ピクセル空間内のより細かいアイデンティティ関連の詳細と相関する潜伏特徴のサブセットに追加し、他の特徴に手を加えない。 潜在空間における知覚と忠実性の間の絡み合いは、両世界の最善を実現できる。 提案手法の優位性を検証するために,複数の実データと合成データについて広範な評価を行った。

Recent generative-prior-based methods have shown promising blind face restoration performance. They usually project the degraded images to the latent space and then decode high-quality faces either by single-stage latent optimization or directly from the encoding. Generating fine-grained facial details faithful to inputs remains a challenging problem. Most existing methods produce either overly smooth outputs or alter the identity as they attempt to balance between generation and reconstruction. This may be attributed to the typical trade-off between quality and resolution in the latent space. If the latent space is highly compressed, the decoded output is more robust to degradations but shows worse fidelity. On the other hand, a more flexible latent space can capture intricate facial details better, but is extremely difficult to optimize for highly degraded faces using existing techniques. To address these issues, we introduce a diffusion-based-prior inside a VQGAN architecture that focuses on learning the distribution over uncorrupted latent embeddings. With such knowledge, we iteratively recover the clean embedding conditioning on the degraded counterpart. Furthermore, to ensure the reverse diffusion trajectory does not deviate from the underlying identity, we train a separate Identity Recovery Network and use its output to constrain the reverse diffusion process. Specifically, using a learnable latent mask, we add gradients from a face-recognition network to a subset of latent features that correlates with the finer identity-related details in the pixel space, leaving the other features untouched. Disentanglement between perception and fidelity in the latent space allows us to achieve the best of both worlds. We perform extensive evaluations on multiple real and synthetic datasets to validate the superiority of our approach.
翻訳日:2024-02-12 18:32:27 公開日:2024-02-08
# 関数アライメント回帰:データから関数微分を明示的に学習する手法

Function Aligned Regression: A Method Explicitly Learns Functional Derivatives from Data ( http://arxiv.org/abs/2402.06104v1 )

ライセンス: Link先を確認
Dixian Zhu and Livnat Jerby-Arnon(参考訳) 回帰は機械学習の基本的なタスクであり、過去数十年にわたって大きな注目を集めてきた。 回帰の従来のアプローチでは、各データサンプルのモデル予測と基底真理の整合に集中する損失関数を採用しており、その結果、異なるサンプル間の関係を最適に予測することができる。 近年,ラベル類似性情報をレグレッションに組み込むことにより,新たな視点を導入している。 しかし、基礎となる基底真理関数の複雑さを完全に把握する上では、これらのアプローチに顕著なギャップが持続する。 本研究では,FAR(Function Aligned Regression)を,関数微分を捉えることにより,基底的真理関数に適合するより優れた,より効率的な解として提案する。 提案手法は,2つの合成データセットと,他の8つの競合ベースラインを持つ6つのベンチマークデータセットからの8つの広範囲な実世界のタスクに対して実効性を示す。 コードは \url{https://github.com/DixianZhu/FAR} でオープンソース化されている。

Regression is a fundamental task in machine learning that has garnered extensive attention over the past decades. The conventional approach for regression involves employing loss functions that primarily concentrate on aligning model prediction with the ground truth for each individual data sample, which, as we show, can result in sub-optimal prediction of the relationships between the different samples. Recent research endeavors have introduced novel perspectives by incorporating label similarity information to regression. However, a notable gap persists in these approaches when it comes to fully capturing the intricacies of the underlying ground truth function. In this work, we propose FAR (Function Aligned Regression) as a arguably better and more efficient solution to fit the underlying function of ground truth by capturing functional derivatives. We demonstrate the effectiveness of the proposed method practically on 2 synthetic datasets and on 8 extensive real-world tasks from 6 benchmark datasets with other 8 competitive baselines. The code is open-sourced at \url{https://github.com/DixianZhu/FAR}.
翻訳日:2024-02-12 18:32:00 公開日:2024-02-08
# 深層強化学習による実世界の流体方向剛体制御

Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning ( http://arxiv.org/abs/2402.06102v1 )

ライセンス: Link先を確認
Mohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli(参考訳) 強化学習(RL)の現実的応用の最近の進歩は、大規模システムにおいて正確にシミュレートする能力に依存している。 しかし、流体力学系のような領域は、高積分率でシミュレートし難い複雑な動的現象を示し、現代の深いRLアルゴリズムの直接適用を、しばしば高価または安全クリティカルなハードウェアに制限する。 本研究では,動的実世界シナリオにおけるrlアルゴリズムを体系的に評価するためのベンチトップ実験制御システムであるbox o flowを紹介する。 ここでは,Box o Flowsの重要なコンポーネントについて述べるとともに,最先端のモデルフリーなRLアルゴリズムが,単純な報酬仕様を通じて,様々な複雑な振る舞いを合成できることを示す。 さらに,過去の経験を再利用したデータ効率仮説テストにおけるオフラインRLの役割について検討する。 この予備研究から得られた知見とBox o Flowsのようなシステムの可用性は、複雑な動的システムに一般的に適用可能な、体系的なRLアルゴリズムの開発を支援するものだと考えています。 実験の補足資料とビデオはhttps://sites.google.com/view/box-o-flows/home.comで入手できる。

Recent advances in real-world applications of reinforcement learning (RL) have relied on the ability to accurately simulate systems at scale. However, domains such as fluid dynamical systems exhibit complex dynamic phenomena that are hard to simulate at high integration rates, limiting the direct application of modern deep RL algorithms to often expensive or safety critical hardware. In this work, we introduce "Box o Flows", a novel benchtop experimental control system for systematically evaluating RL algorithms in dynamic real-world scenarios. We describe the key components of the Box o Flows, and through a series of experiments demonstrate how state-of-the-art model-free RL algorithms can synthesize a variety of complex behaviors via simple reward specifications. Furthermore, we explore the role of offline RL in data-efficient hypothesis testing by reusing past experiences. We believe that the insights gained from this preliminary study and the availability of systems like the Box o Flows support the way forward for developing systematic RL algorithms that can be generally applied to complex, dynamical systems. Supplementary material and videos of experiments are available at https://sites.google.com/view/box-o-flows/home.
翻訳日:2024-02-12 18:31:42 公開日:2024-02-08
# TWIG: 模擬KGEモデルによるプレホックハイパーパラメータ最適化とクロスグラフ一般化を目指して

TWIG: Towards pre-hoc Hyperparameter Optimisation and Cross-Graph Generalisation via Simulated KGE Models ( http://arxiv.org/abs/2402.06097v1 )

ライセンス: Link先を確認
Jeffrey Sardina, John D. Kelleher, Declan O'Sullivan(参考訳) 本稿では,少量のパラメータを用いたkgs出力をシミュレートする新しい組込みフリーパラダイムであるtwig(topological-weighted intelligence generation)を紹介する。 TWIGは、エンティティやエッジの潜在表現をコーディングすることなく、グラフデータのトポロジ的特徴からなる入力から重みを学習する。 UMLSデータセットを用いた実験により,1つのTWIGニューラルネットワークが,ほぼすべてのハイパーパラメータ構成に対して,最先端のComplEx-N3 KGEモデルの結果を予測することができた。 これを実現するには、合計2590の学習可能なパラメータを使用するが、1215の異なるハイパーパラメータの組み合わせの結果を29,322,000のパラメータで正確に予測する。 これらの結果に基づき、我々は2つの主張を行う。 1) KGEは潜時意味学を学ばず,構造パターンの潜時表現のみを学ぶ。 2) KGEにおけるハイパーパラメータの選択は、KGEモデルとグラフ構造の決定論的関数である。 さらに、TWIGは埋め込みなしでKGEをシミュレートできるので、ノードとエッジの埋め込みはKGの新たな事実を正確に予測するために学習する必要がないという仮説を立てた。 最後に,`twiggy'埋め込みフリー/データ構造ベースの学習手法が単一のニューラルネットワークでkge性能をシミュレートし,多種多様なドメインの多数のkgにわたってリンク予測タスクを解くことができることを示唆する`構造一般化仮説(`twiggy' embedded-free / data-structure-based learning method)の傘の下に,すべての知見を定式化した。

In this paper we introduce TWIG (Topologically-Weighted Intelligence Generation), a novel, embedding-free paradigm for simulating the output of KGEs that uses a tiny fraction of the parameters. TWIG learns weights from inputs that consist of topological features of the graph data, with no coding for latent representations of entities or edges. Our experiments on the UMLS dataset show that a single TWIG neural network can predict the results of state-of-the-art ComplEx-N3 KGE model nearly exactly on across all hyperparameter configurations. To do this it uses a total of 2590 learnable parameters, but accurately predicts the results of 1215 different hyperparameter combinations with a combined cost of 29,322,000 parameters. Based on these results, we make two claims: 1) that KGEs do not learn latent semantics, but only latent representations of structural patterns; 2) that hyperparameter choice in KGEs is a deterministic function of the KGE model and graph structure. We further hypothesise that, as TWIG can simulate KGEs without embeddings, that node and edge embeddings are not needed to learn to accurately predict new facts in KGs. Finally, we formulate all of our findings under the umbrella of the ``Structural Generalisation Hypothesis", which suggests that ``twiggy" embedding-free / data-structure-based learning methods can allow a single neural network to simulate KGE performance, and perhaps solve the Link Prediction task, across many KGs from diverse domains and with different semantics.
翻訳日:2024-02-12 18:31:22 公開日:2024-02-08
# 修正ファインチューニングのためのデータ選択の再考

Rethinking Data Selection for Supervised Fine-Tuning ( http://arxiv.org/abs/2402.06094v1 )

ライセンス: Link先を確認
Ming Shen(参考訳) 教師付きファインタニング(SFT)は、大きな言語モデルと人間を協調させる重要な技術として登場したが、その性質はスタイル学習である。 同時に、最近の研究は、SFTにおけるデータ選択の重要性を示し、元のデータセットの高品質で多様なサブセットによる微調整により、下流のパフォーマンスが向上することを示している。 本研究では,SFTのデータ選択の背景にある直観を再考する。 SFTは表面的であるため、データ品質や多様性ではなく、人間のようなインタラクションを反映することに焦点を当てるべきである。 しかし、デモンストレーションが人間のスタイルをどの程度反映しているかを直接評価するのは簡単ではない。 この方向への最初の試みでは、品質と多様性に基づいて選択された完全なデータセットやインスタンスを利用するよりも、長い応答を持つインスタンスを選択する方が驚くほど効果的であることがわかった。 このような単純なヒューリスティックは、人間スタイルの会話の重要な側面を暗黙的に模倣していると仮定する。

Although supervised finetuning (SFT) has emerged as an essential technique to align large language models with humans, it is considered superficial, with style learning being its nature. At the same time, recent works indicate the importance of data selection for SFT, showing that finetuning with high-quality and diverse subsets of the original dataset leads to superior downstream performance. In this work, we rethink the intuition behind data selection for SFT. Considering SFT is superficial, we propose that essential demonstrations for SFT should focus on reflecting human-like interactions instead of data quality or diversity. However, it is not straightforward to directly assess to what extent a demonstration reflects human styles. Towards an initial attempt in this direction, we find selecting instances with long responses is surprisingly more effective for SFT than utilizing full datasets or instances selected based on quality and diversity. We hypothesize that such a simple heuristic implicitly mimics a crucial aspect of human-style conversation: detailed responses are usually more helpful.
翻訳日:2024-02-12 18:30:54 公開日:2024-02-08
# CLIP-Loc:オブジェクトマップにおけるグローバルローカライゼーションのためのマルチモーダルランドマークアソシエーション

CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps ( http://arxiv.org/abs/2402.06092v1 )

ライセンス: Link先を確認
Shigemichi Matsuzaki, Takuma Sugino, Kazuhito Tanaka, Zijun Sha, Shintaro Nakaoka, Shintaro Yoshizawa, Kazuhiro Shintani(参考訳) 本稿では,オブジェクトマップとカメラ画像を用いたグローバルローカライゼーションのためのマルチモーダルデータアソシエーション手法について述べる。 グローバルローカライズや再ローカライズでは、既存の手法では、検出されたオブジェクトとランドマークのすべての組み合わせを同じオブジェクトカテゴリにマッチさせ、続いてransacやbrute-force searchを用いた異常抽出を行う。 このアプローチは、対応候補の指数関数的な増加によってランドマーク数が増加すると実現不可能になる。 本稿では,自然言語記述によるランドマークのラベル付けと,視覚言語モデル(vlm)を用いた画像観察と概念的類似性に基づく対応抽出を提案する。 提案手法は,詳細なテキスト情報を活用することで,オブジェクトカテゴリのみを用いた手法と比較して,効率よく対応を抽出する。 実験により,提案手法は,ベースライン法に比べて少ないイテレーションでより正確なグローバルローカライゼーションを実現し,その効率性を示した。

This paper describes a multi-modal data association method for global localization using object-based maps and camera images. In global localization, or relocalization, using object-based maps, existing methods typically resort to matching all possible combinations of detected objects and landmarks with the same object category, followed by inlier extraction using RANSAC or brute-force search. This approach becomes infeasible as the number of landmarks increases due to the exponential growth of correspondence candidates. In this paper, we propose labeling landmarks with natural language descriptions and extracting correspondences based on conceptual similarity with image observations using a Vision Language Model (VLM). By leveraging detailed text information, our approach efficiently extracts correspondences compared to methods using only object categories. Through experiments, we demonstrate that the proposed method enables more accurate global localization with fewer iterations compared to baseline methods, exhibiting its efficiency.
翻訳日:2024-02-12 18:30:36 公開日:2024-02-08
# セマンティックセグメンテーションのための特徴の早期融合

Early Fusion of Features for Semantic Segmentation ( http://arxiv.org/abs/2402.06091v1 )

ライセンス: Link先を確認
Anupam Gupta, Ashok Krishnamurthy, Lisa Singh(参考訳) 本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。 提案手法では,ResNet-50バックボーンを半教師付きで事前訓練し,様々なスケールで特徴マップを生成する。 これらのマップは逆hrnetによって処理され、1x1畳み込みを通じて様々なチャネル次元を扱うように適応され、最終的なセグメンテーション出力を生成する。 トレーニング中のメモリ消費を最小限に抑えるため,バックボーンネットワークの微調整を戦略的に避ける。 提案手法は,Mapillary Vistas,Cityscapes,CamVid,COCO,PASCAL-VOC2012など,いくつかのベンチマークデータセットで厳格に検証され,画素精度や平均インターセクションオーバーユニオン(mIoU)などの指標を用いてセグメンテーション性能を評価する。 その結果,提案モデルの有効性が示され,画像解析における各種応用の可能性が示唆された。 ResNet-50とリバースHRNetの長所を統一されたフレームワークで活用することにより、画像セグメンテーションの課題に対する堅牢な解決策を提供する。

This paper introduces a novel segmentation framework that integrates a classifier network with a reverse HRNet architecture for efficient image segmentation. Our approach utilizes a ResNet-50 backbone, pretrained in a semi-supervised manner, to generate feature maps at various scales. These maps are then processed by a reverse HRNet, which is adapted to handle varying channel dimensions through 1x1 convolutions, to produce the final segmentation output. We strategically avoid fine-tuning the backbone network to minimize memory consumption during training. Our methodology is rigorously tested across several benchmark datasets including Mapillary Vistas, Cityscapes, CamVid, COCO, and PASCAL-VOC2012, employing metrics such as pixel accuracy and mean Intersection over Union (mIoU) to evaluate segmentation performance. The results demonstrate the effectiveness of our proposed model in achieving high segmentation accuracy, indicating its potential for various applications in image analysis. By leveraging the strengths of both the ResNet-50 and reverse HRNet within a unified framework, we present a robust solution to the challenges of image segmentation.
翻訳日:2024-02-12 18:30:16 公開日:2024-02-08
# Animated Stickers:ビデオ拡散でステッカーを生き返らせる

Animated Stickers: Bringing Stickers to Life with Video Diffusion ( http://arxiv.org/abs/2402.06088v1 )

ライセンス: Link先を確認
David Yan, Winnie Zhang, Luxin Zhang, Anmol Kalia, Dingkang Wang, Ankit Ramchandani, Miao Liu, Albert Pumarola, Edgar Schoenfeld, Elliot Blanchard, Krishna Narni, Yaqiao Luo, Lawrence Chen, Guan Pang, Ali Thabet, Peter Vajda, Amy Bearman, Licheng Yu(参考訳) テキストプロンプトと静的ステッカー画像に条件付けられたアニメーションを生成するビデオ拡散モデルであるアニメーションステッカーを紹介する。 私たちのモデルは最先端のemuテキスト・ツー・イメージモデルの上に構築され、運動のモデルにテンポラリ層を追加しています。 ドメインギャップ、すなわち視覚とモーションのスタイルの違いにより、自然ビデオの生成でうまく機能するモデルは、ステッカーに適用されると、もはや鮮明なビデオを生成することができない。 このギャップを埋めるために、2段階の微調整パイプラインを使用します。まずはドメイン内の弱いデータを使い、次に、教師のアンサンブル(enmble-of-Teachers)と呼ぶHuman-in-the-loop(HITL)戦略を使います。 複数の教師の最良の性質を、より小さな生徒モデルに蒸留する。 この戦略により、静的画像からスタイルを維持しながら、運動品質の改善を特に目標にすることができることを示す。 推論最適化により、我々のモデルは高品質で興味深く、関連する動きを1秒未満で生成できる8フレームビデオを生成することができる。

We introduce animated stickers, a video diffusion model which generates an animation conditioned on a text prompt and static sticker image. Our model is built on top of the state-of-the-art Emu text-to-image model, with the addition of temporal layers to model motion. Due to the domain gap, i.e. differences in visual and motion style, a model which performed well on generating natural videos can no longer generate vivid videos when applied to stickers. To bridge this gap, we employ a two-stage finetuning pipeline: first with weakly in-domain data, followed by human-in-the-loop (HITL) strategy which we term ensemble-of-teachers. It distills the best qualities of multiple teachers into a smaller student model. We show that this strategy allows us to specifically target improvements to motion quality while maintaining the style from the static image. With inference optimizations, our model is able to generate an eight-frame video with high-quality, interesting, and relevant motion in under one second.
翻訳日:2024-02-12 18:29:53 公開日:2024-02-08
# ランダムウォークカーネルを改良した記述型カーネル畳み込みネットワーク

Descriptive Kernel Convolution Network with Improved Random Walk Kernel ( http://arxiv.org/abs/2402.06087v1 )

ライセンス: Link先を確認
Meng-Chieh Lee, Lingxiao Zhao, Leman Akoglu(参考訳) グラフカーネルは、構造化データの機能エンジニアリングにおいて支配的なアプローチであり、前者が学習可能性に欠けるため、現代のgnnに取って代わられた。 近年、一連のカーネル畳み込みネットワーク(kcns)が、特定のグラフカーネルを使用して学習可能な隠れグラフと入力を結合する学習可能性を導入することで、グラフカーネルの活性化に成功した。 ランダムウォークカーネル(RWK)は多くのKCNでデフォルトカーネルとして使われており、注目度が高まっている。 本稿では,rwkをkcnsで再検討し,既存の設計のいくつかの欠点を明らかにし,カラーマッチングランダムウォークを導入し,その効率的な計算を行うことにより,改良されたグラフカーネルrwk+を提案する。 次に,rwk+をコアカーネルとして使用するkcnであるrwk+cnを提案する。 さらに、RWK+をアンロールすることで、通常のGCN層との接続を発見し、新しいGNN層RWK+Convを提案する。 実験の前半では,ランダムウォークカーネルrwk+を改良したランダムウォークカーネルrwk+を用いたrwk+cnの記述学習能力を非教師ありパターンマイニングタスクで実証し,後半では様々なkcnアーキテクチャと教師ありグラフ学習タスクに対するrwk+の有効性を示し,特にグラフレベルタスクにおけるrwk+conv層の表現性を示す。 RWK+とRWK+Convは、WebスケールのTwitterソーシャルネットワークにおけるボット検出やRedditソーシャルインタラクションネットワークにおけるコミュニティ分類など、さまざまな現実世界のアプリケーションに適応する。

Graph kernels used to be the dominant approach to feature engineering for structured data, which are superseded by modern GNNs as the former lacks learnability. Recently, a suite of Kernel Convolution Networks (KCNs) successfully revitalized graph kernels by introducing learnability, which convolves input with learnable hidden graphs using a certain graph kernel. The random walk kernel (RWK) has been used as the default kernel in many KCNs, gaining increasing attention. In this paper, we first revisit the RWK and its current usage in KCNs, revealing several shortcomings of the existing designs, and propose an improved graph kernel RWK+, by introducing color-matching random walks and deriving its efficient computation. We then propose RWK+CN, a KCN that uses RWK+ as the core kernel to learn descriptive graph features with an unsupervised objective, which can not be achieved by GNNs. Further, by unrolling RWK+, we discover its connection with a regular GCN layer, and propose a novel GNN layer RWK+Conv. In the first part of experiments, we demonstrate the descriptive learning ability of RWK+CN with the improved random walk kernel RWK+ on unsupervised pattern mining tasks; in the second part, we show the effectiveness of RWK+ for a variety of KCN architectures and supervised graph learning tasks, and demonstrate the expressiveness of RWK+Conv layer, especially on the graph-level tasks. RWK+ and RWK+Conv adapt to various real-world applications, including web applications such as bot detection in a web-scale Twitter social network, and community classification in Reddit social interaction networks.
翻訳日:2024-02-12 18:29:35 公開日:2024-02-08
# RhizomesによるSkewed In-Degree分布のロードバランシング

Rhizomes to Load Balance Skewed In-Degree Distributions ( http://arxiv.org/abs/2402.06086v1 )

ライセンス: Link先を確認
Bibrak Qamar Chandio(参考訳) 本稿では,頂点中心のメッセージ駆動型グラフ処理にrhizomのアイデアを適用し,グラフ内の高次分布に起因する負荷不均衡に対処することを目的とする。 グラフのライゾム構成は、複数の単一の大きな頂点に対して複数の名前付き頂点アドレスを生成する。 すると、他の頂点が名前のついたアドレスのどれかを指して、次のロードを共有する。 根茎は内部でコミュニケーションし、頂点の統一的かつ正しい視点を提供するために一貫している。 シミュレーション実験により,高スキューインディグリー分布を含む入力グラフデータセットの大規模チップサイズに対するBFSグラフトラバーサルの性能向上を示す。 改善点は、メモリ処理要素間での計算負荷のインディグリー化と、ネットワークオンチップでの競合の低減にある。

The paper aims to address load imbalance caused by high in-degree distribution in graphs by applying the idea of rhizome to vertex-centric message-driven graph processing. Rhizome construction of the graph creates multiple named vertex address for any number of single large in-degree vertices. It then allows other vertices to point to any of the named addresses thus sharing the in-degree load. The rhizomes internally communicate and remain consistent to provide a unified and correct view of the vertex. Simulated experimental results show performance speed ups for BFS graph traversal on large chip sizes for the tested input graph datasets containing highly skewed in-degree distribution. The improvements come from sharing the in-degree compute workload among memory-processing elements and also lowering contention on the network-on-chip.
翻訳日:2024-02-12 18:29:01 公開日:2024-02-08
# subgen:sublinear time and memoryにおけるトークン生成

SubGen: Token Generation in Sublinear Time and Memory ( http://arxiv.org/abs/2402.06082v1 )

ライセンス: Link先を確認
Amir Zandieh, Insu Han, Vahab Mirrokni, Amin Karbasi(参考訳) 大規模言語モデル(llm)の成功にもかかわらず、その広範なメモリ要件は、長いコンテキストのトークン生成にそれらをデプロイする上での課題を提起する。 LLMデコーダのメモリフットプリントは、キー値(KV)キャッシングによって課される、すべての前のトークンをアテンションモジュールに格納する必要性から生じる。 本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。 実証的な証拠は、アテンションモジュール内のキー埋め込み内で重要なクラスタリング傾向を示す。 この知見に基づいて,キートークンのオンラインクラスタリングと値の$\ell_2$サンプリングを用いた,サブリニアな複雑性を持つ新しいキャッシング手法を考案した。 この結果は、SubGenと呼ばれる、確実に正確で効率的なアテンションデコーディングアルゴリズムである。 このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。 長文問合せタスクの実証評価では、SubGenは既存のKVキャッシュ圧縮手法と最先端のKVキャッシュ圧縮手法を性能と効率で大幅に上回っている。

Despite the significant success of large language models (LLMs), their extensive memory requirements pose challenges for deploying them in long-context token generation. The substantial memory footprint of LLM decoders arises from the necessity to store all previous tokens in the attention module, a requirement imposed by key-value (KV) caching. In this work, our focus is on developing an efficient compression technique for the KV cache. Empirical evidence indicates a significant clustering tendency within key embeddings in the attention module. Building on this key insight, we have devised a novel caching method with sublinear complexity, employing online clustering on key tokens and online $\ell_2$ sampling on values. The result is a provably accurate and efficient attention decoding algorithm, termed SubGen. Not only does this algorithm ensure a sublinear memory footprint and sublinear time complexity, but we also establish a tight error bound for our approach. Empirical evaluations on long-context question-answering tasks demonstrate that SubGen significantly outperforms existing and state-of-the-art KV cache compression methods in terms of performance and efficiency.
翻訳日:2024-02-12 18:28:49 公開日:2024-02-08
# DiscDiff:DNA配列生成のための潜時拡散モデル

DiscDiff: Latent Diffusion Model for DNA Sequence Generation ( http://arxiv.org/abs/2402.06079v1 )

ライセンス: Link先を確認
Zehui Li, Yuhao Ni, William A V Beardall, Guoxuan Xia, Akashaditya Das, Guy-Bart Stan, Yiren Zhao(参考訳) 本稿では, 離散的なDNA配列を生成するための遅延拡散モデル(LDM)と, それらの配列を改良するポストトレーニングアルゴリズムであるAbsorb-Escapeの2つの重要な構成要素からなる, 新規なDNA配列生成フレームワークを提案する。 Absorb-Escapeは、潜在空間と入力空間の間の変換過程に固有の「丸いエラー」を補正することで、生成されたシーケンスのリアリズムを強化する。 提案手法は,DNA配列生成の新しい標準を規定するだけでなく,DNA配列と長鎖配列の両方を生成する上で,既存の拡散モデルよりも優れた性能を示す。 さらに15種から16万のユニークな配列を網羅した,最初の包括的多種のDNA生成データセットであるEPD-GenDNAを紹介する。 本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。

This paper introduces a novel framework for DNA sequence generation, comprising two key components: DiscDiff, a Latent Diffusion Model (LDM) tailored for generating discrete DNA sequences, and Absorb-Escape, a post-training algorithm designed to refine these sequences. Absorb-Escape enhances the realism of the generated sequences by correcting `round errors' inherent in the conversion process between latent and input spaces. Our approach not only sets new standards in DNA sequence generation but also demonstrates superior performance over existing diffusion models, in generating both short and long DNA sequences. Additionally, we introduce EPD-GenDNA, the first comprehensive, multi-species dataset for DNA generation, encompassing 160,000 unique sequences from 15 species. We hope this study will advance the generative modelling of DNA, with potential implications for gene therapy and protein production.
翻訳日:2024-02-12 18:28:17 公開日:2024-02-08
# 退化はok:不明瞭な分布をもつネットワーク収益管理に対する対数的後悔

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions ( http://arxiv.org/abs/2210.07996v4 )

ライセンス: Link先を確認
Jiashuo Jiang, Will Ma and Jiawei Zhang(参考訳) 我々は、従来のネットワーク収益管理(NRM)問題について、意思決定を受理/退避し、IIDの到着を$T$で検討する。 各到着は、決定論的リソース消費ベクトルを持つが、ランダムな値が一定間隔にわたって連続的に分布する、有限個の可能なカテゴリに満たさなければならない分布形式を考える。 このモデルの下では, 確率密度が 0 から遠ざかっているという仮定が唯一の(必要)前提として, $o(\log^2 t)$ regret を実現するオンラインアルゴリズムを開発した。 2階成長の仮定を追加して、$O(\log T)$ regretを達成する2番目の結果を得る。 我々の知る限り、これらは『非退化』の仮定を一切必要としない連続的な値を持つNEMモデルにおいて対数レベルの後悔を達成する最初の結果である。 本研究は,新しい手法により,自発的後悔のバウンディング,オフラインアロケーションの‘半流動’緩和,‘二重収束’のバウンドの改善などを実現する。

We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of ``non-degeneracy'' assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a ``semi-fluid'' relaxation of the offline allocation, and an improved bound on the ``dual convergence''.
翻訳日:2024-02-10 03:25:08 公開日:2024-02-08
# 任意の量子オブザーバブルにおける超現象

Super-phenomena in arbitrary quantum observables ( http://arxiv.org/abs/2209.05650v2 )

ライセンス: Link先を確認
Andrew N. Jordan, Yakir Aharonov, Daniele C. Struppa, Fabrizio Colombo, Irene Sabadini, Tomer Shushi, Jeff Tollaksen, John C. Howell, and A. Nick Vamivakas(参考訳) 超振動は、グローバルな帯域制限関数が最も高いフーリエ係数よりも早く局所的に振動するときに起こる。 この効果を、任意の量子力学演算子に弱値として一般化し、選択された状態は、ある範囲に有界な固有値を持つ作用素の固有状態の重ね合わせであり、ポストセレクション状態は局所的な位置である。 この作用素の超ベクトルは、作用素の弱値がその固有値境界を超えると発生する。 我々は、全角運動量とエネルギーに対するこの効果の例を示す。 後述のケースでは、漸近エネルギーが消滅する状態の有界重ね合わせのみを用いて、有限エネルギー状態が実線上の至る所で収束する調和振動子ポテンシャル列を実証する。 この制限は、粒子の大きさが考慮範囲内でばらばらになる領域における粒子のポスト選択を必要とする。 さらに、超エネルギーの挙動は、状態がプランク定数を減らした超エネルギーによって与えられる速度で時間的に超振動することを示す。 この例は、ほぼゼロエネルギー状態のコヒーレントな重ね合わせで所望の空間領域を広くする高エネルギー状態の模倣の可能性を示している。 我々はこれらの特徴の数値的な証拠を提供し、我々の主張をさらに強化し、解明する。

Superoscillations occur when a globally band-limited function locally oscillates faster than its highest Fourier coefficient. We generalize this effect to arbitrary quantum mechanical operators as a weak value, where the preselected state is a superposition of eigenstates of the operator with eigenvalues bounded to a range, and the postselection state is a local position. Superbehavior of this operator occurs whenever the operator's weak value exceeds its eigenvalue bound. We give illustrative examples of this effect for total angular momentum and energy. In the later case, we demonstrate a sequence of harmonic oscillator potentials where a finite energy state converges everywhere on the real line, using only bounded superpositions of states whose asymptotic energy vanishes - "energy out of nothing". This limit requires postselecting the particle in a region whose size diverges in the considered limit. We further show that superenergy behavior implies that the state superoscillates in time with a rate given by the superenergy divided by the reduced Planck's constant. This example demonstrates the possibility of mimicking a high-energy state with coherent superpositions of nearly zero-energy states for as wide a spatial region as desired. We provide numerical evidence of these features to further bolster and elucidate our claims.
翻訳日:2024-02-10 03:24:48 公開日:2024-02-08
# ニューラル演算子とスペクトル演算子--統一構成と表現速度境界

Neural and spectral operator surrogates: unified construction and expression rate bounds ( http://arxiv.org/abs/2207.04950v2 )

ライセンス: Link先を確認
Lukas Herrmann, Christoph Schwab, Jakob Zech(参考訳) 近似率は無限次元関数空間間の写像の深い代理として解析され、例えば線形偏微分方程式や非線形偏微分方程式のデータ対解写像などが挙げられる。 具体的には、無限次元ヒルベルト空間間の非線形正則写像に対するDeep Neural OperatorとGeneralized Polynomial Chaos (gpc) Operator surrogatesの近似速度について検討する。 関数空間からの演算子と出力は、安定なアフィン表現系によってパラメータ化される。 許容表現系は、考慮中の空間の正則基底、リース基底、あるいは適切な強フレームを構成する。 代数的表現速度境界は、有限ソボレフあるいはベッソフ正則性を持つ、表現される写像の領域と範囲を含む分離可能なヒルベルト空間のスケールに作用する深いニューラルネットワークとスペクトル演算子の両方に対して確立される。 トーラス上の線形楕円型PDEに対する係数解写像の表現速度境界による抽象概念について述べる。

Approximation rates are analyzed for deep surrogates of maps between infinite-dimensional function spaces, arising e.g. as data-to-solution maps of linear and nonlinear partial differential equations. Specifically, we study approximation rates for Deep Neural Operator and Generalized Polynomial Chaos (gpc) Operator surrogates for nonlinear, holomorphic maps between infinite-dimensional, separable Hilbert spaces. Operator in- and outputs from function spaces are assumed to be parametrized by stable, affine representation systems. Admissible representation systems comprise orthonormal bases, Riesz bases or suitable tight frames of the spaces under consideration. Algebraic expression rate bounds are established for both, deep neural and spectral operator surrogates acting in scales of separable Hilbert spaces containing domain and range of the map to be expressed, with finite Sobolev or Besov regularity. We illustrate the abstract concepts by expression rate bounds for the coefficient-to-solution map for a linear elliptic PDE on the torus.
翻訳日:2024-02-10 03:24:28 公開日:2024-02-08
# 一般化スターリングおよびユーレアン数からのボソン演算子オーダーID

Boson Operator Ordering Identities from Generalized Stirling and Eulerian Numbers ( http://arxiv.org/abs/2308.10332v3 )

ライセンス: Link先を確認
Robert S. Maier(参考訳) 単モードボソン作用素によって生成されるワイル・ハイゼンベルク代数の順序性について検討した。 生成と消滅演算子からなるボソン弦は他のそのような弦の線型結合として拡張することができ、最も単純な例は正規順序付けである。 各文字列が1つの消滅作用素のみを含む場合、既に組合せ的に非自明である。 2種類の展開が導出される。 (i)別の文字列$\omega'$の下限で$\omega$という文字列のパワーのそれ、及び (ii)$\Omega$と同じパワーのツイストバージョン$\Omega$のパワー。 膨張係数は、それぞれhsu と shiue の一般化スターリング数と、ある一般化オイラー数であることが示される。 多くの例がある。 これらの組合せ数は互いに二項変換であり、それらの理論は、和公式、Graham-Knuth-Patashnik (GKP) 三角再帰、超幾何列の終了、閉形式表現など、それらを計算するためのスキームを強調する。 最初のタイプの展開の結果は、ボソン弦の正規順序付けに関する以前の結果の多くを仮定する。

Ordering identities in the Weyl-Heisenberg algebra generated by single-mode boson operators are investigated. A boson string composed of creation and annihilation operators can be expanded as a linear combination of other such strings, the simplest example being a normal ordering. The case when each string contains only one annihilation operator is already combinatorially nontrivial. Two kinds of expansion are derived: (i) that of a power of a string $\Omega$ in lower powers of another string $\Omega'$, and (ii) that of a power of $\Omega$ in twisted versions of the same power of $\Omega'$. The expansion coefficients are shown to be, respectively, generalized Stirling numbers of Hsu and Shiue, and certain generalized Eulerian numbers. Many examples are given. These combinatorial numbers are binomial transforms of each other, and their theory is developed, emphasizing schemes for computing them: summation formulas, Graham-Knuth-Patashnik (GKP) triangular recurrences, terminating hypergeometric series, and closed-form expressions. The results on the first type of expansion subsume a number of previous results on the normal ordering of boson strings.
翻訳日:2024-02-10 03:21:13 公開日:2024-02-08
# トポロジカルおよび相互作用型電荷ポンプにおける非断熱効果

Non-Adiabatic Effect in Topological and Interacting Charge Pumping ( http://arxiv.org/abs/2308.09316v2 )

ライセンス: Link先を確認
Fan Yang, Xingyu Li, Hui Zhai(参考訳) 位相電荷ポンプは断熱限界で発生し、有限な傾斜速度による非断熱効果はポンプ効率を低下させ、量子化電荷ポンプから逸脱させる。 本研究では, 量子化電荷ポンプからのずれとポンプ円の後の絡み合い発生との関係について考察する。 最も単純な設定では、半系還元密度行列の純度$\mathcal{P}$が$(1-\kappa)^2+\kappa^2$と定義され、$\kappa$はポンプの効率を表す。 一般的な状況では、$\mathcal{p}<\mathcal{r}$ を議論し、ポンプの効率は純度に対する上限となり、したがって生成した絡み合いに対する下限となる。 この予想を支持するために, ブロック壁型量子回路モデルとして表現できる, 米-mele-hubbardモデルにおける解解ポンピングスキームを提案する。 この揚水方式により、電荷ポンプの数値計算は最大6箇所のみを含む必要があるため、正確な対角化計算において、相互作用と有限温度効果の両方を確実に含むことができる。 可溶性ポンプ円を用いた数値計算の結果、ポンプ効率が傾斜速度に敏感な2つの状態を特定し、相互作用と有限温度効果の両方が存在する場合の予想である$\mathcal{P}<\mathcal{R}$を支持する。

Topological charge pumping occurs in the adiabatic limit, and the non-adiabatic effect due to finite ramping velocity reduces the pumping efficiency and leads to deviation from quantized charge pumping. In this work, we discuss the relation between this deviation from quantized charge pumping and the entanglement generation after a pumping circle. In the simplest setting, we show that purity $\mathcal{P}$ of the half system reduced density matrix equals to $\mathcal{R}$ defined as $(1-\kappa)^2+\kappa^2$, where $\kappa$ denotes the pumping efficiency. In generic situations, we argue $\mathcal{P}<\mathcal{R}$ and the pumping efficiency can provide an upper bound for purity and, therefore, a lower bound for generated entanglement. To support this conjecture, we propose a solvable pumping scheme in the Rice--Mele--Hubbard model, which can be represented as brick-wall type quantum circuit model. With this pumping scheme, numerical calculation of charge pumping only needs to include at most six sites, and therefore, the interaction and the finite temperature effects can be both included reliably in the exact diagonalization calculation. The numerical results using the solvable pumping circle identify two regimes where the pumping efficiency is sensitive to ramping velocity and support the conjecture $\mathcal{P}<\mathcal{R}$ when both interaction and finite temperature effects are present.
翻訳日:2024-02-10 03:20:53 公開日:2024-02-08
# 量子コンピュータにおけるYang-Baxterゲートの最適実現

Optimal realization of Yang-Baxter gate on quantum computers ( http://arxiv.org/abs/2307.16781v3 )

ライセンス: Link先を確認
Kun Zhang, Kwangmin Yu, Kun Hao, Vladimir Korepin(参考訳) 量子コンピュータは、古典的シミュレーションを超えて多体系のダイナミクスを研究する有望な方法を提供する。 一方,可積分系から得られた分析手法と結果から,多体系に関する深い知見が得られる。 可積分系の量子シミュレーションは、量子コンピュータの有効なベンチマークを提供するだけでなく、可積分系を研究するための最初のステップでもある。 可積分系のシミュレーションのためのビルディングブロックはyang-baxterゲートである。 量子コンピュータ上でのYang-Baxterゲートの最適実現法を知ることは不可欠である。 yang-baxterゲートの幾何学的図に基づいて、最小数のcnotまたは$r_{zz}$ゲートを持つ2種類のyang-baxterゲートの最適実現を示す。 また,パルス制御により,ヤンバクターゲートを系統的に実現する方法を示す。 我々は、IBM量子コンピュータ上で異なる実現法をテストし比較する。 yang-baxterゲートのパルス実現は、最適なcnotや$r_{zz}$実現よりも常に高いゲート忠実度を持つことがわかった。 上記の最適実現に基づいて,量子コンピュータ上でのyang-baxter方程式のシミュレーションを実証する。 この結果は,ヤンバクスターゲートに基づくさらなる実験研究のガイドラインと標準を提供する。

Quantum computers provide a promising method to study the dynamics of many-body systems beyond classical simulation. On the other hand, the analytical methods developed and results obtained from the integrable systems provide deep insights on the many-body system. Quantum simulation of the integrable system not only provides a valid benchmark for quantum computers but is also the first step in studying integrable-breaking systems. The building block for the simulation of an integrable system is the Yang-Baxter gate. It is vital to know how to optimally realize the Yang-Baxter gates on quantum computers. Based on the geometric picture of the Yang-Baxter gates, we present the optimal realizations of two types of Yang-Baxter gates with a minimal number of CNOT or $R_{zz}$ gates. We also show how to systematically realize the Yang-Baxter gates via the pulse control. We test and compare the different realizations on IBM quantum computers. We find that the pulse realizations of the Yang-Baxter gates always have a higher gate fidelity compared to the optimal CNOT or $R_{zz}$ realizations. On the basis of the above optimal realizations, we demonstrate the simulation of the Yang-Baxter equation on quantum computers. Our results provide a guideline and standard for further experimental studies based on the Yang-Baxter gate.
翻訳日:2024-02-10 03:20:18 公開日:2024-02-08
# オブザーバは構造に還元可能か?

Are observers reducible to structures? ( http://arxiv.org/abs/2307.06783v2 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) 物理系は構造と力学によって特徴づけられる。 しかし、物理法則は関係のみを表現し、それらの対称性により、あらゆる可能な関係構造が状態空間の異なるパラメトリゼーションや基底でも可能となる。 もし観測者がその構造を再現できるなら、異なるパラメトリゼーションによる観測者のような構造は、物理特性を持つ観測者とは異なるものである。 彼らは異なる状態にあるのと同じシステムを認識するだろう。 これは、可観測物と物理的性質の間に一意の対応があるのか、あるいはこの対応は、観測を行うオブザーバのような構造が存在するパラメトリゼーションと相対的であるのか? すべてのパラメトリゼーションから得られたオブザーバのような構造がオブザーバであったら、外界の記憶は事実と一致しないでしょう。 私たちの経験から、これは当てはまらないことが分かるので、観察者にはその構造以上のものが必要である。 これは、観測可能量と物理的性質の対応はユニークであり、観測者を通して現れることを意味する。 この結果は測定問題とは独立であり、量子物理学と古典物理学の両方に適用できる。 構造的実在論、心の哲学、量子物理学や古典物理学の基礎、量子ファーストアプローチにも影響している。

Physical systems are characterized by their structure and dynamics. But the physical laws only express relations, and their symmetries allow any possible relational structure to be also possible in a different parametrization or basis of the state space. If observers were reducible to their structure, observer-like structures from different parametrizations would identify differently the observables with physical properties. They would perceive the same system as being in a different state. This leads to the question: is there a unique correspondence between observables and physical properties, or this correspondence is relative to the parametrization in which the observer-like structure making the observation exists? I show that, if observer-like structures from all parametrizations were observers, their memory of the external world would have no correspondence with the facts, it would be no better than random guess. Since our experience shows that this is not the case, there must be more to the observers than their structure. This implies that the correspondence between observables and physical properties is unique, and it becomes manifest through the observers. This result is independent of the measurement problem, applying to both quantum and classical physics. It has implications for structural realism, philosophy of mind, the foundations of quantum and classical physics, and quantum-first approaches.
翻訳日:2024-02-10 03:19:59 公開日:2024-02-08
# 共振器結合二重量子ドットフォトダイオードを用いたマイクロ波電力回収

Microwave power harvesting using resonator-coupled double quantum dot photodiode ( http://arxiv.org/abs/2306.15797v2 )

ライセンス: Link先を確認
Subhomoy Haldar, Drilon Zenelaj, Patrick P. Potts, Harald Havir, Sebastian Lehmann, Kimberly A. Dick, Peter Samuelsson, Ville F. Maisi(参考訳) 共振器結合二重量子ドットにおけるマイクロ波電力-電気エネルギー変換を実証する。 このシステムはフォトダイオードとして動作し、個々のマイクロ波光子をダブルドットを貫通する電子に変換することで、入力電力1フェムトワットまでの印加電圧バイアスに対して電流が流れる。 この装置は最大電力収穫効率2%に達し、光子対電子変換効率は単一光子吸収率で12%に達する。 エネルギー変換は、熱力学が単一光子エネルギー変換において重要な役割を担っていることを示す熱効果に依存することが判明した。

We demonstrate a microwave power-to-electrical energy conversion in a resonator-coupled double quantum dot. The system, operated as a photodiode, converts individual microwave photons to electrons tunneling through the double dot, resulting in an electrical current flowing against the applied voltage bias at input powers down to 1 femto-watt. The device attains a maximum power harvesting efficiency of 2%, with the photon-to-electron conversion efficiency reaching 12% in the single photon absorption regime. We find that the power conversion depends on thermal effects showing that thermodynamics plays a crucial role in the single photon energy conversion.
翻訳日:2024-02-10 03:19:38 公開日:2024-02-08
# Sachdev-Ye-Kitaevモデルにおけるトラバータブル・ワームホールの6方向

Sixfold Way of Traversable Wormholes in the Sachdev-Ye-Kitaev Model ( http://arxiv.org/abs/2305.09663v2 )

ライセンス: Link先を確認
Antonio M. Garc\'ia-Garc\'ia, Lucas S\'a, Jacobus J. M. Verbaarschot, and Can Yin(参考訳) 赤外線限界では、2次元(2次元)の反ド・ジッター時空(ads$_2$)が弱い二重トレース変形と2-site $(q>2)$-body sachdev-ye-kitaev (syk)モデルによって引き起こされる。 この関係を利用して,n$,$q$,および$r$に依存した可逆ワームホールの対称性分類を,q>2r$で提案し,正確な対角化手法を用いたレベル統計解析により確認する。 興味深いことに、時間反転状態は新しい状態にはならないため、A、AI、BDI、CI、C、Dの6つの普遍性クラスしか発生しない。

In the infrared limit, a nearly anti-de Sitter spacetime in two dimensions (AdS$_2$) perturbed by a weak double trace deformation and a two-site $(q>2)$-body Sachdev-Ye-Kitaev (SYK) model with $N$ Majoranas and a weak $2r$-body intersite coupling share the same near-conformal dynamics described by a traversable wormhole. We exploit this relation to propose a symmetry classification of traversable wormholes depending on $N$, $q$, and $r$, with $q>2r$, and confirm it by a level statistics analysis using exact diagonalization techniques. Intriguingly, a time-reversed state never results in a new state, so only six universality classes occur: A, AI, BDI, CI, C, and D.
翻訳日:2024-02-10 03:18:11 公開日:2024-02-08
# ParlayANN: スケーラブルで決定論的並列グラフに基づく近似近傍探索アルゴリズム

ParlayANN: Scalable and Deterministic Parallel Graph-Based Approximate Nearest Neighbor Search Algorithms ( http://arxiv.org/abs/2305.04359v2 )

ライセンス: Link先を確認
Magdalen Dobson Manohar, Zheqi Shen, Guy E. Blelloch, Laxman Dhulipala, Yan Gu, Harsha Vardhan Simhadri, Yihan Sun(参考訳) 近似近傍探索(ANNS)アルゴリズムは、データの高次元ベクトル空間表現(つまり埋め込み)の効率的な類似性探索を可能にするため、現代のディープラーニングスタックの重要な部分である。 様々なANNSアルゴリズムの中で、グラフベースのアルゴリズムは最高のスループット-リコールトレードオフを達成することが知られている。 現代のannsデータセットは大規模であるにも関わらず、既存の並列グラフベースの実装は、ロックやその他のシーケンシャルなボトルネックを多用するため、大規模なデータセットに拡張する上で大きな課題を抱えている。 1)多数のプロセッサへの効率的なスケーリングを防止し、 2) 特定の応用では望ましくない非決定論が生じる。 本稿では,決定論的および並列グラフに基づく近似近辺探索アルゴリズムのライブラリparlayannと,それらのアルゴリズムを開発するための有用なツールセットを提案する。 このライブラリでは,数十億のデータセットにスケールする4つの最先端グラフベースANNSアルゴリズムの並列実装を開発する。 我々のアルゴリズムは決定論的であり、多様な挑戦的なデータセットに対して高いスケーラビリティを実現する。 新しいアルゴリズムのアイデアに加えて、我々は新しいアルゴリズムと既存の2つの非グラフアプローチの詳細な実験的研究も行っている。 実験結果は,新しい手法の有効性を検証し,大規模データセットにおける anns アルゴリズムの包括的比較を行った結果,興味深い結果が得られた。

Approximate nearest-neighbor search (ANNS) algorithms are a key part of the modern deep learning stack due to enabling efficient similarity search over high-dimensional vector space representations (i.e., embeddings) of data. Among various ANNS algorithms, graph-based algorithms are known to achieve the best throughput-recall tradeoffs. Despite the large scale of modern ANNS datasets, existing parallel graph based implementations suffer from significant challenges to scale to large datasets due to heavy use of locks and other sequential bottlenecks, which 1) prevents them from efficiently scaling to a large number of processors, and 2) results in nondeterminism that is undesirable in certain applications. In this paper, we introduce ParlayANN, a library of deterministic and parallel graph-based approximate nearest neighbor search algorithms, along with a set of useful tools for developing such algorithms. In this library, we develop novel parallel implementations for four state-of-the-art graph-based ANNS algorithms that scale to billion-scale datasets. Our algorithms are deterministic and achieve high scalability across a diverse set of challenging datasets. In addition to the new algorithmic ideas, we also conduct a detailed experimental study of our new algorithms as well as two existing non-graph approaches. Our experimental results both validate the effectiveness of our new techniques, and lead to a comprehensive comparison among ANNS algorithms on large scale datasets with a list of interesting findings.
翻訳日:2024-02-10 03:17:03 公開日:2024-02-08
# MacWilliams Identitiesによる量子CSS誤り訂正符号の性能解析

Performance Analysis of Quantum CSS Error-Correcting Codes via MacWilliams Identities ( http://arxiv.org/abs/2305.01301v2 )

ライセンス: Link先を確認
Diego Forlivesi, Lorenzo Valentini, Marco Chiani(参考訳) 量子エラー訂正符号は、量子コンピューティングと量子インターネットへの進化の主要な関心事である。 本研究では,非対称量子チャネルと対称量子チャネルの両方において,実用実装において最も重要なクラスの一つである安定化符号の性能を解析する。 この目的のために、まず、量子macwilliamsのアイデンティティに基づいて検出不能なエラーに対する重み列挙子(we)を導出する。 次にweは、最小の重み復号でcss量子コードのエラー率の上限を評価するために使用される。 表面符号に対しては、デポーラライズチャネル上の境界の単純な閉形式式も導出する。 最後に,我々の知識と論理演算子分析を組み合わせた新しいアプローチを提案する。 この方法は短い符号に対する正確な漸近性能の導出を可能にする。 例えば、物理エラーレート $\rho \to 0$ の非分極チャネルでは、論理エラーレート $\rho_\mathrm{l}$ は、[[[9,1,3]]$ shor code, $\rho_\mathrm{l} \approx 16 \rho^2$ で$[[9,1,3]$ shor code, $\rho_\mathrm{l} \approx 16.3 \rho^2$ for the $[[7,1,3]]$ steane code, $\rho_\mathrm{l} \approx 18.7 \rho^2$ for the $[[13,1,3]$ surface code, $\rho_\mathrm{l} \approx 14.3 \rho^3$ である。 より大きなコードに対しては、$\rho_\mathrm{L} \approx 1215 \rho^4$と$\rho_\mathrm{L} \approx 663 \rho^5$ for the $[[85,1,7]]$と$[[181,1,10]]$サーフェスコードを提供します。

Quantum error correcting codes are of primary interest for the evolution towards quantum computing and quantum Internet. We analyze the performance of stabilizer codes, one of the most important classes for practical implementations, on both symmetric and asymmetric quantum channels. To this aim, we first derive the weight enumerator (WE) for the undetectable errors based on the quantum MacWilliams identities. The WE is then used to evaluate tight upper bounds on the error rate of CSS quantum codes with minimum weight decoding. For surface codes we also derive a simple closed form expression of the bounds over the depolarizing channel. Finally, we introduce a novel approach that combines the knowledge of WE with a logical operator analysis. This method allows the derivation of the exact asymptotic performance for short codes. For example, on a depolarizing channel with physical error rate $\rho \to 0$ it is found that the logical error rate $\rho_\mathrm{L}$ is asymptotically $\rho_\mathrm{L} \approx 16 \rho^2$ for the $[[9,1,3]]$ Shor code, $\rho_\mathrm{L} \approx 16.3 \rho^2$ for the $[[7,1,3]]$ Steane code, $\rho_\mathrm{L} \approx 18.7 \rho^2$ for the $[[13,1,3]]$ surface code, and $\rho_\mathrm{L} \approx 149.3 \rho^3$ for the $[[41,1,5]]$ surface code. For larger codes our bound provides $\rho_\mathrm{L} \approx 1215 \rho^4$ and $\rho_\mathrm{L} \approx 663 \rho^5$ for the $[[85,1,7]]$ and the $[[181,1,10]]$ surface codes, respectively.
翻訳日:2024-02-10 03:16:43 公開日:2024-02-08
# ニューラルネットワーク量子状態を持つ1次元スピンレス捕捉フェルミオン系

Machine learning one-dimensional spinless trapped fermionic systems with neural-network quantum states ( http://arxiv.org/abs/2304.04725v2 )

ライセンス: Link先を確認
J. W. T. Keeble, M. Drissi, A. Rojo-Franc\`as, B. Juli\'a-D\'iaz, A. Rios(参考訳) ガウスポテンシャルを介して相互作用する完全に偏極された1次元フェルミオン系の基底状態特性を計算する。 波動関数のアンサツとして反対称型ニューラルネットワーク(ニューラル量子状態)を用い,2粒子から6粒子までの系のエネルギーを変動的に最小化するために機械学習技術を用いる。 我々は、正確な対角化やHartree-Fock近似を含む、他の多体手法による広範なベンチマークを提供する。 神経量子状態は、幅広い相互作用強度で最高のエネルギーを提供する。 相互作用の兆候によって、非常に異なる基底状態が見つかる。 非摂動的反発状態では、システムは漸近的に結晶秩序に達する。 対照的に、強い魅力的な構造はボソニゼーションの兆候を示している。 神経量子状態は、ほぼ一定数のパラメータでこれらの異なる位相を連続的に学習し、粒子の数とともに計算時間が非常に緩やかに増加する。

We compute the ground-state properties of fully polarized, trapped, one-dimensional fermionic systems interacting through a gaussian potential. We use an antisymmetric artificial neural network, or neural quantum state, as an ansatz for the wavefunction and use machine learning techniques to variationally minimize the energy of systems from 2 to 6 particles. We provide extensive benchmarks with other many-body methods, including exact diagonalisation and the Hartree-Fock approximation. The neural quantum state provides the best energies across a wide range of interaction strengths. We find very different ground states depending on the sign of the interaction. In the non-perturbative repulsive regime, the system asymptotically reaches crystalline order. In contrast, the strongly attractive regime shows signs of bosonization. The neural quantum state continuously learns these different phases with an almost constant number of parameters and a very modest increase in computational time with the number of particles.
翻訳日:2024-02-10 03:15:43 公開日:2024-02-08
# 多モードボソニックジョセフソン接合におけるスキーズ振動

Squeezing oscillations in a multimode bosonic Josephson junction ( http://arxiv.org/abs/2304.02790v2 )

ライセンス: Link先を確認
Tiantian Zhang, Mira Maiw\"oger, Filippo Borselli, Yevhenii Kuriatnikov, J\"org Schmiedmayer, and Maximilian Pr\"ufer(参考訳) 超低温原子から構築された量子シミュレータは、相互作用する多体系における量子現象の研究を約束する。 しかし、特性が量子ゆらぎに支配されるような強い相関を持つ連続系を実験的に準備することは依然として困難である。 本稿では,sine-gordon場理論の量子シミュレータである1次元多モードボソニックジョセフソン接合における量子相関の強化について述べる。 我々のアプローチは、量子特性の非平衡ダイナミクスを追跡する能力に基づいている。 古典位相空間の安定な固定点でボソニック・ジョセフソン接合を作成した後、2つの共役変数のスクイーズ振動を観察する。 振動周波数を1桁以上調整できることを示すとともに,振動力学を利用して10dBに近いスピンスクイーズを実現できることを示す。 分離凝縮物間の空間位相相関の強化を検知することにより、改良スピンスクイージングの影響を直接明らかにする。 我々の研究は、多体システムの相互作用の自由度における工学的相関と絡み合いの新しい方法を提供する。

Quantum simulators built from ultracold atoms promise to study quantum phenomena in interacting many-body systems. However, it remains a challenge to experimentally prepare strongly correlated continuous systems such that the properties are dominated by quantum fluctuations. Here, we show how to enhance the quantum correlations in a one-dimensional multimode bosonic Josephson junction, which is a quantum simulator of the sine-Gordon field theory. Our approach is based on the ability to track the non-equilibrium dynamics of quantum properties. After creating a bosonic Josephson junction at the stable fixed point of the classical phase space, we observe squeezing oscillations in the two conjugate variables. We show that the squeezing oscillation frequency can be tuned by more than one order of magnitude, and we are able to achieve a spin squeezing close to 10 dB by utilising these oscillatory dynamics. The impact of improved spin squeezing is directly revealed by detecting enhanced spatial phase correlations between decoupled condensates. Our work provides new ways for engineering correlations and entanglement in the external degree of freedom of interacting many-body systems.
翻訳日:2024-02-10 03:15:30 公開日:2024-02-08
# 相互作用障害型tavis-cummingsモデルにおける多重フラクタル性

Multifractality in the interacting disordered Tavis-Cummings model ( http://arxiv.org/abs/2302.14718v2 )

ライセンス: Link先を確認
Francesco Mattiotti, J\'er\^ome Dubail, David Hagenm\"uller, Johannes Schachenmayer, Jean-Philippe Brantut, Guido Pupillo(参考訳) 相互作用しないTavis-Cummingsモデルのスペクトルおよび輸送特性を半励起充填で解析する。 ポアソン準位統計はヒルベルト空間における多重フラクタル(拡張されるが非エルゴード)な固有関数と共存し、光-物質相互作用のすべての強みを示す。 これは局所摂動に対する熱化の欠如と関連している。 両部エンタングルメントエントロピーは、多体局在系と同様に時間とともに対数的に増加するのに対し、スピン不均衡はエルゴード相と同様に強いカップリングに対してゼロになる傾向がある。 これらの効果は有限相互作用とモデルの可積分性の組み合わせによるものである。 小さな可積分性破壊摂動(nearest-neighbor hopping)が導入されると、典型的な固有関数はエルゴードとなり、単励起非相互作用の場合とは対照的に、システムがほぼ完全な導体になるように見える。 冷水原子を用いたモデルの実現を提案する。

We analyze the spectral and transport properties of the interacting disordered Tavis-Cummings model at half excitation filling. We demonstrate that a Poissonian level statistics coexists with eigenfunctions that are multifractal (extended, but non-ergodic) in the Hilbert space, for all strengths of light-matter interactions. This is associated with a lack of thermalization for a local perturbation. We find that the bipartite entanglement entropy grows logarithmically with time, similarly to many-body localized systems, while the spin imbalance tends to zero for strong coupling, in analogy to ergodic phases. We show that these effects are due to the combination of finite interactions and integrability of the model. When a small integrability-breaking perturbation (nearest-neighbor hopping) is introduced, typical eigenfunctions become ergodic, seemingly turning the system into a near-perfect conductor, contrary to the single-excitation noninteracting case. We propose a realization of this model with cold atoms.
翻訳日:2024-02-10 03:15:12 公開日:2024-02-08
# 時空境界における量子参照フレーム

Quantum Reference Frames at the Boundary of Spacetime ( http://arxiv.org/abs/2302.11629v2 )

ライセンス: Link先を確認
Viktoria Kabel, \v{C}aslav Brukner, Wolfgang Wieland(参考訳) 摂動理論において、物質に結合された重力の局所位相空間から第二次への解析が与えられる。 有限距離の境界を持つ局所領域で作業することで、物質、クーロンおよび追加境界モードを特定する。 境界モードは微分同相写像と内部ローレンツ回転の両方に対する参照フレームの役割を担う。 量子レベルを通過すると、バルクモードとバウンダリモードをリンクする制約が特定される。 制約は、境界の量子参照場に関してバルク内の量子状態の相対的発展を決定するマルチフィンガードschr\"odinger方程式の形式を取る。

An analysis is given of the local phase space of gravity coupled to matter to second order in perturbation theory. Working in local regions with boundaries at finite distance, we identify matter, Coulomb, and additional boundary modes. The boundary modes take the role of reference frames for both diffeomorphisms and internal Lorentz rotations. Passing to the quantum level, we identify the constraints that link the bulk and boundary modes. The constraints take the form of a multi-fingered Schr\"odinger equation, which determines the relational evolution of the quantum states in the bulk with respect to the quantum reference fields at the boundary.
翻訳日:2024-02-10 03:14:53 公開日:2024-02-08
# マルチクラスデータセットにおけるトポロジ学習

Topological Learning in Multi-Class Data Sets ( http://arxiv.org/abs/2301.09734v4 )

ライセンス: Link先を確認
Christopher Griffin and Trevor Karn and Benjamin Apple(参考訳) トポロジカルデータ解析から,多クラスデータセットのトポロジカル複雑性(論文の本文で定義されている)を特徴付ける問題まで,その技法を専門とする。 副産物として、データセットのオープンサブカバーを使用するトポロジカル分類器が定義される。 この部分被覆は、位相的特徴(例えばベティ数)が分類問題に関する情報を提供する単純複体を構成するのに使うことができる。 これらのトポロジカル構成を用いて,feedforward deep neural networks (dnn) の学習におけるトポロジカル複雑度の影響について検討した。 位相的複雑性は、完全に接続されたフィードフォワード深層ニューラルネットワークがデータを正しく分類する能力と負の相関関係にあると仮定する。 我々は,複数の構築およびオープンソースデータセットのトポロジ分類アルゴリズムを評価する。 また,複数データセット上でのDNNにおける位相的複雑性と学習の関係に関する仮説を検証した。

We specialize techniques from topological data analysis to the problem of characterizing the topological complexity (as defined in the body of the paper) of a multi-class data set. As a by-product, a topological classifier is defined that uses an open sub-covering of the data set. This sub-covering can be used to construct a simplicial complex whose topological features (e.g., Betti numbers) provide information about the classification problem. We use these topological constructs to study the impact of topological complexity on learning in feedforward deep neural networks (DNNs). We hypothesize that topological complexity is negatively correlated with the ability of a fully connected feedforward deep neural network to learn to classify data correctly. We evaluate our topological classification algorithm on multiple constructed and open source data sets. We also validate our hypothesis regarding the relationship between topological complexity and learning in DNN's on multiple data sets.
翻訳日:2024-02-10 03:14:43 公開日:2024-02-08
# pFedMoE:モデル・ヘテロジニアス・パーソナライズド・フェデレーション学習のためのエキスパートの混在によるデータレベルパーソナライズ

pFedMoE: Data-Level Personalization with Mixture of Experts for Model-Heterogeneous Personalized Federated Learning ( http://arxiv.org/abs/2402.01350v2 )

ライセンス: Link先を確認
Liping Yi, Han Yu, Chao Ren, Heng Zhang, Gang Wang, Xiaoguang Liu, Xiaoxiao Li(参考訳) federated learning (fl) は分散データの共同トレーニングに広く採用されている。 しかし、データ、システム、モデルの不均一性の課題に直面している。 これはモデルヘテロジニアス・パーソナライズド・フェデレーション・ラーニング(MHPFL)の出現に影響を与えた。 それでも、データとモデルのプライバシを確保することの問題は、優れたモデル性能を実現し、通信と計算コストを低く抑えることにある。 そこで本研究では,エキスパート混合学習法(pFedMoE)をモデルとしたフェデレーション学習を提案する。 各クライアントのローカルなヘテロジニアス大規模モデルに対して、共有された均質な小さな特徴抽出器とローカルゲーティングネットワークを割り当てる。 まず、ローカルトレーニング中に、ローカルヘテロジニアスモデルの特徴抽出器は、パーソナライズされた特徴抽出のローカルエキスパートとして、共有された均質な小さな特徴抽出器は、一般化された特徴抽出のグローバルエキスパートとして機能する。 ローカルゲーティングネットワークは、各データサンプル上の両方の専門家から抽出された表現に対してパーソナライズされた重み付けを生成する。 3つのモデルは局所的な異種moeを形成する。 重み付き混合表現は、一般化されパーソナライズされた特徴を融合させ、パーソナライズされた予測情報を持つ局所異種大モデルのヘッダーによって処理される。 MoEと予測ヘッダを同時に更新する。 次に、訓練されたローカルに均質な小さな特徴抽出器をサーバに送信し、アグリゲーションを介してクライアント間の情報融合を行う。 全体として、pfedmoeは、モデルの多様性をサポートしながら、きめ細かいデータレベルでローカルモデルのパーソナライズを強化する。

Federated learning (FL) has been widely adopted for collaborative training on decentralized data. However, it faces the challenges of data, system, and model heterogeneity. This has inspired the emergence of model-heterogeneous personalized federated learning (MHPFL). Nevertheless, the problem of ensuring data and model privacy, while achieving good model performance and keeping communication and computation costs low remains open in MHPFL. To address this problem, we propose a model-heterogeneous personalized Federated learning with Mixture of Experts (pFedMoE) method. It assigns a shared homogeneous small feature extractor and a local gating network for each client's local heterogeneous large model. Firstly, during local training, the local heterogeneous model's feature extractor acts as a local expert for personalized feature (representation) extraction, while the shared homogeneous small feature extractor serves as a global expert for generalized feature extraction. The local gating network produces personalized weights for extracted representations from both experts on each data sample. The three models form a local heterogeneous MoE. The weighted mixed representation fuses generalized and personalized features and is processed by the local heterogeneous large model's header with personalized prediction information. The MoE and prediction header are updated simultaneously. Secondly, the trained local homogeneous small feature extractors are sent to the server for cross-client information fusion via aggregation. Overall, pFedMoE enhances local model personalization at a fine-grained data level, while supporting model heterogeneity.
翻訳日:2024-02-10 03:08:45 公開日:2024-02-08
# cued音声認識用マルチモーダルフュージョントランスの計算とパラメータ向上

Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition ( http://arxiv.org/abs/2401.17604v2 )

ライセンス: Link先を確認
Lei Liu and Li Liu and Haizhou Li(参考訳) cued speech (cs) は、聴覚障害者が唇の読みといくつかの特定の手形を組み合わせて音声言語を視認する純粋視覚符号化手法である。 自動cs認識(acsr)は、聴覚障害者が効果的にコミュニケーションできるように、音声の視覚的な手がかりをテキストに書き起こそうとする。 CSの視覚情報はリップリーディングとハンドキューを含むため、それらの融合はACSRにおいて重要な役割を果たす。 しかし、従来の核融合法は、マルチモーダルcsデータの長いシーケンス入力に存在する大域的な依存関係を捉えるのに苦労している。 結果として、これらの方法は通常、融合に寄与する効果的なクロスモーダル関係を学ばない。 近年,マルチモーダル核融合における長いシーケンスに対するグローバル依存を捉えるための注意に基づくトランスフォーマーが普及しているが,既存のマルチモーダル核融合トランスフォーマーは認識精度の低下とacsrタスクの非効率な計算に苦しめられている。 これらの問題に対処するために,トークン利用率(TUR)を定式化して,マルチモーダルストリームから重要なトークンを選択する,新しいトークン・イパタンス・アウェア・アテンション機構(TIAA)を提案することにより,新しい計算手法とパラメータ効率のよいマルチモーダル融合トランスフォーマを開発する。 より正確には、tiaaはまず各モダリティのすべてのトークンに対するモダリティ固有の粒度の時間依存性をモデル化し、その後、異なるモダリティの重要なトークンに対するモダリティが共有する粒度の粗い時間依存性の効率的なクロスモーダル相互作用を学ぶ。 さらに、TIAAの特徴流を制御するために、軽量ゲート隠れプロジェクションが設計されている。 得られたモデルであるEcoCued Economical Cued Speech Fusion Transformer (EcoCued)は、既存のトランスフォーマーベースの融合法やACSR融合法と比較して、既存のCSデータセットの最先端のパフォーマンスを実現する。

Cued Speech (CS) is a pure visual coding method used by hearing-impaired people that combines lip reading with several specific hand shapes to make the spoken language visible. Automatic CS recognition (ACSR) seeks to transcribe visual cues of speech into text, which can help hearing-impaired people to communicate effectively. The visual information of CS contains lip reading and hand cueing, thus the fusion of them plays an important role in ACSR. However, most previous fusion methods struggle to capture the global dependency present in long sequence inputs of multi-modal CS data. As a result, these methods generally fail to learn the effective cross-modal relationships that contribute to the fusion. Recently, attention-based transformers have been a prevalent idea for capturing the global dependency over the long sequence in multi-modal fusion, but existing multi-modal fusion transformers suffer from both poor recognition accuracy and inefficient computation for the ACSR task. To address these problems, we develop a novel computation and parameter efficient multi-modal fusion transformer by proposing a novel Token-Importance-Aware Attention mechanism (TIAA), where a token utilization rate (TUR) is formulated to select the important tokens from the multi-modal streams. More precisely, TIAA firstly models the modality-specific fine-grained temporal dependencies over all tokens of each modality, and then learns the efficient cross-modal interaction for the modality-shared coarse-grained temporal dependencies over the important tokens of different modalities. Besides, a light-weight gated hidden projection is designed to control the feature flows of TIAA. The resulting model, named Economical Cued Speech Fusion Transformer (EcoCued), achieves state-of-the-art performance on all existing CS datasets, compared with existing transformer-based fusion methods and ACSR fusion methods.
翻訳日:2024-02-10 03:08:17 公開日:2024-02-08
# 混合状態量子異常と多部絡み合い

Mixed-state quantum anomaly and multipartite entanglement ( http://arxiv.org/abs/2401.17357v2 )

ライセンス: Link先を確認
Leonardo A. Lessa, Meng Cheng, Chong Wang(参考訳) 多体状態の量子絡み合い測定は、物質の相を特徴づけるのにますます有用である。 ここでは、混合状態絡み合いと't Hooft anomaly'の間の驚くべき関係を探求する。 より具体的には、異常対称性を持つd$空間次元の格子系を考えると、アノマリーは群コホモロジー $h^{d+2}(g,u(1))$ の不変量によって特徴づけられる。 G\rho\propto\rho$は必ずしも$(d+2)$-非分離である、すなわちヒルベルト空間における$d+2$状態のテンソル積の混合ではないという意味で、$G$の下で強い対称である混合状態$\rho$が示される。 さらに、そのような状態は、有限深さの局所量子チャネルを用いて任意の$(d+2)$-分離状態から準備することはできないので、非分離性は自然界において長い距離を持つ。 これらの結果の証明を$d\leq1$で、妥当性引数を$d>1$で提供します。 したがって、異常非分離接続は、非自明な長距離多部絡み合い($d=1$)を持つ混合状態の単純な例を生成することができる。 また、リーブ・シュルツ・マティス型の異常に制約されたシステムを含む、強対称性と弱対称性の両方を含む混合異常についても短時間議論する。

Quantum entanglement measures of many-body states have been increasingly useful to characterize phases of matter. Here we explore a surprising connection between mixed state entanglement and 't Hooft anomaly. More specifically, we consider lattice systems in $d$ space dimensions with anomalous symmetry $G$ where the anomaly is characterized by an invariant in the group cohomology $H^{d+2}(G,U(1))$. We show that any mixed state $\rho$ that is strongly symmetric under $G$, in the sense that $G\rho\propto\rho$, is necessarily $(d+2)$-nonseparable, i.e. is not the mixture of tensor products of $d+2$ states in the Hilbert space. Furthermore, such states cannot be prepared from any $(d+2)$-separable states using finite-depth local quantum channels, so the nonseparability is long-ranged in nature. We provide proof of these results in $d\leq1$, and plausibility arguments in $d>1$. The anomaly-nonseparability connection thus allows us to generate simple examples of mixed states with nontrivial long-ranged multipartite entanglement (even in $d=1$). We also briefly discuss mixed anomaly involving both strong and weak symmetries, including systems constrained by the Lieb-Schultz-Mattis type of anomaly.
翻訳日:2024-02-10 03:07:37 公開日:2024-02-08
# コンバウンディングを可能にするLiNGAMの一般化

Generalization of LiNGAM that allows confounding ( http://arxiv.org/abs/2401.16661v3 )

ライセンス: Link先を確認
Joe Suzuki and Tian-Le Yang(参考訳) lingamは加算ノイズモデルを用いて変数の順序を原因から効果まで決定するが、コンファウンディングの課題に直面している。 従来はLiNGAMの基本的な構造を維持していたが、コンバウンディングによって影響を受ける変数を特定し、対処しようとした。 その結果、これらの手法は、コンファウンディングの有無に関わらず、重要な計算資源を必要とし、全てのコンファウンド型の検出を確実にしなかった。 これとは対照的に,本論文では,KL分散を用いたコンバウンディングの大きさを定量化し,その影響を最小限に抑える方法であるLiNGAM-MMIを導入することでLiNGAMを強化する。 最短経路問題定式化を通じて、グローバル最適変数次数を効率良く達成する。 LiNGAM-MMIは、相反する状況に効果的に対応しつつも、相反しないシナリオで、従来のLiNGAMと同じくらい効率的にデータを処理します。 実験の結果,lingam-mmiはコンファウンディングの有無に関わらず,より正確に正しい変数順序を決定できることが示唆された。

LiNGAM determines the variable order from cause to effect using additive noise models, but it faces challenges with confounding. Previous methods maintained LiNGAM's fundamental structure while trying to identify and address variables affected by confounding. As a result, these methods required significant computational resources regardless of the presence of confounding, and they did not ensure the detection of all confounding types. In contrast, this paper enhances LiNGAM by introducing LiNGAM-MMI, a method that quantifies the magnitude of confounding using KL divergence and arranges the variables to minimize its impact. This method efficiently achieves a globally optimal variable order through the shortest path problem formulation. LiNGAM-MMI processes data as efficiently as traditional LiNGAM in scenarios without confounding while effectively addressing confounding situations. Our experimental results suggest that LiNGAM-MMI more accurately determines the correct variable order, both in the presence and absence of confounding.
翻訳日:2024-02-10 03:07:12 公開日:2024-02-08
# LPAC:学習可能な知覚・行動・コミュニケーションループとカバレッジ制御への応用

LPAC: Learnable Perception-Action-Communication Loops with Applications to Coverage Control ( http://arxiv.org/abs/2401.04855v3 )

ライセンス: Link先を確認
Saurav Agarwal, Ramya Muthukrishnan, Walker Gosrich, Vijay Kumar, Alejandro Ribeiro(参考訳) 被覆制御は、ロボット群をナビゲートし、特徴や前兆を知らない現象を協調的に監視する問題である。 この問題は、コミュニケーションや感知能力に制限のあるロボットによる分散設定では難しい。 本稿では,畳み込みニューラルネットワーク (cnn) が局所的な知覚を処理し,グラフニューラルネットワーク (gnn) がロボット通信を容易にし,最後に,浅い多層パーセプトロン (mlp) がロボットの動作を計算する,lpacアーキテクチャを提案する。 gnnは、近くのロボットと通信する情報と、受信した情報を組み込む方法を計算することで、ロボット群でのコラボレーションを可能にする。 LPACモデルは、模倣学習を用いて訓練され、標準の分散型および集中型カバレッジ制御アルゴリズムを上回っている。 学習されたポリシーは、トレーニングデータセットとは異なる環境に一般化され、より多くのロボットでより大きな環境に転送される。 その結果,ロボット群における分散ナビゲーションにおけるlpacアーキテクチャの適合性が示唆された。

Coverage control is the problem of navigating a robot swarm to collaboratively monitor features or a phenomenon of interest not known a priori. The problem is challenging in decentralized settings with robots that have limited communication and sensing capabilities. We propose a learnable Perception-Action-Communication (LPAC) architecture for the problem, wherein a convolution neural network (CNN) processes localized perception; a graph neural network (GNN) facilitates robot communications; finally, a shallow multi-layer perceptron (MLP) computes robot actions. The GNN enables collaboration in the robot swarm by computing what information to communicate with nearby robots and how to incorporate received information. Evaluations show that the LPAC models -- trained using imitation learning -- outperform standard decentralized and centralized coverage control algorithms. The learned policy generalizes to environments different from the training dataset, transfers to larger environments with more robots, and is robust to noisy position estimates. The results indicate the suitability of LPAC architectures for decentralized navigation in robot swarms to achieve collaborative behavior.
翻訳日:2024-02-10 03:06:44 公開日:2024-02-08
# $\mu$GUIDE:ディープラーニングを用いた一般化不確実性駆動推論による微細構造イメージングのためのフレームワーク

$\mu$GUIDE: a framework for microstructure imaging via generalized uncertainty-driven inference using deep learning ( http://arxiv.org/abs/2312.17293v2 )

ライセンス: Link先を確認
Ma\"eliss Jallais and Marco Palombo(参考訳) この研究は、任意の生体物理学モデルまたはmri信号表現から組織微細構造パラメータの後方分布を推定する一般的なベイズ的枠組みである\mu$guideを提案する。 シミュレーションに基づく推論と後方分布の効率的なサンプリングを組み合わせた新しいディープラーニングアーキテクチャを利用して、$\mu$guideは従来のベイジアンアプローチの計算コストと時間コストをバイパスし、モデル固有の要約統計を定義するために獲得制約に依存しない。 得られた後続分布は、モデル定義に存在する退化をハイライトし、推定されたパラメータの不確かさとあいまいさを定量化する。

This work proposes $\mu$GUIDE: a general Bayesian framework to estimate posterior distributions of tissue microstructure parameters from any given biophysical model or MRI signal representation, with exemplar demonstration in diffusion-weighted MRI. Harnessing a new deep learning architecture for automatic signal feature selection combined with simulation-based inference and efficient sampling of the posterior distributions, $\mu$GUIDE bypasses the high computational and time cost of conventional Bayesian approaches and does not rely on acquisition constraints to define model-specific summary statistics. The obtained posterior distributions allow to highlight degeneracies present in the model definition and quantify the uncertainty and ambiguity of the estimated parameters.
翻訳日:2024-02-10 03:05:59 公開日:2024-02-08
# 観察から集団行動を学ぶ

Learning Collective Behaviors from Observation ( http://arxiv.org/abs/2311.00875v2 )

ライセンス: Link先を確認
Jinchao Feng and Ming Zhong(参考訳) 本稿では,力学系の構造同定に使用される学習方法論を包括的に検討する。 これらの技術は、相互作用エージェントの複雑なシステム内の創発現象を解明するために設計されている。 提案手法は,理論収束を保証するだけでなく,高次元観測データを扱う際の計算効率も保証する。 この手法は一階と二階の両方の力学系を適切に再構成し、観察と確率ノイズを適応させ、複雑な相互作用規則を満たし、相互作用の欠如、エージェントシステムにおける実世界の観察を行う。 私たちの学習方法論の基礎的側面は、変分逆問題アプローチを用いた調整損失関数の定式化にあり、本質的には次元縮小能力を備えた方法である。

We present a comprehensive examination of learning methodologies employed for the structural identification of dynamical systems. These techniques are designed to elucidate emergent phenomena within intricate systems of interacting agents. Our approach not only ensures theoretical convergence guarantees but also exhibits computational efficiency when handling high-dimensional observational data. The methods adeptly reconstruct both first- and second-order dynamical systems, accommodating observation and stochastic noise, intricate interaction rules, absent interaction features, and real-world observations in agent systems. The foundational aspect of our learning methodologies resides in the formulation of tailored loss functions using the variational inverse problem approach, inherently equipping our methods with dimension reduction capabilities.
翻訳日:2024-02-10 03:05:20 公開日:2024-02-08
# フランクウルフアルゴリズムによる対称多成分ベル不等式

Symmetric multipartite Bell inequalities via Frank-Wolfe algorithms ( http://arxiv.org/abs/2310.20677v2 )

ライセンス: Link先を確認
S\'ebastien Designolle, Tam\'as V\'ertesi, Sebastian Pokutta(参考訳) 多部構成ベルのシナリオでは、グリーンベルガー・ホルン・ザイリンガー状態(GHZ)の非局所性ロバスト性について検討する。 各パーティが正多角形を形成する平面測定を行うとき、結果の相関テンソルの対称性を利用して計算を劇的に高速化する。 (i)Frank-Wolfeアルゴリズムによるベルの不等式 (ii)対応する局所境界。 得られるベルの不等式は、対称性のある局所ポリトープの面であり、3から10の当事者に対してghz状態の非局所的ロバスト性に対する最もよく知られた上限を与える。 さらに,各パーティの4つの測定値について,我々のファセットを一般化し,ノイズロバスト性の観点からメルミンの不等式の改善を示す。 また、不等式の検出効率を計算し、無限個の測定値でのみ示される性質である恒星ネットワークにおける非局所性の活性化を引き起こすことを示した。

In multipartite Bell scenarios, we study the nonlocality robustness of the Greenberger-Horne-Zeilinger (GHZ) state. When each party performs planar measurements forming a regular polygon, we exploit the symmetry of the resulting correlation tensor to drastically accelerate the computation of (i) a Bell inequality via Frank-Wolfe algorithms, and (ii) the corresponding local bound. The Bell inequalities obtained are facets of the symmetrised local polytope and they give the best known upper bounds on the nonlocality robustness of the GHZ state for three to ten parties. Moreover, for four measurements per party, we generalise our facets and hence show, for any number of parties, an improvement on Mermin's inequality in terms of noise robustness. We also compute the detection efficiency of our inequalities and show that some give rise to activation of nonlocality in star networks, a property that was only shown with an infinite number of measurements.
翻訳日:2024-02-10 03:05:07 公開日:2024-02-08
# ランダム化ハイパーグラフ状態における多部絡み合いの突然死と出生

Multipartite entanglement sudden death and birth in randomized hypergraph states ( http://arxiv.org/abs/2310.20418v2 )

ライセンス: Link先を確認
Vinicius Salem and Alison A. Silva and Fabiano M. Andrade(参考訳) 本稿では,従来のグラフ状態に対する量子論理ゲートのランダム化手順の拡張概念として,ランダム化ハイパーグラフ状態の絡み合い特性を紹介し,解析する。 不完全一般化制御Z$ゲートを適用する確率は、量子ビット上のノイズ操作をシミュレートする。 我々は, 負性, 共起性, 真の多粒子負性といった絡み合い測定値を取得し, 絡み合いは, 関連するハイパーグラフの非均一性の結果であるランダム性パラメーターにおいて非単調な振る舞いを示すことを示すとともに, ランダム化グラフ状態の絡み合いが2$1のハイパーグラフと関連しているという主張を補強する。 さらに, RH状態において, 絡み合いが突然死, 絡み合いが突然発生する現象を観察した。 この研究は、ハイパーグラフの非一様性と絡み合いの喪失の間の関係を解明する。

We introduce and analyze the entanglement properties of randomized hypergraph states, as an extended notion of the randomization procedure in the quantum logic gates for the usual graph states, recently proposed in the literature. The probabilities of applying imperfect generalized controlled-$Z$ gates simulate the noisy operations over the qubits. We obtain entanglement measures as negativity, concurrence, and genuine multiparticle negativity, and show that entanglement exhibits a non-monotonic behavior in terms of the randomness parameters, which is a consequence of the non-uniformity of the associated hypergraphs, reinforcing the claim that the entanglement of randomized graph states is monotonic since they are related to $2$-uniform hypergraphs. Moreover, we observed the phenomena of entanglement sudden death and entanglement sudden birth in RH states. This work revels a connection between the non-uniformity of hypergraphs and loss of entanglement.
翻訳日:2024-02-10 03:04:01 公開日:2024-02-08
# 多体系における量子相関の伝播に対する定量的境界

Quantitative bounds to propagation of quantum correlations in many-body systems ( http://arxiv.org/abs/2310.02501v2 )

ライセンス: Link先を確認
Davide Girolami and Michele Minervini(参考訳) 我々は,多体系における量子相関の量的制限を確立することにより,量子系に関する情報を独立オブザーバに同時に伝達する方法について検討する。 最近Physで報告された。 Rev. Lett. 129, 010401 (2022) は、単一の量子系とその環境、例えば多くの光子の間の量子不和と絡み合いの境界であり、環境の断片を監視する独立した観測者が必然的にシステムの古典的情報のみを取得するように指示する。 ここでは,これらの知見を裏付け,一般化する。 まず、量子不和の連続性境界を計算し、量子相関の少ない状態が古典的確率分布の埋め込みからどれだけ逸脱するかを決定する。 また、多体量子系の任意の一対の成分間の生成の両部エンタングルメントに対する普遍的に有効な上限を示す。 その結果、宇宙における古典情報の拡散は量子相関を抑制することが確認された。

We investigate how much information about a quantum system can be simultaneously communicated to independent observers, by establishing quantitative limits to bipartite quantum correlations in many-body systems. As recently reported in Phys. Rev. Lett. 129, 010401 (2022), bounds on quantum discord and entanglement of formation between a single quantum system and its environment, e.g., a large number of photons, dictate that independent observers which monitor environment fragments inevitably acquire only classical information about the system. Here, we corroborate and generalize those findings. First, we calculate continuity bounds of quantum discord, which establish how much states with a small amount of quantum correlations deviate from being embeddings of classical probability distributions. Also, we demonstrate a universally valid upper bound to the bipartite entanglement of formation between an arbitrary pair of components of a many-body quantum system. The results confirm that proliferation of classical information in the Universe suppresses quantum correlations.
翻訳日:2024-02-10 03:03:06 公開日:2024-02-08
# 量子ネットワークにおける利率と忠実度最大化のための資源配分

Resource Allocation for Rate and Fidelity Maximization in Quantum Networks ( http://arxiv.org/abs/2308.16264v2 )

ライセンス: Link先を確認
Shahrooz Pouryousef, Hassan Shapourian, Alireza Shabani, Ramana Kompella, and Don Towsley(参考訳) 既存の光学ネットワークインフラは、光子損失のために量子ネットワークアプリケーションにすぐには利用できない。 量子ネットワークの実現に向けた第一歩は、光ネットワークへの量子リピータの統合である。 しかし、量子ハードウェア固有のコストと本質的なノイズは、量子リピータとメモリの割り当てを最適化する効率的なデプロイメント戦略の必要性を強調している。 本稿では,量子リピータを既存のインフラストラクチャに効率的に分散することを目的とした,ネットワーク計画のための包括的枠組みを提案する。 本研究では, ダンベルネットワークトポロジの予備例や, SURFnet と ESnet の実例を含むいくつかの事例に適用する。 本稿では,量子リピータ内の量子メモリ多重化の効果と,量子ネットワークの有用性に対するメモリコヒーレンス時間の影響について検討する。 さらに,ネットワーク計画に異なる公平性仮定が与える影響について検討し,実時間ネットワーク性能への影響を明らかにする。

Existing classical optical network infrastructure cannot be immediately used for quantum network applications due to photon loss. The first step towards enabling quantum networks is the integration of quantum repeaters into optical networks. However, the expenses and intrinsic noise inherent in quantum hardware underscore the need for an efficient deployment strategy that optimizes the allocation of quantum repeaters and memories. In this paper, we present a comprehensive framework for network planning, aiming to efficiently distributing quantum repeaters across existing infrastructure, with the objective of maximizing quantum network utility within an entanglement distribution network. We apply our framework to several cases including a preliminary illustration of a dumbbell network topology and real-world cases of the SURFnet and ESnet. We explore the effect of quantum memory multiplexing within quantum repeaters, as well as the influence of memory coherence time on quantum network utility. We further examine the effects of different fairness assumptions on network planning, uncovering their impacts on real-time network performance.
翻訳日:2024-02-10 03:02:46 公開日:2024-02-08
# 局在系における2次元き裂状態の塔

Tower of two-dimensional scar states in a localized system ( http://arxiv.org/abs/2308.12409v2 )

ライセンス: Link先を確認
Michael Iversen, Jens H. Bardarson, Anne E. B. Nielsen(参考訳) 固有状態熱化仮説は、多くの孤立多体量子系がどのように熱平衡に達するかを記述する。 しかし、この仮説は多体局在や量子多体傷などの現象によって破られる。 本研究では,不足状態の塔を収容する有限次元2次元乱れモデルについて検討する。 この構成は、一般的なフレームワークの特別な例であり、異なるスカー状態の塔をホストする2つの乱れモデルを構築することによって、その一般化を実証する。 弱い障害では、スペクトルは非熱的であり、散乱状態は特定の二分割に対して高いエントロピーを持つ正確な固有状態として現れる。 強い疾患では、熱的背景ではなく局所的な背景に傷跡が埋め込まれているため、スペクトルの局所化と傷跡状態は反転した傷と同定される。 私たちは、考慮されたモデルの種類において、ローカライゼーションは、自然に期待されるものよりも強く、いずれかのモデルに対して明示的に示すと論じている。 この議論は、他のスカーレッドモデルでも同様に強いローカライゼーションを得るためのガイドラインも提供する。 本研究では,Wigner surmise から Poisson 分布に隣接するギャップ比を観測し,温度相から局部化への遷移について検討した。 さらに、エントロピーの絡み合いは、システムサイズが弱い場合のボリュームロースケーリングから強い場合のエリアロースケーリングへ遷移する。 最後に,スカー部分空間における部分的支持を伴う初期状態のスカル再生を局在化が保護することを示す。

The eigenstate thermalization hypothesis describes how most isolated many-body quantum systems reach thermal equilibrium. However, the hypothesis is violated by phenomena such as many-body localization and quantum many-body scars. In this work, we study a finite, two-dimensional, disordered model hosting a tower of scar states. This construction is a particular instance of a general framework and we demonstrate its generality by constructing two disordered models hosting a different tower of scar states. At weak disorder, we find numerically that the spectra are nonthermal, and the scar states appear as exact eigenstates with high entropy for certain bipartitions. At strong disorder, the spectra localize and the scar states are identified as inverted scars since the scar states are embedded in a localized background as opposed to a thermal background. We argue that, for the considered type of models, the localization is stronger than what would be naively expected, and we show this explicitly for one of the models. The argument also provides guidelines for obtaining similarly strong localization in other scarred models. We study the transition from the thermal phase to localization by observing the adjacent gap ratio shifting from the Wigner surmise to the Poisson distribution with increasing disorder strength. Moreover, the entanglement entropy transitions from volume-law scaling with system size at weak disorder to area-law scaling at strong disorder. Finally, we demonstrate that localization protects scar revivals for initial states with partial support in the scar subspace.
翻訳日:2024-02-10 03:02:31 公開日:2024-02-08
# 変動情報を用いたパネルデータのグループ構造推定のためのスペクトルクラスタリング

Spectral Clustering with Variance Information for Group Structure Estimation in Panel Data ( http://arxiv.org/abs/2201.01793v2 )

ライセンス: Link先を確認
Lu Yu, Jiaying Gu, Stanislav Volgushev(参考訳) 個人に対する繰り返し観察が可能なパネルデータセットを考えてみましょう。 観察された特徴の類似した効果を共有できる個体群が存在すると仮定するのは理にかなっているが、そのグループ化は概して事前に不明である。 まず、各係数の推定値のばらつきがグループ構造の推定に有用な情報を含んでいることを示す局所解析を行う。 次に, 分散情報を明示的に考慮した一般パネルデータモデルに対して, 監視されていないグループを推定する手法を提案する。 提案手法は, 多数の個体および/または各個体の繰り返し測定により, 計算可能なままである。 また,個人レベルのデータが利用できない場合でも,パラメータ推定と推定の不確実性の定量化を併用して適用することができる。 本手法は従来の手法よりも優れた性能を示し,本手法を2つの経験的応用に適用する。

Consider a panel data setting where repeated observations on individuals are available. Often it is reasonable to assume that there exist groups of individuals that share similar effects of observed characteristics, but the grouping is typically unknown in advance. We first conduct a local analysis which reveals that the variances of the individual coefficient estimates contain useful information for the estimation of group structure. We then propose a method to estimate unobserved groupings for general panel data models that explicitly account for the variance information. Our proposed method remains computationally feasible with a large number of individuals and/or repeated measurements on each individual. The developed ideas can also be applied even when individual-level data are not available and only parameter estimates together with some quantification of estimation uncertainty are given to the researcher. A thorough simulation study demonstrates superior performance of our method than existing methods and we apply the method to two empirical applications.
翻訳日:2024-02-09 21:50:26 公開日:2024-02-08
# 準線形時間における過パラメータニューラルネットワークの訓練

Training Overparametrized Neural Networks in Sublinear Time ( http://arxiv.org/abs/2208.04508v2 )

ライセンス: Link先を確認
Yichuan Deng, Hang Hu, Zhao Song, Omri Weinstein, Danyang Zhuo(参考訳) ディープラーニングの成功は、膨大な計算とエネルギーコストを伴い、膨大なパラメータ化されたニューラルネットワークのトレーニングのスケーラビリティは、人工知能(AI)の進歩の真の障壁になりつつある。 勾配による従来のバックプロパゲーションの人気とコストの低さにもかかわらず、確率勾配降下(SGD)は理論と実践の両方において非凸状態における収束を禁止している。 このコストを軽減するため、最近の研究ではより高速な収束率を持つ代替(ニュートン型)トレーニング手法が提案されている。 m=\mathrm{poly}(n)$パラメータと$\mathbb{R}^d$の$n$データポイントの入力バッチを持つ典型的なニューラルネットワークの場合、[Brand, Peng, Song, and Weinstein, ITCS'2021]の以前の作業は、イテレーション毎に$\sim mnd + n^3$の時間を必要とする。 本稿では,同じ過パラメータ化状態において,$m^{1-\alpha} n d + n^3$ amortized timeのみを必要とする,$\alpha \in (0.01,1)$ が固定定数であるような新しいトレーニング手法を提案する。 この方法は、ニューラルネットワークの新しい代替的なビューに依存しており、各イテレーションは、ツリー内のノードの小さなサブセットの変更に対応するバイナリサーチツリーのセットである。 この考え方は、ディープニューラルネットワーク(dnn)の設計と分析にさらに応用できると考えています。

The success of deep learning comes at a tremendous computational and energy cost, and the scalability of training massively overparametrized neural networks is becoming a real barrier to the progress of artificial intelligence (AI). Despite the popularity and low cost-per-iteration of traditional backpropagation via gradient decent, stochastic gradient descent (SGD) has prohibitive convergence rate in non-convex settings, both in theory and practice. To mitigate this cost, recent works have proposed to employ alternative (Newton-type) training methods with much faster convergence rate, albeit with higher cost-per-iteration. For a typical neural network with $m=\mathrm{poly}(n)$ parameters and input batch of $n$ datapoints in $\mathbb{R}^d$, the previous work of [Brand, Peng, Song, and Weinstein, ITCS'2021] requires $\sim mnd + n^3$ time per iteration. In this paper, we present a novel training method that requires only $m^{1-\alpha} n d + n^3$ amortized time in the same overparametrized regime, where $\alpha \in (0.01,1)$ is some fixed constant. This method relies on a new and alternative view of neural networks, as a set of binary search trees, where each iteration corresponds to modifying a small subset of the nodes in the tree. We believe this view would have further applications in the design and analysis of deep neural networks (DNNs).
翻訳日:2024-02-09 20:12:12 公開日:2024-02-08
# パーソナライズされたPCA:共有機能とユニークな機能の分離

Personalized PCA: Decoupling Shared and Unique Features ( http://arxiv.org/abs/2207.08041v2 )

ライセンス: Link先を確認
Naichen Shi and Raed Al Kontar(参考訳) 本稿では,PCAにおける重要な課題である不均一性に取り組む。 異質な傾向を持つ異なるソースからデータを収集し,一貫性を保ちながら収集する場合,各ソースの特徴を保ちながら共有知識を抽出することが重要である。 そこで本研究では,相互直交グローバルおよび局所主成分を用いたパーソナライズPCA(PerPCA)を提案する。 穏やかな条件下では,共分散行列が著しく異なる場合でも,一意的特徴と共有特徴の両方を制約付き最適化問題によって同定し,復元できることを示す。 また,分散Stiefel勾配勾配から着想を得た完全フェデレーションアルゴリズムを設計し,この問題を解決する。 このアルゴリズムは直交性の制約を扱うために一般化された引き算と呼ばれる新しい演算群を導入し、ソース間で共有するグローバルpcのみを必要とする。 適切な仮定の下でアルゴリズムの線形収束を証明する。 総合的な数値実験は、不均一なデータセットからの特徴抽出と予測におけるPerPCAの優れた性能を強調している。 異種データセットから共有とユニークな機能を分離するための体系的なアプローチとして、PerPCAはビデオセグメンテーション、トピック抽出、フィーチャークラスタリングなど、いくつかのタスクでアプリケーションを見つける。

In this paper, we tackle a significant challenge in PCA: heterogeneity. When data are collected from different sources with heterogeneous trends while still sharing some congruency, it is critical to extract shared knowledge while retaining the unique features of each source. To this end, we propose personalized PCA (PerPCA), which uses mutually orthogonal global and local principal components to encode both unique and shared features. We show that, under mild conditions, both unique and shared features can be identified and recovered by a constrained optimization problem, even if the covariance matrices are immensely different. Also, we design a fully federated algorithm inspired by distributed Stiefel gradient descent to solve the problem. The algorithm introduces a new group of operations called generalized retractions to handle orthogonality constraints, and only requires global PCs to be shared across sources. We prove the linear convergence of the algorithm under suitable assumptions. Comprehensive numerical experiments highlight PerPCA's superior performance in feature extraction and prediction from heterogeneous datasets. As a systematic approach to decouple shared and unique features from heterogeneous datasets, PerPCA finds applications in several tasks, including video segmentation, topic extraction, and feature clustering.
翻訳日:2024-02-09 20:11:42 公開日:2024-02-08
# matryoshka表現学習

Matryoshka Representation Learning ( http://arxiv.org/abs/2205.13147v4 )

ライセンス: Link先を確認
Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham Kakade, Prateek Jain, Ali Farhadi(参考訳) 学習された表現は現代のMLシステムにおいて中心的なコンポーネントであり、多くの下流タスクに役立ちます。 このような表現を訓練する場合、下流の各タスクに対する計算的および統計的制約が未知であることが多い。 この文脈では、固定容量表現は、手元にあるタスクにオーバーまたはアンダーアコメンテーションできる。 さまざまな計算リソースを使って、複数のダウンストリームタスクに適応可能な柔軟な表現を設計できますか? 私たちの主な貢献はmatryoshka representation learning(mrl)で、異なる粒度で情報をエンコードし、ダウンストリームタスクの計算制約に単一の埋め込みを可能にする。 MRLは、既存の表現学習パイプラインを最小限に修正し、推論とデプロイメントの間に追加のコストを課さない。 MRLは、独立に訓練された低次元表現と同じくらい正確でリッチな粗大な表現を学習する。 学習されたmatryoshka表現の柔軟性は下記のとおりである。 (a)同じ精度でImageNet-1K分類を行う場合、最大14倍の埋め込みサイズ。 (b)ImageNet-1Kと4Kの大規模検索のための実世界の14倍の高速化 (c) ロングテール・マイノショット分類の精度は2%まで向上したが、いずれも元の表現と同じくらい頑健であった。 最後に、MRLは、視覚(ViT、ResNet)、視覚+言語(ALIGN)、言語(BERT)といった様々なモードにわたるWebスケールデータセット(ImageNet、JFT)にシームレスに拡張可能であることを示す。 MRLコードと事前訓練されたモデルはhttps://github.com/RAIVNLab/MRLでオープンソース化されている。

Learned representations are a central component in modern ML systems, serving a multitude of downstream tasks. When training such representations, it is often the case that computational and statistical constraints for each downstream task are unknown. In this context rigid, fixed capacity representations can be either over or under-accommodating to the task at hand. This leads us to ask: can we design a flexible representation that can adapt to multiple downstream tasks with varying computational resources? Our main contribution is Matryoshka Representation Learning (MRL) which encodes information at different granularities and allows a single embedding to adapt to the computational constraints of downstream tasks. MRL minimally modifies existing representation learning pipelines and imposes no additional cost during inference and deployment. MRL learns coarse-to-fine representations that are at least as accurate and rich as independently trained low-dimensional representations. The flexibility within the learned Matryoshka Representations offer: (a) up to 14x smaller embedding size for ImageNet-1K classification at the same level of accuracy; (b) up to 14x real-world speed-ups for large-scale retrieval on ImageNet-1K and 4K; and (c) up to 2% accuracy improvements for long-tail few-shot classification, all while being as robust as the original representations. Finally, we show that MRL extends seamlessly to web-scale datasets (ImageNet, JFT) across various modalities -- vision (ViT, ResNet), vision + language (ALIGN) and language (BERT). MRL code and pretrained models are open-sourced at https://github.com/RAIVNLab/MRL.
翻訳日:2024-02-09 20:11:20 公開日:2024-02-08
# 信用スコアモデルの公平性

The Fairness of Credit Scoring Models ( http://arxiv.org/abs/2205.10200v2 )

ライセンス: Link先を確認
Christophe Hurlin, Christophe P\'erignon, and S\'ebastien Saurin(参考訳) 信用市場では、スクリーニングアルゴリズムは良いタイプと悪いタイプの借り手を区別することを目的としている。 しかし、それを行うと、保護された属性(例えば、性別、年齢、人種的起源)を共有する個人と、その他の人口を区別することができる。 これは意図せず、トレーニングデータセットやモデル自体に由来する可能性がある。 評価モデルのアルゴリズムフェアネスを正式にテストする方法と、フェアネスの欠如の原因となる変数を特定する方法を示す。 そして、フェアネスパフォーマンスのトレードオフを最適化するためにこれらの変数を使用します。 本フレームワークは,規制当局によって管理され,保護されたグループの利益のために改善され,高いレベルの予測精度を維持しながら,アルゴリズムフェアネスの監視方法に関するガイダンスを提供する。

In credit markets, screening algorithms aim to discriminate between good-type and bad-type borrowers. However, when doing so, they can also discriminate between individuals sharing a protected attribute (e.g. gender, age, racial origin) and the rest of the population. This can be unintentional and originate from the training dataset or from the model itself. We show how to formally test the algorithmic fairness of scoring models and how to identify the variables responsible for any lack of fairness. We then use these variables to optimize the fairness-performance trade-off. Our framework provides guidance on how algorithmic fairness can be monitored by lenders, controlled by their regulators, improved for the benefit of protected groups, while still maintaining a high level of forecasting accuracy.
翻訳日:2024-02-09 20:10:52 公開日:2024-02-08
# ブール観察ゲーム

Boolean Observation Games ( http://arxiv.org/abs/2202.03637v2 )

ライセンス: Link先を確認
Hans van Ditmarsch and Sunil Simon(参考訳) 本稿では,不完全な情報と定性的目的を持つマルチプレイヤー有限戦略ゲームサブクラスであるBoolean Observation Gamesを紹介する。 ブール観測ゲームでは、各プレイヤーは有限な命題変数の集合に関連付けられ、その値だけを観測でき、誰がその値を明らかにすることができるかを制御する。 変数の与えられた、固定された値を制御しない。 ブール観察ゲーム(boolean observation games)は、ブールゲーム(boolean games)の一般化であり、戦略ゲームの熟達したサブクラスであるが、完全な情報を持ち、各プレイヤーがその変数の値を制御する。 ブール観測ゲームでは、プレイヤーゴールは変数のマルチエージェント知識を記述する。 古典的な戦略ゲームと同様に、プレイヤーは戦略を同時に選ぶため、観察ゲームは不完全な情報と不完全な情報の両面を捉えている。 変数の区別不能な評価の集合が与えられた結果の集合について推論する必要がある。 このような集合間の結果関係は、nash平衡が何であるかを決定する。 我々は, ポスト平衡の定性的変種を含む, 様々な結果関係を示す。 結果関係が与えられた場合,nash平衡が存在することが保証される条件を特定する。 また,戦略プロファイルがnash平衡であるかどうかの検証やnash平衡の存在の検証の複雑さについても検討した。 さらに,'knowing whether'目標式を用いてブール観測ゲームのサブクラスについて検討し,満足度は変数の値に依存しないことを示した。 それぞれのブール観測ゲームがブールゲームに対応し、その逆も異なる対応によって対応し、どちらの対応もナッシュ平衡の存在という点で正確であることを示す。

We introduce Boolean Observation Games, a subclass of multi-player finite strategic games with incomplete information and qualitative objectives. In Boolean observation games, each player is associated with a finite set of propositional variables of which only it can observe the value, and it controls whether and to whom it can reveal that value. It does not control the given, fixed, value of variables. Boolean observation games are a generalization of Boolean games, a well-studied subclass of strategic games but with complete information, and wherein each player controls the value of its variables. In Boolean observation games, player goals describe multi-agent knowledge of variables. As in classical strategic games, players choose their strategies simultaneously and therefore observation games capture aspects of both imperfect and incomplete information. They require reasoning about sets of outcomes given sets of indistinguishable valuations of variables. An outcome relation between such sets determines what the Nash equilibria are. We present various outcome relations, including a qualitative variant of ex-post equilibrium. We identify conditions under which, given an outcome relation, Nash equilibria are guaranteed to exist. We also study the complexity of checking for the existence of Nash equilibria and of verifying if a strategy profile is a Nash equilibrium. We further study the subclass of Boolean observation games with `knowing whether' goal formulas, for which the satisfaction does not depend on the value of variables. We show that each such Boolean observation game corresponds to a Boolean game and vice versa, by a different correspondence, and that both correspondences are precise in terms of existence of Nash equilibria.
翻訳日:2024-02-09 20:10:07 公開日:2024-02-08
# エントロピー正規化自然政策勾配の線形収束と線形関数近似

Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation ( http://arxiv.org/abs/2106.04096v4 )

ライセンス: Link先を確認
Semih Cayci, Niao He, R. Srikant(参考訳) エントロピー正規化を伴う自然政策勾配法(NPG)は, 大規模状態対応空間を持つ強化学習問題において, 目覚ましい成功を収めた。 しかし、それらの収束特性とエントロピー正則化の影響は、関数近似系において明らかになっていない。 本稿では,線形関数近似を用いたエントロピー規則化NPGの有限時間収束解析を行う。 特に, 平均化したエントロピー正規化NPGが \emph{peristence of excitation} 条件を満たすことを証明し, 正規化マルコフ決定過程における関数近似誤差まで, $\tilde{O}(1/T)$の高速収束率を達成する。 この収束結果は、ポリシーに対する事前の仮定を必要としない。 さらに, 集中度係数と基底ベクトルの軽度正則性条件下では, エントロピー正規化npgが関数近似誤差まで \emph{linear convergence} を示すことを証明した。

Natural policy gradient (NPG) methods with entropy regularization achieve impressive empirical success in reinforcement learning problems with large state-action spaces. However, their convergence properties and the impact of entropy regularization remain elusive in the function approximation regime. In this paper, we establish finite-time convergence analyses of entropy-regularized NPG with linear function approximation under softmax parameterization. In particular, we prove that entropy-regularized NPG with averaging satisfies the \emph{persistence of excitation} condition, and achieves a fast convergence rate of $\tilde{O}(1/T)$ up to a function approximation error in regularized Markov decision processes. This convergence result does not require any a priori assumptions on the policies. Furthermore, under mild regularity conditions on the concentrability coefficient and basis vectors, we prove that entropy-regularized NPG exhibits \emph{linear convergence} up to a function approximation error.
翻訳日:2024-02-09 20:08:31 公開日:2024-02-08
# 不確実性の異なる影響:肯定的行動と肯定的情報

The Disparate Impact of Uncertainty: Affirmative Action vs. Affirmative Information ( http://arxiv.org/abs/2102.10019v5 )

ライセンス: Link先を確認
Claire Lazar Reich(参考訳) 雇用、大学入学、ローン承認などの決定は、不確実性の存在下での予測によって導かれる。 不確実性はすべての人口集団に誤りをもたらすが、エラーの種類は系統的に異なる: 平均的な結果が高いグループは通常、偽陽性率が高く、平均的な結果が低いグループは偽陰性率が高いグループである。 この異なる影響を引き起こす条件を特徴付け、データセットから人口統計変数を省略する直感的な修正がそれを修正しない理由を説明する。 本稿では,データエンリッチメントが機会へのアクセスを広げる方法について検討する。 Affirmative Information”と呼ばれるこの戦略は、Affirmative Actionの代替となるかもしれません。

Critical decisions like hiring, college admissions, and loan approvals are guided by predictions made in the presence of uncertainty. While uncertainty imparts errors across all demographic groups, this paper shows that the types of errors vary systematically: Groups with higher average outcomes are typically assigned higher false positive rates, while those with lower average outcomes are assigned higher false negative rates. We characterize the conditions that give rise to this disparate impact and explain why the intuitive remedy to omit demographic variables from datasets does not correct it. Instead of data omission, this paper examines how data enrichment can broaden access to opportunity. The strategy, which we call "Affirmative Information," could stand as an alternative to Affirmative Action.
翻訳日:2024-02-09 20:08:14 公開日:2024-02-08
# ニュースメディアにおける偏見記述語の普及状況

Prevalence of prejudice-denoting terms in news media worldwide ( http://arxiv.org/abs/2304.01596v2 )

ライセンス: Link先を確認
David Rozado(参考訳) 以前の調査では、2010年以降、米国と英国のニュースメディアの偏見(人種差別、性差別、ホモフォビア、イスラム恐怖症、反ユダヤ主義など)を非難する言葉が急増した。 ここでは,先行分析をグローバルメディア環境に拡張する。 そこで我々は、西欧、大陸ヨーロッパ、ラテンアメリカ、サブサハラアフリカ、ペルシャ湾地域、アジアなど6つの異なる地域を代表する36カ国から124のニュース・メディアで9800万以上のニュース・意見記事において、偏見・否定的用語と社会正義関連用語(多様性・包含・平等等)の頻度を定量化する。 研究専門用語のニュースメディアの普及は、先進国では2010年前半から始まった世界的現象であり、2015年以降は世界中に広がった。 しかし、異なる世界地域は異なる種類の偏見を強調しており、その強度は様々である。 合衆国のニュースメディアは、偏見と社会的正義の用語を彼らのコンテンツに埋め込む先駆者ではなかったようだ。 この用語が世界中のメディアに現れた時間的同期性は、この現象を引き起こす根本原因について重要な疑問を提起する。

Previous research has identified a post-2010 sharp increase of words used to denounce prejudice (i.e. racism, sexism, homophobia, Islamophobia, anti-Semitism, etc) in U.S. and U.K. news media content. Here, we extend previous analysis to the global media environment. Thus, we quantify the prevalence of prejudice-denouncing terms and social justice associated terminology (diversity, inclusion, equality, etc) in over 98 million news and opinion articles across 124 popular news media outlets from 36 countries representing 6 different world regions: English-speaking West, continental Europe, Latin America, sub-Saharan Africa, Persian Gulf region and Asia. We find that the increasing prominence in news media of the studied terminology is a global phenomenon starting early post-2010 in pioneering countries yet mostly worldwide ubiquitous post-2015. Still, different world regions emphasize distinct types of prejudice with varying degrees of intensity. The United States news media does not appear to have been the pioneer in embedding prejudice and social justice loaded terminology in their content. The large degree of temporal synchronicity with which this terminology emerged in news media worldwide raises important questions about the root causes driving this phenomenon.
翻訳日:2024-02-09 20:03:52 公開日:2024-02-08
# EfficientAD:ミリ秒レベルレイテンシにおける正確な視覚異常検出

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies ( http://arxiv.org/abs/2303.14535v3 )

ライセンス: Link先を確認
Kilian Batzner, Lars Heckler, Rebecca K\"onig(参考訳) 画像中の異常を検出することは特にリアルタイムコンピュータビジョンアプリケーションにおいて重要な課題である。 本研究では,計算効率を重視し,最新のGPU上で1ミリ秒未満で画像を処理する軽量な特徴抽出器を提案する。 次に,生徒・教師のアプローチを用いて異常な特徴を検出する。 学生ネットワークを訓練し,正常,すなわち異常のないトレーニング画像から抽出された特徴を予測する。 テスト時の異常の検出は、生徒がその特徴を予測できないことによって可能となる。 本研究では,教師の特徴抽出器を通常の画像を超えて模倣することを妨げる訓練損失を提案する。 これにより、異常な特徴の検出を改善しつつ、学生-教師モデルの計算コストを大幅に削減できる。 さらに,通常の局所的特徴の無効な組み合わせ,例えば,オブジェクトの誤った順序付けを含む,難しい論理異常の検出にも対処する。 画像解析を行うオートエンコーダを効率良く組み込んで,これらの異常を検出する。 3つの産業的異常検出データセットから抽出した32個のデータセットからEfficientADという手法を評価した。 EfficientADは、異常の検出とローカライゼーションの両方のための新しい標準を設定する。 2ミリ秒のレイテンシと毎秒600イメージのスループットで、異常の高速処理を可能にする。 エラー率の低さとともに、実世界のアプリケーションにとって経済的な解決策となり、将来の研究に実りある基礎となる。

Detecting anomalies in images is an important task, especially in real-time computer vision applications. In this work, we focus on computational efficiency and propose a lightweight feature extractor that processes an image in less than a millisecond on a modern GPU. We then use a student-teacher approach to detect anomalous features. We train a student network to predict the extracted features of normal, i.e., anomaly-free training images. The detection of anomalies at test time is enabled by the student failing to predict their features. We propose a training loss that hinders the student from imitating the teacher feature extractor beyond the normal images. It allows us to drastically reduce the computational cost of the student-teacher model, while improving the detection of anomalous features. We furthermore address the detection of challenging logical anomalies that involve invalid combinations of normal local features, for example, a wrong ordering of objects. We detect these anomalies by efficiently incorporating an autoencoder that analyzes images globally. We evaluate our method, called EfficientAD, on 32 datasets from three industrial anomaly detection dataset collections. EfficientAD sets new standards for both the detection and the localization of anomalies. At a latency of two milliseconds and a throughput of six hundred images per second, it enables a fast handling of anomalies. Together with its low error rate, this makes it an economical solution for real-world applications and a fruitful basis for future research.
翻訳日:2024-02-09 20:03:20 公開日:2024-02-08
# dsd$^2$: スパース二重降下を回避し、ニューラルネットワークを心配なく圧縮できるか?

DSD$^2$: Can We Dodge Sparse Double Descent and Compress the Neural Network Worry-Free? ( http://arxiv.org/abs/2303.01213v3 )

ライセンス: Link先を確認
Victor Qu\'etu, Enzo Tartaglione(参考訳) ネオテリックな研究は、現代のディープラーニングモデルがスパース二重降下現象を示すことができることを示した。 実際、モデルのスパーシティが増加すると、モデルがトレーニングデータを過剰にフィッティングしているため、テストパフォーマンスがまず悪化し、オーバーフィッティングが減少し、パフォーマンスが向上し、最終的にモデルが重要な情報を忘れ始め、過フィッティングが発生する。 このような行動は、伝統的な早期停止基準の使用を妨げる。 この作業には3つの重要な貢献があります。 まず,そのような現象を回避し,一般化を改善する学習フレームワークを提案する。 第2に,この現象の持続性に関する洞察を提供し,従来の停止基準の活用を可能にするエントロピー尺度を導入する。 第3に,再初期化法,モデル幅と深さ,データセットノイズといった事象要因の包括的定量的解析を行う。 この貢献は、典型的なセットアップでの実証的な証拠によって裏付けられる。 私たちのコードはhttps://github.com/vgcq/dsd2で利用可能です。

Neoteric works have shown that modern deep learning models can exhibit a sparse double descent phenomenon. Indeed, as the sparsity of the model increases, the test performance first worsens since the model is overfitting the training data; then, the overfitting reduces, leading to an improvement in performance, and finally, the model begins to forget critical information, resulting in underfitting. Such a behavior prevents using traditional early stop criteria. In this work, we have three key contributions. First, we propose a learning framework that avoids such a phenomenon and improves generalization. Second, we introduce an entropy measure providing more insights into the insurgence of this phenomenon and enabling the use of traditional stop criteria. Third, we provide a comprehensive quantitative analysis of contingent factors such as re-initialization methods, model width and depth, and dataset noise. The contributions are supported by empirical evidence in typical setups. Our code is available at https://github.com/VGCQ/DSD2.
翻訳日:2024-02-09 20:02:30 公開日:2024-02-08
# 量子ゲートにおける非マルコフオフ共振誤差の特性

Characterizing non-Markovian Off-Resonant Errors in Quantum Gates ( http://arxiv.org/abs/2302.10881v2 )

ライセンス: Link先を確認
Ken Xuan Wei, Emily Pritchett, David M. Zajac, David C. McKay, Seth Merkel(参考訳) 量子ゲートが改善されると、残りのエラーを特徴付けることがますます難しくなる。 ここでは、時間依存フィールドを用いてゲート演算を生成する量子デバイスにおいて自然に発生するコヒーレントな非マルコフ誤差のクラスについて述べる。 マルコビアン性に依存した標準的な量子コンピュータ検証検証(QCVV)技術を用いて,これらの誤りがどのように誤認識されているかを示す。 我々はまず、ACスターク効果によって生成された単純なZゲートの玩具モデルにおいて、共振誤差を実証し、固定周波数トランスモンアーキテクチャによって駆動される全てのゲートにおいて共振誤差がどのように現れるかを示す。 さらに、同じ手法は2レベルシステム(TLS)によるエラーにアクセスでき、意図しない量子ビットではないサブシステムとの一貫性のある非共鳴相互作用の証拠を示す。 これらの結果と固定周波数デバイスにおけるゲートエラーへの影響について検討する一方で、オフ共振励起は周波数選択性を利用するアーキテクチャを制限できる可能性があることに注意する。

As quantum gates improve, it becomes increasingly difficult to characterize the remaining errors. Here we describe a class of coherent non-Markovian errors -- excitations due to an off-resonant drive -- that occur naturally in quantum devices that use time-dependent fields to generate gate operations. We show how these errors are mischaracterized using standard Quantum Computer Verification and Validation (QCVV) techniques that rely on Markovianity and are therefore often overlooked or assumed to be incoherent. We first demonstrate off-resonant errors within a simple toy model of Z-gates created by the AC Stark effect, then show how off-resonant errors manifest in all gates driven on a fixed-frequency transmon architecture, a prominent example being incidental cross-resonance interaction driven during single-qubit gates. Furthermore, the same methodology can access the errors caused by two-level systems (TLS), showing evidence of coherent, off-resonant interactions with subsystems that are not intentional qubits. While we explore these results and their impact on gate error for fixed-frequency devices, we note that off-resonant excitations potentially limit any architectures that use frequency selectivity.
翻訳日:2024-02-09 20:02:12 公開日:2024-02-08
# ハードサトゲン:ハードSATフォーミュラの難易度と強構造に配慮したベースラインの理解

HardSATGEN: Understanding the Difficulty of Hard SAT Formula Generation and A Strong Structure-Hardness-Aware Baseline ( http://arxiv.org/abs/2302.02104v3 )

ライセンス: Link先を確認
Yang Li, Xinyan Chen, Wenxuan Guo, Xijun Li, Wanqian Luo, Junhua Huang, Hui-Ling Zhen, Mingxuan Yuan, Junchi Yan(参考訳) 産業SAT公式生成は重要な課題である。 既存のsat生成手法では、グローバルな構造特性をほぼ同時に捉えることができ、計算の難しさを維持できる。 まず,従来の学習方法の限界を深く分析し,その場合の計算の難しさを再現する手法を提案する。 産業用公式が明らかなコミュニティ構造と過分な部分構造を示すことから,論理構造のセマンティックな形成が困難であることを示す上で,SAT式生成のためのニューラルスプリット・マージ・パラダイムにきめ細かな制御機構を導入し,産業用ベンチマークの構造的・計算的特性をよりよく回復させるHardSATGENを提案する。 民間および実用的な企業試験場における評価を含む実験は、同様の計算硬さの維持とグローバルな構造特性の同時捕捉を成功させる唯一の方法であるハードサトゲンの優位性を示している。 これまでの最良の方法と比較すると、平均パフォーマンス向上率は構造統計で38.5%、計算メトリクスで88.4%、生成したインスタンスでソルバチューニングを導く効果で140.7%を超えている。 ソースコードはhttp://github.com/thinklab-sjtu/hardsatgenで利用可能

Industrial SAT formula generation is a critical yet challenging task. Existing SAT generation approaches can hardly simultaneously capture the global structural properties and maintain plausible computational hardness. We first present an in-depth analysis for the limitation of previous learning methods in reproducing the computational hardness of original instances, which may stem from the inherent homogeneity in their adopted split-merge procedure. On top of the observations that industrial formulae exhibit clear community structure and oversplit substructures lead to the difficulty in semantic formation of logical structures, we propose HardSATGEN, which introduces a fine-grained control mechanism to the neural split-merge paradigm for SAT formula generation to better recover the structural and computational properties of the industrial benchmarks. Experiments including evaluations on private and practical corporate testbed show the superiority of HardSATGEN being the only method to successfully augment formulae maintaining similar computational hardness and capturing the global structural properties simultaneously. Compared to the best previous methods, the average performance gains achieve 38.5% in structural statistics, 88.4% in computational metrics, and over 140.7% in the effectiveness of guiding solver tuning by our generated instances. Source code is available at http://github.com/Thinklab-SJTU/HardSATGEN
翻訳日:2024-02-09 20:01:19 公開日:2024-02-08
# EvoX: スケーラブル進化計算のための分散GPUアクセラレーションフレームワーク

EvoX: A Distributed GPU-accelerated Framework for Scalable Evolutionary Computation ( http://arxiv.org/abs/2301.12457v9 )

ライセンス: Link先を確認
Beichen Huang, Ran Cheng, Zhuozhao Li, Yaochu Jin, Kay Chen Tan(参考訳) 自然進化過程にインスパイアされた進化的計算(ec)は、人工知能の基盤としての地位を確立した。 近年,データ集約型アプリケーションや大規模複雑システムの普及に伴い,スケーラブルなECソリューションの需要は大幅に増大している。 しかしながら、既存のecインフラストラクチャのほとんどは、大規模な問題解決の要求の高まりに対応できない。 先駆的なGPU加速ECライブラリの出現は一歩前進するが、柔軟性とアーキテクチャの堅牢性という面では、いくつかの制限も備えている。 我々は、ecアルゴリズムの自動化、分散、および異種実行用に調整されたコンピューティングフレームワークevoxを紹介する。 EvoXの中核には、並列化可能なECアルゴリズムの開発を合理化するためのユニークなプログラミングモデルがあり、分散GPUアクセラレーションに特別に最適化された計算モデルによって補完されている。 この基盤を基盤として,単目的および多目的の最適化のために,幅広い50以上のECアルゴリズムからなる広範なライブラリを構築した。 さらに、このライブラリは、数十の数値テスト機能から数百の強化学習タスクまで、様々なベンチマーク問題に対する包括的なサポートを提供する。 さまざまな問題シナリオやハードウェア構成に関する広範な実験を通じて、EvoXは堅牢なシステムとモデルのパフォーマンスを示す。 EvoXはオープンソースで、https://github.com/EMI-Group/EvoXでアクセスできる。

Inspired by natural evolutionary processes, Evolutionary Computation (EC) has established itself as a cornerstone of Artificial Intelligence. Recently, with the surge in data-intensive applications and large-scale complex systems, the demand for scalable EC solutions has grown significantly. However, most existing EC infrastructures fall short of catering to the heightened demands of large-scale problem solving. While the advent of some pioneering GPU-accelerated EC libraries is a step forward, they also grapple with some limitations, particularly in terms of flexibility and architectural robustness. In response, we introduce EvoX: a computing framework tailored for automated, distributed, and heterogeneous execution of EC algorithms. At the core of EvoX lies a unique programming model to streamline the development of parallelizable EC algorithms, complemented by a computation model specifically optimized for distributed GPU acceleration. Building upon this foundation, we have crafted an extensive library comprising a wide spectrum of 50+ EC algorithms for both single- and multi-objective optimization. Furthermore, the library offers comprehensive support for a diverse set of benchmark problems, ranging from dozens of numerical test functions to hundreds of reinforcement learning tasks. Through extensive experiments across a range of problem scenarios and hardware configurations, EvoX demonstrates robust system and model performances. EvoX is open-source and accessible at: https://github.com/EMI-Group/EvoX.
翻訳日:2024-02-09 20:00:39 公開日:2024-02-08
# Pairwise と $K$-wise の比較による人間のフィードバックによる原則強化学習

Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons ( http://arxiv.org/abs/2301.11270v5 )

ライセンス: Link先を確認
Banghua Zhu, Jiantao Jiao, Michael I. Jordan(参考訳) RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。 解析により、真の報酬関数が線型であるとき、広く用いられる最大極大推定器(MLE)はブラッドリー・テリー・ルーシ(BTL)モデルとプラケット・ルーシ(PL)モデルの両方に収束することを示した。 しかし、学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。 さらに、plモデルの下では、$k$-wise比較をペアワイズ比較に分割する真のmleと代替mleの両方が収束することを示す。 さらに、真のMLEは漸近的により効率的である。 InstructGPTにおける既存のRLHFアルゴリズムの実証的成功を検証し,アルゴリズム設計の新しい知見を提供する。 さらに,RLHFと最大エントロピー逆強化学習(IRL)の問題を統一し,最大エントロピーIRLに束縛された最初のサンプル複雑性を提供する。

We provide a theoretical framework for Reinforcement Learning with Human Feedback (RLHF). Our analysis shows that when the true reward function is linear, the widely used maximum likelihood estimator (MLE) converges under both the Bradley-Terry-Luce (BTL) model and the Plackett-Luce (PL) model. However, we show that when training a policy based on the learned reward model, MLE fails while a pessimistic MLE provides policies with improved performance under certain coverage assumptions. Additionally, we demonstrate that under the PL model, the true MLE and an alternative MLE that splits the $K$-wise comparison into pairwise comparisons both converge. Moreover, the true MLE is asymptotically more efficient. Our results validate the empirical success of existing RLHF algorithms in InstructGPT and provide new insights for algorithm design. Furthermore, our results unify the problem of RLHF and max-entropy Inverse Reinforcement Learning (IRL), and provide the first sample complexity bound for max-entropy IRL.
翻訳日:2024-02-09 20:00:12 公開日:2024-02-08
# 追加パーソナライゼーションによるフェデレーション勧告

Federated Recommendation with Additive Personalization ( http://arxiv.org/abs/2301.09109v4 )

ライセンス: Link先を確認
Zhiwei Li, Guodong Long, Tianyi Zhou(参考訳) フェデレーション学習(fl)によるレコメンデーションシステムの構築は、次世代のインターネットサービスとプライバシ保護を推進するための新たな課題である。 既存のアプローチは、ユーザがクライアント側にプライベートを埋め込みながら、FLによる共有アイテムの埋め込みを訓練する。 しかし、すべてのクライアントに同一のアイテムを埋め込むと、同一アイテムを知覚するユーザーの個人差が捉えられなくなり、パーソナライズが低下する。 さらに、FLに密接なアイテムを埋め込むと、通信コストとレイテンシが高くなる。 これらの課題に対処するために,fedrap(federated recommend with additive personalization)を提案する。これはflを通じてアイテムのグローバルビューと,ユーザ毎のパーソナライズビューをローカルに学習する。 fedrapは、flの通信コストを節約するためにグローバルビューのスパーシティを強制し、レギュライゼーションを通じて2つのビューの違いを奨励する。 正規化の重みを増すとともに,地域・グローバルな視点を段階的に学習するための効果的なカリキュラムを提案する。 ユーザのレコメンデーションを生成するために、feedrapは2つのビューを一緒に追加して、パーソナライズされたアイテム埋め込みを得る。 FedRAPは複数のベンチマークでFL設定で最高のパフォーマンスを達成する。 最近のフェデレーション推奨法やいくつかのアブレーション研究ベースラインを上回っている。

Building recommendation systems via federated learning (FL) is a new emerging challenge for advancing next-generation Internet service and privacy protection. Existing approaches train shared item embedding by FL while keeping the user embedding private on client side. However, item embedding identical for all clients cannot capture users' individual differences on perceiving the same item and thus leads to poor personalization. Moreover, dense item embedding in FL results in expensive communication cost and latency. To address these challenges, we propose Federated Recommendation with Additive Personalization (FedRAP), which learns a global view of items via FL and a personalized view locally on each user. FedRAP enforces sparsity of the global view to save FL's communication cost and encourages difference between the two views through regularization. We propose an effective curriculum to learn the local and global views progressively with increasing regularization weights. To produce recommendations for an user, FedRAP adds the two views together to obtain a personalized item embedding. FedRAP achieves the best performance in FL setting on multiple benchmarks. It outperforms recent federated recommendation methods and several ablation study baselines.
翻訳日:2024-02-09 19:59:49 公開日:2024-02-08
# 双レベル最適化における極小超勾配探索について:硬度結果と解析の改善

On Finding Small Hyper-Gradients in Bilevel Optimization: Hardness Results and Improved Analysis ( http://arxiv.org/abs/2301.00712v4 )

ライセンス: Link先を確認
Lesi Chen, Jing Xu and Jingzhao Zhang(参考訳) バイレベル最適化は、ハイパーパラメータチューニング、ニューラルアーキテクチャ探索、メタラーニングなど、その他の斜め最適化問題の内部構造を明らかにする。 双レベル最適化の共通の目標は、低レベル関数の解集合に暗黙的に依存する超目的を最小化することである。 この超目的的アプローチは広く用いられているが、その理論的性質は \textit{the lower-level function lack strong convexity} の場合では十分に研究されていない。 本研究では,まず,非凸凸双レベル最適化のための超目的の定常点を求めるという目標は,ゼロ検査アルゴリズムでは難解であることを示す。 次に、低次関数がpolyak-{\L}ojasiewicz (PL) 条件を満たすとき、トラクタブルな非凸非凸二値問題の研究を行う。 単純な一階アルゴリズムは、決定論的、部分的に確率的、完全に確率的設定において、より優れた複雑性境界である $\tilde{\mathcal{o}}(\epsilon^{-2})$, $\tilde{\mathcal{o}}(\epsilon^{-4})$ と $\tilde{\mathcal{o}}(\epsilon^{-6})$ を達成することができる。 最初の2つのケースの複雑さは対数因子まで最適である。

Bilevel optimization reveals the inner structure of otherwise oblique optimization problems, such as hyperparameter tuning, neural architecture search, and meta-learning. A common goal in bilevel optimization is to minimize a hyper-objective that implicitly depends on the solution set of the lower-level function. Although this hyper-objective approach is widely used, its theoretical properties have not been thoroughly investigated in cases where \textit{the lower-level functions lack strong convexity}. In this work, we first provide hardness results to show that the goal of finding stationary points of the hyper-objective for nonconvex-convex bilevel optimization can be intractable for zero-respecting algorithms. Then we study a class of tractable nonconvex-nonconvex bilevel problems when the lower-level function satisfies the Polyak-{\L}ojasiewicz (PL) condition. We show a simple first-order algorithm can achieve better complexity bounds of $\tilde{\mathcal{O}}(\epsilon^{-2})$, $\tilde{\mathcal{O}}(\epsilon^{-4})$ and $\tilde{\mathcal{O}}(\epsilon^{-6})$ in the deterministic, partially stochastic, and fully stochastic setting respectively. The complexities in the first two cases are optimal up to logarithmic factors.
翻訳日:2024-02-09 19:59:27 公開日:2024-02-08
# マルチビュー幾何による教師なし3次元キーポイント発見

Unsupervised 3D Keypoint Discovery with Multi-View Geometry ( http://arxiv.org/abs/2211.12829v2 )

ライセンス: Link先を確認
Sina Honari, Chen Zhao, Mathieu Salzmann, Pascal Fua(参考訳) 3次元姿勢モデルの解析と訓練は、身体関節の厳密な手動アノテーションや、注意深いマーカーとキャプチャーシステムを用いたマーカーベースの関節局在によって一般的に取得される関節ラベルの可用性に大きく依存する。 しかし、特に異例な活動を行う人にとっては、このアノテーションが常に利用できるとは限らない。 本稿では,多視点画像から人体上の3次元キーポイントを発見するアルゴリズムを提案する。 発見された3Dキーポイントが有意義であることを保証するため、各ビューに再プロジェクションされ、モデル自体が当初監督なしで見積もっていたことを人のマスクを推定する。 提案手法は,Human3.6M や MPI-INF-3DHP ベンチマークデータセットの非教師なしアプローチと比較して,より解釈可能で正確な3Dキーポイントを発見する。

Analyzing and training 3D body posture models depend heavily on the availability of joint labels that are commonly acquired through laborious manual annotation of body joints or via marker-based joint localization using carefully curated markers and capturing systems. However, such annotations are not always available, especially for people performing unusual activities. In this paper, we propose an algorithm that learns to discover 3D keypoints on human bodies from multiple-view images without any supervision or labels other than the constraints multiple-view geometry provides. To ensure that the discovered 3D keypoints are meaningful, they are re-projected to each view to estimate the person's mask that the model itself has initially estimated without supervision. Our approach discovers more interpretable and accurate 3D keypoints compared to other state-of-the-art unsupervised approaches on Human3.6M and MPI-INF-3DHP benchmark datasets.
翻訳日:2024-02-09 19:58:38 公開日:2024-02-08
# より効率的な共有自律移動を目指して--学習に基づくフリート再構成アプローチ

Towards More Efficient Shared Autonomous Mobility: A Learning-Based Fleet Repositioning Approach ( http://arxiv.org/abs/2210.08659v3 )

ライセンス: Link先を確認
Monika Filipovska, Michael Hyland, Haimanti Bala(参考訳) 共有利用自律移動サービス(SAMS)は、アクセシビリティと需要レスモビリティを改善する新たな機会を提供する。 SAMSが直面する根本的な課題は、将来の需要を満たすためにアイドル車の適切な位置決めである。 本稿では,SAMS艦隊再配置をマルコフ決定過程として定式化し,統合システムエージェント再配置(ISR)と呼ばれる強化学習ベース再配置(RLR)アプローチを提案する。 ISRは、需要予測を明示せずに、需要パターンの進化に対応することを学習し、最適化に基づく乗務員配置に協力する、スケーラブルな艦隊配置戦略を統合的に学習する。 ニューヨーク市のタクシーデータとエージェントベースシミュレーションツールを用いて数値実験を行った。 ISRは、外部誘導再配置(EGR)と呼ばれる代替RLRアプローチと、乗用車間配置と再配置のためのベンチマーク共同最適化(JO)と比較される。 その結果, RLR アプローチは JO アプローチと比較して, 乗客待ち時間を大幅に削減し, 50% 以上を達成できた。 ISRの需要予測を回避できる能力は、平均的な指標でEGRに匹敵するパフォーマンスを維持するためにも証明されている。 また, 需要パターンの未確認, 運用期間の延長, 割り当て戦略の変更など, モデルが進化する条件に移行可能であることを示す。

Shared-use autonomous mobility services (SAMS) present new opportunities for improving accessible and demand-responsive mobility. A fundamental challenge that SAMS face is appropriate positioning of idle fleet vehicles to meet future demand - a problem that strongly impacts service quality and efficiency. This paper formulates SAMS fleet repositioning as a Markov Decision Process and presents a reinforcement learning-based repositioning (RLR) approach called integrated system-agent repositioning (ISR). The ISR learns a scalable fleet repositioning strategy in an integrated manner: learning to respond to evolving demand patterns without explicit demand forecasting and to cooperate with optimization-based passenger-to-vehicle assignment. Numerical experiments are conducted using New York City taxi data and an agent-based simulation tool. The ISR is compared to an alternative RLR approach named externally guided repositioning (EGR) and a benchmark joint optimization (JO) for passenger-to-vehicle assignment and repositioning. The results demonstrate the RLR approaches' substantial reductions in passenger wait times, over 50%, relative to the JO approach. The ISR's ability to bypass demand forecasting is also demonstrated as it maintains comparable performance to EGR in terms of average metrics. The results also demonstrate the model's transferability to evolving conditions, including unseen demand patterns, extended operational periods, and changes in the assignment strategy.
翻訳日:2024-02-09 19:58:24 公開日:2024-02-08
# neuralmatrix: 効率的な推論のための線形行列演算によるニューラルネットワーク全体の計算

NeuralMatrix: Compute the Entire Neural Networks with Linear Matrix Operations for Efficient Inference ( http://arxiv.org/abs/2305.14405v3 )

ライセンス: Link先を確認
Ruiqi Sun, Siwei Ye, Jie Zhao, Xin He, Yiran Li, An Zou(参考訳) 個別のディープニューラルネットワーク(DNN)モデルにおける計算タイプの固有の多様性は、ハードウェアプロセッサ内の様々な計算ユニットを必要とする。 この多様性は、異なるニューラルネットワークの実行中に計算効率に大きな制約をもたらす。 本研究では,DNN全体の計算を線形行列演算に変換するフレームワークであるNeuralMatrixを提案する。 この変換は、GEMM(General-Purpose Matrix Multiplication)アクセラレーターを用いて、様々なDNNモデルをシームレスに実行することができる。 様々なdnnモデルにまたがる広範な実験結果から,本手法はネットワークの精度を保ちつつ,汎用性とアプリケーション固有の計算効率を両立することを示した。 これにより、DNNモデルの幅広いスペクトルを単一のGEMMアクセラレータを使って実行することができ、追加の特別な機能ユニットを必要としない。

The inherent diversity of computation types within individual Deep Neural Network (DNN) models imposes a corresponding need for a varied set of computation units within hardware processors. This diversity poses a significant constraint on computation efficiency during the execution of different neural networks. In this study, we present NeuralMatrix, a framework that transforms the computation of entire DNNs into linear matrix operations. This transformation seamlessly enables the execution of various DNN models using a single General-Purpose Matrix Multiplication (GEMM) accelerator. Extensive experimental results spanning different DNN models demonstrate that our approach preserves network accuracy while providing both generality and application-specific levels of computation efficiency. This allows a broad spectrum of DNN models to be executed using a single GEMM accelerator, eliminating the need for additional special function units.
翻訳日:2024-02-09 19:50:56 公開日:2024-02-08
# 人とAIの協調作業におけるLLM調査機関

Investigating Agency of LLMs in Human-AI Collaboration Tasks ( http://arxiv.org/abs/2305.12815v2 )

ライセンス: Link先を確認
Ashish Sharma, Sudha Rao, Chris Brockett, Akanksha Malhotra, Nebojsa Jojic, Bill Dolan(参考訳) イベントを積極的に形作る能力であるエージェンシーは、人間が対話し協力する方法の中心である。 LLMは人間の振る舞いをシミュレートし、人間のようなエージェントとして機能するために開発されているが、相互作用と協調の方向性を積極的に管理するためにこれらのモデルが保持されるべきであることはあまり注目されていない。 本稿では,LLMの望ましい機能であるAgentについて検討し,その測定と管理方法について述べる。 我々は,エージェントが対話で表現される特徴の枠組みを構築するために,社会的認知理論を構築し,何をするつもりか(意図)を示し,意図(動機)を動機付け,自尊心(自己効力感)を持ち,自己調整(自己統制)できる。 エージェント特徴に注釈付き会話スニペット908点を含む,人間と人間の共同インテリアデザイン会話83点のデータセットを新たに収集した。 このデータセットを用いて,LLMの測定方法を開発した。 自動評価と人間評価は、高い意図性、モチベーション、自己効力性、自己統制に関連する特徴を示すモデルは、より強力なエージェントとして認識される可能性が高いことを示している。

Agency, the capacity to proactively shape events, is central to how humans interact and collaborate. While LLMs are being developed to simulate human behavior and serve as human-like agents, little attention has been given to the Agency that these models should possess in order to proactively manage the direction of interaction and collaboration. In this paper, we investigate Agency as a desirable function of LLMs, and how it can be measured and managed. We build on social-cognitive theory to develop a framework of features through which Agency is expressed in dialogue - indicating what you intend to do (Intentionality), motivating your intentions (Motivation), having self-belief in intentions (Self-Efficacy), and being able to self-adjust (Self-Regulation). We collect a new dataset of 83 human-human collaborative interior design conversations containing 908 conversational snippets annotated for Agency features. Using this dataset, we develop methods for measuring Agency of LLMs. Automatic and human evaluations show that models that manifest features associated with high Intentionality, Motivation, Self-Efficacy, and Self-Regulation are more likely to be perceived as strongly agentive.
翻訳日:2024-02-09 19:50:43 公開日:2024-02-08
# PiVe: LLMのグラフベースの生成能力を改善する反復検証によるプロンプト

PiVe: Prompting with Iterative Verification Improving Graph-based Generative Capability of LLMs ( http://arxiv.org/abs/2305.12392v2 )

ライセンス: Link先を確認
Jiuzhou Han, Nigel Collier, Wray Buntine, Ehsan Shareghi(参考訳) 大規模言語モデル(LLM)は、異なるドメインで様々な自然言語タスクを解く能力を示す。 LLMのトレーニング目標とその事前学習データにより、構造化データ生成に関わるタスクに対してLLMは十分に対応していない。 我々は,LLMのグラフベース生成能力を改善するために,反復検証によるPrompting(PiVe)フレームワークを提案する。 LLM(ChatGPT, GPT-4)の出力の検証モジュールとして機能し, きめ細かな修正命令によってその性能を反復的に向上するために, 小さな言語モデルをいかに訓練するかを示す。 また,テキスト対グラフ生成タスクに対するコスト効率のよい解決策として,検証モジュールがオフラインで反復補正を適用する方法を示す。 3つのグラフベースのデータセットの実験では、PiVeを通じて一貫した改善が得られた。 さらに、GenWiki-HIQを作成し、検証モジュールをデータ拡張ツールとして使用することにより、自動生成された並列テキストグラフデータセットの品質向上を支援する。

Large language models (LLMs) have shown great abilities of solving various natural language tasks in different domains. Due to the training objective of LLMs and their pre-training data, LLMs are not very well equipped for tasks involving structured data generation. We propose a framework, Prompting with Iterative Verification (PiVe), to improve graph-based generative capability of LLMs. We show how a small language model could be trained to act as a verifier module for the output of an LLM(i.e., ChatGPT, GPT-4), and to iteratively improve its performance via fine-grained corrective instructions. We also show how the verifier module could apply iterative corrections offline for a more cost-effective solution to the text-to-graph generation task. Experiments on three graph-based datasets show consistent improvement gained via PiVe. Additionally, we create GenWiki-HIQ and highlight that the verifier module can be used as a data augmentation tool to help improve the quality of automatically generated parallel text-graph datasets.
翻訳日:2024-02-09 19:50:22 公開日:2024-02-08
# スパイクニューラルネットワークの量子化

Quantization in Spiking Neural Networks ( http://arxiv.org/abs/2305.08012v2 )

ライセンス: Link先を確認
Bernhard A. Moser and Michael Lunglmayr(参考訳) スパイキングニューラルネットワーク(SNN)では、各ノードで重み付きディラックパルスの入力シーケンスをスパイク集約としきい値の閾値に基づく漏れ積分(LIF)ニューロンモデルにより重み付きディラックパルスの出力シーケンスに変換する。 この写像は量子化作用素として理解でき、アレクセイヴィチノルムを用いて量子化誤差に対応する公式を述べる。 この分析は LIF モデルにおける再初期化の再考に影響を及ぼし、モジュロベースのリセット変種として 'reset-to-mod' を提案する。

In spiking neural networks (SNN), at each node, an incoming sequence of weighted Dirac pulses is converted into an output sequence of weighted Dirac pulses by a leaky-integrate-and-fire (LIF) neuron model based on spike aggregation and thresholding. We show that this mapping can be understood as a quantization operator and state a corresponding formula for the quantization error by means of the Alexiewicz norm. This analysis has implications for rethinking re-initialization in the LIF model, leading to the proposal of 'reset-to-mod' as a modulo-based reset variant.
翻訳日:2024-02-09 19:50:04 公開日:2024-02-08
# 自然言語定義からの多関係双曲語埋め込み

Multi-Relational Hyperbolic Word Embeddings from Natural Language Definitions ( http://arxiv.org/abs/2305.07303v4 )

ライセンス: Link先を確認
Marco Valentino, Danilo S. Carvalho, Andr\'e Freitas(参考訳) 自然言語定義は再帰的で自己説明的な意味構造を持ち、潜在空間における明示的な概念的関係と制約を保存できる表現学習法をサポートすることができる。 本稿では,この構造を明示的に活用し,定義から単語埋め込みを導出するマルチリレーショナルモデルを提案する。 辞書から定義項と定義項の相関関係を自動的に抽出することにより,ハイパーボリック空間の翻訳フレームワークを通じて単語埋め込みの問題を定式化し,定義のグローバルな意味構造を捉えるためのプロキシとして利用する方法を示す。 広範な実証分析によって、フレームワークは、制御可能かつ解釈可能なトラバーサルに必要な意味マッピングを維持しながら、望ましい構造的制約を課すのに役立つことが示されている。 さらに,双曲語埋め込みがユークリッド語よりも優れていることを明らかにし,本質的に効率的かつ解釈可能な利点を生かして,最先端のニューラルモデルと比較して,マルチリレーショナルアプローチが競争結果を得ることができることを示す。

Natural language definitions possess a recursive, self-explanatory semantic structure that can support representation learning methods able to preserve explicit conceptual relations and constraints in the latent space. This paper presents a multi-relational model that explicitly leverages such a structure to derive word embeddings from definitions. By automatically extracting the relations linking defined and defining terms from dictionaries, we demonstrate how the problem of learning word embeddings can be formalised via a translational framework in Hyperbolic space and used as a proxy to capture the global semantic structure of definitions. An extensive empirical analysis demonstrates that the framework can help imposing the desired structural constraints while preserving the semantic mapping required for controllable and interpretable traversal. Moreover, the experiments reveal the superiority of the Hyperbolic word embeddings over the Euclidean counterparts and demonstrate that the multi-relational approach can obtain competitive results when compared to state-of-the-art neural models, with the advantage of being intrinsically more efficient and interpretable.
翻訳日:2024-02-09 19:49:50 公開日:2024-02-08
# マトリックス因子化のための交互勾配の収束

Convergence of Alternating Gradient Descent for Matrix Factorization ( http://arxiv.org/abs/2305.06927v2 )

ライセンス: Link先を確認
Rachel Ward and Tamara G. Kolda(参考訳) 非対称行列分解対象に一定のステップサイズで交互勾配降下(AGD)を考慮する。 階数-$r$行列 $\mathbf{A} \in \mathbb{R}^{m \times n}$, $T = C (\frac{\sigma_1(\mathbf{A})}{\sigma_r(\mathbf{A})})^2 \log(1/\epsilon)$ suffice to reach a $\epsilon$-optimal factorization $\| \mathbf{A} - \mathbf{X} \mathbf{Y}^{T} \|^2 \leq \epsilon \| \mathbf{A}\|^2$ は、典型的な初期化から始まる確率の高い確率を持つ。 これらの因子は、$d \geq r$ をランク付けして、$\mathbf{x}_{t}\in\mathbb{r}^{m \times d}$ と$\mathbf{y}_{t} \in\mathbb{r}^{n \times d}$ とし、イテレーションの複雑さにおいて定数 $c$ に対する軽度な過パラメータ化 suffices for the constant $c$ を絶対定数とする。 実験により,提案する初期化は理論上の利点に留まらず,実際の勾配降下の収束率を大幅に向上させることが示唆された。 均一なポリak-\l{}ojasiewicz (pl)不等式と一様リプシッツ滑らか性定数は、我々のランダム初期化から始まり、十分な数の反復に対して保証される。 本手法は,非凸低ランク因子分解問題のより広いクラスに対する収束解析の拡張と単純化に有用である。

We consider alternating gradient descent (AGD) with fixed step size applied to the asymmetric matrix factorization objective. We show that, for a rank-$r$ matrix $\mathbf{A} \in \mathbb{R}^{m \times n}$, $T = C (\frac{\sigma_1(\mathbf{A})}{\sigma_r(\mathbf{A})})^2 \log(1/\epsilon)$ iterations of alternating gradient descent suffice to reach an $\epsilon$-optimal factorization $\| \mathbf{A} - \mathbf{X} \mathbf{Y}^{T} \|^2 \leq \epsilon \| \mathbf{A}\|^2$ with high probability starting from an atypical random initialization. The factors have rank $d \geq r$ so that $\mathbf{X}_{T}\in\mathbb{R}^{m \times d}$ and $\mathbf{Y}_{T} \in\mathbb{R}^{n \times d}$, and mild overparameterization suffices for the constant $C$ in the iteration complexity $T$ to be an absolute constant. Experiments suggest that our proposed initialization is not merely of theoretical benefit, but rather significantly improves the convergence rate of gradient descent in practice. Our proof is conceptually simple: a uniform Polyak-\L{}ojasiewicz (PL) inequality and uniform Lipschitz smoothness constant are guaranteed for a sufficient number of iterations, starting from our random initialization. Our proof method should be useful for extending and simplifying convergence analyses for a broader class of nonconvex low-rank factorization problems.
翻訳日:2024-02-09 19:49:31 公開日:2024-02-08
# ニューラルネットワークの直交変換と有効正則化

Orthogonal Transforms in Neural Networks Amount to Effective Regularization ( http://arxiv.org/abs/2305.06344v2 )

ライセンス: Link先を確認
Krzysztof Zaj\k{a}c and Wojciech Sopot and Pawe{\l} Wachel(参考訳) 非線形システム同定におけるニューラルネットワークの適用を考察し、周波数情報や他の既知の直交変換を取り入れた一般ネットワーク構造を調整すれば、その普遍性を維持する効率的なニューラルネットワークが得られるという仮説を定式化する。 このような構造は普遍近似であり,提案手法で任意の直交変換を用いることで,各パラメータの学習率を個々に調整することで,トレーニング中の正則化を暗示できることを示す。 特に、そのような構造がフーリエ変換を用いて、直交性のサポートなしに等価なモデルを上回ることを実証的に示す。

We consider applications of neural networks in nonlinear system identification and formulate a hypothesis that adjusting general network structure by incorporating frequency information or other known orthogonal transform, should result in an efficient neural network retaining its universal properties. We show that such a structure is a universal approximator and that using any orthogonal transform in a proposed way implies regularization during training by adjusting the learning rate of each parameter individually. We empirically show in particular, that such a structure, using the Fourier transform, outperforms equivalent models without orthogonality support.
翻訳日:2024-02-09 19:48:25 公開日:2024-02-08
# FusionBooster: 統合された画像融合のパラダイム

FusionBooster: A Unified Image Fusion Boosting Paradigm ( http://arxiv.org/abs/2305.05970v3 )

ライセンス: Link先を確認
Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Hui Li, Xi Li, and Josef Kittler(参考訳) 近年、画像融合タスクの相互強化機構や余分な段階を設計し、異なる視覚タスクと計算負荷の間の必然的なギャップを無視して、多くのアイデアが生まれている。 我々は、核融合タスク用に特別に設計されたモデルであるFusionBoosterの助けを借りて、核融合性能を改善するためのスコープがあることを論じる。 特に,このブースターは情報プローブによって制御される配当戦略に基づいている。 ブースターは、プローブユニット、ブースター層、組み立てモジュールの3つのビルディングブロックから構成されている。 バックボーン法により生成された結果から、プローブユニットは融合画像を評価し、その情報内容に応じて結果を分割する。 これは、その回復のステップとして、欠落している情報を特定するのに役立ちます。 核融合誘導に伴う劣化成分の回収はブースター層の役割である。 最後に、組み立てモジュールは、これらの高度なコンポーネントをまとめて出力する責任を負う。 軽量オートエンコーダモデルと共に簡潔な再構成損失関数を用いて学習タスクを定式化し,計算複雑性を増大させる。 各種核融合タスクおよび下流検出タスクで得られた実験結果は,提案する核融合ブースターの性能が著しく向上することを示した。 私たちのコードはhttps://github.com/AWCXV/FusionBooster.comで公開されます。

In recent years, numerous ideas have emerged for designing a mutually reinforcing mechanism or extra stages for the image fusion task, ignoring the inevitable gaps between different vision tasks and the computational burden. We argue that there is a scope to improve the fusion performance with the help of the FusionBooster, a model specifically designed for the fusion task. In particular, our booster is based on the divide-and-conquer strategy controlled by an information probe. The booster is composed of three building blocks: the probe units, the booster layer, and the assembling module. Given the result produced by a backbone method, the probe units assess the fused image and divide the results according to their information content. This is instrumental in identifying missing information, as a step to its recovery. The recovery of the degraded components along with the fusion guidance are the role of the booster layer. Lastly, the assembling module is responsible for piecing these advanced components together to deliver the output. We use concise reconstruction loss functions in conjunction with lightweight autoencoder models to formulate the learning task, with marginal computational complexity increase. The experimental results obtained in various fusion tasks, as well as downstream detection tasks, consistently demonstrate that the proposed FusionBooster significantly improves the performance. Our code will be publicly available at https://github.com/AWCXV/FusionBooster.
翻訳日:2024-02-09 19:48:14 公開日:2024-02-08
# Alexiewiczトポロジーにおけるニューラルネットワークのスパイク:解析とエラー境界の新しい視点

Spiking Neural Networks in the Alexiewicz Topology: A New Perspective on Analysis and Error Bounds ( http://arxiv.org/abs/2305.05772v2 )

ライセンス: Link先を確認
Bernhard A. Moser and Michael Lunglmayr(参考訳) ニューロモルフィック・コンピューティングにおける誤り伝播解析の容易化とスパイク・ニューラルネットワーク(SNN)の理解を深めるため,スパイク・トレインをスパイク・トレインにマッピングする自己準同型としてSNNの数学的解析の課題に対処する。 中心となる問題は、スパイク列の空間の適切な構造とその時間遅延、しきい値偏差、およびリーク積分火炎(lif)ニューロンモデルの再活性化モードの設計を含むsnsの誤差測定の設計への含意である。 まず、lifモデルの全てのサブスレッショルド信号の閉包を分析することにより、基盤となるトポロジーを特定する。 ゼロリークの場合、このアプローチは任意の正のリークを持つLIFニューロンに採用するAlexiewicz位相をもたらす。 その結果、LIFは対応するノルムのスパイクトレイン量子化として理解することができる。 これにより、入出力スパイク列間の準等長関係など、様々な誤差境界と不等式が得られる。 別の結果は、誤差伝播と関連する共鳴型現象に対するリプシッツ型大域上界である。

In order to ease the analysis of error propagation in neuromorphic computing and to get a better understanding of spiking neural networks (SNN), we address the problem of mathematical analysis of SNNs as endomorphisms that map spike trains to spike trains. A central question is the adequate structure for a space of spike trains and its implication for the design of error measurements of SNNs including time delay, threshold deviations, and the design of the reinitialization mode of the leaky-integrate-and-fire (LIF) neuron model. First we identify the underlying topology by analyzing the closure of all sub-threshold signals of a LIF model. For zero leakage this approach yields the Alexiewicz topology, which we adopt to LIF neurons with arbitrary positive leakage. As a result LIF can be understood as spike train quantization in the corresponding norm. This way we obtain various error bounds and inequalities such as a quasi isometry relation between incoming and outgoing spike trains. Another result is a Lipschitz-style global upper bound for the error propagation and a related resonance-type phenomenon.
翻訳日:2024-02-09 19:47:52 公開日:2024-02-08
# 時空間モビリティ応用のためのフェデレーション学習モデルの検討

Survey of Federated Learning Models for Spatial-Temporal Mobility Applications ( http://arxiv.org/abs/2305.05257v4 )

ライセンス: Link先を確認
Yacine Belal and Sonia Ben Mokhtar, Hamed Haddadi, Jaron Wang and Afra Mashhadi(参考訳) 連合学習は、トレーニングデータをローカルに保持するように、携帯電話などのエッジデバイス上で統計モデルをトレーニングする。 フェデレートラーニング(FL)は、高度に敏感な位置情報のプライバシーを維持しながら、不均一で潜在的に膨大な数の参加者に依存する空間的時間モデルを訓練するための理想的な候補として機能する。 しかし、既存の時空間モデルから分散学習への移行にはユニークな課題がある。 本稿では,人体移動,交通予測,コミュニティ検出,位置ベースレコメンデーションシステム,その他の時空間的タスクを予測するためのFLモデルを提案する既存文献について概説する。 これらの研究が使用しているメトリクスとデータセットを説明し、集中的な設定と比較して、これらのアプローチのベースラインを作成します。 最後に,分散環境で空間-時間モデルを適用することの課題について論じ,文献のギャップを強調することで,研究コミュニティにロードマップと機会を提供する。

Federated learning involves training statistical models over edge devices such as mobile phones such that the training data is kept local. Federated Learning (FL) can serve as an ideal candidate for training spatial temporal models that rely on heterogeneous and potentially massive numbers of participants while preserving the privacy of highly sensitive location data. However, there are unique challenges involved with transitioning existing spatial temporal models to decentralized learning. In this survey paper, we review the existing literature that has proposed FL-based models for predicting human mobility, traffic prediction, community detection, location-based recommendation systems, and other spatial-temporal tasks. We describe the metrics and datasets these works have been using and create a baseline of these approaches in comparison to the centralized settings. Finally, we discuss the challenges of applying spatial-temporal models in a decentralized setting and by highlighting the gaps in the literature we provide a road map and opportunities for the research community.
翻訳日:2024-02-09 19:47:30 公開日:2024-02-08
# 屋内Wi-Fiを用いたデバイス不要な壁面位置検出のための注意深度学習

Attention-Enhanced Deep Learning for Device-Free Through-the-Wall Presence Detection Using Indoor WiFi Systems ( http://arxiv.org/abs/2304.13105v3 )

ライセンス: Link先を確認
Li-Hsiang Shen, An-Hung Hsiao, Kuan-I Lu, and Kai-Ten Feng(参考訳) 屋内環境における人的存在の正確な検出は,エネルギー管理やセキュリティなど,様々な用途において重要である。 本稿では,WiFi信号のチャネル状態情報(CSI)を用いた人間の存在検知システムを提案する。 本システムでは,CSIデータから情報サブキャリアを自動選択するためのアテンション・エンハンスド・ディープ・ラーニング(ALPD)と,CSIにおける時間的依存を捉えるための双方向長短期記憶(LSTM)ネットワークを利用する。 さらに、静的な状態における人間の存在検出の精度を向上させるために静的な特徴を利用する。 提案するALPDシステムは,CSIデータセットを収集するための一対のWiFiアクセスポイント(AP)をデプロイすることで評価し,さらにいくつかのベンチマークと比較した。 その結果,alpdシステムは,特に干渉の有無において,精度の点でベンチマークを上回っていることがわかった。 さらに、双方向送信データは、安定性と精度の向上、およびトレーニング用データ収集のコスト削減の訓練に有用である。 より詳しくは,マルチルームにおけるより困難な人間の活動を検出するためのALPDの可能性についても検討した。 提案するALPDシステムは,WiFi CSI信号を用いた人的存在検出において有望な結果を示す。

Accurate detection of human presence in indoor environments is important for various applications, such as energy management and security. In this paper, we propose a novel system for human presence detection using the channel state information (CSI) of WiFi signals. Our system named attention-enhanced deep learning for presence detection (ALPD) employs an attention mechanism to automatically select informative subcarriers from the CSI data and a bidirectional long short-term memory (LSTM) network to capture temporal dependencies in CSI. Additionally, we utilize a static feature to improve the accuracy of human presence detection in static states. We evaluate the proposed ALPD system by deploying a pair of WiFi access points (APs) for collecting CSI dataset, which is further compared with several benchmarks. The results demonstrate that our ALPD system outperforms the benchmarks in terms of accuracy, especially in the presence of interference. Moreover, bidirectional transmission data is beneficial to training improving stability and accuracy, as well as reducing the costs of data collection for training. To elaborate a little further, we have also evaluated the potential of ALPD for detecting more challenging human activities in multi-rooms. Overall, our proposed ALPD system shows promising results for human presence detection using WiFi CSI signals.
翻訳日:2024-02-09 19:47:14 公開日:2024-02-08
# 変圧器入門

An Introduction to Transformers ( http://arxiv.org/abs/2304.10557v5 )

ライセンス: Link先を確認
Richard E. Turner(参考訳) トランスはニューラルネットワークコンポーネントであり、シーケンスやデータポイントの集合の有用な表現を学ぶために使用できる。 この変換器は、自然言語処理、コンピュータビジョン、時空間モデリングの最近の進歩を推し進めている。 トランスフォーマーの紹介は数多く存在するが、ほとんどはアーキテクチャの正確な数学的記述を含んでおらず、設計の選択の背後にある直観も欠落している。 さらに、研究が曲がりくねった経路を辿ると、変圧器の部品の説明は慣用的にできる。 本論では, 数学的に正確で直感的で, クリーンなトランスフォーマアーキテクチャ記述を目指している。 これはむしろ標準なので、トレーニングについて話し合うつもりはない。 読者は、多層パーセプトロン、線形変換、ソフトマックス関数、基本確率など、機械学習の基本トピックに精通していると仮定する。

The transformer is a neural network component that can be used to learn useful representations of sequences or sets of data-points. The transformer has driven recent advances in natural language processing, computer vision, and spatio-temporal modelling. There are many introductions to transformers, but most do not contain precise mathematical descriptions of the architecture and the intuitions behind the design choices are often also missing. Moreover, as research takes a winding path, the explanations for the components of the transformer can be idiosyncratic. In this note we aim for a mathematically precise, intuitive, and clean description of the transformer architecture. We will not discuss training as this is rather standard. We assume that the reader is familiar with fundamental topics in machine learning including multi-layer perceptrons, linear transformations, softmax functions and basic probability.
翻訳日:2024-02-09 19:46:49 公開日:2024-02-08
# 判別モデルの変数外一般化

Out-of-Variable Generalization for Discriminative Models ( http://arxiv.org/abs/2304.07896v3 )

ライセンス: Link先を確認
Siyuan Guo, Jonas Wildberger, Bernhard Sch\"olkopf(参考訳) エージェントが新しい環境でうまく機能する能力は、知性の重要な側面である。 機械学習では、この機能は$\textit{strong}$または$\textit{out-of-distribution}$ generalizationとして知られている。 しかし,学習環境間の差異を完全に把握するには,データ分布の違いを考慮するだけでは不十分である。 本稿では,これまで共同で観測されなかった変数を持つ環境に関するエージェントの一般化機能に関連する,$\textit{out-of-variable}$の一般化について検討する。 このスキルは、学習をアニメーション化する過程をよく反映している。我々は、常に$\textit{subsets}$の変数を探索し、観察し、測定することで自然を探索する。 数学的には、$\textit{out-of-variable}$ generalization は過去の限界情報の効率的な再利用を必要とする。 重なり合うが、異なる原因の集合を含む環境における予測タスクに着目し、この問題について検討する。 分類器を装着すると、ある環境における残差分布は、その環境における観測されていない因果親に対する真の生成関数の部分微分を明らかにする。 我々は,この情報を活用し,重なり合うが相違する因果予測器の集合に直面する場合の,非自明な変数外一般化性能を示す手法を提案する。

The ability of an agent to do well in new environments is a critical aspect of intelligence. In machine learning, this ability is known as $\textit{strong}$ or $\textit{out-of-distribution}$ generalization. However, merely considering differences in data distributions is inadequate for fully capturing differences between learning environments. In the present paper, we investigate $\textit{out-of-variable}$ generalization, which pertains to an agent's generalization capabilities concerning environments with variables that were never jointly observed before. This skill closely reflects the process of animate learning: we, too, explore Nature by probing, observing, and measuring $\textit{subsets}$ of variables at any given time. Mathematically, $\textit{out-of-variable}$ generalization requires the efficient re-use of past marginal information, i.e., information over subsets of previously observed variables. We study this problem, focusing on prediction tasks across environments that contain overlapping, yet distinct, sets of causes. We show that after fitting a classifier, the residual distribution in one environment reveals the partial derivative of the true generating function with respect to the unobserved causal parent in that environment. We leverage this information and propose a method that exhibits non-trivial out-of-variable generalization performance when facing an overlapping, yet distinct, set of causal predictors.
翻訳日:2024-02-09 19:46:35 公開日:2024-02-08
# 正半定円錐における極値を持つ微分幾何学

Differential geometry with extreme eigenvalues in the positive semidefinite cone ( http://arxiv.org/abs/2304.07347v2 )

ライセンス: Link先を確認
Cyrus Mostajeran, Natha\"el Da Costa, Graham Van Goffrier, Rodolphe Sepulchre(参考訳) 対称正定値行列(SPD)の形でのデータの解析と処理に対する異なる幾何学的アプローチは、コンピュータビジョン、医用画像、機械学習を含む多くの分野に顕著な成功を収めた。 そのような応用における支配的な幾何学的パラダイムは、高スケールおよび高次元でコストがかかるスペクトル計算に付随するいくつかのリーマン幾何学から成り立っている。 本研究では,半定円錐のヒルベルト・トンプソン測地による超一般化固有値の効率的な計算に基づくSPD値データの解析と処理のためのスケーラブルな幾何学的枠組みを提案する。 トンプソン幾何学に基づく特定の測地空間構造を詳細に探求し、この構造に関連するいくつかの性質を確立する。 さらに、この幾何に基づいてSPD行列の新たな反復平均を定義し、与えられた有限個の点の集合に対するその存在と特異性を証明する。 最後に、この平均で満足できる多くの望ましい性質を述べ、証明します。

Differential geometric approaches to the analysis and processing of data in the form of symmetric positive definite (SPD) matrices have had notable successful applications to numerous fields including computer vision, medical imaging, and machine learning. The dominant geometric paradigm for such applications has consisted of a few Riemannian geometries associated with spectral computations that are costly at high scale and in high dimensions. We present a route to a scalable geometric framework for the analysis and processing of SPD-valued data based on the efficient computation of extreme generalized eigenvalues through the Hilbert and Thompson geometries of the semidefinite cone. We explore a particular geodesic space structure based on Thompson geometry in detail and establish several properties associated with this structure. Furthermore, we define a novel iterative mean of SPD matrices based on this geometry and prove its existence and uniqueness for a given finite collection of points. Finally, we state and prove a number of desirable properties that are satisfied by this mean.
翻訳日:2024-02-09 19:46:13 公開日:2024-02-08
# 武器を選ぶ - 抑うつしたai研究者の生存戦略

Choose Your Weapon: Survival Strategies for Depressed AI Academics ( http://arxiv.org/abs/2304.06035v2 )

ライセンス: Link先を確認
Julian Togelius and Georgios N. Yannakakis(参考訳) あなたは学術機関のAI研究者ですか? あなたは現在のAI進歩に対処しないことを心配していますか? AI研究のブレークスルーに必要な計算と人的リソースにアクセスできない(あるいは非常に制限されている)と感じていますか? あなたは一人ではありません。私たちは同じ気持ちです。 ますます多くのAI学者は、世界規模で競争する手段やリソースを見つけることができない。 これはやや最近の現象だが、プライベートアクターが最先端のai研究に膨大な計算資源を投資することで加速している。 ここでは、学術的なまま競争力を保つために何ができるかについて議論する。 また,大学や民間部門がどのような状況で改善できるのか,その傾向について簡単に議論する。 これは戦略の完全なリストではなく、それらすべてに同意できないかもしれないが、議論を始めるのに役立ちます。

Are you an AI researcher at an academic institution? Are you anxious you are not coping with the current pace of AI advancements? Do you feel you have no (or very limited) access to the computational and human resources required for an AI research breakthrough? You are not alone; we feel the same way. A growing number of AI academics can no longer find the means and resources to compete at a global scale. This is a somewhat recent phenomenon, but an accelerating one, with private actors investing enormous compute resources into cutting edge AI research. Here, we discuss what you can do to stay competitive while remaining an academic. We also briefly discuss what universities and the private sector could do improve the situation, if they are so inclined. This is not an exhaustive list of strategies, and you may not agree with all of them, but it serves to start a discussion.
翻訳日:2024-02-09 19:45:59 公開日:2024-02-08
# チームベースナビゲーションの学習:マルチエージェントパスフィニングのための深層強化学習手法のレビュー

Learning Team-Based Navigation: A Review of Deep Reinforcement Learning Techniques for Multi-Agent Pathfinding ( http://arxiv.org/abs/2308.05893v2 )

ライセンス: Link先を確認
Jaehoon Chung, Jamil Fayyad, Younes Al Younes, and Homayoun Najjaran(参考訳) マルチエージェントパスフィンディング(MAPF)は、多くの大規模ロボットアプリケーションにおいて重要な分野であり、しばしばマルチエージェントシステムの基本的なステップである。 しかし、複雑で混み合った環境におけるMAPFの複雑さの増大は、既存のソリューションの有効性を著しく低下させる。 MAPFの最近の進歩を概観した研究や、マルチエージェントシステム設定におけるDeep Reinforcement Learning(DRL)を個別に検討した研究とは対照的に、本論文では、MAPFにおけるDRLベースのアプローチの統合を強調した。 さらに、統合評価指標の欠如に対処し、これらの指標を包括的に解明することで、MAPFソリューションの評価における現在のギャップを埋めることを目指している。 最後に,モデルベースDRLの将来的な方向性としての可能性について論じ,MAPFの課題に対処するために必要な基礎的理解を提供する。 我々の目標は、読者が現在の研究の方向性を知るのを支援し、異なるMAPFアルゴリズムを比較し、MAPFの既存の課題に対処するためにモデルベースDRLの知識を拡大するための統一的なメトリクスを提供することである。

Multi-agent pathfinding (MAPF) is a critical field in many large-scale robotic applications, often being the fundamental step in multi-agent systems. The increasing complexity of MAPF in complex and crowded environments, however, critically diminishes the effectiveness of existing solutions. In contrast to other studies that have either presented a general overview of the recent advancements in MAPF or extensively reviewed Deep Reinforcement Learning (DRL) within multi-agent system settings independently, our work presented in this review paper focuses on highlighting the integration of DRL-based approaches in MAPF. Moreover, we aim to bridge the current gap in evaluating MAPF solutions by addressing the lack of unified evaluation metrics and providing comprehensive clarification on these metrics. Finally, our paper discusses the potential of model-based DRL as a promising future direction and provides its required foundational understanding to address current challenges in MAPF. Our objective is to assist readers in gaining insight into the current research direction, providing unified metrics for comparing different MAPF algorithms and expanding their knowledge of model-based DRL to address the existing challenges in MAPF.
翻訳日:2024-02-09 19:39:08 公開日:2024-02-08
# AnimateDiff: 特定のチューニングなしで個人化されたテキストと画像の拡散モデルを作る

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning ( http://arxiv.org/abs/2307.04725v2 )

ライセンス: Link先を確認
Yuwei Guo, Ceyuan Yang, Anyi Rao, Zhengyang Liang, Yaohui Wang, Yu Qiao, Maneesh Agrawala, Dahua Lin, Bo Dai(参考訳) テキスト・ツー・イメージ(T2I)拡散モデル(例えば、安定拡散)の進歩とドリームブースやロラのようなそれに対応するパーソナライズ技術により、誰もが高画質の画像に手頃なコストで想像力を表現できる。 しかし、既存の高品質のパーソナライズされたT2Iにモーションダイナミクスを追加し、アニメーションを生成することはオープンな課題である。 本稿では、モデル固有のチューニングを必要とせず、パーソナライズされたt2iモデルをアニメーションするための実用的なフレームワークであるanimationiffを提案する。 私たちのフレームワークの中核は、同じベースであるT2Iから派生したパーソナライズされたT2Iに一度、シームレスに統合できる、プラグインとプレイのモーションモジュールです。 提案する学習戦略により,モーションモジュールは実世界ビデオから転送可能な動作先行を効果的に学習する。 一度トレーニングすると、モーションモジュールはパーソナライズされたt2iモデルに挿入され、パーソナライズされたアニメーションジェネレータを形成する。 さらに、AnimateDiffの軽量な微調整技術であるMotionLoRAを提案し、トレーニング済みのモーションモジュールが、異なるショットタイプなどの新しいモーションパターンに、低トレーニングとデータ収集コストで適応できるようにする。 我々はAnimateDiffとMotionLoRAを,コミュニティから収集した個人化されたT2Iモデルを用いて評価した。 その結果,視覚品質と運動の多様性を保ちつつ,これらのモデルが時間的にスムーズなアニメーションクリップを生成するのに役立つことがわかった。 コードはhttps://github.com/guoyww/animatediff.com/。

With the advance of text-to-image (T2I) diffusion models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. However, adding motion dynamics to existing high-quality personalized T2Is and enabling them to generate animations remains an open challenge. In this paper, we present AnimateDiff, a practical framework for animating personalized T2I models without requiring model-specific tuning. At the core of our framework is a plug-and-play motion module that can be trained once and seamlessly integrated into any personalized T2Is originating from the same base T2I. Through our proposed training strategy, the motion module effectively learns transferable motion priors from real-world videos. Once trained, the motion module can be inserted into a personalized T2I model to form a personalized animation generator. We further propose MotionLoRA, a lightweight fine-tuning technique for AnimateDiff that enables a pre-trained motion module to adapt to new motion patterns, such as different shot types, at a low training and data collection cost. We evaluate AnimateDiff and MotionLoRA on several public representative personalized T2I models collected from the community. The results demonstrate that our approaches help these models generate temporally smooth animation clips while preserving the visual quality and motion diversity. Codes and pre-trained weights are available at https://github.com/guoyww/AnimateDiff.
翻訳日:2024-02-09 19:38:44 公開日:2024-02-08
# 正規設計によるロジスティック回帰におけるパラメータ推定のサンプル複雑性について

On the sample complexity of parameter estimation in logistic regression with normal design ( http://arxiv.org/abs/2307.04191v2 )

ライセンス: Link先を確認
Daniel Hsu, Arya Mazumdar(参考訳) ロジスティック回帰モデルは、ノイズの多いバイナリ分類問題において最も一般的なデータ生成モデルの一つである。 本研究では,ロジスティック回帰モデルのパラメータを与えられた$\ell_2$誤差まで推定するサンプルの複雑さを,標準正規共変量を用いて,次元と逆温度の観点から検討する。 逆温度は、データ生成プロセスの信号対雑音比を制御する。 一般化境界とロジスティック回帰のための最大類似推定器の漸近的性能はよく研究されているが、誤差依存性とパラメータ推定の逆温度を示す非漸近的サンプル複雑性は、以前の解析から外れている。 試料の複雑性曲線は逆温度の点で2つの変化点を持ち, 低温, 中温, 高温状態を明確に分離することを示した。

The logistic regression model is one of the most popular data generation model in noisy binary classification problems. In this work, we study the sample complexity of estimating the parameters of the logistic regression model up to a given $\ell_2$ error, in terms of the dimension and the inverse temperature, with standard normal covariates. The inverse temperature controls the signal-to-noise ratio of the data generation process. While both generalization bounds and asymptotic performance of the maximum-likelihood estimator for logistic regression are well-studied, the non-asymptotic sample complexity that shows the dependence on error and the inverse temperature for parameter estimation is absent from previous analyses. We show that the sample complexity curve has two change-points in terms of the inverse temperature, clearly separating the low, moderate, and high temperature regimes.
翻訳日:2024-02-09 19:38:13 公開日:2024-02-08
# 協調科学のためのインセンティブ理論ベイズ推論

Incentive-Theoretic Bayesian Inference for Collaborative Science ( http://arxiv.org/abs/2307.03748v2 )

ライセンス: Link先を確認
Stephen Bates, Michael I. Jordan, Michael Sklar, Jake A. Soloff(参考訳) 現代の科学研究は、研究者、規制機関、資金機関、商業パートナー、科学機関のチームによって実施され、互いに交流し、異なるインセンティブに直面する分散的協力的な取り組みである。 科学的厳密性を維持するため、統計手法はこの状況を認めなければならない。 この目的のために、未知のパラメータについてプライベートな事前のエージェント(研究者や製薬会社など)とパラメータ値に基づいて意思決定をしたいプリンシパル(政策立案者や規制当局など)が存在する場合の仮説検証について検討する。 エージェントは、自分のプライベートな前付けに基づいて統計試験を行うかどうかを選択し、その後、裁判の結果を校長が決定にたどり着くために使用する。 エージェントの戦略行動によって明らかにされる情報、すなわち、トライアルを行うかどうかという選択を活用する統計的推論を、プリンシパルがどのように行うかを示す。 特に、エージェントのプライベートな事前信念に関する部分的情報を明らかにするためのポリシーを設計し、これをヌルの後方確率を制御するために利用する方法を示す。 1つの意味は、臨床試験において重要なしきい値を選択するための単純なガイドラインである:タイプIエラーレベルは、もし裁判が成功すれば、会社の利益によって分割された裁判のコストより厳密に小さくする必要がある。

Contemporary scientific research is a distributed, collaborative endeavor, carried out by teams of researchers, regulatory institutions, funding agencies, commercial partners, and scientific bodies, all interacting with each other and facing different incentives. To maintain scientific rigor, statistical methods should acknowledge this state of affairs. To this end, we study hypothesis testing when there is an agent (e.g., a researcher or a pharmaceutical company) with a private prior about an unknown parameter and a principal (e.g., a policymaker or regulator) who wishes to make decisions based on the parameter value. The agent chooses whether to run a statistical trial based on their private prior and then the result of the trial is used by the principal to reach a decision. We show how the principal can conduct statistical inference that leverages the information that is revealed by an agent's strategic behavior -- their choice to run a trial or not. In particular, we show how the principal can design a policy to elucidate partial information about the agent's private prior beliefs and use this to control the posterior probability of the null. One implication is a simple guideline for the choice of significance threshold in clinical trials: the type-I error level should be set to be strictly less than the cost of the trial divided by the firm's profit if the trial is successful.
翻訳日:2024-02-09 19:37:52 公開日:2024-02-08
# パノ拡散:360度パノラマ露光

PanoDiffusion: 360-degree Panorama Outpainting via Diffusion ( http://arxiv.org/abs/2307.03177v3 )

ライセンス: Link先を確認
Tianhao Wu, Chuanxia Zheng, Tat-Jen Cham(参考訳) 狭視野画像から完全な360度パノラマを生成することは、全方位RGBデータが容易に利用できないため、現在進行中である。 既存のGANベースのアプローチは、高品質な出力を実現するための障壁に直面し、異なるマスクタイプに対する一般化性能が劣る。 本稿では, 潜伏拡散モデル(ldm)を用いた360度室内rgb-dパノラマ描画モデル(panodiffusion)を提案する。 トレーニング中にRGBと深度パノラマデータの両方を利用する新しいバイモーダル潜時拡散構造を導入する。 さらに,拡散分別ステップ毎にプログレッシブカメラ回転を導入する新しい手法を提案する。 以上の結果から,RGB-Dパノラマにおけるパノ拡散法は,様々な種類のマスクに対して多種多様な構造を持つ結果が得られるだけでなく,高品質のパノラマを合成し,リアルな3次元室内モデルを提供することが可能であることが示唆された。

Generating complete 360-degree panoramas from narrow field of view images is ongoing research as omnidirectional RGB data is not readily available. Existing GAN-based approaches face some barriers to achieving higher quality output, and have poor generalization performance over different mask types. In this paper, we present our 360-degree indoor RGB-D panorama outpainting model using latent diffusion models (LDM), called PanoDiffusion. We introduce a new bi-modal latent diffusion structure that utilizes both RGB and depth panoramic data during training, which works surprisingly well to outpaint depth-free RGB images during inference. We further propose a novel technique of introducing progressive camera rotations during each diffusion denoising step, which leads to substantial improvement in achieving panorama wraparound consistency. Results show that our PanoDiffusion not only significantly outperforms state-of-the-art methods on RGB-D panorama outpainting by producing diverse well-structured results for different types of masks, but can also synthesize high-quality depth panoramas to provide realistic 3D indoor models.
翻訳日:2024-02-09 19:37:29 公開日:2024-02-08
# 概要統計を用いたマルチタスク学習

Multi-Task Learning with Summary Statistics ( http://arxiv.org/abs/2307.02388v2 )

ライセンス: Link先を確認
Parker Knight, Rui Duan(参考訳) マルチタスク学習は、複数のソースからのデータを統合する強力な機械学習パラダイムとして登場し、全体的なモデルパフォーマンスを改善するためにタスク間の類似性を活用する。 しかし、マルチタスク学習を現実世界の設定に適用することは、データ共有の制約によって妨げられている。 この課題に対処するために,様々な情報源の要約統計を利用した柔軟なマルチタスク学習フレームワークを提案する。 さらに,lepski法の変種に基づく適応パラメータ選択手法を提案し,要約統計のみ利用可能な場合のデータ駆動チューニングパラメータ選択を可能にした。 系統的非漸近解析は,提案手法の性能を,サンプルの複雑さと重なりの様々な条件下で特徴付ける。 提案手法の理論的知見と性能を広範囲なシミュレーションにより実証する。 この研究は、遺伝的リスクの予測やその他の多くの分野において実用的な意味を持つ、様々なドメインにわたって関連するモデルをトレーニングするための、より柔軟なツールを提供する。

Multi-task learning has emerged as a powerful machine learning paradigm for integrating data from multiple sources, leveraging similarities between tasks to improve overall model performance. However, the application of multi-task learning to real-world settings is hindered by data-sharing constraints, especially in healthcare settings. To address this challenge, we propose a flexible multi-task learning framework utilizing summary statistics from various sources. Additionally, we present an adaptive parameter selection approach based on a variant of Lepski's method, allowing for data-driven tuning parameter selection when only summary statistics are available. Our systematic non-asymptotic analysis characterizes the performance of the proposed methods under various regimes of the sample complexity and overlap. We demonstrate our theoretical findings and the performance of the method through extensive simulations. This work offers a more flexible tool for training related models across various domains, with practical implications in genetic risk prediction and many other fields.
翻訳日:2024-02-09 19:37:00 公開日:2024-02-08
# 大規模都市データ予測のためのMLPミクサの時空間化

Contextualizing MLP-Mixers Spatiotemporally for Urban Data Forecast at Scale ( http://arxiv.org/abs/2307.01482v5 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Lijun Sun, Wei Ma, Yu Mei, Jian Sun(参考訳) 時空間都市データ(STUD)は複雑な相関パターンを示す。 これらのパターンを効果的に予測するために、広範囲な高度な技術が設計されている。 しかし、STUDは大規模であることが多いため、計算効率の良いモデルを選択することで効率と効率のバランスをとる必要がある。 MLP-Mixerと呼ばれる別のパラダイムは、単純さと有効性の両方の可能性を秘めている。 他のドメインでの成功から着想を得て、studの大規模予測のためにnexusqnというバージョンを提案する。 MLP-Mixersを直接適用する場合の課題を連続的およびウィンドウ的多値性として同定し、空間的パターンと時間的パターンを区別するST-contextualizationを提案する。 実験結果から,ST-contextualization を持つ MLP-Mixers は,都市ベンチマークにおいてSOTA 性能に対抗できることが示された。 さらに、Baiduと共同で、北京や上海などの大都市での交通状況を予測できる能力を評価した都市密集プロジェクトにも投入された。 本研究は,実世界のSTUD予測のための簡易かつ効果的なモデル探索に寄与する。

Spatiotemporal urban data (STUD) displays complex correlational patterns. Extensive advanced techniques have been designed to capture these patterns for effective forecasting. However, because STUD is often massive in scale, practitioners need to strike a balance between effectiveness and efficiency by choosing computationally efficient models. An alternative paradigm called MLP-Mixer has the potential for both simplicity and effectiveness. Taking inspiration from its success in other domains, we propose an adapted version, named NexuSQN, for STUD forecast at scale. We identify the challenges faced when directly applying MLP-Mixers as series- and window-wise multivaluedness and propose the ST-contextualization to distinguish between spatial and temporal patterns. Experimental results surprisingly demonstrate that MLP-Mixers with ST-contextualization can rival SOTA performance when tested on several urban benchmarks. Furthermore, it was deployed in a collaborative urban congestion project with Baidu, specifically evaluating its ability to forecast traffic states in megacities like Beijing and Shanghai. Our findings contribute to the exploration of simple yet effective models for real-world STUD forecasting.
翻訳日:2024-02-09 19:36:47 公開日:2024-02-08
# 変圧器用変圧器

Trainable Transformer in Transformer ( http://arxiv.org/abs/2307.01189v2 )

ライセンス: Link先を確認
Abhishek Panigrahi, Sadhika Malladi, Mengzhou Xia, Sanjeev Arora(参考訳) 最近の研究は、大規模な事前訓練された言語モデルにおけるインコンテキスト学習(ICL)が、推論中に内部モデル(リニアまたは2層MLP)を暗黙的にシミュレートし、微調整する能力に起因している。 しかし、そのような構造はメモリオーバーヘッドが大きいため、より洗練された内部モデルのシミュレーションが困難になる。 本研究では,トランスフォーマーにおけるトランスフォーマー(略してTinT)の効率的な構築法を提案する。これにより,トランスフォーマーは推論中に内部的に複雑なモデルをシミュレートし,微調整することができる(例えば,事前訓練された言語モデル)。 特に,20億パラメータ未満のTinTモデルに対して,1回のフォワードパス内で1億2500万パラメータトランスフォーマーモデルをシミュレートし,微調整できる革新的な近似手法を導入する。 TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。 我々は、様々な言語モデリングおよび下流タスクにおいて、TinTの内部微調整手順を検証するためにエンドツーエンドの実験を行う。 例えば、1段階の予算が限られても、OPT-125Mモデルに対するTinTはOPT-125Mと比較して平均で4-16%向上する。 これらの結果から,大規模な事前学習言語モデルでは複雑なサブルーチンの実行が可能であることが示唆された。 さらなる作業を容易にするため、TinT用のモジュール化された拡張可能なコードベースが含まれている。

Recent works attribute the capability of in-context learning (ICL) in large pre-trained language models to implicitly simulating and fine-tuning an internal model (e.g., linear or 2-layer MLP) during inference. However, such constructions require large memory overhead, which makes simulation of more sophisticated internal models intractable. In this work, we propose an efficient construction, Transformer in Transformer (in short, TinT), that allows a transformer to simulate and fine-tune complex models internally during inference (e.g., pre-trained language models). In particular, we introduce innovative approximation techniques that allow a TinT model with less than 2 billion parameters to simulate and fine-tune a 125 million parameter transformer model within a single forward pass. TinT accommodates many common transformer variants and its design ideas also improve the efficiency of past instantiations of simple models inside transformers. We conduct end-to-end experiments to validate the internal fine-tuning procedure of TinT on various language modeling and downstream tasks. For example, even with a limited one-step budget, we observe TinT for a OPT-125M model improves performance by 4-16% absolute on average compared to OPT-125M. These findings suggest that large pre-trained language models are capable of performing intricate subroutines. To facilitate further work, a modular and extensible codebase for TinT is included.
翻訳日:2024-02-09 19:36:28 公開日:2024-02-08
# 大規模言語モデルによるサイバー脅威検出の革命:IoT/IIoTデバイスのためのプライバシー保護BERTベースの軽量モデル

Revolutionizing Cyber Threat Detection with Large Language Models: A privacy-preserving BERT-based Lightweight Model for IoT/IIoT Devices ( http://arxiv.org/abs/2306.14263v2 )

ライセンス: Link先を確認
Mohamed Amine Ferrag, Mthandazo Ndhlovu, Norbert Tihanyi, Lucas C. Cordeiro, Merouane Debbah, Thierry Lestable, Narinderjit Singh Thandi(参考訳) 自然言語処理(nlp)の分野は現在、革新的なトランスフォーマーアーキテクチャに基づいた事前訓練された大規模言語モデル(llms)の力によって駆動される革命的な変革が行われている。 サイバーセキュリティ攻撃の頻度と多様性が増加し続けており、インシデント検出の重要性が著しく高まっている。 IoTデバイスは急速に拡大しており、高い精度と最小の計算要件の両方でIoTネットワークにおけるネットワークベースの攻撃を自律的に識別する効率的なテクニックの必要性が高まっている。 本稿では,双方向エンコーダ表現(BERT)モデルを利用した新しいアーキテクチャであるSecurityBERTを,IoTネットワークにおけるサイバー脅威検出に適用する。 SecurityBERTのトレーニング中に、プライバシー保護固定長符号化(PPFLE)と呼ばれる新しいプライバシ保護符号化手法を組み込んだ。 我々は、PPFLEとByte-level Byte-Pair Encoder (BBPE) Tokenizerを組み合わせることで、ネットワークトラフィックデータを構造化形式で効果的に表現した。 我々の研究は、SecurityBERTがサイバー脅威検出において、畳み込みニューラルネットワーク(CNN)やリカレントニューラルネットワーク(RNN)など、従来の機械学習(ML)およびディープラーニング(DL)手法より優れていることを示した。 Edge-IIoTsetのサイバーセキュリティデータセットを使用することで、SecurityBERTは、14の異なる攻撃タイプを識別する上で、98.2%の全体的な精度を達成し、GAN-TransformerベースのアーキテクチャやCNN-LSTMモデルといったハイブリッドソリューションによって設定された過去の記録を上回りました。 平均CPUで0.15秒未満の推論時間と16.7MBのコンパクトモデルサイズを持つSecurityBERTは、現実のトラフィック分析に理想的であり、リソースに制約のあるIoTデバイスへのデプロイメントに適した選択である。

The field of Natural Language Processing (NLP) is currently undergoing a revolutionary transformation driven by the power of pre-trained Large Language Models (LLMs) based on groundbreaking Transformer architectures. As the frequency and diversity of cybersecurity attacks continue to rise, the importance of incident detection has significantly increased. IoT devices are expanding rapidly, resulting in a growing need for efficient techniques to autonomously identify network-based attacks in IoT networks with both high precision and minimal computational requirements. This paper presents SecurityBERT, a novel architecture that leverages the Bidirectional Encoder Representations from Transformers (BERT) model for cyber threat detection in IoT networks. During the training of SecurityBERT, we incorporated a novel privacy-preserving encoding technique called Privacy-Preserving Fixed-Length Encoding (PPFLE). We effectively represented network traffic data in a structured format by combining PPFLE with the Byte-level Byte-Pair Encoder (BBPE) Tokenizer. Our research demonstrates that SecurityBERT outperforms traditional Machine Learning (ML) and Deep Learning (DL) methods, such as Convolutional Neural Networks (CNNs) or Recurrent Neural Networks (RNNs), in cyber threat detection. Employing the Edge-IIoTset cybersecurity dataset, our experimental analysis shows that SecurityBERT achieved an impressive 98.2% overall accuracy in identifying fourteen distinct attack types, surpassing previous records set by hybrid solutions such as GAN-Transformer-based architectures and CNN-LSTM models. With an inference time of less than 0.15 seconds on an average CPU and a compact model size of just 16.7MB, SecurityBERT is ideally suited for real-life traffic analysis and a suitable choice for deployment on resource-constrained IoT devices.
翻訳日:2024-02-09 19:36:02 公開日:2024-02-08
# RemoteCLIP:リモートセンシングのためのビジョン言語基礎モデル

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing ( http://arxiv.org/abs/2306.11029v3 )

ライセンス: Link先を確認
Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou(参考訳) 汎用的な基礎モデルは、最近の人工知能のブレークスルーに繋がった。 リモートセンシングでは、基礎モデルを構築するために、自己教師付き学習(SSL)とMasked Image Modeling(MIM)が採用されている。 しかし、これらのモデルは主に低レベルの特徴を学習し、微調整のために注釈付きデータを必要とする。 さらに、言語理解が欠如しているため、検索やゼロショットアプリケーションにも適用できない。 こうした制約に対処するため,我々はリモートセンシングのための最初のビジョン言語基盤モデルであるRemoteCLIPを提案し,シームレスな下流アプリケーションのためのリッチなセマンティクスとアライメントされたテキスト埋め込みによる堅牢な視覚特徴の学習を目指している。 事前学習データの不足に対処するために、異種アノテーションをBox-to-Caption (B2C) と Mask-to-Box (M2B) の変換に基づく統合イメージキャプションデータフォーマットに変換するデータスケーリングを利用する。 UAV画像をさらに取り入れることで、利用可能なすべてのデータセットの組み合わせよりも12$\times$大きな事前トレーニングデータセットを生成します。 リモートCLIPは、ゼロショット画像分類、線形プローブ、$\textit{k}$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。 オブジェクトカウント能力をテストするために新たに導入されたRemoteCountベンチマークを含む16のデータセットの評価は、RemoteCLIPがさまざまなモデルスケールでベースライン基盤モデルより一貫して優れていることを示している。 驚くべきことに、RemoteCLIPはRSITMDデータセットでは9.14%、RSICDデータセットでは8.92%という最先端の手法を破っている。 ゼロショット分類では、12の下流データセットの平均精度を最大6.39%向上させています。 プロジェクトウェブサイト:https://github.com/ChenDelong 1999/RemoteCLIP

General-purpose foundation models have led to recent breakthroughs in artificial intelligence. In remote sensing, self-supervised learning (SSL) and Masked Image Modeling (MIM) have been adopted to build foundation models. However, these models primarily learn low-level features and require annotated data for fine-tuning. Moreover, they are inapplicable for retrieval and zero-shot applications due to the lack of language understanding. To address these limitations, we propose RemoteCLIP, the first vision-language foundation model for remote sensing that aims to learn robust visual features with rich semantics and aligned text embeddings for seamless downstream application. To address the scarcity of pre-training data, we leverage data scaling which converts heterogeneous annotations into a unified image-caption data format based on Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion. By further incorporating UAV imagery, we produce a 12 $\times$ larger pretraining dataset than the combination of all available datasets. RemoteCLIP can be applied to a variety of downstream tasks, including zero-shot image classification, linear probing, $\textit{k}$-NN classification, few-shot classification, image-text retrieval, and object counting in remote sensing images. Evaluation on 16 datasets, including a newly introduced RemoteCount benchmark to test the object counting ability, shows that RemoteCLIP consistently outperforms baseline foundation models across different model scales. Impressively, RemoteCLIP beats the state-of-the-art method by 9.14% mean recall on the RSITMD dataset and 8.92% on the RSICD dataset. For zero-shot classification, our RemoteCLIP outperforms the CLIP baseline by up to 6.39% average accuracy on 12 downstream datasets. Project website: https://github.com/ChenDelong1999/RemoteCLIP
翻訳日:2024-02-09 19:35:29 公開日:2024-02-08
# オーバーコンプリート準確率表現における量子回路の負性最小化

Minimizing the negativity of quantum circuits in overcomplete quasiprobability representations ( http://arxiv.org/abs/2306.10758v2 )

ライセンス: Link先を確認
Denis A. Kulikov, Vsevolod I. Yashin, Aleksey K. Fedorov, and Evgeniy O. Kiktenko(参考訳) 古典的資源を用いた量子プロセスのシミュラビリティの問題は、量子コンピューティングの基盤となる役割を担っている。 量子回路は古典的には、例えばモンテカルロサンプリング技術を用いて回路の基本要素、すなわち状態、ゲート、測定の準確率表現をシミュレートすることができる。 シミュレーションの有効性は、これらの基本要素の表現における負性率の量によって決定される。 ここでは、量子回路の準確率表現に関する全負性(英語版)を最小化するアプローチ、すなわち、対応する準確率ベクトルと行列の次元が量子状態の2乗次元よりも大きいような方法を開発する。 提案手法は,超完全性によって現れる等価準確率ベクトルと行列に対する最適化と,超完全フレームに対する最適化の両方を含む。 本研究では,いくつかの例に対して開発した手法の性能を実証し,標準的超完全準確率表現と比較してその有意なアドバンテージを示す。 また, フレーム次元の増大とゲートマージの併用により, ノイズブロック壁ランダム回路のネガティビティ最小化について検討した。 強いデコヒーレンスの場合,前者のアプローチの方が効率的であることを示す。

The problem of simulatability of quantum processes using classical resources plays a cornerstone role for quantum computing. Quantum circuits can be simulated classically, e.g., using Monte Carlo sampling techniques applied to quasiprobability representations of circuits' basic elements, i.e., states, gates, and measurements. The effectiveness of the simulation is determined by the amount of the negativity in the representation of these basic elements. Here we develop an approach for minimizing the total negativity of a given quantum circuit with respect to quasiprobability representations, that are overcomplete, i.e., are such that the dimensionality of corresponding quasistochastic vectors and matrices is larger than the squared dimension of quantum states. Our approach includes both optimization over equivalent quasistochastic vectors and matrices, which appear due to the overcompleteness, and optimization over overcomplete frames. We demonstrate the performance of the developed approach on some illustrative cases, and show its significant advantage compared to the standard overcomplete quasistochastic representations. We also study the negativity minimization of noisy brick-wall random circuits via a combination of increasing frame dimension and applying gate merging technique. We demonstrate that the former approach appears to be more efficient in the case of a strong decoherence.
翻訳日:2024-02-09 19:34:57 公開日:2024-02-08
# DDLP:深部動的潜伏粒子を用いた教師なし物体中心映像予測

DDLP: Unsupervised Object-Centric Video Prediction with Deep Dynamic Latent Particles ( http://arxiv.org/abs/2306.05957v2 )

ライセンス: Link先を確認
Tal Daniel, Aviv Tamar(参考訳) 本稿では,DLP(Deep Latent Particle)表現に基づくオブジェクト中心のビデオ予測アルゴリズムを提案する。 既存のスロットやパッチベースの表現と比較して、DLPは、位置やサイズなどの特性の学習パラメータを持つキーポイントのセットを使用してシーンをモデル化する。 提案手法であるdeep dynamic latent particles (ddlp) は,いくつかの難解なデータセットに対して最先端のオブジェクト中心ビデオ予測結果を生成する。 DDLPの解釈可能な性質により,初期フレームにおけるオブジェクトの特性変化の結果を予測する「What-if'」生成が可能となり,DLPのコンパクト構造は効率よく拡散ベースの非条件ビデオ生成を可能にする。 ビデオ、コード、事前訓練されたモデルが利用可能である。

We propose a new object-centric video prediction algorithm based on the deep latent particle (DLP) representation. In comparison to existing slot- or patch-based representations, DLPs model the scene using a set of keypoints with learned parameters for properties such as position and size, and are both efficient and interpretable. Our method, deep dynamic latent particles (DDLP), yields state-of-the-art object-centric video prediction results on several challenging datasets. The interpretable nature of DDLP allows us to perform ``what-if'' generation -- predict the consequence of changing properties of objects in the initial frames, and DLP's compact structure enables efficient diffusion-based unconditional video generation. Videos, code and pre-trained models are available: https://taldatech.github.io/ddlp-web
翻訳日:2024-02-09 19:34:37 公開日:2024-02-08
# 誤分類検出のためのデータ駆動型相対不確かさ尺度

A Data-Driven Measure of Relative Uncertainty for Misclassification Detection ( http://arxiv.org/abs/2306.01710v2 )

ライセンス: Link先を確認
Eduardo Dadalto, Marco Romanelli, Georg Pichler, and Pablo Piantanida(参考訳) モデルの予測が信頼できないインスタンスの識別を可能にするため、機械学習では誤分類検出が重要な問題である。 しかし、シャノンエントロピーのような従来の不確実性尺度は、モデルの予測に関連する実際の不確実性を予測する効果的な方法を提供していない。 本稿では,誤分類検出のための観測者に対する不確実性の新たなデータ駆動尺度を提案する。 ソフト予測分布のパターンを学習することにより,予測されたクラス確率に基づいて,不確かさ尺度が誤分類されたサンプルを識別できる。 提案した測定値によると,シャノンエントロピーが低い場合でも,誤分類された事例に対応するソフト予測が大量の不確実性をもたらす可能性がある。 複数の画像分類タスクに対する経験的改善を示し、最先端の誤分類検出方法より優れていることを示す。

Misclassification detection is an important problem in machine learning, as it allows for the identification of instances where the model's predictions are unreliable. However, conventional uncertainty measures such as Shannon entropy do not provide an effective way to infer the real uncertainty associated with the model's predictions. In this paper, we introduce a novel data-driven measure of uncertainty relative to an observer for misclassification detection. By learning patterns in the distribution of soft-predictions, our uncertainty measure can identify misclassified samples based on the predicted class probabilities. Interestingly, according to the proposed measure, soft-predictions corresponding to misclassified instances can carry a large amount of uncertainty, even though they may have low Shannon entropy. We demonstrate empirical improvements over multiple image classification tasks, outperforming state-of-the-art misclassification detection methods.
翻訳日:2024-02-09 19:34:25 公開日:2024-02-08
# 分散非回帰高次元ベイズ最適化における加法的制約の緩和

Relaxing the Additivity Constraints in Decentralized No-Regret High-Dimensional Bayesian Optimization ( http://arxiv.org/abs/2305.19838v4 )

ライセンス: Link先を確認
Anthony Bardou, Patrick Thiran and Thomas Begin(参考訳) ベイズ最適化(BO)は一般に、最適化の各ステップで最大化されなければならない取得関数を利用することで、ノイズの多い未知の関数の$f$を最適化するために使用される。 漸近的に最適なboアルゴリズムが低次元関数の最適化に効率的であるとしても、高次元空間への拡張は未解決の問題であり、しばしば加法構造を$f$と仮定して取り組まれる。 BOアルゴリズムは一般に、適用可能性領域を減少させる付加的構造に関する追加の制限的な仮定を導入する。 本論文の主な貢献は2つある。 (i)取得関数の最大化保証を弱めることなく、$f$の加法構造上の制限的な仮定を緩和する。 (II)分散BOアルゴリズムの過剰探索問題に対処する。 これらの目的のために、DuMBOという漸近的に最適な分散BOアルゴリズムを提案し、特に$f$の加法構造が高次元要素を構成する場合、最先端BOアルゴリズムと非常に競合する性能を実現する。

Bayesian Optimization (BO) is typically used to optimize an unknown function $f$ that is noisy and costly to evaluate, by exploiting an acquisition function that must be maximized at each optimization step. Even if provably asymptotically optimal BO algorithms are efficient at optimizing low-dimensional functions, scaling them to high-dimensional spaces remains an open problem, often tackled by assuming an additive structure for $f$. By doing so, BO algorithms typically introduce additional restrictive assumptions on the additive structure that reduce their applicability domain. This paper contains two main contributions: (i) we relax the restrictive assumptions on the additive structure of $f$ without weakening the maximization guarantees of the acquisition function, and (ii) we address the over-exploration problem for decentralized BO algorithms. To these ends, we propose DuMBO, an asymptotically optimal decentralized BO algorithm that achieves very competitive performance against state-of-the-art BO algorithms, especially when the additive structure of $f$ comprises high-dimensional factors.
翻訳日:2024-02-09 19:34:12 公開日:2024-02-08
# 異なる測定コンテキスト間の定量的関係

Quantitative relations between different measurement contexts ( http://arxiv.org/abs/2305.14873v3 )

ライセンス: Link先を確認
Ming Ji and Holger F. Hofmann(参考訳) 量子論において、測定コンテキストはヒルベルト空間内の直交基底によって定義され、各基底ベクトルは特定の測定結果を表す。 したがって、2つの異なる測定コンテキスト間の正確な定量的関係は、ヒルベルト空間における非直交状態の内積によって特徴づけられる。 ここでは、異なる文脈で共有される測定結果を用いて、異なる文脈を表すヒルベルト空間ベクトルの内部積の間の特定の量的関係を導出する。 量子的文脈性のパラドックスを記述する確率は、非常に少数の内部積から導き出すことができ、非文脈的極限の基本的な違反を超えた測定コンテキスト間の基本的な関係の詳細を明らかにする。 2つの系の積空間への解析の適用により、量子エンタングルメントの非局所性は、1つの系における測定コンテキスト間の関係を表す局所内積に遡ることができることが明らかとなった。 この結果から、量子力学の本質的な非古典的特徴は、量子重ね合わせと古典的代替物との根本的な違いに遡ることができることが示唆された。

In quantum theory, a measurement context is defined by an orthogonal basis in a Hilbert space, where each basis vector represents a specific measurement outcome. The precise quantitative relation between two different measurement contexts can thus be characterized by the inner products of nonorthogonal states in that Hilbert space. Here, we use measurement outcomes that are shared by different contexts to derive specific quantitative relations between the inner products of the Hilbert space vectors that represent the different contexts. It is shown that the probabilities that describe the paradoxes of quantum contextuality can be derived from a very small number of inner products, revealing details of the fundamental relations between measurement contexts that go beyond a basic violation of noncontextual limits. The application of our analysis to a product space of two systems reveals that the nonlocality of quantum entanglement can be traced back to a local inner product representing the relation between measurement contexts in only one system. Our results thus indicate that the essential nonclassical features of quantum mechanics can be traced back to the fundamental difference between quantum superpositions and classical alternatives.
翻訳日:2024-02-09 19:33:52 公開日:2024-02-08
# パーソナライズされたテキスト生成のためのプロンプトの書き直し学習

Learning to Rewrite Prompts for Personalized Text Generation ( http://arxiv.org/abs/2310.00152v2 )

ライセンス: Link先を確認
Cheng Li, Mingyang Zhang, Qiaozhu Mei, Weize Kong, Michael Bendersky(参考訳) 大規模言語モデル (LLM) に特化され, 個人化されたテキスト生成が急速に研究の方向性を増している。 既存の研究の多くは、特定のドメインのための特別なモデルを設計することに焦点を当てている。 パーソナライズされた出力を生成する大規模言語モデルが凍結され,APIを通じてのみアクセス可能な,典型的なシナリオを考察する。 この制約の下では、通常手動で行う手順であるLSMに送られる入力テキスト(すなわちテキストプロンプト)を改善することができる。 本稿では,パーソナライズされたテキスト生成のためのプロンプトを自動修正する新しい手法を提案する。 提案手法は、パーソナライズされた生成のための最先端多段階フレームワークによって生成された初期プロンプトを取り込み、パーソナルコンテキストを要約して合成するいくつかの重要なコンポーネントを書き換える。 プロンプトリライタは、教師付き学習(SL)と強化学習(RL)を連携させる訓練パラダイムを採用しており、SLはRLとRLの検索スペースを削減し、リライタのエンドツーエンドトレーニングを促進する。 3つの代表的なドメインのデータセットを用いて、書き換えプロンプトが元のプロンプトと教師付き学習や強化学習のみで最適化されたプロンプトの両方より優れていることを示す。 書き直しプロンプトの詳細な分析は、人間の読みやすいだけでなく、プロンプトリライタのトレーニングに強化学習を利用するリソースが限られている場合や、推論のための自動プロンプトリライタのデプロイにコストがかかる場合のプロンプトの手作業による修正も可能であることを示している。

Facilitated by large language models (LLMs), personalized text generation has become a rapidly growing research direction. Most existing studies focus on designing specialized models for a particular domain, or they require fine-tuning the LLMs to generate personalized text. We consider a typical scenario in which the large language model, which generates personalized output, is frozen and can only be accessed through APIs. Under this constraint, all one can do is to improve the input text (i.e., text prompts) sent to the LLM, a procedure that is usually done manually. In this paper, we propose a novel method to automatically revise prompts for personalized text generation. The proposed method takes the initial prompts generated by a state-of-the-art, multistage framework for personalized generation and rewrites a few critical components that summarize and synthesize the personal context. The prompt rewriter employs a training paradigm that chains together supervised learning (SL) and reinforcement learning (RL), where SL reduces the search space of RL and RL facilitates end-to-end training of the rewriter. Using datasets from three representative domains, we demonstrate that the rewritten prompts outperform both the original prompts and the prompts optimized via supervised learning or reinforcement learning alone. In-depth analysis of the rewritten prompts shows that they are not only human readable, but also able to guide manual revision of prompts when there is limited resource to employ reinforcement learning to train the prompt rewriter, or when it is costly to deploy an automatic prompt rewriter for inference.
翻訳日:2024-02-09 19:26:31 公開日:2024-02-08
# 局所仮想浄化

Localized Virtual Purification ( http://arxiv.org/abs/2308.13500v2 )

ライセンス: Link先を確認
Hideaki Hakoshima, Suguru Endo, Kaoru Yamamoto, Yuichiro Matsuzaki, Nobuyuki Yoshioka(参考訳) アナログおよびデジタル量子シミュレータは、自然現象に現れる量子多体系を効率的にシミュレートすることができる。 しかし、短期デバイスの実験的な限界は、量子シミュレーションのプロセス全体の実行を困難にしている。 浄化に基づく量子シミュレーション手法は, 冷却温度や環境騒音などの実験における限界を緩和できるが, 本手法では, システムサイズに指数関数的にスケールする非常に大きな測定値を持つ大域的絡み合い測定が必要であるという欠点がある。 本報告では,システムの局所性が悪用された場合に,測定対象の局所観測対象物近傍に絡み合った測定値を制限することで,これらの問題を克服できることを示す。 我々は,特に冷却と誤差緩和のタスクにおいて,グローバル浄化操作を局所操作に置き換えることができることを理論的に保証する。 さらに,条件が満たされていない場合でも,局所浄化が有効であることを示す数値検証を行う。 本手法は,量子シミュレータと局所性の基本的な概念を橋渡しし,未探索の量子多体現象への道を開くことを期待する。

Analog and digital quantum simulators can efficiently simulate quantum many-body systems that appear in natural phenomena. However, experimental limitations of near-term devices still make it challenging to perform the entire process of quantum simulation. The purification-based quantum simulation methods can alleviate the limitations in experiments such as the cooling temperature and noise from the environment, while this method has the drawback that it requires global entangled measurement with a prohibitively large number of measurements that scales exponentially with the system size. In this Letter, we propose that we can overcome these problems by restricting the entangled measurements to the vicinity of the local observables to be measured, when the locality of the system can be exploited. We provide theoretical guarantees that the global purification operation can be replaced with local operations under some conditions, in particular for the task of cooling and error mitigation. We furthermore give a numerical verification that the localized purification is valid even when conditions are not satisfied. Our method bridges the fundamental concept of locality with quantum simulators, and therefore expected to open a path to unexplored quantum many-body phenomena.
翻訳日:2024-02-09 19:25:34 公開日:2024-02-08
# scp:球座標ベースの学習点クラウド圧縮

SCP: Spherical-Coordinate-based Learned Point Cloud Compression ( http://arxiv.org/abs/2308.12535v3 )

ライセンス: Link先を確認
Ao Luo, Linxin Song, Keisuke Nonaka, Kyohei Unno, Heming Sun, Masayuki Goto, Jiro Katto(参考訳) 近年,学習ポイントクラウド圧縮の課題が注目されている。 重要なタイプの点雲、すなわち回転するLiDAR点雲は、車両上でLiDARを回転させることによって生成される。 この過程は、点雲内の多数の円形形状と方位角不変性をもたらす。 しかし、これら2つの特徴は、以前の手法では見過ごされていた。 本稿では,Spherical-Coordinate-based learned Point cloud compression (SCP)と呼ばれるモデルに依存しない手法を提案する。 さらに,球面座標系Octree内における遠隔領域の復元誤差を軽減するため,SCP用マルチレベルOctreeを提案する。 SCPは優れた普遍性を示し、様々な学習点クラウド圧縮技術に適用できる。 実験の結果、PSNR BD-Rateでは、SCPが従来の最先端手法を29.14%上回ることがわかった。

In recent years, the task of learned point cloud compression has gained prominence. An important type of point cloud, the spinning LiDAR point cloud, is generated by spinning LiDAR on vehicles. This process results in numerous circular shapes and azimuthal angle invariance features within the point clouds. However, these two features have been largely overlooked by previous methodologies. In this paper, we introduce a model-agnostic method called Spherical-Coordinate-based learned Point cloud compression (SCP), designed to leverage the aforementioned features fully. Additionally, we propose a multi-level Octree for SCP to mitigate the reconstruction error for distant areas within the Spherical-coordinate-based Octree. SCP exhibits excellent universality, making it applicable to various learned point cloud compression techniques. Experimental results demonstrate that SCP surpasses previous state-of-the-art methods by up to 29.14% in point-to-point PSNR BD-Rate.
翻訳日:2024-02-09 19:25:15 公開日:2024-02-08
# 大規模・未ラベル自然画像を用いた医療AIモデルのネットワーク初期化の促進

Enhancing Network Initialization for Medical AI Models Using Large-Scale, Unlabeled Natural Images ( http://arxiv.org/abs/2308.07688v5 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Leo Misera, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung(参考訳) ImageNetのような事前トレーニングデータセットは、医療画像分析におけるゴールドスタンダードとなっている。 しかし、ラベルのないデータを利用して堅牢な特徴を学習する自己教師付き学習(SSL)の出現は、集中的なラベリングプロセスをバイパスする機会を与える。 本研究では,非医用画像に対する事前トレーニングのためのSSLが胸部X線写真に適用可能か,非医用画像および医用画像に対する教師付き事前トレーニングとの比較を行った。 視覚トランスフォーマーを利用して 重みを初期化しました (i)自然画像によるSSL事前トレーニング(DINOv2) (ii)自然画像(画像Netデータセット)におけるSL事前学習 3)MIMIC-CXRデータベースからの胸部X線写真によるSL事前訓練 我々は6つの大きなグローバルデータセットから800,000以上の胸部X線撮影を行い、20以上の異なる画像所見を診断した。 我々のSSL事前トレーニングは、ImageNetベースの事前トレーニング(P<0.001)に勝るだけでなく、MIMIC-CXRデータセット上のSLを上回りました。 以上の結果から,適切な事前トレーニング戦略,特にSSLを選択することは,医用画像における人工知能(AI)の診断精度の向上に重要であることが示唆された。 胸部x線写真解析におけるsslの有望性を示すことで、医療画像におけるより効率的で正確なaiモデルへの転換を示唆する。

Pre-training datasets, like ImageNet, have become the gold standard in medical image analysis. However, the emergence of self-supervised learning (SSL), which leverages unlabeled data to learn robust features, presents an opportunity to bypass the intensive labeling process. In this study, we explored if SSL for pre-training on non-medical images can be applied to chest radiographs and how it compares to supervised pre-training on non-medical images and on medical images. We utilized a vision transformer and initialized its weights based on (i) SSL pre-training on natural images (DINOv2), (ii) SL pre-training on natural images (ImageNet dataset), and (iii) SL pre-training on chest radiographs from the MIMIC-CXR database. We tested our approach on over 800,000 chest radiographs from six large global datasets, diagnosing more than 20 different imaging findings. Our SSL pre-training on curated images not only outperformed ImageNet-based pre-training (P<0.001 for all datasets) but, in certain cases, also exceeded SL on the MIMIC-CXR dataset. Our findings suggest that selecting the right pre-training strategy, especially with SSL, can be pivotal for improving artificial intelligence (AI)'s diagnostic accuracy in medical imaging. By demonstrating the promise of SSL in chest radiograph analysis, we underline a transformative shift towards more efficient and accurate AI models in medical imaging.
翻訳日:2024-02-09 19:25:01 公開日:2024-02-08
# 弱シンプレクティックリフトを用いた非線形ハミルトン系の二次表現のデータ駆動同定

Data-Driven Identification of Quadratic Representations for Nonlinear Hamiltonian Systems using Weakly Symplectic Liftings ( http://arxiv.org/abs/2308.01084v2 )

ライセンス: Link先を確認
S\"uleyman Yildiz, Pawan Goyal, Thomas Bendokat and Peter Benner(参考訳) データを用いたハミルトンシステムの学習フレームワークを提案する。 この研究は、非線形ハミルトニアン系が立方体ハミルトニアンを持つ非線形系として書けると仮定する持ち上げ仮説に基づいている。 これにより、変換座標系においてハミルトニアンである二次力学が得られる。 そこで,与えられた一般化位置と運動量データに対して,ハミルトニアン構造と弱強化シンプレクティックオートエンコーダを組み合わせた二次力学系を学ぶ手法を提案する。 得られたハミルトニアン構造はシステムの長期安定性を示し、立方体ハミルトニアン関数はモデルの複雑さが比較的低い。 低次元データでは高次元変換座標系を決定するが、高次元データでは所望の特性を持つ低次元座標系を求める。 低次元および高次元の非線形ハミルトニアン系を用いて提案手法を実証する。

We present a framework for learning Hamiltonian systems using data. This work is based on a lifting hypothesis, which posits that nonlinear Hamiltonian systems can be written as nonlinear systems with cubic Hamiltonians. By leveraging this, we obtain quadratic dynamics that are Hamiltonian in a transformed coordinate system. To that end, for given generalized position and momentum data, we propose a methodology to learn quadratic dynamical systems, enforcing the Hamiltonian structure in combination with a weakly-enforced symplectic auto-encoder. The obtained Hamiltonian structure exhibits long-term stability of the system, while the cubic Hamiltonian function provides relatively low model complexity. For low-dimensional data, we determine a higher-dimensional transformed coordinate system, whereas for high-dimensional data, we find a lower-dimensional coordinate system with the desired properties. We demonstrate the proposed methodology by means of both low-dimensional and high-dimensional nonlinear Hamiltonian systems.
翻訳日:2024-02-09 19:23:47 公開日:2024-02-08
# ジェネレーティブAIのための強化学習 - 最先端、機会、オープンリサーチの課題

Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges ( http://arxiv.org/abs/2308.00031v4 )

ライセンス: Link先を確認
Giorgio Franceschelli and Mirco Musolesi(参考訳) Generative Artificial Intelligence(AI)は、コンピュータ科学における過去10年で最もエキサイティングな発展の1つだ。 同時に、強化学習(rl)は、さまざまな機械学習タスクにおいて非常に成功したパラダイムとして現れています。 本稿では,RLを生成AIに適用するための技術,機会,オープンな研究課題について論じる。 特に、目的関数を同時に最大化しながら出力を生成する方法としてRL、目的関数によって容易に捕捉できない所望の特性を生成プロセスに組み込む方法として、RLを特定の目的関数なしで生成する代替方法として論じる。 我々は,この魅力的な新興地域の機会と課題について,深く議論して調査を締めくくった。

Generative Artificial Intelligence (AI) is one of the most exciting developments in Computer Science of the last decade. At the same time, Reinforcement Learning (RL) has emerged as a very successful paradigm for a variety of machine learning tasks. In this survey, we discuss the state of the art, opportunities and open research questions in applying RL to generative AI. In particular, we will discuss three types of applications, namely, RL as an alternative way for generation without specified objectives; as a way for generating outputs while concurrently maximizing an objective function; and, finally, as a way of embedding desired characteristics, which cannot be easily captured by means of an objective function, into the generative process. We conclude the survey with an in-depth discussion of the opportunities and challenges in this fascinating emerging area.
翻訳日:2024-02-09 19:23:30 公開日:2024-02-08
# Lookbehind-SAM: k ステップ後退、1 ステップ前進

Lookbehind-SAM: k steps back, 1 step forward ( http://arxiv.org/abs/2307.16704v2 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido, Pranshu Malviya, Aristide Baratin, Sarath Chandar(参考訳) シャープネス認識最小化(SAM)法は、損失値と損失シャープネスの両方を最小化する問題をミニマックス目的として定式化し、人気を高めている。 本研究では,SAM目標の最大化および最小化部分の効率を向上し,ロスシャープ性トレードオフを向上する。 複数の降下ステップを使用するlookaheadオプティマイザからインスピレーションを得て、samの最大化ステップを強化するために複数の上昇ステップを実行し、損失が大きい最悪のケースの摂動を見つけるlookbehindを提案する。 そして,複数の上昇ステップにまたがって集まった勾配から生じる降下ステップの分散を緩和するために,線形補間を用いて最小化ステップを洗練する。 Lookbehindはさまざまなタスクに無数のメリットをもたらします。 特に, 一般化性能の向上, ノイズ重みに対する強靭性の向上, 学習の改善, 生涯学習環境における破滅的な忘れ込みの低減が見られた。

Sharpness-aware minimization (SAM) methods have gained increasing popularity by formulating the problem of minimizing both loss value and loss sharpness as a minimax objective. In this work, we increase the efficiency of the maximization and minimization parts of SAM's objective to achieve a better loss-sharpness trade-off. By taking inspiration from the Lookahead optimizer, which uses multiple descent steps ahead, we propose Lookbehind, which performs multiple ascent steps behind to enhance the maximization step of SAM and find a worst-case perturbation with higher loss. Then, to mitigate the variance in the descent step arising from the gathered gradients across the multiple ascent steps, we employ linear interpolation to refine the minimization step. Lookbehind leads to a myriad of benefits across a variety of tasks. Particularly, we show increased generalization performance, greater robustness against noisy weights, as well as improved learning and less catastrophic forgetting in lifelong learning settings.
翻訳日:2024-02-09 19:23:18 公開日:2024-02-08
# 量子Big-M$問題を軽減する

Alleviating the quantum Big-$M$ problem ( http://arxiv.org/abs/2307.10379v3 )

ライセンス: Link先を確認
Edoardo Alessandroni, Sergi Ramos-Calderer, Ingo Roth, Emiliano Traversi, Leandro Aolita(参考訳) 量子オプティマイザの大きな障害は、2次非制約バイナリ最適化(QUBO)としての制約の修正である。 現在のQUBO翻訳者は、罰則の重量をM$で誇張している。 古典的に "big-$m$" 問題として知られているこの問題は、物理的エネルギースケールに影響を与えるため、量子ソルバにとってさらに厄介な問題となる。 量子big-m$問題に関する体系的かつ包括的な考察を行い、最適な$m$ を見つけるためのnp-ハードネスを明らかにし、ハミルトニアンスペクトルギャップ上の境界を、量子ソルバの期待実行時間と逆関係に設定する。 本研究では,sdp緩和に基づく実用的な翻訳アルゴリズムを提案する。 このアルゴリズムは、例えばポートフォリオ最適化インスタンスに対して、$\delta$order of magnitudeの値を与える。 そこで,IonQ装置の6量子ビットにおける断熱的アルゴリズムを用いて,解法時間と平均解法品質に有意な利点を観測した。 我々の発見は、量子および量子に着想を得た解法にも関係している。

A major obstacle for quantum optimizers is the reformulation of constraints as a quadratic unconstrained binary optimization (QUBO). Current QUBO translators exaggerate the weight $M$ of the penalty terms. Classically known as the "Big-$M$" problem, the issue becomes even more daunting for quantum solvers, since it affects the physical energy scale. We take a systematic, encompassing look at the quantum big-$M$ problem, revealing NP-hardness in finding the optimal $M$ and establishing bounds on the Hamiltonian spectral gap $\Delta$, inversely related to the expected run-time of quantum solvers. We propose a practical translation algorithm, based on SDP relaxation, that outperforms previous methods in numerical benchmarks. Our algorithm gives values of $\Delta$ orders of magnitude greater, e.g. for portfolio optimization instances. Solving such instances with an adiabatic algorithm on 6-qubits of an IonQ device, we observe significant advantages in time to solution and average solution quality. Our findings are relevant to quantum and quantum-inspired solvers alike.
翻訳日:2024-02-09 19:23:00 公開日:2024-02-08
# Wasserstein変分推論としての安全な強化学習:解釈可能性のための形式的手法

Safe Reinforcement Learning as Wasserstein Variational Inference: Formal Methods for Interpretability ( http://arxiv.org/abs/2307.07084v2 )

ライセンス: Link先を確認
Yanran Wang, David Boyle(参考訳) 強化学習や最適制御は、可変ダイナミクスを伴う逐次的意思決定問題に対して効果的な推論を提供する。 しかし、実際の実施におけるこのような推論は、報酬機能と対応する最適方針を解釈する上で、永続的な課題となる。 したがって、逐次決定問題を推論として定式化することは、確率的推論が確率的力学を推論し、報酬設計と政策収束の確率論的解釈を示唆しながら、多種多様な強力な数学的ツールを提供するため、かなりの価値がある。 本研究では,逐次意思決定においてこれらの課題に取り組むための適応的ワッサースタイン変分最適化(awavo)を提案する。 本手法は,報酬設計の解釈,訓練収束の透明性,逐次決定の確率的解釈に形式的手法を用いる。 実用性を示すため,シミュレーションだけでなく,実際のロボットタスクにおいても,グローバル収束率を保証する収束訓練を行い,高い性能と保守的解釈性の間の合理的なトレードオフを実証的に検証した。

Reinforcement Learning or optimal control can provide effective reasoning for sequential decision-making problems with variable dynamics. Such reasoning in practical implementation, however, poses a persistent challenge in interpreting the reward function and corresponding optimal policy. Consequently, formalizing the sequential decision-making problems as inference has a considerable value, as probabilistic inference in principle offers diverse and powerful mathematical tools to infer the stochastic dynamics whilst suggesting a probabilistic interpretation of the reward design and policy convergence. In this study, we propose a novel Adaptive Wasserstein Variational Optimization (AWaVO) to tackle these challenges in sequential decision-making. Our approach utilizes formal methods to provide interpretations of reward design, transparency of training convergence, and probabilistic interpretation of sequential decisions. To demonstrate practicality, we show convergent training with guaranteed global convergence rates not only in simulation but also in real robot tasks, and empirically verify a reasonable tradeoff between high performance and conservative interpretability.
翻訳日:2024-02-09 19:22:40 公開日:2024-02-08
# 一般パラメトリック密度モデルのためのロバスト密度パワーベース分岐の最小化

Minimizing robust density power-based divergences for general parametric density models ( http://arxiv.org/abs/2307.05251v4 )

ライセンス: Link先を確認
Akifumi Okuno(参考訳) 密度パワー分散(DPD)は、観測の基盤となる分布を、外れ値の存在下で確実に推定するように設計されている。 しかし、PDは推定されるパラメトリック密度モデルのパワーの積分を含み、積分項の明示的な形式は正規密度や指数密度のような特定の密度に対してのみ導出することができる。 最適化アルゴリズムの反復ごとに数値積分を行うことができるが、計算複雑性はより一般的なパラメトリック密度に対するPDDに基づく推定の実践的応用を妨げている。 そこで本研究では,一般パラメトリック密度モデルのdpdを最小化する確率的手法を提案する。 提案手法は、非正規化モデルを利用することで、他の密度電力ベースの$\gamma$-divergencesを最小化するためにも利用できる。 提案手法の実装には \verb|R| パッケージを \url{https://github.com/oknakfm/sgdpd} で提供する。

Density power divergence (DPD) is designed to robustly estimate the underlying distribution of observations, in the presence of outliers. However, DPD involves an integral of the power of the parametric density models to be estimated; the explicit form of the integral term can be derived only for specific densities, such as normal and exponential densities. While we may perform a numerical integration for each iteration of the optimization algorithms, the computational complexity has hindered the practical application of DPD-based estimation to more general parametric densities. To address the issue, this study introduces a stochastic approach to minimize DPD for general parametric density models. The proposed approach can also be employed to minimize other density power-based $\gamma$-divergences, by leveraging unnormalized models. We provide \verb|R| package for implementation of the proposed approach in \url{https://github.com/oknakfm/sgdpd}.
翻訳日:2024-02-09 19:22:21 公開日:2024-02-08
# S2vNTM: 半教師付きvMFニューラルトピックモデリング

S2vNTM: Semi-supervised vMF Neural Topic Modeling ( http://arxiv.org/abs/2307.04804v2 )

ライセンス: Link先を確認
Weijie Xu, Jay Desai, Srinivasan Sengamedu, Xiaoyu Jiang, Francis Iannacci(参考訳) 言語モデルに基づく手法はテキスト分類の強力な手法である。 しかし、モデルにはいくつかの欠点がある。 1)キーワードなどの人的知識を統合することは困難である。 (2) モデルをトレーニングするには多くのリソースが必要です。 3) 事前学習には大きなテキストデータに頼った。 本稿では,これらの課題を克服するためのセミスーパービジョンvMFニューラルトピックモデリング(S2vNTM)を提案する。 S2vNTMはいくつかのシードキーワードをトピックの入力として取り込む。 s2vntmはキーワードのパターンを利用して潜在的なトピックを特定し、トピックのキーワードセットの品質を最適化する。 様々なデータセットにおいて、S2vNTMは、限定キーワードによる分類精度において、既存の半教師付きトピックモデリング手法よりも優れている。 S2vNTMはベースラインの少なくとも2倍の速度である。

Language model based methods are powerful techniques for text classification. However, the models have several shortcomings. (1) It is difficult to integrate human knowledge such as keywords. (2) It needs a lot of resources to train the models. (3) It relied on large text data to pretrain. In this paper, we propose Semi-Supervised vMF Neural Topic Modeling (S2vNTM) to overcome these difficulties. S2vNTM takes a few seed keywords as input for topics. S2vNTM leverages the pattern of keywords to identify potential topics, as well as optimize the quality of topics' keywords sets. Across a variety of datasets, S2vNTM outperforms existing semi-supervised topic modeling methods in classification accuracy with limited keywords provided. S2vNTM is at least twice as fast as baselines.
翻訳日:2024-02-09 19:22:04 公開日:2024-02-08
# 有効負温度に基づく過渡量子オットーエンジンにおける非マルコフダイナミクスの利用

Availing non-Markovian dynamics in effective negative temperature-based transient quantum Otto engines ( http://arxiv.org/abs/2310.04347v2 )

ライセンス: Link先を確認
Arghya Maity and Ahana Ghoshal(参考訳) 本研究は, 正温蓄熱器で作動する従来型の量子オットーエンジンの効率が, 作動物質が環境と完全に平衡に達する前に, 等温ストロークを終了させることにより, さらに向上できることを実証する。 本研究は, 有限時間等長過程におけるマルコフ力学と非マルコフ力学の両方を包含し, 作用物質と貯留層との弱い結合を考察する。 これらのエンジンの性能は, マルコフ系から非マルコフ系へ遷移する過程において, 等時加熱ストローク中の一定有限時間における最大達成効率と, このストロークの過渡段階の延長期間におけるエンジン全体の性能の2つの図式を用いて評価した。 非マルコフ性の増加に伴って最大効率が増加することを示す。 しかし、エンジン性能は非マルコビアン性の増加とともに低下する。 さらに, 実効的な負温度ベースの量子オットーエンジンの存在を発見した。 これらのエンジンは、拡張された運用領域内で動作し、慣例的な負の温度に基づく量子オットーエンジンが等長周期ストローク中の完璧な熱化に依存して機能することができない温度範囲に達する。 さらに、非マルコフ性がより顕著になるにつれて、有効な負温度ベースで必然的に過渡的な量子オットーエンジンの動作領域が増加する。

We demonstrate that the efficiency of effective negative temperature-based quantum Otto engines, already known to outperform their traditional counterparts operating with positive-temperature thermal reservoirs, can be further improved by terminating the isochoric strokes before the working substance reaches perfect equilibrium with its environment. Our investigation encompasses both Markovian and non-Markovian dynamics during these finite-time isochoric processes while considering a weak coupling between the working substance and the reservoirs. We assess the performance of these engines as they undergo a transition from the Markovian to the non-Markovian regime using two figures of merit: maximum achievable efficiency at a certain finite time during the isochoric heating stroke, and overall performance of the engine over an extended period during the transient phase of this stroke. We show that the maximum efficiency increases with the increase of non-Markovianity. However, the overall engine performance decreases as non-Markovianity increases. Additionally, we discover the existence of effective negative temperature-based necessarily transient quantum Otto engines. These engines operate within an extended operational domain, reaching into temperature ranges where conventional effective negative temperature-based quantum Otto engines, which rely on perfect thermalization during the isochoric strokes, are unable to function. Furthermore, this extended operational domain of an effective negative temperature-based necessarily transient quantum Otto engine increases as non-Markovianity becomes more pronounced.
翻訳日:2024-02-09 19:14:23 公開日:2024-02-08
# WLST:3次元物体検出における弱教師付きドメイン適応のための弱ラベル自己学習

WLST: Weak Labels Guided Self-training for Weakly-supervised Domain Adaptation on 3D Object Detection ( http://arxiv.org/abs/2310.03821v2 )

ライセンス: Link先を確認
Tsung-Lin Tsou, Tsung-Han Wu, and Winston H. Hsu(参考訳) 3次元オブジェクト検出におけるドメイン適応(DA)の分野では、ほとんどの研究は教師なしドメイン適応(UDA)に向けられている。 しかし、ターゲットとなるアノテーションがなければ、UDAアプローチと完全に教師されたアプローチの間のパフォーマンスギャップは目立たずであり、現実のアプリケーションでは実用的ではない。 一方、弱教師付きドメイン適応(WDA)は、対象ドメインに対するラベル付けの労力をほとんど必要としない、過度に探索されているが実用的なタスクである。 低コストでDA性能を向上させるため,WDA用3次元オブジェクト検出のための汎用弱ラベルガイド型自己学習フレームワークWLSTを提案する。 2dバウンディングボックスから3d擬似ラベルを生成するautolabelerを、既存の自己学習パイプラインに組み込むことで、より堅牢で一貫性のある擬似ラベルを生成し、ターゲットドメインのトレーニングプロセスに利益をもたらすことができる。 我々のWLSTフレームワークの有効性,堅牢性,および検出器依存性を示す大規模な実験を行った。 特に、すべての評価タスクにおいて、以前の最先端メソッドよりも優れています。

In the field of domain adaptation (DA) on 3D object detection, most of the work is dedicated to unsupervised domain adaptation (UDA). Yet, without any target annotations, the performance gap between the UDA approaches and the fully-supervised approach is still noticeable, which is impractical for real-world applications. On the other hand, weakly-supervised domain adaptation (WDA) is an underexplored yet practical task that only requires few labeling effort on the target domain. To improve the DA performance in a cost-effective way, we propose a general weak labels guided self-training framework, WLST, designed for WDA on 3D object detection. By incorporating autolabeler, which can generate 3D pseudo labels from 2D bounding boxes, into the existing self-training pipeline, our method is able to generate more robust and consistent pseudo labels that would benefit the training process on the target domain. Extensive experiments demonstrate the effectiveness, robustness, and detector-agnosticism of our WLST framework. Notably, it outperforms previous state-of-the-art methods on all evaluation tasks.
翻訳日:2024-02-09 19:13:43 公開日:2024-02-08
# 文脈内学習のデコード:大言語モデルにおける表現の神経科学による分析

Decoding In-Context Learning: Neuroscience-inspired Analysis of Representations in Large Language Models ( http://arxiv.org/abs/2310.00313v3 )

ライセンス: Link先を確認
Safoora Yousefi, Leo Betthauser, Hosein Hasanbeig, Rapha\"el Milli\`ere, Ida Momennejad(参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)により、入力中のタスク固有の例を活用することにより、顕著なパフォーマンス向上を示す。 しかし、この改善のメカニズムはいまだ解明されていない。 本研究では,llm埋め込みとアテンション表現が文脈内学習によってどのように変化し,これらの変化が行動改善を媒介するかについて検討する。 我々は,表現類似度分析(RSA)などの神経科学に触発された手法を採用し,Llama-270BとVicuna 13Bのパラメータ化探索と,関連情報に対する注意度測定のための新しい手法を提案する。 線形回帰と読み解きという2つの条件の事前関係を持つタスクを設計した。 タスク表現における期待される類似性や,ICL前後におけるLCM表現の仮説アライメント,注目度の変化について仮説を立てた。 ICL後の行動改善とLLM層間の埋め込みと注意重みの変化との間に有意な相関が認められた。 この経験的なフレームワークは、潜在表現がどのようにLCMの振る舞いを形作るかという微妙な理解を促進し、将来の研究や実用化に有用なツールや洞察を提供する。

Large language models (LLMs) exhibit remarkable performance improvement through in-context learning (ICL) by leveraging task-specific examples in the input. However, the mechanisms behind this improvement remain elusive. In this work, we investigate how LLM embeddings and attention representations change following in-context-learning, and how these changes mediate improvement in behavior. We employ neuroscience-inspired techniques such as representational similarity analysis (RSA) and propose novel methods for parameterized probing and measuring ratio of attention to relevant vs. irrelevant information in Llama-2 70B and Vicuna 13B. We designed two tasks with a priori relationships among their conditions: linear regression and reading comprehension. We formed hypotheses about expected similarities in task representations and measured hypothesis alignment of LLM representations before and after ICL as well as changes in attention. Our analyses revealed a meaningful correlation between improvements in behavior after ICL and changes in both embeddings and attention weights across LLM layers. This empirical framework empowers a nuanced understanding of how latent representations shape LLM behavior, offering valuable tools and insights for future research and practical applications.
翻訳日:2024-02-09 19:12:57 公開日:2024-02-08
# 対話型コミュニケーションのためのテキスト・画像モデル

Teaching Text-to-Image Models to Communicate in Dialog ( http://arxiv.org/abs/2309.15516v2 )

ライセンス: Link先を確認
Xiaowen Sun, Jiazhan Feng, Yuxuan Wang, Yuxuan Lai, Xingyu Shen, Dongyan Zhao(参考訳) 写真は数千語の価値があり、会話エージェントが写真を理解し、知覚し、効果的に反応することが不可欠である。 しかし,従来の画像生成技術を直接活用することは,対話エージェントが画像応答を効果的に生成するには不十分であることがわかった。 本稿では,与えられたダイアログコンテキストに沿った高解像度画像を応答として合成する,革新的なダイアログ対画像生成タスクに焦点を当てる。 この問題に対処するため,我々は,画像生成中の対話コンテキストの構造的・意味的特徴を十分に活用するために,最先端のテキスト対画像生成モデルの上に最適化された微調整手法を設計する。 具体的には、ダイアログコンテキストと特定の指標を線形化してダイアログ構造を維持し、ドメイン内データを用いてダイアログからイメージへのスタイルミスマッチを緩和する。 PhotoChat と MMDialog Corpus の実証実験の結果,我々のアプローチは3つの最先端のトレーニング済みテキスト・ツー・イメージ生成バックボーンで一貫した顕著な改善をもたらすことが示された。

A picture is worth a thousand words, thus, it is crucial for conversational agents to understand, perceive, and effectively respond with pictures. However, we find that directly employing conventional image generation techniques is inadequate for conversational agents to produce image responses effectively. In this paper, we focus on the innovative dialog-to-image generation task, where the model synthesizes a high-resolution image aligned with the given dialog context as a response. To tackle this problem, we design a tailored fine-tuning approach on the top of state-of-the-art text-to-image generation models to fully exploit the structural and semantic features in dialog context during image generation. Concretely, we linearize the dialog context with specific indicators to maintain the dialog structure, and employ in-domain data to alleviate the style mismatch between dialog-to-image and conventional image generation tasks. Empirical results on PhotoChat and MMDialog Corpus show that our approach brings consistent and remarkable improvement with 3 state-of-the-art pre-trained text-to-image generation backbones.
翻訳日:2024-02-09 19:12:36 公開日:2024-02-08
# 2D Poses Aloneからの3D Poseインタラクションの教師なし再構築

Unsupervised Reconstruction of 3D Human Pose Interactions From 2D Poses Alone ( http://arxiv.org/abs/2309.14865v2 )

ライセンス: Link先を確認
Peter Hardy and Hansung Kim(参考訳) 現在の非教師なし2D-3Dヒトポーズ推定(HPE)法は、単眼画像における視点のあいまいさのため、多人数シナリオでは機能しない。 そこで本研究では,人間インタラクションの再構築に焦点をあてた2dポーズ単独による非教師付き多人数2d-3d hpeの実現可能性について検討した。 視界のあいまいさに対処するために、被験者の骨盤に対するカメラの高度角を予測することにより、先行作業に対処する。 これにより、予測されたポーズを地上面と水平に回転させ、個人間の3次元の垂直オフセットの推定値を得ることができる。 提案手法では,各被験者の2次元ポーズを独立して3次元に上げ,共有3次元座標系で組み合わせる。 ポーズは、スケールする前に予測された高度角によって回転し、オフセットされる。 これにより、ポーズの正確な3d再構築ができます。 本稿では, CHI3Dデータセットを用いて, 3つの新しい定量的指標を用いた教師なし2D-3Dポーズ推定手法を導入し, 今後の研究のベンチマークを作成する。

Current unsupervised 2D-3D human pose estimation (HPE) methods do not work in multi-person scenarios due to perspective ambiguity in monocular images. Therefore, we present one of the first studies investigating the feasibility of unsupervised multi-person 2D-3D HPE from just 2D poses alone, focusing on reconstructing human interactions. To address the issue of perspective ambiguity, we expand upon prior work by predicting the cameras' elevation angle relative to the subjects' pelvis. This allows us to rotate the predicted poses to be level with the ground plane, while obtaining an estimate for the vertical offset in 3D between individuals. Our method involves independently lifting each subject's 2D pose to 3D, before combining them in a shared 3D coordinate system. The poses are then rotated and offset by the predicted elevation angle before being scaled. This by itself enables us to retrieve an accurate 3D reconstruction of their poses. We present our results on the CHI3D dataset, introducing its use for unsupervised 2D-3D pose estimation with three new quantitative metrics, and establishing a benchmark for future research.
翻訳日:2024-02-09 19:12:19 公開日:2024-02-08
# VAEのトレーニング方法

How to train your VAE ( http://arxiv.org/abs/2309.13160v2 )

ライセンス: Link先を確認
Mariano Rivera(参考訳) 変分オートエンコーダ(VAE)は、機械学習における生成モデリングと表現学習の基盤となっている。 本稿では,再建精度と正規化のトレードオフを規定するエビデンス下界(ELBO)の重要な構成要素であるKulback Leibler (KL) Divergenceの解釈に焦点をあて,VAEの曖昧な側面について考察する。 一方、klの発散は、潜在変数分布と、全潜在空間上の構造を前置する前置値とのアライメントを強制するが、個々の変数分布は拘束されない。 提案手法は, ELBOをガウスの混合体で再定義し, 分散崩壊を防止するための正規化項を導入し, テクスチャリアリズムを高めるためにPatchGAN識別器を用いる。 実装の詳細はEncoderとDecoderの両方のResNetV2アーキテクチャである。 実験は現実的な顔を生成する能力を示し、VAEベースの生成モデルを強化するための有望なソリューションを提供する。

Variational Autoencoders (VAEs) have become a cornerstone in generative modeling and representation learning within machine learning. This paper explores a nuanced aspect of VAEs, focusing on interpreting the Kullback Leibler (KL) Divergence, a critical component within the Evidence Lower Bound (ELBO) that governs the trade off between reconstruction accuracy and regularization. Meanwhile, the KL Divergence enforces alignment between latent variable distributions and a prior imposing a structure on the overall latent space but leaves individual variable distributions unconstrained. The proposed method redefines the ELBO with a mixture of Gaussians for the posterior probability, introduces a regularization term to prevent variance collapse, and employs a PatchGAN discriminator to enhance texture realism. Implementation details involve ResNetV2 architectures for both the Encoder and Decoder. The experiments demonstrate the ability to generate realistic faces, offering a promising solution for enhancing VAE based generative models.
翻訳日:2024-02-09 19:12:01 公開日:2024-02-08
# roadformer:rgb正規意味的道路シーン解析のための2重変圧器

RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing ( http://arxiv.org/abs/2309.10356v2 )

ライセンス: Link先を確認
Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen, Rui Fan(参考訳) 深層畳み込みニューラルネットワークの最近の進歩は、道路シーン解析の領域において大きな可能性を秘めている。 それでも、既存の研究は主に自由空間検出に焦点を当てており、運転安全性と快適性の両方を損なう危険道路の欠陥にはほとんど注意を払わなかった。 本稿では,道路シーン解析のためのトランスフォーマーベースデータ融合ネットワークであるRoadFormerを紹介する。 RoadFormerは2重エンコーダアーキテクチャを用いて、RGB画像と表面正規情報の両方から異種特徴を抽出する。 符号化された特徴はその後、効果的な特徴融合と再校正のための新しい異種特徴相乗ブロックに供給される。 ピクセルデコーダは、融合および再調整された不均一な特徴から複数スケールの長距離依存性を学習し、その後トランスフォーマーデコーダによって処理され、最終的な意味予測を生成する。 さらに,10,407RGB以上の画像,密度深度画像,および異なる形状と大きさの自由空間および道路欠陥に対応するピクセルレベルのアノテーションを含む,最初の大規模道路シーン解析データセットであるSyn-UDTIRIをリリースする。 syn-udtiriデータセットおよびkitti road、cityscapes、orfdを含む3つのパブリックデータセットで行った広範囲な実験的評価では、roadformerは他の最先端のネットワークよりも道路シーン解析に優れていることが示されている。 具体的には、RoadFormerはKITTIロードベンチマークで第1位だ。 ソースコード、データセットの作成、デモビデオは、mias.group/roadformer.comで公開されている。

The recent advancements in deep convolutional neural networks have shown significant promise in the domain of road scene parsing. Nevertheless, the existing works focus primarily on freespace detection, with little attention given to hazardous road defects that could compromise both driving safety and comfort. In this paper, we introduce RoadFormer, a novel Transformer-based data-fusion network developed for road scene parsing. RoadFormer utilizes a duplex encoder architecture to extract heterogeneous features from both RGB images and surface normal information. The encoded features are subsequently fed into a novel heterogeneous feature synergy block for effective feature fusion and recalibration. The pixel decoder then learns multi-scale long-range dependencies from the fused and recalibrated heterogeneous features, which are subsequently processed by a Transformer decoder to produce the final semantic prediction. Additionally, we release SYN-UDTIRI, the first large-scale road scene parsing dataset that contains over 10,407 RGB images, dense depth images, and the corresponding pixel-level annotations for both freespace and road defects of different shapes and sizes. Extensive experimental evaluations conducted on our SYN-UDTIRI dataset, as well as on three public datasets, including KITTI road, CityScapes, and ORFD, demonstrate that RoadFormer outperforms all other state-of-the-art networks for road scene parsing. Specifically, RoadFormer ranks first on the KITTI road benchmark. Our source code, created dataset, and demo video are publicly available at mias.group/RoadFormer.
翻訳日:2024-02-09 19:11:42 公開日:2024-02-08
# DiscoSCMs-Embracing Heterogeneity を用いたレイヤ3における因果クエリの解法

Answering Causal Queries at Layer 3 with DiscoSCMs-Embracing Heterogeneity ( http://arxiv.org/abs/2309.09323v3 )

ライセンス: Link先を確認
Heyang Gong(参考訳) 因果推論の分野では、潜在的な結果(po)と構造的因果モデル(scm)が主要なフレームワークとして認識されているが、レイヤ3のバリュエーション -- 個々のレベルのセマンティクスに深く絡み合った反事実的クエリ -- いずれのフレームワークも、一貫性ルールによって引き起こされる退化の問題によって、制限を受ける。 本稿では,POとSCMの双方の強みを巧みに統合した,非現実的推論の先駆的アプローチとして,分散一貫性構造因果モデル(DiscoSCM)フレームワークを提唱する。 DiscoSCMフレームワークは、ユニット選択変数$U$を特有に含み、制御不能な外因性雑音実現の概念を取り入れている。 パーソナライズされたインセンティブシナリオを通じて,POとSCMフレームワークの欠如が,ディスコSCM内における独立した反現実ノイズの仮定を採用することで,ユーザが退化せずに(第3層イベント)順応する可能性を示す。 この革新的な仮定は、基本的な反ファクト理論を拡張し、因果関係の確率を個々の粒度レベルに拡張し、不均一な反ファクト境界に関する包括的な理論を導いた。 究極的には,不均質な単位間の不変性として因果性を理解することによって,普遍的な異質性を活用しようとするならば,反事実推論の方法論においてdiscoscmは重要な進歩であると考えられる。

In the realm of causal inference, Potential Outcomes (PO) and Structural Causal Models (SCM) are recognized as the principal frameworks.However, when it comes to Layer 3 valuations -- counterfactual queries deeply entwined with individual-level semantics -- both frameworks encounter limitations due to the degenerative issues brought forth by the consistency rule. This paper advocates for the Distribution-consistency Structural Causal Models (DiscoSCM) framework as a pioneering approach to counterfactual inference, skillfully integrating the strengths of both PO and SCM. The DiscoSCM framework distinctively incorporates a unit selection variable $U$ and embraces the concept of uncontrollable exogenous noise realization. Through personalized incentive scenarios, we demonstrate the inadequacies of PO and SCM frameworks in representing the probability of a user being a complier (a Layer 3 event) without degeneration, an issue adeptly resolved by adopting the assumption of independent counterfactual noises within DiscoSCM. This innovative assumption broadens the foundational counterfactual theory, facilitating the extension of numerous theoretical results regarding the probability of causation to an individual granularity level and leading to a comprehensive set of theories on heterogeneous counterfactual bounds. Ultimately, our paper posits that if one acknowledges and wishes to leverage the ubiquitous heterogeneity, understanding causality as invariance across heterogeneous units, then DiscoSCM stands as a significant advancement in the methodology of counterfactual inference.
翻訳日:2024-02-09 19:11:16 公開日:2024-02-08
# 感性, 性能, ロバスト性: 身体超音波プロンプトによる影響のデコンストラクション

Sensitivity, Performance, Robustness: Deconstructing the Effect of Sociodemographic Prompting ( http://arxiv.org/abs/2309.07034v2 )

ライセンス: Link先を確認
Tilman Beck, Hendrik Schuff, Anne Lauscher, Iryna Gurevych(参考訳) 注釈者の社会デモグラフィ的背景(すなわち、性別、年齢、教育的背景などの個々の構成)は、有毒な言語検出のような主観的なnlpタスクに取り組む際に、彼らの決定に強い影響を与える。 不均一な背景はしばしば高い相違をもたらす。 この変異をモデル化するために、最近の研究は、特定の社会デモグラフィプロファイルを持つ人間が与えるであろう答えに対して、プロンプトベースのモデルの出力を制御する手法である社会デモグラフィープロンシングを探求している。 しかし、利用可能なnlp文献はこの手法の有効性に異を唱えており、どのタスクやシナリオが役に立つのかは未だ不明であり、社会デポジトリ・プロンプトにおける個々の要因の役割はまだ未解明である。 我々は,この研究のギャップを,今日最も大きく包括的な社会デマトグラフィー研究によって解決している。 7つのデータセットと6つの命令調整モデルファミリにおけるモデル感度、性能、ロバスト性への影響を解析する。 ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習の改善に有用であることを示す。 しかしながら、その結果はモデルタイプ、サイズ、データセットによって大きく異なり、迅速な定式化に関して大きなばらつきにさらされている。 最も重要なことは, 社会デモグラフィプロンプトは毒性アノテーションやllmアライメントの研究など, センシティブな応用に活用されるべきである。 コードとデータ: https://github.com/ukplab/arxiv2023-sociodemographic-prompting

Annotators' sociodemographic backgrounds (i.e., the individual compositions of their gender, age, educational background, etc.) have a strong impact on their decisions when working on subjective NLP tasks, such as toxic language detection. Often, heterogeneous backgrounds result in high disagreements. To model this variation, recent work has explored sociodemographic prompting, a technique, which steers the output of prompt-based models towards answers that humans with specific sociodemographic profiles would give. However, the available NLP literature disagrees on the efficacy of this technique - it remains unclear for which tasks and scenarios it can help, and the role of the individual factors in sociodemographic prompting is still unexplored. We address this research gap by presenting the largest and most comprehensive study of sociodemographic prompting today. We analyze its influence on model sensitivity, performance and robustness across seven datasets and six instruction-tuned model families. We show that sociodemographic information affects model predictions and can be beneficial for improving zero-shot learning in subjective NLP tasks. However, its outcomes largely vary for different model types, sizes, and datasets, and are subject to large variance with regards to prompt formulations. Most importantly, our results show that sociodemographic prompting should be used with care for sensitive applications, such as toxicity annotation or when studying LLM alignment. Code and data: https://github.com/UKPLab/arxiv2023-sociodemographic-prompting
翻訳日:2024-02-09 19:10:20 公開日:2024-02-08
# 確率的勾配Descentに基づく生体ニューラルネットワークの学習は可能か? 確率過程を用いた解析

Is Learning in Biological Neural Networks based on Stochastic Gradient Descent? An analysis using stochastic processes ( http://arxiv.org/abs/2309.05102v2 )

ライセンス: Link先を確認
S\"oren Christensen and Jan Kallsen(参考訳) 近年、バイオニューラルネットワーク(BNN)での学習と人工ニューラルネットワークでの学習との違いについて、激しい議論がなされている。 脳内の接続の更新は局所的な情報にのみ依存しているため、確率的勾配差型最適化法は使用できないとしばしば主張されている。 本稿では,BNNにおける教師あり学習のための確率モデルについて検討する。 我々は,各学習機会を多くのローカル更新によって処理した場合に,(連続的な)勾配ステップが生じることを示す。 この結果は,確率勾配降下がBNNの最適化に果たす役割を示唆している。

In recent years, there has been an intense debate about how learning in biological neural networks (BNNs) differs from learning in artificial neural networks. It is often argued that the updating of connections in the brain relies only on local information, and therefore a stochastic gradient-descent type optimization method cannot be used. In this paper, we study a stochastic model for supervised learning in BNNs. We show that a (continuous) gradient step occurs approximately when each learning opportunity is processed by many local updates. This result suggests that stochastic gradient descent may indeed play a role in optimizing BNNs.
翻訳日:2024-02-09 19:09:51 公開日:2024-02-08
# ランダムに選択された測定設定部分集合を用いたループホールフリーベル試験

Loophole-free Bell tests with randomly chosen subsets of measurement settings ( http://arxiv.org/abs/2309.00442v2 )

ライセンス: Link先を確認
Jaskaran Singh and Ad\'an Cabello(参考訳) ループホールのない状態に到達するためには、検出効率が非常に低い2部量子非局所相関が必要であるが、実際の実験のためには、多くの測定設定が必要である。 これは、これらの設定のランダムなサブセットのみがテストされた場合、抜け穴のないベル非局所性について何が結論づけられるかという一般的な問題につながる。 本稿では,この問題に対処する手法を提案する。 いくつかのケースでは、抜け穴のないベル非局所性テストは、設定のわずかなランダムな割合でしか検出できないことが示されている。 報酬は高い検出効率である。 本手法は, 局所システムの寸法, 視認性, 検出効率を考慮し, 検出・ループホールフリーシステムに到達するために必要なコンテキストの分数を計算できる, ホールホールフリーベルテストの設計への新しいアプローチを可能にする。 この結果はまた、量子非局所性を古典的にシミュレートするコストについて異なる考え方を強制し、より多くのコンテキストを考慮すれば、必要なリソースの量を任意に大きくすることができることを示した。

There are bipartite quantum nonlocal correlations requiring very low detection efficiency to reach the loophole-free regime but that need too many measurement settings to be practical for actual experiments. This leads to the general problem of what can be concluded about loophole-free Bell nonlocality if only a random subset of these settings is tested. Here we develop a method to address this problem. We show that, in some cases, it is possible to detect loophole-free Bell nonlocality testing only a small random fraction of the settings. The prize to pay is a higher detection efficiency. The method allows for a novel approach to the design of loophole-free Bell tests in which, given the dimension of the local system, the visibility, and the detection efficiency available, one can calculate the fraction of the contexts needed to reach the detection-loophole-free regime. The results also enforce a different way of thinking about the costs of classically simulating quantum nonlocality, as it shows that the amount of resources that are needed can be made arbitrarily large simply by considering more contexts.
翻訳日:2024-02-09 19:09:42 公開日:2024-02-08
# SMaRt: スコアマッチング規則によるGANの改善

SMaRt: Improving GANs with Score Matching Regularity ( http://arxiv.org/abs/2311.18208v2 )

ライセンス: Link先を確認
Mengfei Xia, Yujun Shen, Ceyuan Yang, Ran Yi, Wenping Wang, Yong-jin Liu(参考訳) 生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。 本研究では, GANの数学的基礎を再考し, GAN訓練におけるネイティブ逆数損失は実データ多様体から外れた生成データ多様体の正のルベーグ測度を持つ部分集合の問題を修正するには不十分であることを理論的に明らかにする。 むしろ、スコアマッチングは、生成したデータポイントを実際のデータ多様体に向けて持続的にプッシュする能力のおかげで、この問題に対する有望な解決策となる。 そこで我々は,スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。 実験的な証拠については,まず,実データ分布をより正確に再現できることを示し,その上で,近似スコア関数として機能する事前学習拡散モデルを用いて,実世界のデータセット上での各種最先端GANの合成性能を一貫して向上させることができることを示す。 例えば、ImageNet 64x64データセットでAuroraをトレーニングする場合、ワンステップ一貫性モデルのパフォーマンスと同等に、FIDを8.87から7.11に改善します。 ソースコードは公開される予定だ。

Generative adversarial networks (GANs) usually struggle in learning from highly diverse data, whose underlying manifold is complex. In this work, we revisit the mathematical foundations of GANs, and theoretically reveal that the native adversarial loss for GAN training is insufficient to fix the problem of subsets with positive Lebesgue measure of the generated data manifold lying out of the real data manifold. Instead, we find that score matching serves as a promising solution to this issue thanks to its capability of persistently pushing the generated data points towards the real data manifold. We thereby propose to improve the optimization of GANs with score matching regularity (SMaRt). Regarding the empirical evidences, we first design a toy example to show that training GANs by the aid of a ground-truth score function can help reproduce the real data distribution more accurately, and then confirm that our approach can consistently boost the synthesis performance of various state-of-the-art GANs on real-world datasets with pre-trained diffusion models acting as the approximate score function. For instance, when training Aurora on the ImageNet 64x64 dataset, we manage to improve FID from 8.87 to 7.11, on par with the performance of one-step consistency model. The source code will be made public.
翻訳日:2024-02-09 19:02:15 公開日:2024-02-08
# eコマースにおける画像検索強化のためのトランスフォーマティブマルチモーダルアイテム埋め込み

Transformer-empowered Multi-modal Item Embedding for Enhanced Image Search in E-Commerce ( http://arxiv.org/abs/2311.17954v2 )

ライセンス: Link先を確認
Chang Liu, Peng Hou, Anxiang Zeng, Han Yu(参考訳) 過去10年間で、電子商取引アプリケーションの画像検索の分野で大きな進歩があった。 テクスチャなどの画像の詳細のみに焦点を当てた従来の画像から画像への検索モデルは、画像に含まれる有用な意味情報を見落としてしまう傾向にある。 その結果、検索された製品は類似した画像の詳細を持っているかもしれないが、ユーザーの検索目標を満たせていない。 さらに、複数の画像を含む製品に対する画像から画像への検索モデルの使用により、オンライン製品の特徴的ストレージオーバーヘッドと複雑なマッピング実装が大幅に向上する。 本稿では,これらの制約に対処するためのマルチモーダル要素埋め込みモデル(MIEM)の設計と展開について報告する。 製品に関するテキスト情報と複数の画像の両方を利用して、有意義な製品機能を構築することができる。 画像からの意味情報を活用することで、MIEMは画像検索プロセスを効果的に補完し、検索結果の全体的な精度を向上させる。 MIEMはShopeeイメージ検索プラットフォームの一部となっている。 2023年3月の配備以来、ユーザ毎のクリック数で9.90%増加し、Shopee eコマースプラットフォームのイメージ検索機能では、ユーザ毎の注文数で4.23%増加した。

Over the past decade, significant advances have been made in the field of image search for e-commerce applications. Traditional image-to-image retrieval models, which focus solely on image details such as texture, tend to overlook useful semantic information contained within the images. As a result, the retrieved products might possess similar image details, but fail to fulfil the user's search goals. Moreover, the use of image-to-image retrieval models for products containing multiple images results in significant online product feature storage overhead and complex mapping implementations. In this paper, we report the design and deployment of the proposed Multi-modal Item Embedding Model (MIEM) to address these limitations. It is capable of utilizing both textual information and multiple images about a product to construct meaningful product features. By leveraging semantic information from images, MIEM effectively supplements the image search process, improving the overall accuracy of retrieval results. MIEM has become an integral part of the Shopee image search platform. Since its deployment in March 2023, it has achieved a remarkable 9.90% increase in terms of clicks per user and a 4.23% boost in terms of orders per user for the image search feature on the Shopee e-commerce platform.
翻訳日:2024-02-09 19:01:48 公開日:2024-02-08
# droneoptinet:5gおよびbeyond solar small cell networkのためのドローンによる負荷再分配機構の枠組み

DroneOptiNet: A Framework for Optimal Drone-based Load Redistribution Mechanism for 5G and Beyond Solar Small Cell Networks ( http://arxiv.org/abs/2311.12944v2 )

ライセンス: Link先を確認
Daksh Dave, Vinay Chamola, Sandeep Joshi, Sherali Zeadally(参考訳) 第5世代以降のセルネットワークによる電力要求は、ネットワーク展開において重要な制約であり、エネルギー効率の高いソリューションを必要とする。 本研究では,航空機に搭載された航空機基地局(BS)を用いて,グリーン小セルBSからなるマイクログリッドネットワーク上での電力再分配を確実かつ確実に行う新しいユーザ負荷伝達手法を提案する。 高エネルギーから低エネルギーセルへ航空BSを移動させることにより、ユーザ密度と航空BSの可用性に応じて、エネルギー不足のセルのエネルギー要求を許容する。 提案したハイブリッドドローンベースのフレームワークは、長期記憶とユニークなコスト関数をドローンとBSのための進化的ニューラルネットワークを用いて統合し、エネルギーと負荷の再分配を効率的に管理する。 提案手法は,bssでの電力停止を低減し,一貫したスループット安定性を維持し,無線通信システムの信頼性とロバスト性を高める能力を示す。

The power requirements posed by the fifth-generation and beyond cellular networks are an important constraint in network deployment and require energy-efficient solutions. In this work, we propose a novel user load transfer approach using airborne base stations (BS) mounted on drones for reliable and secure power redistribution across the micro-grid network comprising green small cell BSs. Depending on the user density and the availability of an aerial BS, the energy requirement of a cell with an energy deficit is accommodated by migrating the aerial BS from a high-energy to a low-energy cell. The proposed hybrid drone-based framework integrates long short-term memory with unique cost functions using an evolutionary neural network for drones and BSs and efficiently manages energy and load redistribution. The proposed algorithm reduces power outages at BSs and maintains consistent throughput stability, thereby demonstrating its capability to boost the reliability and robustness of wireless communication systems.
翻訳日:2024-02-09 19:01:27 公開日:2024-02-08
# RFTrans:表面正規化とマニピュレーションのための透明物体の屈折流のレバレッジ

RFTrans: Leveraging Refractive Flow of Transparent Objects for Surface Normal Estimation and Manipulation ( http://arxiv.org/abs/2311.12398v2 )

ライセンス: Link先を確認
Tutian Tang, Jiyu Liu, Jieyi Zhang, Haoyuan Fu, Wenqiang Xu, Cewu Lu(参考訳) 透明な物体は私たちの日常生活で広く使われており、ロボットに対話を教えることが重要である。 しかし、反射効果と屈折効果によって深度カメラが正確な幾何学的計測をできないため、簡単ではない。 そこで本研究では,RGB-D法に基づく透明物体の表面正規化と操作を行うRFTransを提案する。 中間表現として屈折流を利用することにより、画像から幾何学(例えば表面正規)を直接予測する欠点を回避し、sim-to-realギャップを橋渡しする。 RFNetは屈折流、物体マスク、境界を予測し、次いでF2Netは屈折流から表面の正常を推定する。 操作を可能にするために、グローバル最適化モジュールは予測を取り入れ、生の深さを洗練し、通常のポイントクラウドを構築する。 市販分析把持計画アルゴリズムを追従して把持ポーズを生成する。 ネットワークをトレーニングするために、物理的に可視なレイトレーシングレンダリング技術を用いた合成データセットを構築した。 その結果, 合成データセットを用いてトレーニングした手法は, 合成および実世界のベンチマークにおいて, ベースライン法を大きなマージンで一貫した性能を発揮することがわかった。 最後に、現実のロボットの把握タスクは83%の成功率を示し、屈折流が直接シミュレートから現実への移動を可能にすることを証明している。 コード、データ、補足資料はhttps://rftrans.robotflow.ai.comで入手できる。

Transparent objects are widely used in our daily lives, making it important to teach robots to interact with them. However, it's not easy because the reflective and refractive effects can make depth cameras fail to give accurate geometry measurements. To solve this problem, this paper introduces RFTrans, an RGB-D-based method for surface normal estimation and manipulation of transparent objects. By leveraging refractive flow as an intermediate representation, the proposed method circumvents the drawbacks of directly predicting the geometry (e.g. surface normal) from images and helps bridge the sim-to-real gap. It integrates the RFNet, which predicts refractive flow, object mask, and boundaries, followed by the F2Net, which estimates surface normal from the refractive flow. To make manipulation possible, a global optimization module will take in the predictions, refine the raw depth, and construct the point cloud with normal. An off-the-shelf analytical grasp planning algorithm is followed to generate the grasp poses. We build a synthetic dataset with physically plausible ray-tracing rendering techniques to train the networks. Results show that the proposed method trained on the synthetic dataset can consistently outperform the baseline method in both synthetic and real-world benchmarks by a large margin. Finally, a real-world robot grasping task witnesses an 83% success rate, proving that refractive flow can help enable direct sim-to-real transfer. The code, data, and supplementary materials are available at https://rftrans.robotflow.ai.
翻訳日:2024-02-09 19:01:10 公開日:2024-02-08
# セルフ・アテンションによるモデリング選択

Modeling Choice via Self-Attention ( http://arxiv.org/abs/2311.07607v2 )

ライセンス: Link先を確認
Joohwan Ko, Andrew A. Li(参考訳) 選択モデルは、ソート、インベントリ、価格最適化など、オペレーション管理の分野における現在カノニカルな多くの最適化問題に対する基本的なインプットである。 当然、データからモデルを正確に推定することは、実際にこれらの最適化問題を適用する上で重要なステップである。 同時に、近年のディープラーニングの進歩は、これらのテクニックを選択モデリングに統合することへの関心を喚起している。 しかし、深層学習と選択モデリングの交差点には顕著な研究ギャップがあり、特に理論的、実証的な基礎がある。 そこで,我々はまず,現代のニューラルネットワークアーキテクチャの概念(自己注意)を成功(理論的にも実用的にも)するための選択モデルを提案する。 理論的には、我々の注意に基づく選択モデルはハロ・マルチノミアル・ロジット(Halo-MNL)モデルの低ランク一般化である。 我々はHalo-MNLが推定に$\Omega(m^2)$のデータサンプルを必要とするのに対し、$m$は製品数である。 さらに,実データ上で選択モデル推定を行うための最初の実規模ベンチマークを確立し,既存のモデルについてこれまでで最も広範な評価を行い,モデルの優れた性能を浮き彫りにする。

Models of choice are a fundamental input to many now-canonical optimization problems in the field of Operations Management, including assortment, inventory, and price optimization. Naturally, accurate estimation of these models from data is a critical step in the application of these optimization problems in practice. Concurrently, recent advancements in deep learning have sparked interest in integrating these techniques into choice modeling. However, there is a noticeable research gap at the intersection of deep learning and choice modeling, particularly with both theoretical and empirical foundations. Thus motivated, we first propose a choice model that is the first to successfully (both theoretically and practically) leverage a modern neural network architectural concept (self-attention). Theoretically, we show that our attention-based choice model is a low-rank generalization of the Halo Multinomial Logit (Halo-MNL) model. We prove that whereas the Halo-MNL requires $\Omega(m^2)$ data samples to estimate, where $m$ is the number of products, our model supports a natural nonconvex estimator (in particular, that which a standard neural network implementation would apply) which admits a near-optimal stationary point with $O(m)$ samples. Additionally, we establish the first realistic-scale benchmark for choice model estimation on real data, conducting the most extensive evaluation of existing models to date, thereby highlighting our model's superior performance.
翻訳日:2024-02-09 19:00:45 公開日:2024-02-08
# アテンション・コンボリューション:推論効率向上のための音声言語モデルにおけるトランスフォーマーエンコーダ

Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency ( http://arxiv.org/abs/2311.02772v2 )

ライセンス: Link先を確認
Sungho Jeon, Ching-Feng Yeh, Hakan Inan, Wei-Ning Hsu, Rashi Rungta, Yashar Mehdad, Daniel Bikel(参考訳) 本稿では,単純な自己教師付き事前学習音声モデルが,音声トランスフォーマエンコーダを用いたより複雑な事前学習モデルと同等の推論効率を実現できることを示す。 これらの音声変換器は、自己アテンションモジュールと畳み込みモジュールの混合に依存している。 ASRの最先端性能を最高効率で達成する。 まず,これらの変換器をエンコーダとして用いることで,事前学習した音声モデルの効率も向上することを示す。 しかし,本研究では,高度自己注意だけで同等の効率が得られることを示す。 この単純なアプローチは、ニューラルネットワークの低ビット量量子化技術により、効率を向上する上で特に有益であることを示す。 我々は、量子化畳み込みと量子化自己保持モジュールを混合した最近の音声変換器と比較して、異なる量子化モジュール間の誤差の伝播を防止することを仮定する。

In this paper, we show that a simple self-supervised pre-trained audio model can achieve comparable inference efficiency to more complicated pre-trained models with speech transformer encoders. These speech transformers rely on mixing convolutional modules with self-attention modules. They achieve state-of-the-art performance on ASR with top efficiency. We first show that employing these speech transformers as an encoder significantly improves the efficiency of pre-trained audio models as well. However, our study shows that we can achieve comparable efficiency with advanced self-attention solely. We demonstrate that this simpler approach is particularly beneficial with a low-bit weight quantization technique of a neural network to improve efficiency. We hypothesize that it prevents propagating the errors between different quantized modules compared to recent speech transformers mixing quantized convolution and the quantized self-attention modules.
翻訳日:2024-02-09 19:00:04 公開日:2024-02-08
# 大規模言語モデルは地球温暖化に関する世論を捉えることができるか? アルゴリズム的忠実性とバイアスの実証評価

Can Large Language Models Capture Public Opinion about Global Warming? An Empirical Assessment of Algorithmic Fidelity and Bias ( http://arxiv.org/abs/2311.00217v2 )

ライセンス: Link先を確認
S. Lee, T. Q. Peng, M. H. Goldberg, S. A. Rosenthal, J. E. Kotcher, E. W. Maibach and A. Leiserowitz(参考訳) 大規模言語モデル(LLM)は、人間の知覚と行動をエミュレートすることで、社会科学研究におけるその可能性を実証している。 本研究は,LLMのアルゴリズム的忠実度と偏りを,全国的に代表される2つの気候変動調査を用いて評価する。 LLMは、調査回答をシミュレートするために、人口統計学および/または心理学的共変量に設定された。 以上の結果から,LLMは大統領投票の行動を効果的に捉えることができるが,関連変数を含まない場合の温暖化の観点を正確に表現する上での課題に直面することが示唆された。 GPT-4は、個体群と共変量の両方で条件付きで性能が向上する。 しかし、特定のグループの見解をLLMで見積もる場合、LLMは黒人の地球温暖化に対する懸念を過小評価する傾向にある。 社会科学研究を支援するLLMの可能性を強調しながら, これらの結果は, 厳密な条件付け, モデル選択, 調査質問形式, 調査シミュレーションにLLMを用いた場合のバイアス評価の重要性を浮き彫りにした。 工学とアルゴリズム監査のさらなる研究は、LLMの能力を活用しながら、その固有の限界に対処するために不可欠である。

Large language models (LLMs) have demonstrated their potential in social science research by emulating human perceptions and behaviors, a concept referred to as algorithmic fidelity. This study assesses the algorithmic fidelity and bias of LLMs by utilizing two nationally representative climate change surveys. The LLMs were conditioned on demographics and/or psychological covariates to simulate survey responses. The findings indicate that LLMs can effectively capture presidential voting behaviors but encounter challenges in accurately representing global warming perspectives when relevant covariates are not included. GPT-4 exhibits improved performance when conditioned on both demographics and covariates. However, disparities emerge in LLM estimations of the views of certain groups, with LLMs tending to underestimate worry about global warming among Black Americans. While highlighting the potential of LLMs to aid social science research, these results underscore the importance of meticulous conditioning, model selection, survey question format, and bias assessment when employing LLMs for survey simulation. Further investigation into prompt engineering and algorithm auditing is essential to harness the power of LLMs while addressing their inherent limitations.
翻訳日:2024-02-09 18:59:50 公開日:2024-02-08
# DiffEnc:学習エンコーダを用いた変分拡散

DiffEnc: Variational Diffusion with a Learned Encoder ( http://arxiv.org/abs/2310.19789v2 )

ライセンス: Link先を確認
Beatrix M. G. Nielsen, Anders Christensen, Andrea Dittadi, Ole Winther(参考訳) 拡散モデルは階層的変分オートエンコーダ(vaes)と見なすことができる: 生成過程における条件分布のパラメータ共有と階層上の独立項としての損失の効率的な計算である。 モデルに柔軟性を加えながらこれらの利点を維持する拡散モデルに対する2つの変更を検討する。 まず,拡散過程におけるデータと深さに依存した平均関数を導入することにより,拡散損失が変化する。 提案するフレームワークであるDiffEncは,CIFAR-10の確率を統計的に有意に向上させる。 次に、逆エンコーダ法と生成過程のノイズ分散の比を1に固定されるのではなく、自由ウェイトパラメータとする。 有限深度階層に対して、エビデンスローバウンド(ELBO)は、重み付け拡散損失アプローチの目的として、および推論に特化してノイズスケジュールを最適化するために使用することができる。 一方、無限深さ階層では、重みパラメータは 1 で十分定義された ELBO を持つ必要がある。

Diffusion models may be viewed as hierarchical variational autoencoders (VAEs) with two improvements: parameter sharing for the conditional distributions in the generative process and efficient computation of the loss as independent terms over the hierarchy. We consider two changes to the diffusion model that retain these advantages while adding flexibility to the model. Firstly, we introduce a data- and depth-dependent mean function in the diffusion process, which leads to a modified diffusion loss. Our proposed framework, DiffEnc, achieves a statistically significant improvement in likelihood on CIFAR-10. Secondly, we let the ratio of the noise variance of the reverse encoder process and the generative process be a free weight parameter rather than being fixed to 1. This leads to theoretical insights: For a finite depth hierarchy, the evidence lower bound (ELBO) can be used as an objective for a weighted diffusion loss approach and for optimizing the noise schedule specifically for inference. For the infinite-depth hierarchy, on the other hand, the weight parameter has to be 1 to have a well-defined ELBO.
翻訳日:2024-02-09 18:59:30 公開日:2024-02-08
# TATA: Topic-Agnostic および Topic-Aware 埋め込みによるスタンス検出

TATA: Stance Detection via Topic-Agnostic and Topic-Aware Embeddings ( http://arxiv.org/abs/2310.14450v3 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric(参考訳) スタンス検出はインターネット上で異なる態度や信念を理解する上で重要である。 しかし、ある話題に対する節のスタンスがその話題に大きく依存していることを考えると、目に見えないトピックを一般化するスタンス検出モデルの構築は困難である。 本研究は,トピック認識/TAGとトピック認識/TAW埋め込みを下流姿勢検出に用いるために,コントラスト学習と,さまざまなトピックをカバーする未ラベルのニュース記事データセットを使用することを提案する。 これらの埋め込みをフルTATAモデルに組み合わせることで、いくつかのパブリックスタンス検出データセット(Zero-shot VASTデータセットの0.771$F_1$-score)で最先端のパフォーマンスを実現しています。 コードとデータはhttps://github.com/hanshanley/tataでリリースします。

Stance detection is important for understanding different attitudes and beliefs on the Internet. However, given that a passage's stance toward a given topic is often highly dependent on that topic, building a stance detection model that generalizes to unseen topics is difficult. In this work, we propose using contrastive learning as well as an unlabeled dataset of news articles that cover a variety of different topics to train topic-agnostic/TAG and topic-aware/TAW embeddings for use in downstream stance detection. Combining these embeddings in our full TATA model, we achieve state-of-the-art performance across several public stance detection datasets (0.771 $F_1$-score on the Zero-shot VAST dataset). We release our code and data at https://github.com/hanshanley/tata.
翻訳日:2024-02-09 18:59:09 公開日:2024-02-08
# VFedMH:多重不均一モデルの訓練のための垂直フェデレーション学習

VFedMH: Vertical Federated Learning for Training Multiple Heterogeneous Models ( http://arxiv.org/abs/2310.13367v2 )

ライセンス: Link先を確認
Shuo Wang and Keke Gai and Jing Yu and Liehuang Zhu and Kim-Kwang Raymond Choo and Bin Xiao(参考訳) 垂直フェデレーション学習は、クライアントがローカルデータを共有せずに機械学習モデルを協調的にトレーニングすることを可能にし、クライアントのローカルプライベートデータを保護するため、大きな注目を集めている。 しかしながら、既存のVFL法は、最適化収束と一般化に影響を与える参加者間の異種局所モデルを扱う際に、課題に直面している。 そこで本研究では,複数の異種モデル(VFedMH)を学習するための垂直連合学習という新しい手法を提案する。 VFedMHは、前方伝播中に各参加者の知識の局所的な埋め込みを集約することに焦点を当てている。 参加者の局所埋め込み値を保護するため,軽量ブラインド係数に基づく埋め込み保護手法を提案する。 特に、参加者は局所的異種モデルを用いて局所的な埋め込みを得る。 次に、サンプルの特徴のみを所有する受動的パーティは、盲目要因をローカル埋め込みに注入し、アクティブなパーティに送る。 アクティブパーティは、グローバルな知識埋め込みを得るためにローカル埋め込みを集約し、受動的パーティーに送信する。 受動的パーティは、グローバル埋め込みを利用して、ローカルな異種ネットワーク上で前進する。 しかし、パッシブパーティはサンプルラベルを所有していないため、局所モデル勾配を局所的に計算することはできない。 この制限を克服するために、アクティブパーティは、局所的不均質なモデルの勾配を計算する受動的パーティを支援する。 そして、各参加者は異種モデル勾配を用いて局所モデルを訓練する。 目的は各局所異種モデルの損失値を最小限にすることである。 VFedMHは、不均一な最適化で複数の異種モデルを同時に訓練し、モデル性能の最近の手法より優れることを示した。

Vertical federated learning has garnered significant attention as it allows clients to train machine learning models collaboratively without sharing local data, which protects the client's local private data. However, existing VFL methods face challenges when dealing with heterogeneous local models among participants, which affects optimization convergence and generalization. To address this challenge, this paper proposes a novel approach called Vertical federated learning for training multiple Heterogeneous models (VFedMH). VFedMH focuses on aggregating the local embeddings of each participant's knowledge during forward propagation. To protect the participants' local embedding values, we propose an embedding protection method based on lightweight blinding factors. In particular, participants obtain local embedding using local heterogeneous models. Then the passive party, who owns only features of the sample, injects the blinding factor into the local embedding and sends it to the active party. The active party aggregates local embeddings to obtain global knowledge embeddings and sends them to passive parties. The passive parties then utilize the global embeddings to propagate forward on their local heterogeneous networks. However, the passive party does not own the sample labels, so the local model gradient cannot be calculated locally. To overcome this limitation, the active party assists the passive party in computing its local heterogeneous model gradients. Then, each participant trains their local model using the heterogeneous model gradients. The objective is to minimize the loss value of their respective local heterogeneous models. Extensive experiments are conducted to demonstrate that VFedMH can simultaneously train multiple heterogeneous models with heterogeneous optimization and outperform some recent methods in model performance.
翻訳日:2024-02-09 18:58:54 公開日:2024-02-08
# Lag-Llama: 確率的時系列予測のための基礎モデルを目指して

Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2310.08278v3 )

ライセンス: Link先を確認
Kashif Rasul, Arjun Ashok, Andrew Robert Williams, Hena Ghonia, Rishika Bhagwatkar, Arian Khorasani, Mohammad Javad Darvishi Bayazi, George Adamopoulos, Roland Riachi, Nadhir Hassen, Marin Bilo\v{s}, Sahil Garg, Anderson Schneider, Nicolas Chapados, Alexandre Drouin, Valentina Zantedeschi, Yuriy Nevmyvaka, Irina Rish(参考訳) 過去数年間、基礎モデルはゼロショットと少数ショットの一般化のための前例のない能力のために機械学習のパラダイムシフトを引き起こしてきた。 しかし、自然言語処理やコンピュータビジョンといったモダリティの基盤モデルの成功にもかかわらず、時系列予測のための基礎モデルの開発は遅れを取っている。 我々は,ラグを共変量として用いるデコーダのみのトランスフォーマーアーキテクチャに基づく,不定値確率時系列予測のための汎用基礎モデルであるlag-llamaを提案する。 lag-llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前学習されており、ダウンストリームデータセット上の幅広い予測モデルと比較して、強力なゼロショット一般化能力を示している。 さらに、これらの未確認データセットの比較的小さな部分で微調整された場合、Lag-Llamaは最先端のパフォーマンスを達成し、従来のディープラーニングアプローチよりも優れ、平均して最高の汎用モデルとして出現する。 lag-llamaは、現在の時系列予測における最先端の候補となり、時系列データに合わせた基礎モデルの将来の進歩への道を開く。

Over the past years, foundation models have caused a paradigm shift in machine learning due to their unprecedented capabilities for zero-shot and few-shot generalization. However, despite the success of foundation models in modalities such as natural language processing and computer vision, the development of foundation models for time series forecasting has lagged behind. We present Lag-Llama, a general-purpose foundation model for univariate probabilistic time series forecasting based on a decoder-only transformer architecture that uses lags as covariates. Lag-Llama is pretrained on a large corpus of diverse time series data from several domains, and demonstrates strong zero-shot generalization capabilities compared to a wide range of forecasting models on downstream datasets across domains. Moreover, when fine-tuned on relatively small fractions of such previously unseen datasets, Lag-Llama achieves state-of-the-art performance, outperforming prior deep learning approaches, emerging as the best general-purpose model on average. Lag-Llama serves as a strong contender to the current state-of-art in time series forecasting and paves the way for future advancements in foundation models tailored to time series data.
翻訳日:2024-02-09 18:58:26 公開日:2024-02-08
# 形式的定理作成のための文脈内学習エージェント

An In-Context Learning Agent for Formal Theorem-Proving ( http://arxiv.org/abs/2310.04353v4 )

ライセンス: Link先を確認
Amitayush Thakur, George Tsoukalas, Yeming Wen, Jimmy Xin, Swarat Chaudhuri(参考訳) リーンやCoqのような環境での形式的定理証明のためのコンテキスト内学習エージェントを提案する。 この問題の現在の最先端モデルは、環境固有の証明データに基づいて微調整されている。 対照的に,本手法はCOPRAと呼ばれ,高能率汎用大言語モデル (GPT-4) を用いて,ステートフルなバックトラック探索から戦術的応用を提案する。 提案手法は基礎となる証明環境において実行される。 実行からのフィードバックは、検索履歴と外部データベースから取得したレムマから選択された情報とともに、次のモデルクエリのプロンプトを構築するために使用される。 我々はCompCertプロジェクトのMiniF2FベンチマークとCoqタスクセットに対するCOPRAの実装を評価した。 これらのベンチマークでは、COPRAはGPT-4の数発の呼び出しを著しく上回っている。 また、pass@1メトリックの観点から、リーンの最先端の微調整アプローチであるREPROVERよりも優れた微調整ベースのアプローチも好適に比較しています。 私たちのコードとデータはhttps://github.com/trishullab/copraで入手できます。

We present an in-context learning agent for formal theorem-proving in environments like Lean and Coq. Current state-of-the-art models for the problem are finetuned on environment-specific proof data. By contrast, our approach, called COPRA, repeatedly asks a high-capacity, general-purpose large language model (GPT-4) to propose tactic applications from within a stateful backtracking search. Proposed tactics are executed in the underlying proof environment. Feedback from the execution is used to build the prompt for the next model query, along with selected information from the search history and lemmas retrieved from an external database. We evaluate our implementation of COPRA on the miniF2F benchmark for Lean and a set of Coq tasks from the CompCert project. On these benchmarks, COPRA significantly outperforms few-shot invocations of GPT-4. It also compares favorably against finetuning-based approaches, outperforming REPROVER, a state-of-the-art finetuned approach for Lean, in terms of the pass@1 metric. Our code and data are available at https://github.com/trishullab/copra.
翻訳日:2024-02-09 18:57:27 公開日:2024-02-08
# 政策学習のための適応型実験設計

Adaptive Experimental Design for Policy Learning ( http://arxiv.org/abs/2401.03756v3 )

ライセンス: Link先を確認
Masahiro Kato and Kyohei Okumura and Takuya Ishihara and Toru Kitagawa(参考訳) 証拠に基づくターゲティングは、政策やビジネスの実践者の間で関心が高まっている。 コンテクスト情報を用いた固定予算ベストアーム識別(BAI)問題としての意思決定者の政策学習を定式化し,複数の治療アームを用いた政策学習のための最適適応実験設計について検討した。 サンプリング段階では、プランナーは、コンテキスト情報(共変量)を観察して順次到着する実験ユニットに対して、処理アームを適応的に割り当てる。 実験の後、プランナーは個体群に対する個別の割り当て規則を推奨する。 適応的なサンプリングと推奨されたポリシーのパフォーマンス基準として最悪の場合の後悔をセットし、漸近的な下限を導出し、後悔の上限の主要因が実験単位の大きさの増加とともに下限に一致する戦略である適応的サンプリング・ポリシー学習戦略(plas)を提案する。

Evidence-based targeting has been a topic of growing interest among the practitioners of policy and business. Formulating decision-maker's policy learning as a fixed-budget best arm identification (BAI) problem with contextual information, we study an optimal adaptive experimental design for policy learning with multiple treatment arms. In the sampling stage, the planner assigns treatment arms adaptively over sequentially arriving experimental units upon observing their contextual information (covariates). After the experiment, the planner recommends an individualized assignment rule to the population. Setting the worst-case expected regret as the performance criterion of adaptive sampling and recommended policies, we derive its asymptotic lower bounds, and propose a strategy, Adaptive Sampling-Policy Learning strategy (PLAS), whose leading factor of the regret upper bound aligns with the lower bound as the size of experimental units increases.
翻訳日:2024-02-09 18:49:06 公開日:2024-02-08
# 視覚言語インストラクションチューニングのためのクラスタ条件loraエキスパートの混合

Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning ( http://arxiv.org/abs/2312.12379v3 )

ライセンス: Link先を確認
Yunhao Gou, Zhili Liu, Kai Chen, Lanqing Hong, Hang Xu, Aoxue Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang(参考訳) LVLM(Large Vision-Language Models)のインストラクションチューニングは、幅広い下流視覚言語タスクにおいてゼロショットの一般化を伴う多目的モデルの開発に革命をもたらした。 しかし、異なるソースやフォーマットのトレーニングタスクの多様性は避けられないタスク競合につながり、異なるタスクが同じモデルパラメータのセットで競合し、結果として最適な命令追従能力となる。 そこで本研究では,タスクにカスタマイズされたモデルパラメータをアクティベートするために設計された,新しい混合型エキスパート (moe) アーキテクチャであるクラスタ条件型lora専門家 (mocle) の混合を提案する。 新たな命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートが組み込まれている。 10のゼロショットタスクに関する大規模な実験は、MoCLEの有効性を示している。

Instruction tuning of the Large Vision-language Models (LVLMs) has revolutionized the development of versatile models with zero-shot generalization across a wide range of downstream vision-language tasks. However, diversity of training tasks of different sources and formats would lead to inevitable task conflicts, where different tasks conflicts for the same set of model parameters, resulting in sub-optimal instruction-following abilities. To address that, we propose the Mixture of Cluster-conditional LoRA Experts (MoCLE), a novel Mixture of Experts (MoE) architecture designed to activate the task-customized model parameters based on the instruction clusters. A separate universal expert is further incorporated to improve the generalization capabilities of MoCLE for novel instructions. Extensive experiments on 10 zero-shot tasks demonstrate the effectiveness of MoCLE.
翻訳日:2024-02-09 18:48:48 公開日:2024-02-08
# 社会学習:大規模言語モデルによる協調学習を目指して

Social Learning: Towards Collaborative Learning with Large Language Models ( http://arxiv.org/abs/2312.11441v2 )

ライセンス: Link先を確認
Amirkeivan Mohtashami, Florian Hartmann, Sian Gooding, Lukas Zilka, Matt Sharifi, Blaise Aguera y Arcas(参考訳) 本稿では,大規模言語モデル (LLM) の文脈における「社会学習」の枠組みを紹介する。 LLM間の知識伝達のための2つのアプローチを提案し,評価する。 最初のシナリオでは、モデルをタスクを教えるための抽象的なプロンプトを生成する。 第2のアプローチでは、モデルが合成例を生成して知識を伝達する。 我々は,これらの手法を多様なデータセットにわたって評価し,プライバシ損失のプロキシとして記憶の定量化を行う。 社会学習に触発されたこれらの手法は、元のデータを低記憶化して有望な結果をもたらす。 特に,これらの手法を用いた性能は,元のラベルとプロンプトを用いた結果に匹敵することを示す。 我々の研究は、LCMの社会的学習の可能性を実証し、ベースラインのアプローチを確立し、将来の研究のために探索されていない領域をいくつか強調する。

We introduce the framework of "social learning" in the context of large language models (LLMs), whereby models share knowledge with each other in a privacy-aware manner using natural language. We present and evaluate two approaches for knowledge transfer between LLMs. In the first scenario, we allow the model to generate abstract prompts aiming to teach the task. In our second approach, models transfer knowledge by generating synthetic examples. We evaluate these methods across diverse datasets and quantify memorization as a proxy for privacy loss. These techniques inspired by social learning yield promising results with low memorization of the original data. In particular, we show that performance using these methods is comparable to results with the use of original labels and prompts. Our work demonstrates the viability of social learning for LLMs, establishes baseline approaches and highlights several unexplored areas for future work.
翻訳日:2024-02-09 18:48:15 公開日:2024-02-08
# 医用時系列におけるイベントベースコントラスト学習

Event-Based Contrastive Learning for Medical Time Series ( http://arxiv.org/abs/2312.10308v2 )

ライセンス: Link先を確認
Hyewon Jeong, Nassim Oufattole, Matthew Mcdermott, Aparna Balagopalan, Bryan Jangeesingh, Marzyeh Ghassemi, Collin Stultz(参考訳) 臨床実践では、患者が重要な医療イベント後の副作用のリスクが高いか、例えば、心不全の入院後の死亡の短期リスクが高いかを特定する必要があることが多い。 この課題は、特に心不全などの慢性疾患に苦しむ個人にとって、縦断的医療データの複雑さ、変動性、不均一性のために困難である。 本稿では,キーインデックスイベント前後の時間情報を保存する異種患者データの埋め込み学習手法であるevent-based contrastive learning (ebcl)を提案する。 EBCLは,30日間の寛解,1年間の死亡,1週間の滞在期間を含む,心不全コホートにおける重要な下流タスクに対して,他の訓練方法と比較して,より微調整性能の高いモデルを生成することを示した。 また,EBCLプリトレーニング単独で同様の死亡率と寛解リスクを有する患者を効果的にクラスタリングし,臨床的意思決定やパーソナライズされた患者ケアに有用な洞察を与えることができた。

In clinical practice, one often needs to identify whether a patient is at high risk of adverse outcomes after some key medical event; for example, the short-term risk of death after an admission for heart failure. This task is challenging due to the complexity, variability, and heterogeneity of longitudinal medical data, especially for individuals suffering from chronic diseases like heart failure. In this paper, we introduce Event-Based Contrastive Learning (EBCL), a method for learning embeddings of heterogeneous patient data that preserves temporal information before and after key index events. We demonstrate that EBCL produces models that yield better fine-tuning performance on critical downstream tasks for a heart failure cohort, including 30-day readmission, 1-year mortality, and 1-week length of stay, relative to other pretraining methods. Our findings also reveal that EBCL pretraining alone can effectively cluster patients with similar mortality and readmission risks, offering valuable insights for clinical decision-making and personalized patient care.
翻訳日:2024-02-09 18:48:01 公開日:2024-02-08
# 監視ビデオシステムにおけるイベントベース特徴検出と圧縮の高速化

Accelerated Event-Based Feature Detection and Compression for Surveillance Video Systems ( http://arxiv.org/abs/2312.08213v2 )

ライセンス: Link先を確認
Andrew C. Freeman, Ketan Mayer-Patel, Montek Singh(参考訳) 監視ビデオの時間的一貫性が強いため、従来の方法では圧縮性能が向上するが、ダウンストリームビジョンアプリケーションは高いデータレートでデコードされた画像フレームで動作する。 圧縮された映像表現から時間的冗長性に関する情報を抽出するのは簡単ではないため、スパース圧縮された表現内で時間的冗長性を伝える新しいシステムを提案する。 我々はADDERと呼ばれるビデオ表現フレームワークを利用して、フレーム化されたビデオを疎結合で非同期な強度サンプルに変換する。 本稿では、古典視覚アルゴリズムのコンテンツ適応、損失圧縮、非同期形式のメカニズムを紹介する。 VIRAT監視ビデオデータセットを用いて本システムの評価を行い,OpenCVと比較してFAST特徴の検出速度が43.7%向上したことを示す。 OpenCVと同じアルゴリズムを実行していますが、画像フレーム内のすべてのピクセルを処理するのではなく、新しい非同期イベントを受け取るピクセルのみを処理します。 我々の研究は、今後のニューロモルフィックセンサーの道を切り拓き、スパイクニューラルネットワークによる将来の応用に有効である。

The strong temporal consistency of surveillance video enables compelling compression performance with traditional methods, but downstream vision applications operate on decoded image frames with a high data rate. Since it is not straightforward for applications to extract information on temporal redundancy from the compressed video representations, we propose a novel system which conveys temporal redundancy within a sparse decompressed representation. We leverage a video representation framework called ADDER to transcode framed videos to sparse, asynchronous intensity samples. We introduce mechanisms for content adaptation, lossy compression, and asynchronous forms of classical vision algorithms. We evaluate our system on the VIRAT surveillance video dataset, and we show a median 43.7% speed improvement in FAST feature detection compared to OpenCV. We run the same algorithm as OpenCV, but only process pixels that receive new asynchronous events, rather than process every pixel in an image frame. Our work paves the way for upcoming neuromorphic sensors and is amenable to future applications with spiking neural networks.
翻訳日:2024-02-09 18:47:41 公開日:2024-02-08
# cidr : 最小特徴除去問題に対する協調的統合動的精錬法

CIDR: A Cooperative Integrated Dynamic Refining Method for Minimal Feature Removal Problem ( http://arxiv.org/abs/2312.08157v2 )

ライセンス: Link先を確認
Qian Chen, Taolin Zhang, Dongyang Li, Xiaofeng He(参考訳) ポストホックな説明領域における最小機能除去問題は、最小機能セット(MFS)を特定することを目的としている。 グリーディアルゴリズムを用いた最小特徴集合の計算以前の研究は、一般的なシナリオでは満足できない単調な仮定の下での特徴相互作用の探索を欠いている。 上記の制約に対処するため,最小限の機能集合を効率的に発見するための協調型動的精錬法 (CIDR) を提案する。 具体的には、特徴間の相互作用を検出するために協調統合勾配(CIG)を設計する。 CIGと最小特徴集合の特性を取り入れることで、最小特徴除去問題をknapsack問題に変換する。 さらに,多数の候補集合から最小特徴集合を決定するために,補助的最小特徴リファインメントアルゴリズムを考案する。 私たちの知る限りでは、自然言語処理の分野における最小限の機能削除問題に対処するのは、私たちの仕事が初めてです。 大規模な実験では、CIDRはさまざまなモデルやデータセット間の解釈性を改善した、代表最小限の機能セットをトレースできることを示した。

The minimal feature removal problem in the post-hoc explanation area aims to identify the minimal feature set (MFS). Prior studies using the greedy algorithm to calculate the minimal feature set lack the exploration of feature interactions under a monotonic assumption which cannot be satisfied in general scenarios. In order to address the above limitations, we propose a Cooperative Integrated Dynamic Refining method (CIDR) to efficiently discover minimal feature sets. Specifically, we design Cooperative Integrated Gradients (CIG) to detect interactions between features. By incorporating CIG and characteristics of the minimal feature set, we transform the minimal feature removal problem into a knapsack problem. Additionally, we devise an auxiliary Minimal Feature Refinement algorithm to determine the minimal feature set from numerous candidate sets. To the best of our knowledge, our work is the first to address the minimal feature removal problem in the field of natural language processing. Extensive experiments demonstrate that CIDR is capable of tracing representative minimal feature sets with improved interpretability across various models and datasets.
翻訳日:2024-02-09 18:47:25 公開日:2024-02-08
# 逆ロバスト画像検索のための崩壊対応トリプルトデカップリング

Collapse-Aware Triplet Decoupling for Adversarially Robust Image Retrieval ( http://arxiv.org/abs/2312.07364v2 )

ライセンス: Link先を確認
Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Chao Shen(参考訳) 対人訓練は、対人的な例に対して画像検索を擁護する上で大きな成果を上げている。 しかし、dml(deep metric learning)における既存の研究は、弱い逆境とモデルの崩壊という2つの大きな制限に苦しめられている。 本稿では, 崩壊対応三重項分離法(CA-TRIDE)を提案する。 具体的には、トリドは摂動目標をアンカーと他の候補に空間的に分離することで強い敵対関係を生じさせる。 さらに、CAは、摂動の最適化に組み込まれた新しい計量である崩壊性に基づいて、連続モデル崩壊を防止する。 また,画像検索における既存のロバストネス指標の欠点を2つ同定し,より合理的なロバストネス評価のための新しい指標を提案する。 3つのデータセットに関する広範囲な実験によって、ca-trideは従来の防御メソッドよりも従来型と新しいメトリクスで優れていることが示されている。

Adversarial training has achieved substantial performance in defending image retrieval against adversarial examples. However, existing studies in deep metric learning (DML) still suffer from two major limitations: weak adversary and model collapse. In this paper, we address these two limitations by proposing collapse-aware triplet decoupling (CA-TRIDE). Specifically, TRIDE yields a strong adversary by spatially decoupling the perturbation targets into the anchor and the other candidates. Furthermore, CA prevents the consequential model collapse, based on a novel metric, collapseness, which is incorporated into the optimization of perturbation. We also identify two drawbacks of the existing robustness metric in image retrieval and propose a new metric for a more reasonable robustness evaluation. Extensive experiments on three datasets demonstrate that CA-TRIDE outperforms existing defense methods in both conventional and new metrics.
翻訳日:2024-02-09 18:47:09 公開日:2024-02-08
# DGNet:水関連光学画像強調のための動的勾配誘導ネットワーク

DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image Enhancement ( http://arxiv.org/abs/2312.06999v3 )

ライセンス: Link先を確認
Jingchun Zhou and Zongxin He and Qiuping Jiang and Kui Jiang and Xianping Fu and Xuelong Li(参考訳) 水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。 この問題を解決するため、従来の方法は劣化過程を理想化し、画像特徴の分布に対する中雑音や物体の動きの影響を無視し、モデルの一般化と適応性を制限した。 従来の手法では、原画像と合成接地画像から構築した基準勾配を用いる。 これにより、ネットワーク性能は低品質のトレーニングデータに影響される可能性がある。 提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。 このプロセスは画質を改善し、局所最適化を避ける。 さらに、チャネル結合推論(CCI)戦略と周波数領域平滑化モジュール(FRS)に基づく特徴回復再構築モジュール(FRR)を提案する。 これらのモジュールは、様々な種類のノイズがネットワーク性能に与える影響を減らしながら、他の劣化機能を分離する。 複数の公開データセットの実験は、既存の最先端アプローチよりも、特にパフォーマンスのマイルストーンを達成する上で、我々の手法の優位性を実証している。 パラメータサイズと推論時間の観点からの効率は、その幅広い実用性を示す。 コードは公開される予定だ。

Underwater image enhancement (UIE) is a challenging task due to the complex degradation caused by underwater environments. To solve this issue, previous methods often idealize the degradation process, and neglect the impact of medium noise and object motion on the distribution of image features, limiting the generalization and adaptability of the model. Previous methods use the reference gradient that is constructed from original images and synthetic ground-truth images. This may cause the network performance to be influenced by some low-quality training data. Our approach utilizes predicted images to dynamically update pseudo-labels, adding a dynamic gradient to optimize the network's gradient space. This process improves image quality and avoids local optima. Moreover, we propose a Feature Restoration and Reconstruction module (FRR) based on a Channel Combination Inference (CCI) strategy and a Frequency Domain Smoothing module (FRS). These modules decouple other degradation features while reducing the impact of various types of noise on network performance. Experiments on multiple public datasets demonstrate the superiority of our method over existing state-of-the-art approaches, especially in achieving performance milestones: PSNR of 25.6dB and SSIM of 0.93 on the UIEB dataset. Its efficiency in terms of parameter size and inference time further attests to its broad practicality. The code will be made publicly available.
翻訳日:2024-02-09 18:46:54 公開日:2024-02-08
# csl:unseenを含むセグメンテーションのためのクラス非依存構造制約学習

CSL: Class-Agnostic Structure-Constrained Learning for Segmentation Including the Unseen ( http://arxiv.org/abs/2312.05538v2 )

ライセンス: Link先を確認
Hao Zhang, Fang Li, Lu Qi, Ming-Hsuan Yang, and Narendra Ahuja(参考訳) Out-Of-Distribution (OOD) Segmentation と Zero-Shot Semantic Segmentation (ZS3) の対応は難しい。 既存の戦略はクラスに依存しない mask2former (ca-m2f) を特定のタスクに適応させる。 しかし、これらの手法は特異なタスクに対応し、スクラッチからの要求訓練を行い、性能に影響を及ぼすCA-M2Fの欠陥を示す。 本稿では,既存の手法と統合可能なプラグインフレームワークであるcsl(class-dependent structure-constrained learning)を提案し,unseen,特にood,zs3,ドメイン適応(da)タスクを含む,構造的制約を組み込んでパフォーマンス向上を実現する。 CSLは,(1)基本教師ネットワークから知識を抽出し,トレーニングや推論フレーズ間の制約を強制すること,(2)既存のモデルを活用して,推論フェーズ中に制約を付加すること,の2つの方法を統合する。 OODオブジェクトセグメンテーションを強化するソフトアサインとマスク分割手法を提案する。 実証的な評価は、CSLがOODセグメンテーション、ZS3、DAセグメンテーションにまたがる既存のアルゴリズムの性能向上に成功し、3つのタスクすべてにわたって最先端を一貫して超越していることを示している。

Addressing Out-Of-Distribution (OOD) Segmentation and Zero-Shot Semantic Segmentation (ZS3) is challenging, necessitating segmenting unseen classes. Existing strategies adapt the class-agnostic Mask2Former (CA-M2F) tailored to specific tasks. However, these methods cater to singular tasks, demand training from scratch, and we demonstrate certain deficiencies in CA-M2F, which affect performance. We propose the Class-Agnostic Structure-Constrained Learning (CSL), a plug-in framework that can integrate with existing methods, thereby embedding structural constraints and achieving performance gain, including the unseen, specifically OOD, ZS3, and domain adaptation (DA) tasks. There are two schemes for CSL to integrate with existing methods (1) by distilling knowledge from a base teacher network, enforcing constraints across training and inference phrases, or (2) by leveraging established models to obtain per-pixel distributions without retraining, appending constraints during the inference phase. We propose soft assignment and mask split methodologies that enhance OOD object segmentation. Empirical evaluations demonstrate CSL's prowess in boosting the performance of existing algorithms spanning OOD segmentation, ZS3, and DA segmentation, consistently transcending the state-of-art across all three tasks.
翻訳日:2024-02-09 18:46:21 公開日:2024-02-08
# SVQ:時空間予測のためのスパースベクトル量子化

SVQ: Sparse Vector Quantization for Spatiotemporal Forecasting ( http://arxiv.org/abs/2312.03406v3 )

ライセンス: Link先を確認
Chao Chen, Tian Zhou, Yanjun Zhao, Hui Liu, Liang Sun, Rong Jin(参考訳) 多くの分野で重要な時空間予測は、ニュアンスパターンの分離とノイズの排除の間の微妙な均衡にかかっている。 これを解決するために,スパース回帰に基づくベクトル量子化(SVQ)を導入する。これはスパース回帰を簡潔表現に活用する新しい手法であり,古典的なクラスタリングに基づくベクトル量子化法よりも理論的かつ実用的な手法である。 このアプローチは、疎設計によるノイズをフィルタリングしながら、回帰モデルを用いて元のベクトルからの重要な詳細を保存する。 さらに, 2層MLPと広範囲なコードブックを混合して, スパース回帰過程を近似した。 このアプローチは、計算コストを大幅に削減するだけでなく、SVQの微分可能性とトレーニングの単純さを与え、パフォーマンスを著しく向上させる。 5つの時空間ベンチマークデータセットに関する実証研究は、SVQが最先端の結果を得ることを示す。 具体的には、WeatherBench-S温度データセットにおいて、SVQはトップベースラインを7.9%改善する。 ビデオ予測ベンチマークでは、Human、KTH、KittiCaltech-itはMAEを平均9.4%削減し、画質を17.3%改善した。

Spatio-temporal forecasting, pivotal in numerous fields, hinges on the delicate equilibrium between isolating nuanced patterns and sifting out noise. To tackle this, we introduce Sparse Regression-based Vector Quantization (SVQ), a novel technique that leverages sparse regression for succinct representation, an approach theoretically and practically favored over classical clustering-based vector quantization methods. This approach preserves critical details from the original vectors using a regression model while filtering out noise via sparse design. Moreover, we approximate the sparse regression process using a blend of a two-layer MLP and an extensive codebook. This approach not only substantially cuts down on computational costs but also grants SVQ differentiability and training simplicity, resulting in a notable enhancement of performance. Our empirical studies on five spatial-temporal benchmark datasets demonstrate that SVQ achieves state-of-the-art results. Specifically, on the WeatherBench-S temperature dataset, SVQ improves the top baseline by 7.9%. In video prediction benchmarks-Human, KTH, and KittiCaltech-it reduces MAE by an average of 9.4% and improves image quality by 17.3% (LPIPS).
翻訳日:2024-02-09 18:45:51 公開日:2024-02-08
# 正確な予測モデルが有害な自己充足予言をもたらすとき

When accurate prediction models yield harmful self-fulfilling prophecies ( http://arxiv.org/abs/2312.01210v3 )

ライセンス: Link先を確認
Wouter A.C. van Amsterdam, Nan van Geloven, Jesse H. Krijthe, Rajesh Ranganath, Giovanni Cin\'a(参考訳) 目的:予測モデルは医学研究や実践で人気がある。 特定の患者に対する関心の結果を予測することによって、これらのモデルは困難な治療決定に役立ち、パーソナライズされたデータ駆動医療のポスターとしてしばしば賞賛される。 多くの予測モデルは、検証研究における予測精度に基づいて決定支援のためにデプロイされる。 安全かつ有効なアプローチかどうかを調査する。 資料と方法: 意思決定に予測モデルを使うことは, デプロイ後の予測が良好な識別を示す場合でも, 有害な意思決定につながることを示す。 これらのモデルは有害な自己充足的予言であり、その展開は患者のグループに害を与えるが、これらの患者の悪影響はモデルの予測力を無効にしない。 結果: 本研究の主な成果は, このような予測モデルの形式的特徴付けである。 次に,配置前後で十分に調整されたモデルが,データ分布の変化を起こさなかったため,意思決定に役に立たないことを示す。 考察: 医療判断に使用される予測モデルの検証,展開,評価のための標準プラクティスを改訂する必要があることを示唆する。 結論: 成果予測モデルは、意思決定に使用する場合、有害な自己満足の予言をもたらす可能性がある。

Objective: Prediction models are popular in medical research and practice. By predicting an outcome of interest for specific patients, these models may help inform difficult treatment decisions, and are often hailed as the poster children for personalized, data-driven healthcare. Many prediction models are deployed for decision support based on their prediction accuracy in validation studies. We investigate whether this is a safe and valid approach. Materials and Methods: We show that using prediction models for decision making can lead to harmful decisions, even when the predictions exhibit good discrimination after deployment. These models are harmful self-fulfilling prophecies: their deployment harms a group of patients but the worse outcome of these patients does not invalidate the predictive power of the model. Results: Our main result is a formal characterization of a set of such prediction models. Next we show that models that are well calibrated before and after deployment are useless for decision making as they made no change in the data distribution. Discussion: Our results point to the need to revise standard practices for validation, deployment and evaluation of prediction models that are used in medical decisions. Conclusion: Outcome prediction models can yield harmful self-fulfilling prophecies when used for decision making, a new perspective on prediction model development, deployment and monitoring is needed.
翻訳日:2024-02-09 18:45:31 公開日:2024-02-08
# MultiResFormer: 汎用時系列予測のための適応型マルチリゾリューションモデリング付きトランス

MultiResFormer: Transformer with Adaptive Multi-Resolution Modeling for General Time Series Forecasting ( http://arxiv.org/abs/2311.18780v2 )

ライセンス: Link先を確認
Linfeng Du, Ji Xin, Alex Labach, Saba Zuberi, Maksims Volkovs, Rahul G. Krishnan(参考訳) トランスフォーマーベースのモデルは、最近時系列予測の境界を大きく押し上げている。 既存のメソッドは通常、パッチの長さの固定セットを使用して、時系列データを$\textit{patches}$にエンコードする。 しかし、これは現実の多周期時系列に存在する複雑な時間的依存関係を捉える能力の欠如をもたらす可能性がある。 本稿では,最適パッチ長を適応的に選択することで時間変動を動的にモデル化するMultiResFormerを提案する。 具体的には、各層の初期において、時系列データを複数の並列分岐に符号化し、それぞれ検出された周期性を使用して、トランスエンコーダブロックを通過する。 我々は,MultiResFormerと最先端のベースラインを比較し,長期・短期の予測データセットについて広範な評価を行う。 MultiResFormerは、パッチベースのTransformerベースラインを長期予測タスクで上回り、CNNベースラインをはるかに上回り、これらのベースラインよりもはるかに少ないパラメータを使用する。

Transformer-based models have greatly pushed the boundaries of time series forecasting recently. Existing methods typically encode time series data into $\textit{patches}$ using one or a fixed set of patch lengths. This, however, could result in a lack of ability to capture the variety of intricate temporal dependencies present in real-world multi-periodic time series. In this paper, we propose MultiResFormer, which dynamically models temporal variations by adaptively choosing optimal patch lengths. Concretely, at the beginning of each layer, time series data is encoded into several parallel branches, each using a detected periodicity, before going through the transformer encoder block. We conduct extensive evaluations on long- and short-term forecasting datasets comparing MultiResFormer with state-of-the-art baselines. MultiResFormer outperforms patch-based Transformer baselines on long-term forecasting tasks and also consistently outperforms CNN baselines by a large margin, while using much fewer parameters than these baselines.
翻訳日:2024-02-09 18:44:49 公開日:2024-02-08
# health-llm:パーソナライズされた検索型疾病予測モデル

Health-LLM: Personalized Retrieval-Augmented Disease Prediction Model ( http://arxiv.org/abs/2402.00746v2 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Chong Zhang, Dong Shu, Suiyuan Zhu, Mengnan Du, Yongfeng Zhang, Yanda Meng(参考訳) 医療における人工知能(AI)は、非常に高度なインテリジェント医療治療を持っている。 しかし、従来のインテリジェントヘルスケアは、静的データと統一された標準によって制限されており、個々の状況や他の課題との完全な統合を妨げている。 したがって、開発にはより専門的で詳細なインテリジェントヘルスケア手法が必要である。 そこで我々は,大規模特徴抽出と医療知識トレードオフスコアリングを組み合わせたHeath-LLMという革新的なフレームワークを提案する。 従来の健康管理手法と比較して,本手法には3つの利点がある。 まず,健康報告を大規模モデルに統合し,詳細なタスク情報を提供する。 第2に、専門的な医療専門知識は、健康特性の重み付けスコアを調整するために使用される。 第3に,半自動特徴抽出フレームワークを用いて言語モデルの分析能力を高め,専門家の洞察を取り入れ,疾患予測の精度を向上させる。 本研究は,Health-LLMの有効性を評価するために,多数の健康報告で疾患予測実験を行った。 実験の結果,提案手法は従来の方法を超え,疾患予測とパーソナライズされた健康管理に革命をもたらす可能性が示唆された。 コードはhttps://github.com/jmyissb/HealthLLMで入手できる。

Artificial intelligence (AI) in healthcare has significantly advanced intelligent medical treatment. However, traditional intelligent healthcare is limited by static data and unified standards, preventing full integration with individual situations and other challenges. Hence, a more professional and detailed intelligent healthcare method is needed for development. To this end, we propose an innovative framework named Heath-LLM, which combines large-scale feature extraction and medical knowledge trade-off scoring. Compared to traditional health management methods, our approach has three main advantages. First, our method integrates health reports into a large model to provide detailed task information. Second, professional medical expertise is used to adjust the weighted scores of health characteristics. Third, we use a semi-automated feature extraction framework to enhance the analytical power of language models and incorporate expert insights to improve the accuracy of disease prediction. We have conducted disease prediction experiments on a large number of health reports to assess the effectiveness of Health-LLM. The results of the experiments indicate that the proposed method surpasses traditional methods and has the potential to revolutionize disease prediction and personalized health management. The code is available at https://github.com/jmyissb/HealthLLM.
翻訳日:2024-02-09 18:37:30 公開日:2024-02-08
# PPSURF:詳細な表面再構成のためのパッチとポイントの畳み込み

PPSURF: Combining Patches and Point Convolutions for Detailed Surface Reconstruction ( http://arxiv.org/abs/2401.08518v2 )

ライセンス: Link先を確認
Philipp Erler and Lizeth Fuentes and Pedro Hermosilla and Paul Guerrero and Renato Pajarola and Michael Wimmer(参考訳) ポイントクラウドからの3次元表面再構成は,コンテンツ創造,考古学,デジタル文化遺産,工学といった分野において重要なステップである。 現在のアプローチでは、ポイントに合うようにデータ駆動の表面表現を最適化するか、あるいは一般的に発生する表面の分布と、潜在的にノイズの多い点雲との相関性について、データ駆動の事前学習を試みる。 データ駆動方式は、雑音のロバストな処理を可能にし、通常、グローバルかローカルのプリエントに焦点を合わせ、グローバルエンドの雑音に対するロバスト性とローカルエンドにおける表面ディテールの保存とのトレードオフを可能にする。 本稿では,ポイント畳み込みに基づくグローバル事前処理とローカルクラウドパッチ処理に基づくローカル事前処理を組み合わせた手法としてPSurfを提案する。 この手法は,現在の最先端技術よりも精度の高い表面情報を復元しながら,ノイズに対して頑健であることを示す。 ソースコード、事前トレーニングされたモデル、データセットは、https://github.com/cg-tuwien/ppsurf.comで利用可能です。

3D surface reconstruction from point clouds is a key step in areas such as content creation, archaeology, digital cultural heritage, and engineering. Current approaches either try to optimize a non-data-driven surface representation to fit the points, or learn a data-driven prior over the distribution of commonly occurring surfaces and how they correlate with potentially noisy point clouds. Data-driven methods enable robust handling of noise and typically either focus on a global or a local prior, which trade-off between robustness to noise on the global end and surface detail preservation on the local end. We propose PPSurf as a method that combines a global prior based on point convolutions and a local prior based on processing local point cloud patches. We show that this approach is robust to noise while recovering surface details more accurately than the current state-of-the-art. Our source code, pre-trained model and dataset are available at: https://github.com/cg-tuwien/ppsurf
翻訳日:2024-02-09 18:37:10 公開日:2024-02-08
# 責任あるAIを実装するための倫理的トレードオフの解決

Resolving Ethics Trade-offs in Implementing Responsible AI ( http://arxiv.org/abs/2401.08103v2 )

ライセンス: Link先を確認
Conrad Sanderson, Emma Schleiger, David Douglas, Petra Kuhnert, Qinghua Lu(参考訳) 高レベルのAI倫理原則を実践的なAI/MLシステムに運用することは、まだ進展しているが、基礎となるAI倫理の側面間の緊張を管理するための理論と実践のギャップがある。 我々は、ルーディメンタリーからコンプレックスまで、トレードオフを通じて緊張に対処するための5つのアプローチを取り上げます。 アプローチは、考慮された文脈、スコープ、文脈を測定する方法、正当化の度合いのタイプによって異なる。 いずれのアプローチも,すべての組織やシステム,あるいはアプリケーションに適用可能なものではありません。 これに対処するために,我々は以下のフレームワークを提案する。 (i)緊張の積極的な識別 (ii)倫理面の優先順位付け及び重み付け (iii)トレードオフ決定の正当化及び文書化。 提案するフレームワークは,潜在的な規制要件に適合する,十分に包括されたAI/MLシステムの実装を容易にすることを目的としている。

While the operationalisation of high-level AI ethics principles into practical AI/ML systems has made progress, there is still a theory-practice gap in managing tensions between the underlying AI ethics aspects. We cover five approaches for addressing the tensions via trade-offs, ranging from rudimentary to complex. The approaches differ in the types of considered context, scope, methods for measuring contexts, and degree of justification. None of the approaches is likely to be appropriate for all organisations, systems, or applications. To address this, we propose a framework which consists of: (i) proactive identification of tensions, (ii) prioritisation and weighting of ethics aspects, (iii) justification and documentation of trade-off decisions. The proposed framework aims to facilitate the implementation of well-rounded AI/ML systems that are appropriate for potential regulatory requirements.
翻訳日:2024-02-09 18:36:51 公開日:2024-02-08
# リモートセンシング画像と地理的事前情報による利害関係のマルチモーダル都市域

Multimodal Urban Areas of Interest Generation via Remote Sensing Imagery and Geographical Prior ( http://arxiv.org/abs/2401.06550v3 )

ライセンス: Link先を確認
Chuanji Shi, Yingying Zhang, Jiaotuan Wang, Xin Guo and Qiqi Zhu(参考訳) AOI(Urban Area-of-interest)は、多角形境界が定義された都市機能ゾーンである。 都市商業の急速な発展により、高度に正確でタイムリーなAOIデータに対する需要が高まっている。 しかし、既存の研究は主に都市計画や地域経済分析のための粗粒度機能ゾーンに重点を置いており、現実世界におけるAOIの有効期限を無視することが多い。 Mobile Internet Online-to-Offline (O2O) ビジネスの正確な要求を満たすことができない。 これらの事業は、特定のコミュニティ、学校、病院まで正確に行う必要がある。 本稿では、AOI境界を同時に検出し、AOIの信頼性を検証するために、AOITRというタイトルの地理的先行画像と組み合わされたリモートセンシング画像を活用することで、総合的なエンドツーエンドのマルチモーダルディープラーニングフレームワークを提案する。 道路網を様々なレベルで分割するロードカット法のような従来のAOI生成法とは異なり,本手法は画素レベルの分類に依存するセマンティックセマンティックセマンティクスアルゴリズムから分岐する。 代わりに、AOITRは、特定のカテゴリのポイント・オブ・関心(POI)を選択し、それを使って、入り口のPOIや道路ノードなど、対応するリモートセンシング画像と地理的先行情報を検索する。 この情報は、変換器エンコーダ-デコーダアーキテクチャに基づくマルチモーダル検出モデルを構築し、AOIポリゴンを回帰するのに役立つ。 さらに,人間の移動性,近隣のPOI,および物流アドレスの動的特徴を利用して,ケースドネットワークモジュールによるAOI信頼性評価を行う。 実験結果から,本アルゴリズムは,従来の手法を大差で超え,結合(iou)メトリックの交叉において有意な改善が得られた。

Urban area-of-interest (AOI) refers to an integrated urban functional zone with defined polygonal boundaries. The rapid development of urban commerce has led to increasing demands for highly accurate and timely AOI data. However, existing research primarily focuses on coarse-grained functional zones for urban planning or regional economic analysis, and often neglects the expiration of AOI in the real world. They fail to fulfill the precision demands of Mobile Internet Online-to-Offline (O2O) businesses. These businesses require accuracy down to a specific community, school, or hospital. In this paper, we propose a comprehensive end-to-end multimodal deep learning framework designed for simultaneously detecting accurate AOI boundaries and validating the reliability of AOI by leveraging remote sensing imagery coupled with geographical prior, titled AOITR. Unlike conventional AOI generation methods, such as the Road-cut method that segments road networks at various levels, our approach diverges from semantic segmentation algorithms that depend on pixel-level classification. Instead, our AOITR begins by selecting a point-of-interest (POI) of specific category, and uses it to retrieve corresponding remote sensing imagery and geographical prior such as entrance POIs and road nodes. This information helps to build a multimodal detection model based on transformer encoder-decoder architecture to regress the AOI polygon. Additionally, we utilize the dynamic features from human mobility, nearby POIs, and logistics addresses for AOI reliability evaluation via a cascaded network module. The experimental results reveal that our algorithm achieves a significant improvement on Intersection over Union (IoU) metric, surpassing previous methods by a large margin.
翻訳日:2024-02-09 18:36:37 公開日:2024-02-08
# RoSA:ロバスト適応による高精度パラメータ効率ファインチューニング

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation ( http://arxiv.org/abs/2401.04679v5 )

ライセンス: Link先を確認
Mahdi Nikdan, Soroush Tabesh, Elvir Crn\v{c}evi\'c, Dan Alistarh(参考訳) 本研究では,大規模言語モデル (LLM) の文脈において,限られた計算・メモリ予算の下で高い精度を達成できるパラメータ効率細調整法について検討する。 本稿では,ロバスト適応法 (RoSA) と呼ばれる新しいPEFT法を提案する。ロバスト適応法は,厳密な主成分分析にインスパイアされ,固定された事前学習重みのセット上に$\textit{low-rank}$と$\textit{highly-sparse}$コンポーネントを併用して,フルファインチューニング (FFT) ソリューションの性能を効率的に近似する。 小学校数学やSQLクエリ生成など,優れたパフォーマンスのために微調整を必要とする一連の課題生成タスクにおいて,RoSAがLoRA,純スパース微調整,代替ハイブリッドメソッドを同じパラメータ予算で上回り,一部のタスクにおいてFFTの性能を回復できることを示す。 本稿では,トレーニングアルゴリズム,特にメモリ効率と計算効率のよいトレーニングを可能にするスパースGPUカーネルを補完するシステムサポートを提供し,低精度ベースウェイトと互換性があることを示し,量子化,低ランク,スパース近似を組み合わせた最初の関節表現を実現する。 私たちのコードはhttps://github.com/IST-DASLab/RoSAでアクセスできます。

We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis that jointly trains $\textit{low-rank}$ and $\textit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms LoRA, pure sparse fine-tuning, and alternative hybrid methods at the same parameter budget, and can even recover the performance of FFT on some tasks. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training, and show that it is also compatible with low-precision base weights, resulting in the first joint representation combining quantization, low-rank and sparse approximations. Our code is accessible at https://github.com/IST-DASLab/RoSA.
翻訳日:2024-02-09 18:36:08 公開日:2024-02-08
# マルチジョブフェデレーション学習のためのフェアネスを考慮したジョブスケジューリング

Fairness-Aware Job Scheduling for Multi-Job Federated Learning ( http://arxiv.org/abs/2401.02740v3 )

ライセンス: Link先を確認
Yuxin Shi, Han Yu(参考訳) フェデレートラーニング(FL)は、複数のデータ所有者(FLクライアント)が機密性の高いプライベートデータを開示することなく、協調的に機械学習モデルをトレーニングすることを可能にする。 既存のFL研究は主に、1つのFLサーバがFLクライアントのサブセットを選択して各トレーニングラウンドでローカルモデルを更新する独占シナリオに焦点を当てている。 実際には、複数のFLサーバが同時に同じプールからクライアントを選ぼうとしています。 本稿では,このギャップを埋めるためのFairFedJS(Federated Job Scheduling)アプローチを提案する。 lyapunov最適化に基づき、待ち時間が長くなるのを防ぐために、現在の需要と求職入札を共同で考慮し、要求の高いflクライアントデータセットをflジョブに公平に割り当てることを保証する。 FairFedJSと2つのデータセットに対する4つの最先端アプローチを比較した大規模な実験は、その大きな利点を示している。 これは、スケジューリングの公平さと収束時間に関して、平均で31.9%と1.0%という最高のベースラインを上回り、比較試験の正確さを実現している。

Federated learning (FL) enables multiple data owners (a.k.a. FL clients) to collaboratively train machine learning models without disclosing sensitive private data. Existing FL research mostly focuses on the monopoly scenario in which a single FL server selects a subset of FL clients to update their local models in each round of training. In practice, there can be multiple FL servers simultaneously trying to select clients from the same pool. In this paper, we propose a first-of-its-kind Fairness-aware Federated Job Scheduling (FairFedJS) approach to bridge this gap. Based on Lyapunov optimization, it ensures fair allocation of high-demand FL client datasets to FL jobs in need of them, by jointly considering the current demand and the job payment bids, in order to prevent prolonged waiting. Extensive experiments comparing FairFedJS against four state-of-the-art approaches on two datasets demonstrate its significant advantages. It outperforms the best baseline by 31.9% and 1.0% on average in terms of scheduling fairness and convergence time, respectively, while achieving comparable test accuracy.
翻訳日:2024-02-09 18:35:40 公開日:2024-02-08
# AUPIMO:高速かつ低耐性で視覚異常検出ベンチマークを再定義する

AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance ( http://arxiv.org/abs/2401.01984v3 )

ライセンス: Link先を確認
Joao P. C. Bertoldo and Dick Ameln and Ashwin Vaidya and Samet Ak\c{c}ay(参考訳) 視覚異常検出研究の最近の進歩は、MVTecやVisAのような公開ベンチマークデータセットにおけるAUROCとAUPROのスコアが完全なリコールへと収束し、これらのベンチマークがほぼ解決されているという印象を与えている。 しかしながら、aurocとauproスコアは必ずしも定性的なパフォーマンスを反映していないため、現実世界のアプリケーションにおけるこれらのメトリクスの妥当性が制限されている。 適切な評価基準の欠如によって課される人工天井は,フィールドの進行を抑えるものであり,我々のアルゴリズムを評価するために用いられる評価基準を再考することが重要である。 本稿では,AUROC と AUPRO の欠点に対処する新しい指標である Per-IMage Overlap (PIMO) を紹介する。 PIMOは既存のメトリクスのリコールベースの性質を保っているが、曲線の割り当て(および曲線の下の各領域)は画像ごとであり、X軸は通常の画像にのみ依存する。 イメージ毎のリコールの測定はインスタンススコアのインデックス化を単純化し、ノイズの多いアノテーションに対してより堅牢である。 我々が示すように、計算を加速し、統計テストを使ってモデルを比較することができる。 通常の画像に対する偽陽性に対する耐性を低くすることで、PIMOは強化されたモデル検証手順を提供し、データセット間のパフォーマンスのばらつきを強調する。 我々の実験では、PIMOは、異常検出ベンチマークを再定義する実用的な利点と、パフォーマンス上の見識を提供する。特にMVTec ADとVisAデータセットが現代のモデルによって解決されたという認識に挑戦する。 https://github.com/jpcbertoldo/aupimo。

Recent advances in visual anomaly detection research have seen AUROC and AUPRO scores on public benchmark datasets such as MVTec and VisA converge towards perfect recall, giving the impression that these benchmarks are near-solved. However, high AUROC and AUPRO scores do not always reflect qualitative performance, which limits the validity of these metrics in real-world applications. We argue that the artificial ceiling imposed by the lack of an adequate evaluation metric restrains progression of the field, and it is crucial that we revisit the evaluation metrics used to rate our algorithms. In response, we introduce Per-IMage Overlap (PIMO), a novel metric that addresses the shortcomings of AUROC and AUPRO. PIMO retains the recall-based nature of the existing metrics but introduces two distinctions: the assignment of curves (and respective area under the curve) is per-image, and its X-axis relies solely on normal images. Measuring recall per image simplifies instance score indexing and is more robust to noisy annotations. As we show, it also accelerates computation and enables the usage of statistical tests to compare models. By imposing low tolerance for false positives on normal images, PIMO provides an enhanced model validation procedure and highlights performance variations across datasets. Our experiments demonstrate that PIMO offers practical advantages and nuanced performance insights that redefine anomaly detection benchmarks -- notably challenging the perception that MVTec AD and VisA datasets have been solved by contemporary models. Available on GitHub: https://github.com/jpcbertoldo/aupimo.
翻訳日:2024-02-09 18:35:22 公開日:2024-02-08
# 軸受故障診断のための振動信号の2次時間周波数解析

Quadratic Time-Frequency Analysis of Vibration Signals for Diagnosing Bearing Faults ( http://arxiv.org/abs/2401.01172v2 )

ライセンス: Link先を確認
Mohammad Al-Sa'd, Tuomas Jalonen, Serkan Kiranyaz, and Moncef Gabbouj(参考訳) 軸受欠陥の診断は、メンテナンスコストと運用上の故障を減らすために最重要である。 ベアリング断層は機械振動の主要な要因であり、その信号形態の分析は彼らの健康状態に関する洞察を与える。 残念ながら、既存のアプローチは制御された環境に最適化されており、時変回転速度や振動の非定常特性といった現実的な条件を無視している。 本稿では,周波数解析と深層学習の融合により,時変速度と騒音レベルの変化を考慮した軸受障害の診断を行う。 まず,軸受故障による振動を定式化し,その非定常性と軸受の固有および動作パラメータの関係について考察する。 また,2次時間周波数分布の解明と,異なる軸受断層に付随する特異な動的パターンの解明の有効性を検証した。 転がり要素軸受の様々な欠陥を診断するための時間周波数畳み込みニューラルネットワーク(TF-CNN)を設計する。 TF-CNNが最近開発された技術と比較して優れた性能を示した。 彼らはまた、速度変化を伴い、ノイズに対する例外的な回復力を示し、様々な信号対雑音比とパフォーマンス指標で競合する手法を一貫して上回っている、障害関連非定常的特徴を捉えることの汎用性も主張している。 総じてtf-cnnは、厳しい騒音条件下で15%の精度向上を達成している。

Diagnosis of bearing faults is paramount to reducing maintenance costs and operational breakdowns. Bearing faults are primary contributors to machine vibrations, and analyzing their signal morphology offers insights into their health status. Unfortunately, existing approaches are optimized for controlled environments, neglecting realistic conditions such as time-varying rotational speeds and the vibration's non-stationary nature. This paper presents a fusion of time-frequency analysis and deep learning techniques to diagnose bearing faults under time-varying speeds and varying noise levels. First, we formulate the bearing fault-induced vibrations and discuss the link between their non-stationarity and the bearing's inherent and operational parameters. We also elucidate quadratic time-frequency distributions and validate their effectiveness in resolving distinctive dynamic patterns associated with different bearing faults. Based on this, we design a time-frequency convolutional neural network (TF-CNN) to diagnose various faults in rolling-element bearings. Our experimental findings undeniably demonstrate the superior performance of TF-CNN in comparison to recently developed techniques. They also assert its versatility in capturing fault-relevant non-stationary features that couple with speed changes and show its exceptional resilience to noise, consistently surpassing competing methods across various signal-to-noise ratios and performance metrics. Altogether, the TF-CNN achieves substantial accuracy improvements up to 15%, in severe noise conditions.
翻訳日:2024-02-09 18:34:52 公開日:2024-02-08
# 社会的選択理論を用いた大規模言語モデルからのロバスト知識抽出

Robust Knowledge Extraction from Large Language Models using Social Choice Theory ( http://arxiv.org/abs/2312.14877v2 )

ライセンス: Link先を確認
Nico Potyka, Yuqicheng Zhu, Yunjie He, Evgeny Kharlamov, Steffen Staab(参考訳) 大規模言語モデル(llm)は、会話エージェント、クリエイティブライティング、一般的なクエリ応答など、幅広いアプリケーションをサポートすることができる。 しかし、それらは一般的に堅牢ではないため、医学のような高リスクドメインでのクエリ応答には適していない。 LLMクエリのロバスト性を改善するために,ランク付けクエリを繰り返し使用し,ソーシャル選択理論の手法を用いてクエリを集約する手法を提案する。 医学的診断や障害診断などの診断環境におけるランキングクエリについて検討し、文献からの部分ボルダ選択関数が複数のクエリ結果のマージにどのように適用できるかについて議論する。 我々は、我々の設定におけるいくつかの興味深い特性について論じ、我々のアプローチの堅牢性を実証的に評価する。

Large-language models (LLMs) can support a wide range of applications like conversational agents, creative writing or general query answering. However, they are ill-suited for query answering in high-stake domains like medicine because they are typically not robust - even the same query can result in different answers when prompted multiple times. In order to improve the robustness of LLM queries, we propose using ranking queries repeatedly and to aggregate the queries using methods from social choice theory. We study ranking queries in diagnostic settings like medical and fault diagnosis and discuss how the Partial Borda Choice function from the literature can be applied to merge multiple query results. We discuss some additional interesting properties in our setting and evaluate the robustness of our approach empirically.
翻訳日:2024-02-09 18:34:28 公開日:2024-02-08
# オートエンコーダに基づく顔認証システム

Autoencoder Based Face Verification System ( http://arxiv.org/abs/2312.14301v2 )

ライセンス: Link先を確認
Enoch Solomon, Abraham Woubie and Eyael Solomon Emiru(参考訳) この研究の主な目的は、ラベル付きデータへの依存性を減らすための代替アプローチを提供することである。 提案手法は,顔画像認識タスクにおけるオートエンコーダの事前学習を2ステッププロセスで行う。 当初、オートエンコーダは大量のラベルのないトレーニングデータセットを使用して教師なしの方法でトレーニングされる。 その後、事前訓練されたオートエンコーダから初期化パラメータでディープラーニングモデルを訓練する。 このディープラーニングトレーニングプロセスは、比較的限られたラベル付きトレーニングデータセットを用いて教師付き方法で実行される。 評価フェーズでは、ディープニューラルネットワーク層の出力として顔画像埋め込みを生成する。 トレーニングはCelebAデータセット上で行われ、評価はLFW(Labeled Faces in the Wild)やYTF(YouTube Faces)といったベンチマーク顔認識データセットを用いて行われる。 実験の結果、事前学習されたオートエンコーダパラメータでディープニューラルネットワークを初期化することで、最先端の手法に匹敵する結果が得られることがわかった。

The primary objective of this work is to present an alternative approach aimed at reducing the dependency on labeled data. Our proposed method involves utilizing autoencoder pre-training within a face image recognition task with two step processes. Initially, an autoencoder is trained in an unsupervised manner using a substantial amount of unlabeled training dataset. Subsequently, a deep learning model is trained with initialized parameters from the pre-trained autoencoder. This deep learning training process is conducted in a supervised manner, employing relatively limited labeled training dataset. During evaluation phase, face image embeddings is generated as the output of deep neural network layer. Our training is executed on the CelebA dataset, while evaluation is performed using benchmark face recognition datasets such as Labeled Faces in the Wild (LFW) and YouTube Faces (YTF). Experimental results demonstrate that by initializing the deep neural network with pre-trained autoencoder parameters achieve comparable results to state-of-the-art methods.
翻訳日:2024-02-09 18:34:16 公開日:2024-02-08
# テキストフュージョン:制御可能な画像融合のためのテキストセマンティクスのパワー

TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion ( http://arxiv.org/abs/2312.14209v2 )

ライセンス: Link先を確認
Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Hui Li, Xi Li, Zhangyong Tang, Josef Kittler(参考訳) 高度な画像融合法は、ソース画像が伝達する補完情報を集約して融合結果を生成する。 しかし,画像のシーン内容のソース固有の表現の違いは,堅牢で制御可能な融合プロセスの設計を困難にしている。 この問題は、テキストモダリティによって伝達される高レベルの意味論の助けを借りて緩和できるため、可視化や下流タスクなど、さまざまな目的のために融合した画像を制御可能な方法で生成することが可能である。 これは、視覚・言語モデルを利用してテキストと画像信号の間の粗大な結合機構を構築することで実現される。 関連マップの指導により、アフィン融合ユニットがトランスフォーマーネットワークに埋め込まれ、テキストと視覚のモダリティを特徴レベルで融合する。 本研究のもう1つの要素として,画像品質評価を融合タスクに適用するためのテキストアテンションの利用を提案する。 提案するテキストガイド型融合パラダイムの実装と,その広範な研究コミュニティによる採用を容易にするため,テキストアノテーション付き画像融合データセットivtをリリースする。 広範な実験により,我々のアプローチ(textfusion)は,従来の外観ベース融合法を一貫して上回っていることが示された。 私たちのコードとデータセットはhttps://github.com/AWCXV/TextFusion.comで公開されます。

Advanced image fusion methods are devoted to generating the fusion results by aggregating the complementary information conveyed by the source images. However, the difference in the source-specific manifestation of the imaged scene content makes it difficult to design a robust and controllable fusion process. We argue that this issue can be alleviated with the help of higher-level semantics, conveyed by the text modality, which should enable us to generate fused images for different purposes, such as visualisation and downstream tasks, in a controllable way. This is achieved by exploiting a vision-and-language model to build a coarse-to-fine association mechanism between the text and image signals. With the guidance of the association maps, an affine fusion unit is embedded in the transformer network to fuse the text and vision modalities at the feature level. As another ingredient of this work, we propose the use of textual attention to adapt image quality assessment to the fusion task. To facilitate the implementation of the proposed text-guided fusion paradigm, and its adoption by the wider research community, we release a text-annotated image fusion dataset IVT. Extensive experiments demonstrate that our approach (TextFusion) consistently outperforms traditional appearance-based fusion methods. Our code and dataset will be publicly available at https://github.com/AWCXV/TextFusion.
翻訳日:2024-02-09 18:34:00 公開日:2024-02-08
# 変分量子多目的最適化

Variational Quantum Multi-Objective Optimization ( http://arxiv.org/abs/2312.14151v2 )

ライセンス: Link先を確認
Linus Ekstrom and Hao Wang and Sebastian Schmitt(参考訳) 近年,短期量子デバイス上で実行される変動量子アルゴリズムを用いた組合せ最適化問題の解決が注目されている。 現在、ほとんどの作品は単一目的の問題に焦点を当てている。 対照的に、多くの現実世界の問題は複数の矛盾する目的を同時に考慮する必要があるが、変分量子アルゴリズムでは十分に研究されていない。 多目的最適化では、矛盾する目標(よく知られたPareto set/front)間の最適なトレードオフを求める。 NISQコンピュータを用いて多目的最適化問題を解くことができる変分量子多目的最適化(QMOO)アルゴリズムを提案する。 アルゴリズムの中核は、パレート最適解の重ね合わせである量子状態を生成するために調整された変分量子回路(VQC)であり、元の多目的最適化問題を解く。 VQCは古典的目的関数を表すすべてのコストハミルトニアンを組み込むことでこれを達成している。 我々は、VQCによって準備された量子状態から解の集合を回収し、広く応用されたハイパーボリュームインジケータを用いて、その性質をパレートフロントの近似として決定する。 vqcの変動パラメータは、ハイパーボリュームインジケータを最大化することでチューニングされる。 多くの現実的な問題は整数最適化問題であるので、qudit量子系全体のスキームを定式化する。 最大5つの目的を持つベンチマーク問題に対して提案アルゴリズムの有効性を示す。

Solving combinatorial optimization problems using variational quantum algorithms to be executed on near-term quantum devices has gained a lot of attraction in recent years. Currently, most works have focused on single-objective problems. In contrast, many real-world problems need to consider multiple conflicting objectives simultaneously, which is not well studied using variation quantum algorithms. In multi-objective optimization, one seeks the optimal trade-offs among conflicting objectives - the well-known Pareto set/front. We present a variational quantum multiple-objective optimization (QMOO) algorithm, which allows us to solve multi-objective optimization problems using NISQ computers. At the core of the algorithm is a variational quantum circuit (VQC) tuned to produce a quantum state which is a superposition of Pareto-optimal solutions, solving the original multi-objective optimization problem. The VQC achieves this by incorporating all cost Hamiltonians representing the classical objective functions. We retrieve a set of solutions from the quantum state prepared by the VQC, and utilize the widely-applied hypervolume indicator to determine the quality of it as approximation to the Pareto-front. The variational parameters of the VQC are tuning by maximizing the hypervolume indicator. As many realistic problems are integer optimization problems we formulate the whole scheme for qudit quantum systems. We show the effectiveness of the proposed algorithm on several benchmark problems with up to five objectives.
翻訳日:2024-02-09 18:33:37 公開日:2024-02-08
# 可変動作空間に対するインコンテキスト強化学習

In-Context Reinforcement Learning for Variable Action Spaces ( http://arxiv.org/abs/2312.13327v2 )

ライセンス: Link先を確認
Viacheslav Sinii, Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Sergey Kolesnikov(参考訳) 近年,マルチエピソードコンテキストを持つ多種多様なデータセット上で事前学習されたトランスフォーマーが,コンテキスト内で新しい強化学習タスクに一般化できることが示されている。 前述したモデルの主な制限は、事前に定義されたアクション空間のサイズと構造に依存することである。 新しいアクション空間の導入には、しばしばデータの再コレクションとモデルの再トレーニングが必要となる。 本研究では,1回しか訓練されていないにもかかわらず,可変サイズ,意味的内容,順序の離散的行動空間に一般化できるヘッドレスアドモデルを提案することで,この問題を緩和できることを示す。 Bernoulli と文脈的包帯とグリッドワールド環境を実験することにより、Headless-AD は、これまで遭遇したことのないアクション空間に一般化する重要な能力を示し、また、いくつかの環境構成において特定のアクションセットのために訓練された特別なモデルよりも優れていることを示す。

Recently, it has been shown that transformers pre-trained on diverse datasets with multi-episode contexts can generalize to new reinforcement learning tasks in-context. A key limitation of previously proposed models is their reliance on a predefined action space size and structure. The introduction of a new action space often requires data re-collection and model re-training, which can be costly for some applications. In our work, we show that it is possible to mitigate this issue by proposing the Headless-AD model that, despite being trained only once, is capable of generalizing to discrete action spaces of variable size, semantic content and order. By experimenting with Bernoulli and contextual bandits, as well as a gridworld environment, we show that Headless-AD exhibits significant capability to generalize to action spaces it has never encountered, even outperforming specialized models trained for a specific set of actions on several environment configurations.
翻訳日:2024-02-09 18:33:17 公開日:2024-02-08
# 量子コンピュータを用いた風力発電機におけるタービン配置最適化手法の検討

Investigating techniques to optimise the layout of turbines in a windfarm using a quantum computer ( http://arxiv.org/abs/2312.13123v2 )

ライセンス: Link先を確認
James Hancock, Matthew J. Craven, Craig McNeile, Davide Vadacchino(参考訳) 風力発電機内の風力タービンの最適配置について検討し,二次連立最適化問題 (qubo) に対するシステムマッピングによる電力の最大化について検討した。 量子計算機シミュレータ上での変分量子固有解法 (vqe) を用いたqubo問題の解法について検討し, 古典的最適化法であるシミュレートアニーリング法とグロビ解法との比較を行った。 調査した最大グリッドサイズは4$\times$ 4で、16キュービットが必要です。

We study the optimal placement of wind turbines within a windfarm to maximize the power produced by mapping the system to a Quadratic Unconstrained Binary Optimisation (QUBO) problem. We investigate solving the resulting QUBO problem using the Variational Quantum Eigensolver (VQE) on a quantum computer simulator and compare the results to those from two classical optimisation methods: simulated annealing and the Gurobi solver. The maximum grid size we study is 4 $\times$ 4, which requires 16 qubits.
翻訳日:2024-02-09 18:33:01 公開日:2024-02-08
# ロサンゼルスにおける警察とドライバーのインタラクション評価のためのマルチパースペクティブ機械学習手法

A Multi-Perspective Machine Learning Approach to Evaluate Police-Driver Interaction in Los Angeles ( http://arxiv.org/abs/2402.01703v2 )

ライセンス: Link先を確認
Benjamin A.T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayag\"uez Salinas, Michael Sierra-Ar\'evalo, Jackson Trager, Nicholas Weller, and Shrikanth Narayan(参考訳) 政府職員と市民の間の相互作用は、民主社会の機能に必要となる公共の福祉と国家の正当性に影響を及ぼす。 州内で最も目に見えて接触した警察官は、交通停止中に年間2000万回以上、公衆と交流している。 今日では、これらの相互作用はボディウーンカメラ(BWC)によって定期的に記録されており、警察の説明責任を高め、警察と公共の相互作用を改善する手段として語られている。 しかし、これらの録音のタイムリーな分析は、これらの複雑で争われた警察と公共の相互作用の分析を可能にする信頼できる自動ツールの欠如によって妨げられている。 本稿では,このBWC映像から音声,ビデオ,および転写情報を解析するためのマルチパースペクティブ・マルチモーダル機械学習(ML)ツールの開発手法を提案する。 私たちのアプローチは、コミュニティメンバと警察官の両方を含む、さまざまな利害関係者に対して最も適切なコミュニケーションの側面を特定することから始まります。 我々は、単一の真実の存在にまつわるモデリングアプローチから脱却し、代わりにソフトラベリングの新しい進歩を活用して、異なる観測者が同じ相互作用をどのように知覚するかのバリエーションを組み込む。 我々は、新しいMLツールの概念化と設計に対するこの包括的アプローチが、教育、医療、職場など、ヒューマンインタラクションの領域にわたる分析ツールのコミュニケーションと開発研究に広く適用されていると論じる。

Interactions between the government officials and civilians affect public wellbeing and the state legitimacy that is necessary for the functioning of democratic society. Police officers, the most visible and contacted agents of the state, interact with the public more than 20 million times a year during traffic stops. Today, these interactions are regularly recorded by body-worn cameras (BWCs), which are lauded as a means to enhance police accountability and improve police-public interactions. However, the timely analysis of these recordings is hampered by a lack of reliable automated tools that can enable the analysis of these complex and contested police-public interactions. This article proposes an approach to developing new multi-perspective, multimodal machine learning (ML) tools to analyze the audio, video, and transcript information from this BWC footage. Our approach begins by identifying the aspects of communication most salient to different stakeholders, including both community members and police officers. We move away from modeling approaches built around the existence of a single ground truth and instead utilize new advances in soft labeling to incorporate variation in how different observers perceive the same interactions. We argue that this inclusive approach to the conceptualization and design of new ML tools is broadly applicable to the study of communication and development of analytic tools across domains of human interaction, including education, medicine, and the workplace.
翻訳日:2024-02-09 18:24:10 公開日:2024-02-08
# ALERT-Transformer:リアルタイムイベントベースの時空間データのための非同期・同期機械学習

ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data ( http://arxiv.org/abs/2402.01393v2 )

ライセンス: Link先を確認
Carmen Martin-Turrero, Maxence Bouvier, Manuel Breitenstein, Pietro Zanuttigh, Vincent Parret(参考訳) 本研究では,高濃度機械学習モデルを用いたイベントベースセンサによる連続的超スパース時空間データの古典的処理を実現する。 We propose a novel hybrid pipeline composed of asynchronous sensing and synchronous processing that combines several ideas: (1) an embedding based on PointNet models -- the ALERT module -- that can continuously integrate new and dismiss old events thanks to a leakage mechanism, (2) a flexible readout of the embedded data that allows to feed any downstream model with always up-to-date features at any sampling rate, (3) exploiting the input sparsity in a patch-based approach inspired by Vision Transformer to optimize the efficiency of the method. これらの埋め込みは、オブジェクト認識とジェスチャー認識のために訓練されたトランスフォーマーモデルによって処理される。 このアプローチを用いることで、競合より低いレイテンシで最先端のパフォーマンスを実現します。 また,任意のサンプリングレートで非同期モデルが動作できることを実証した。

We seek to enable classic processing of continuous ultra-sparse spatiotemporal data generated by event-based sensors with dense machine learning models. We propose a novel hybrid pipeline composed of asynchronous sensing and synchronous processing that combines several ideas: (1) an embedding based on PointNet models -- the ALERT module -- that can continuously integrate new and dismiss old events thanks to a leakage mechanism, (2) a flexible readout of the embedded data that allows to feed any downstream model with always up-to-date features at any sampling rate, (3) exploiting the input sparsity in a patch-based approach inspired by Vision Transformer to optimize the efficiency of the method. These embeddings are then processed by a transformer model trained for object and gesture recognition. Using this approach, we achieve performances at the state-of-the-art with a lower latency than competitors. We also demonstrate that our asynchronous model can operate at any desired sampling rate.
翻訳日:2024-02-09 18:23:46 公開日:2024-02-08
# 転送可能な攻撃のベンチマーク

Benchmarking Transferable Adversarial Attacks ( http://arxiv.org/abs/2402.00418v2 )

ライセンス: Link先を確認
Zhibo Jin, Jiayu Zhang, Zhiyu Zhu, Huaming Chen(参考訳) 敵対的攻撃に対するディープラーニングモデルの堅牢性は、依然として重要な関心事である。 本研究は, 敵の攻撃の伝達可能性について, 初めて徹底的に検討した。 攻撃の伝達性を高めるために開発された様々な手法を体系的に分類し、批判的に評価する。 本研究は, 生成構造, 意味的類似性, グラディエント編集, ターゲット修正, アンサンブルアプローチなど, 様々な手法を包含する。 同時に,このベンチマークフレームワークである \textit{taa-bench} を導入し,敵の攻撃伝達性のための10つの主要な方法論を統合し,多様なモデルアーキテクチャの比較分析のための標準化された体系的プラットフォームを提供する。 総合的な精査を通じて,各手法の有効性と制約を明確にし,その基礎となる運用原理と実用性に光を当てる。 このレビューは、この分野の学者と実践者の両方にとって重要な資源であり、敵の移動可能性の複雑な地形を図解し、この重要な分野における将来の探検の基礎を築いた。 関連するコードベースは、https://github.com/KxPlaug/TAA-Benchでアクセスできます。

The robustness of deep learning models against adversarial attacks remains a pivotal concern. This study presents, for the first time, an exhaustive review of the transferability aspect of adversarial attacks. It systematically categorizes and critically evaluates various methodologies developed to augment the transferability of adversarial attacks. This study encompasses a spectrum of techniques, including Generative Structure, Semantic Similarity, Gradient Editing, Target Modification, and Ensemble Approach. Concurrently, this paper introduces a benchmark framework \textit{TAA-Bench}, integrating ten leading methodologies for adversarial attack transferability, thereby providing a standardized and systematic platform for comparative analysis across diverse model architectures. Through comprehensive scrutiny, we delineate the efficacy and constraints of each method, shedding light on their underlying operational principles and practical utility. This review endeavors to be a quintessential resource for both scholars and practitioners in the field, charting the complex terrain of adversarial transferability and setting a foundation for future explorations in this vital sector. The associated codebase is accessible at: https://github.com/KxPlaug/TAA-Bench
翻訳日:2024-02-09 18:23:03 公開日:2024-02-08
# 共有ニューロンを用いたRBF-netを用いた個別マルチトラック応答曲線推定

Individualized Multi-Treatment Response Curves Estimation using RBF-net with Shared Neurons ( http://arxiv.org/abs/2401.16571v4 )

ライセンス: Link先を確認
Peter Chang, Arkaprava Roy(参考訳) 不均一な治療効果の推定は、精密医療において重要な問題である。 特定の関心は、いくつかの外部共変量に基づいて異なる治療の差分効果を特定することである。 マルチ処理環境における新しい非パラメトリック処理効果推定法を提案する。 反応曲線の非パラメトリックモデリングは、共有された隠れニューロンを持つ放射基底関数(RBF)-ネットに依存する。 これにより,治療結果間の共通性をモデル化する。 推定と推測スキームはベイズ的枠組みの下で開発され、効率的なマルコフ連鎖モンテカルロアルゴリズムを用いて実装され、解析のあらゆる面で不確実性を適切に調整する。 シミュレーション実験により,本手法の数値性能を実証した。 本手法をMIMICデータに適用し, 在宅中絶患者に対するICU滞在時間と12時間SOFAスコアに対する異なる治療方法の効果に関する興味深い知見を得た。

Heterogeneous treatment effect estimation is an important problem in precision medicine. Specific interests lie in identifying the differential effect of different treatments based on some external covariates. We propose a novel non-parametric treatment effect estimation method in a multi-treatment setting. Our non-parametric modeling of the response curves relies on radial basis function (RBF)-nets with shared hidden neurons. Our model thus facilitates modeling commonality among the treatment outcomes. The estimation and inference schemes are developed under a Bayesian framework and implemented via an efficient Markov chain Monte Carlo algorithm, appropriately accommodating uncertainty in all aspects of the analysis. The numerical performance of the method is demonstrated through simulation experiments. Applying our proposed method to MIMIC data, we obtain several interesting findings related to the impact of different treatment strategies on the length of ICU stay and 12-hour SOFA score for sepsis patients who are home-discharged.
翻訳日:2024-02-09 18:22:45 公開日:2024-02-08
# 不確実性認識言語エージェントに向けて

Towards Uncertainty-Aware Language Agent ( http://arxiv.org/abs/2401.14016v2 )

ライセンス: Link先を確認
Jiuzhou Han and Wray Buntine and Ehsan Shareghi(参考訳) 言語エージェントは、外界と動的に相互作用するより汎用的な設計の中核に大規模言語モデルを置くことで、有望な成功を収めてきたが、既存のアプローチはこれらの相互作用の間に不確実性の概念を無視している。 不確実性認識言語エージェント(Uncertainty-Aware Language Agent, UALA)は、不確実性定量化を用いてエージェントと外部世界の相互作用を編成するフレームワークである。 ReActのような他のよく知られたものと比較して、我々の3つの代表的なタスク(HotpotQA、StrategyQA、MMLU)と様々なLLMサイズにわたる広範な実験は、UALAがパフォーマンスを大幅に改善する一方で、外部世界(ツールコールやトークンの削減など)への依存が著しく低いことを示している。 本分析は, エージェント微調整と比較して, UALA の大きな可能性を含む様々な知見を提供し, 不確実性の指標として, LLM の言語的信頼の信頼性の欠如を浮き彫りにした。

While Language Agents have achieved promising success by placing Large Language Models at the core of a more versatile design that dynamically interacts with the external world, the existing approaches neglect the notion of uncertainty during these interactions. We present the Uncertainty-Aware Language Agent (UALA), a framework that orchestrates the interaction between the agent and the external world using uncertainty quantification. Compared with other well-known counterparts like ReAct, our extensive experiments across 3 representative tasks (HotpotQA, StrategyQA, MMLU) and various LLM sizes demonstrate that UALA brings a significant improvement of performance, while having a substantially lower reliance on the external world (i.e., reduced number of tool calls and tokens). Our analyses provide various insights including the great potential of UALA compared with agent fine-tuning, and underscore the unreliability of verbalised confidence of LLMs as a proxy for uncertainty.
翻訳日:2024-02-09 18:22:31 公開日:2024-02-08
# 共通センスバイアスの発見と分類課題の緩和

Common-Sense Bias Discovery and Mitigation for Classification Tasks ( http://arxiv.org/abs/2401.13213v2 )

ライセンス: Link先を確認
Miao Zhang, Zee fryer, Ben Colman, Ali Shahriyari, Gaurav Bharaj(参考訳) 機械学習モデルバイアスは、データセットの構成から生じうる: 学習目標に関連付けられたセンシティブな特徴は、モデル決定ルールを乱し、特徴に沿ったパフォーマンスの違いをもたらす。 既存の非バイアス処理は、数字の色や動物の背景など、モデル潜在空間で追跡可能な顕著で繊細な画像の特徴をキャプチャする。 しかし、潜在空間を使用すると、すべてのデータセットの特徴相関を理解するのに十分ではない。 本研究では,画像記述に基づくデータセット内の特徴クラスタを抽出し,画像の微妙な特徴と粗い特徴の両方をキャプチャするフレームワークを提案する。 特徴共起パターンを定式化し、人間のループを用いて相関を計測する。 解析された特徴と相関は人間の解釈可能であり,その手法をCSBD(Common-Sense Bias Discovery)と呼ぶ。 データセットに敏感な相関を露出させることで,感度の高いグループラベルの監督を必要とせず,画像サンプリング重みを調整することで下流モデルのバイアスを軽減できることを示す。 実験により,2つのベンチマーク画像データセットに対する複数の分類タスクに対する新たなバイアスが発見され,その介入は最先端の非教師なしバイアス軽減手法より優れていることがわかった。

Machine learning model bias can arise from dataset composition: sensitive features correlated to the learning target disturb the model decision rule and lead to performance differences along the features. Existing de-biasing work captures prominent and delicate image features which are traceable in model latent space, like colors of digits or background of animals. However, using the latent space is not sufficient to understand all dataset feature correlations. In this work, we propose a framework to extract feature clusters in a dataset based on image descriptions, allowing us to capture both subtle and coarse features of the images. The feature co-occurrence pattern is formulated and correlation is measured, utilizing a human-in-the-loop for examination. The analyzed features and correlations are human-interpretable, so we name the method Common-Sense Bias Discovery (CSBD). Having exposed sensitive correlations in a dataset, we demonstrate that downstream model bias can be mitigated by adjusting image sampling weights, without requiring a sensitive group label supervision. Experiments show that our method discovers novel biases on multiple classification tasks for two benchmark image datasets, and the intervention outperforms state-of-the-art unsupervised bias mitigation methods.
翻訳日:2024-02-09 18:22:11 公開日:2024-02-08
# ReposVul: Repository-Level High-Quality Vulnerabilityデータセット

ReposVul: A Repository-Level High-Quality Vulnerability Dataset ( http://arxiv.org/abs/2401.13169v2 )

ライセンス: Link先を確認
Xinchen Wang, Ruida Hu, Cuiyun Gao, Xin-Cheng Wen, Yujia Chen and Qing Liao(参考訳) オープンソースソフトウェア(oss)の脆弱性は、ソフトウェアセキュリティに大きな課題をもたらし、社会に潜在的なリスクをもたらします。 ディープラーニング(DL)ベースのアプローチが最も効果的であることが証明された。 ただし,現在のラベル付けされたデータには,次のような制限がある。 (1) タングルパッチ: 開発者はパッチ内の脆弱性修正とは無関係なコード変更を提出する。 (2)手続き間脆弱性の欠如: 既存の脆弱性データセットには一般的に関数レベルの脆弱性とファイルレベルの脆弱性が含まれ、関数間の関係を無視する。 (3) 古いパッチ: 既存のデータセットは通常、古いパッチを含んでおり、トレーニング中にモデルをバイアスする可能性がある。 本稿では,上記の制限に対処するために,自動データ収集フレームワークを提案し,リポジトリレベルのハイクオリティな脆弱性データセットreposvulを構築する。 提案するフレームワークは,主に3つのモジュールを含む。(1)脆弱性修正関連コード変更と,大規模言語モデル(LLM)と静的解析ツールを併用した,絡み合ったパッチの区別を目的とした脆弱性回避モジュール。 2)リポジトリレベル,ファイルレベル,関数レベル,行レベルなど,脆弱性パッチごとに複数の粒度情報を構築する脆弱性のプロセス間コール関係を捉えることを目的とした,マルチ粒度依存性抽出モジュール。 3) 古いパッチのフィルタリングを目的としたトレースベースのフィルタリングモジュールは,ファイルパストレースベースのフィルタとコミットタイムトレースベースのフィルタを活用して,最新のデータセットを構築する。

Open-Source Software (OSS) vulnerabilities bring great challenges to the software security and pose potential risks to our society. Enormous efforts have been devoted into automated vulnerability detection, among which deep learning (DL)-based approaches have proven to be the most effective. However, the current labeled data present the following limitations: (1) Tangled Patches: Developers may submit code changes unrelated to vulnerability fixes within patches, leading to tangled patches. (2) Lacking Inter-procedural Vulnerabilities: The existing vulnerability datasets typically contain function-level and file-level vulnerabilities, ignoring the relations between functions, thus rendering the approaches unable to detect the inter-procedural vulnerabilities. (3) Outdated Patches: The existing datasets usually contain outdated patches, which may bias the model during training. To address the above limitations, in this paper, we propose an automated data collection framework and construct the first repository-level high-quality vulnerability dataset named ReposVul. The proposed framework mainly contains three modules: (1) A vulnerability untangling module, aiming at distinguishing vulnerability-fixing related code changes from tangled patches, in which the Large Language Models (LLMs) and static analysis tools are jointly employed. (2) A multi-granularity dependency extraction module, aiming at capturing the inter-procedural call relationships of vulnerabilities, in which we construct multiple-granularity information for each vulnerability patch, including repository-level, file-level, function-level, and line-level. (3) A trace-based filtering module, aiming at filtering the outdated patches, which leverages the file path trace-based filter and commit time trace-based filter to construct an up-to-date dataset.
翻訳日:2024-02-09 18:21:50 公開日:2024-02-08
# AIが生物の脅威景観に及ぼす影響のリスク分析に向けて

Towards Risk Analysis of the Impact of AI on the Deliberate Biological Threat Landscape ( http://arxiv.org/abs/2401.12755v2 )

ライセンス: Link先を確認
Matthew E. Walsh(参考訳) 近年,生物工学と人工知能(AI)の融合によって生物リスクが増大し,バイオテクノロジーと人工知能のガバナンスに注目が集まっている。 2023年の執行命令、安全で安全で信頼できる人工知能の開発と利用に関する執行命令は、人工知能がバイオリスクをいかに高めるかを評価する必要がある。 そこで本研究では,バイオリスクを簡易に評価するためのフレームワークを提案するとともに,バイオリスクマネージャの実行可能な成果を達成する上で,このフレームワークがいかに不足しているかを実証する。 そして、既存のリスク評価の成果を基盤として、エンジニアリング生物学のためのAI対応ツールのキャラクタリゼーションの取り組みがなぜ必要かを正当化する潜在的な道筋を提案する。

The perception that the convergence of biological engineering and artificial intelligence (AI) could enable increased biorisk has recently drawn attention to the governance of biotechnology and artificial intelligence. The 2023 Executive Order, Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence, requires an assessment of how artificial intelligence can increase biorisk. Within this perspective, we present a simplistic framework for evaluating biorisk and demonstrate how this framework falls short in achieving actionable outcomes for a biorisk manager. We then suggest a potential path forward that builds upon existing risk characterization work and justify why characterization efforts of AI-enabled tools for engineering biology is needed.
翻訳日:2024-02-09 18:21:19 公開日:2024-02-08
# 自己回帰言語モデル

Self-Rewarding Language Models ( http://arxiv.org/abs/2401.10020v2 )

ライセンス: Link先を確認
Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston(参考訳) 超人的エージェントを実現するために、将来のモデルは適切な訓練信号を提供するために超人的フィードバックを必要とすると仮定する。 現在のアプローチでは、人間の好みから報酬モデルをトレーニングするのが一般的で、人間のパフォーマンスレベルによってボトルネックになる可能性がある。 本研究では,言語モデル自体を LLM-as-a-Judge 経由で使用する自己回帰言語モデルについて検討する。 反復的dpo訓練では,指導追従能力が向上するだけでなく,質の高い報酬を提供する能力も向上することを示した。 Llama 2 70Bは、我々のアプローチの3つのイテレーションで、Claude 2、Gemini Pro、GPT-4 0613を含む、AlpacaEval 2.0のリーダーボード上の多くの既存のシステムを上回るパフォーマンスのモデルを生み出します。 まだ多くの研究が残っているが、この研究は両方の軸で継続的に改善できるモデルの可能性への扉を開く。

We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While there is much left still to explore, this work opens the door to the possibility of models that can continually improve in both axes.
翻訳日:2024-02-09 18:20:47 公開日:2024-02-08
# 空間適応フィルタを用いたスペクトルグラフニューラルネットワークの再考

Rethinking Spectral Graph Neural Networks with Spatially Adaptive Filtering ( http://arxiv.org/abs/2401.09071v3 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Xinping Yi, Zixian Su, and Rui Zhang(参考訳) スペクトルグラフニューラルネットワーク (gnn) は理論的にスペクトル領域において十分に基礎づけられているが、多項式近似への実用的な依存は空間領域への深い結合を意味する。 これまでの研究では、空間的な観点からスペクトルgnnを調べることは滅多にないが、空間領域の解釈可能性は不明であり、例えば、空間領域内のスペクトルgnnによって本質的にエンコードされる情報は何か? 本稿では,スペクトルフィルタリングと空間アグリゲーションの理論的関係を確立し,スペクトルフィルタリングが空間アグリゲーションのために明示的に計算されたオリジナルのグラフを適応した新しいグラフに暗黙的に導く本質的な相互作用を明らかにする。 理論的および実証的研究の両方で、適応された新しいグラフは非局所性を示すだけでなく、ノード間のラベルの一貫性を反映する符号付きエッジウェイトも備えていることが明らかになった。 これらの結果は、空間領域におけるスペクトルGNNの解釈可能な役割を強調し、グローバル情報を無視した固定順序多項式以外のグラフスペクトルフィルタを再考するきっかけとなった。 理論的な知見に基づいて,最先端のスペクトルgnnを再検討し,補助的非局所アグリゲーションのためのスペクトルフィルタリングにより適応した新しいグラフを利用する空間適応フィルタ(saf)フレームワークを提案する。 特に,提案したSAFは,ノードの類似性と相似性の両方を大域的観点から包括的にモデル化し,長距離依存やグラフヘテロフィリーに関連するGNNの持続的欠陥を緩和する。 13個のノード分類ベンチマークを用いた広範な実験により,提案手法の最先端モデルに対する優位性が示された。

Whilst spectral Graph Neural Networks (GNNs) are theoretically well-founded in the spectral domain, their practical reliance on polynomial approximation implies a profound linkage to the spatial domain. As previous studies rarely examine spectral GNNs from the spatial perspective, their spatial-domain interpretability remains elusive, e.g., what information is essentially encoded by spectral GNNs in the spatial domain? In this paper, to answer this question, we establish a theoretical connection between spectral filtering and spatial aggregation, unveiling an intrinsic interaction that spectral filtering implicitly leads the original graph to an adapted new graph, explicitly computed for spatial aggregation. Both theoretical and empirical investigations reveal that the adapted new graph not only exhibits non-locality but also accommodates signed edge weights to reflect label consistency among nodes. These findings thus highlight the interpretable role of spectral GNNs in the spatial domain and inspire us to rethink graph spectral filters beyond the fixed-order polynomials, which neglect global information. Built upon the theoretical findings, we revisit the state-of-the-art spectral GNNs and propose a novel Spatially Adaptive Filtering (SAF) framework, which leverages the adapted new graph by spectral filtering for an auxiliary non-local aggregation. Notably, our proposed SAF comprehensively models both node similarity and dissimilarity from a global perspective, therefore alleviating persistent deficiencies of GNNs related to long-range dependencies and graph heterophily. Extensive experiments over 13 node classification benchmarks demonstrate the superiority of our proposed framework to the state-of-the-art models.
翻訳日:2024-02-09 18:20:30 公開日:2024-02-08
# SudokuSens: 生成的アプローチによるIoTセンシングアプリケーションのためのディープラーニングロバストネス向上

SudokuSens: Enhancing Deep Learning Robustness for IoT Sensing Applications using a Generative Approach ( http://arxiv.org/abs/2402.02275v2 )

ライセンス: Link先を確認
Tianshi Wang, Jinyang Li, Ruijie Wang, Denizhan Kara, Shengzhong Liu, Davis Wertheimer, Antoni Viros-i-Martin, Raghu Ganti, Mudhakar Srivatsa, Tarek Abdelzaher(参考訳) 本稿では,機械学習に基づくIoT(Internet-of-Things)アプリケーションにおけるトレーニングデータの自動生成のための生成フレームワークであるSudokuSensを紹介する。 このフレームワークは、結果のディープラーニングモデルの堅牢性を改善し、データ収集が高価であるIoTアプリケーションを対象としている。 この研究は、IoTの時系列データが観測対象のシグネチャを周囲の環境に固有の性質と、経験した動的環境障害で絡み合わせることに動機づけられている。 そのため、IoTトレーニングデータに十分な多様性を組み込むためには、検討対象数と、そのようなオブジェクトに遭遇する可能性のある環境条件に乗じて、トレーニングケースの組合せ的爆発を考える必要がある。 私たちのフレームワークは、これらの乗法的なトレーニングニーズを大幅に削減します。 対象のシグネチャを環境条件から切り離すために,条件付き変分オートエンコーダ(cvae, conditional variational autoencoder)を用いる。 動的乱れに対する堅牢性を得るために、セッション対応の時間的コントラスト学習アプローチを採る。 前述の2つのアプローチを統合することで、SudokuSensはIoTアプリケーションのディープラーニングの堅牢性を大幅に向上する。 本研究では,SudokuSensが異なるデータセットの下流推論タスクにどのような効果をもたらすかを検討するとともに,アプローチが特に有効である条件について議論する。

This paper introduces SudokuSens, a generative framework for automated generation of training data in machine-learning-based Internet-of-Things (IoT) applications, such that the generated synthetic data mimic experimental configurations not encountered during actual sensor data collection. The framework improves the robustness of resulting deep learning models, and is intended for IoT applications where data collection is expensive. The work is motivated by the fact that IoT time-series data entangle the signatures of observed objects with the confounding intrinsic properties of the surrounding environment and the dynamic environmental disturbances experienced. To incorporate sufficient diversity into the IoT training data, one therefore needs to consider a combinatorial explosion of training cases that are multiplicative in the number of objects considered and the possible environmental conditions in which such objects may be encountered. Our framework substantially reduces these multiplicative training needs. To decouple object signatures from environmental conditions, we employ a Conditional Variational Autoencoder (CVAE) that allows us to reduce data collection needs from multiplicative to (nearly) linear, while synthetically generating (data for) the missing conditions. To obtain robustness with respect to dynamic disturbances, a session-aware temporal contrastive learning approach is taken. Integrating the aforementioned two approaches, SudokuSens significantly improves the robustness of deep learning for IoT applications. We explore the degree to which SudokuSens benefits downstream inference tasks in different data sets and discuss conditions under which the approach is particularly effective.
翻訳日:2024-02-09 18:09:07 公開日:2024-02-08
# 事前学習した視覚モデルのパラメータ効率の微調整:調査

Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey ( http://arxiv.org/abs/2402.02242v2 )

ライセンス: Link先を確認
Yi Xin, Siqi Luo, Haodi Zhou, Junlong Du, Xiaohong Liu, Yue Fan, Qing Li, Yuntao Du(参考訳) 大規模事前学習型視覚モデル(PVM)は、下流の視覚タスクにまたがる適応可能性を示す。 しかし、最先端のPVMが数十億または数兆のパラメータに成長するにつれ、計算とストレージの要求が高いため、標準のフルチューニングパラダイムは持続不可能になりつつある。 これに対し, パラメータ修正の最小化による完全微調整の性能を超越したパラメータ効率細調整(PEFT)を研究中である。 この調査は、visual peftの包括的な概要と今後の方向性を提供し、最新の進歩を体系的にレビューする。 まず,PEFTの形式的定義とモデル事前学習手法について議論する。 次に既存のメソッドを,加算ベース,部分ベース,統一ベースという3つのカテゴリに分類する。 最後に、一般的に使用されるデータセットとアプリケーションを紹介し、将来の研究課題を示唆する。 リソースの包括的なコレクションはhttps://github.com/synbol/Awesome-Parameter-Efficient-Transfer-Learningにある。

Large-scale pre-trained vision models (PVMs) have shown great potential for adaptability across various downstream vision tasks. However, with state-of-the-art PVMs growing to billions or even trillions of parameters, the standard full fine-tuning paradigm is becoming unsustainable due to high computational and storage demands. In response, researchers are exploring parameter-efficient fine-tuning (PEFT), which seeks to exceed the performance of full fine-tuning with minimal parameter modifications. This survey provides a comprehensive overview and future directions for visual PEFT, offering a systematic review of the latest advancements. First, we provide a formal definition of PEFT and discuss model pre-training methods. We then categorize existing methods into three categories: addition-based, partial-based, and unified-based. Finally, we introduce the commonly used datasets and applications and suggest potential future research challenges. A comprehensive collection of resources is available at https://github.com/synbol/Awesome-Parameter-Efficient-Transfer-Learning.
翻訳日:2024-02-09 18:08:36 公開日:2024-02-08
# ポジションペーパー:なぜダークメソッドでの銃撃がレコメンダシステムの実践を支配するのか;反ユートピア的思考を捨てようという呼びかけ

Position Paper: Why the Shooting in the Dark Method Dominates Recommender Systems Practice; A Call to Abandon Anti-Utopian Thinking ( http://arxiv.org/abs/2402.02152v2 )

ライセンス: Link先を確認
David Rohde(参考訳) applied recommender systems researchは興味深い立場にある。 A/Bテストによってパフォーマンスを測定するための非常に厳格なプロトコルがあるが、テストする‘B’を見つけるためのベストプラクティスは、パフォーマンスを明示的にターゲットするのではなく、プロキシ測度をターゲットにしている。 与えられたA/Bテストの成功または失敗は、提案されたプロキシが以前のプロキシよりもパフォーマンスに相関しているかどうかに完全に依存する。 あるプロキシが他のオフラインよりも優れているかどうかを特定するための原則は存在しない。 このポジション論文の目的は、この反ユートピア的思考に疑問を呈し、ディープラーニングスタックの非標準的な使用は、実際には報酬最適化の推奨を解き放つ可能性があると主張することである。

Applied recommender systems research is in a curious position. While there is a very rigorous protocol for measuring performance by A/B testing, best practice for finding a `B' to test does not explicitly target performance but rather targets a proxy measure. The success or failure of a given A/B test then depends entirely on if the proposed proxy is better correlated to performance than the previous proxy. No principle exists to identify if one proxy is better than another offline, leaving the practitioners shooting in the dark. The purpose of this position paper is to question this anti-Utopian thinking and argue that a non-standard use of the deep learning stacks actually has the potential to unlock reward optimizing recommendation.
翻訳日:2024-02-09 18:08:20 公開日:2024-02-08
# 機械学習システム構築におけるソフトウェアエンジニアとデータサイエンティストの相互作用について

On the Interaction between Software Engineers and Data Scientists when building Machine Learning-Enabled Systems ( http://arxiv.org/abs/2402.05334v1 )

ライセンス: Link先を確認
Gabriel Busquim, Hugo Villamizar, Maria Julia Lima, Marcos Kalinowski(参考訳) 近年、機械学習(ML)コンポーネントは組織のコアシステムにますます統合されています。 このようなシステムの設計は、理論と実践の両方の観点から様々な課題を提示している。 重要な課題の1つは、ソフトウェアエンジニアやデータサイエンティストなど、密接に協力する必要がある異なるバックグラウンドを持つアクター間の効果的な相互作用である。 本稿では,MLプロジェクトにおけるこれらの役割間の相互作用と協調のダイナミクスを理解するための探索ケーススタディを提案する。 大規模ml対応システムプロジェクトのソフトウェア工学とデータサイエンスの経験を持つ4人の実践者との半構造化インタビューを行い,反射的テーマ分析を用いて分析を行った。 この結果から,ソフトウェア技術者とデータサイエンティストのコラボレーションを妨げるいくつかの課題が明らかになった。技術的専門性の違い,各ロールの責務の明確な定義,ML対応システムの仕様をサポートする文書の欠如などだ。 また、コラボレーション文化の育成、チームコミュニケーションの促進、簡潔なシステムドキュメントの作成など、これらの課題に対処する潜在的なソリューションも示しています。 この研究は、MLプロジェクトのソフトウェアエンジニアとデータサイエンティストの間の複雑なダイナミクスを理解し、この文脈におけるコラボレーションとコミュニケーションを改善するための洞察を提供する。 我々は、他のプロジェクトでこの相互作用を研究する将来の研究を奨励する。

In recent years, Machine Learning (ML) components have been increasingly integrated into the core systems of organizations. Engineering such systems presents various challenges from both a theoretical and practical perspective. One of the key challenges is the effective interaction between actors with different backgrounds who need to work closely together, such as software engineers and data scientists. This paper presents an exploratory case study to understand the current interaction and collaboration dynamics between these roles in ML projects. We conducted semi-structured interviews with four practitioners with experience in software engineering and data science of a large ML-enabled system project and analyzed the data using reflexive thematic analysis. Our findings reveal several challenges that can hinder collaboration between software engineers and data scientists, including differences in technical expertise, unclear definitions of each role's duties, and the lack of documents that support the specification of the ML-enabled system. We also indicate potential solutions to address these challenges, such as fostering a collaborative culture, encouraging team communication, and producing concise system documentation. This study contributes to understanding the complex dynamics between software engineers and data scientists in ML projects and provides insights for improving collaboration and communication in this context. We encourage future studies investigating this interaction in other projects.
翻訳日:2024-02-09 17:13:04 公開日:2024-02-08
# 明示的後退を伴う言語モデルの雑音コントラストアライメント

Noise Contrastive Alignment of Language Models with Explicit Rewards ( http://arxiv.org/abs/2402.05369v1 )

ライセンス: Link先を確認
Huayu Chen, Guande He, Hang Su, Jun Zhu(参考訳) ユーザの意図は通常、最適化言語モデル(lms)によって最大化される評価報酬として形式化される。 直接選好最適化(DPO)のような既存のアライメント手法は主に、報酬が明示的に与えられるのではなく暗黙的に定義されるペアワイズ選好データに向いている。 本稿では,スカラー評価で明示的にアノテートされた報酬データセットの処理におけるギャップを埋めるために,ノイズコントラスト推定(nce)を利用したlmアライメントの汎用フレームワークを提案する。 我々のフレームワークは2つの並列アルゴリズム、NAAとInfoNCAで構成されており、どちらも報酬データと嗜好データからLMポリシーを直接抽出することができる。 特に、DPO損失はペアの選好条件下でのInfoNCA目標の特別な場合であり、現在のアライメント理論の統合と拡張であることを示す。 NCA と InfoNCA とは対照的に, InfoNCA と DPO は1つの命令に対して異なる応答に対して相対的確率を調整し, NCA は各応答に対して絶対絶対確率を最適化する。 我々は7b言語モデルをgpt-4アノテート報酬データセットと整合させる手法を適用した。 実験の結果, InfoNCAはGPT-4評価においてDPOベースラインを超え, NCAは優れたトレーニング安定性と競争性能を享受していることがわかった。

User intentions are typically formalized as evaluation rewards to be maximized when fine-tuning language models (LMs). Existing alignment methods, such as Direct Preference Optimization (DPO), are mainly tailored for pairwise preference data where rewards are implicitly defined rather than explicitly given. In this paper, we introduce a general framework for LM alignment, leveraging Noise Contrastive Estimation (NCE) to bridge the gap in handling reward datasets explicitly annotated with scalar evaluations. Our framework comprises two parallel algorithms, NCA and InfoNCA, both enabling the direct extraction of an LM policy from reward data as well as preference data. Notably, we show that the DPO loss is a special case of our proposed InfoNCA objective under pairwise preference settings, thereby integrating and extending current alignment theories. By contrasting NCA and InfoNCA, we show that InfoNCA and DPO adjust relative likelihood across different responses to a single instruction, while NCA optimizes absolute likelihood for each response. We apply our methods to align a 7B language model with a GPT-4 annotated reward dataset. Experimental results suggest that InfoNCA surpasses the DPO baseline in GPT-4 evaluations, while NCA enjoys better training stability with competitive performance.
翻訳日:2024-02-09 16:58:34 公開日:2024-02-08
# KIX:メタ認知的一般化フレームワーク

KIX: A Metacognitive Generalization Framework ( http://arxiv.org/abs/2402.05346v1 )

ライセンス: Link先を確認
Arun Kumar, Paul Schrater(参考訳) 人間や他の動物は、時間とともに得られた高度な知識を再利用して適用することで、新しい状況に適応する柔軟性と能力を備えた様々なタスクを解決する上で、一般的に知性行動を示す。 しかし、人工エージェントはスペシャリストであり、そのようなジェネラリストの行動を欠いている。 人工エージェントは、重要な構造化された知識表現を理解し、活用する必要がある。 我々は、メタ認知的一般化フレームワーク、知識-相互作用実行(kix)を提案し、型空間を活用したオブジェクトとの相互作用は、伝達可能な相互作用の概念と一般化の学習を促進すると論じる。 これは知識を強化学習に統合する自然な方法であり、人工知能システムにおける自律的および汎用的な行動の実現手段として機能することを約束する。

Humans and other animals aptly exhibit general intelligence behaviors in solving a variety of tasks with flexibility and ability to adapt to novel situations by reusing and applying high level knowledge acquired over time. But artificial agents are more of a specialist, lacking such generalist behaviors. Artificial agents will require understanding and exploiting critical structured knowledge representations. We present a metacognitive generalization framework, Knowledge-Interaction-eXecution (KIX), and argue that interactions with objects leveraging type space facilitate the learning of transferable interaction concepts and generalization. It is a natural way of integrating knowledge into reinforcement learning and promising to act as an enabler for autonomous and generalist behaviors in artificial intelligence systems.
翻訳日:2024-02-09 16:58:08 公開日:2024-02-08
# POLARIS: 信頼できるAIシステムの開発を導くフレームワーク

POLARIS: A framework to guide the development of Trustworthy AI systems ( http://arxiv.org/abs/2402.05340v1 )

ライセンス: Link先を確認
Maria Teresa Baldassarre, Domenico Gigante, Marcos Kalinowski, Azzurra Ragone(参考訳) イノベーションが繁栄し、新しい製品やサービスが継続的に納品される人工知能(AI)の世界では、AIシステムがライフサイクル全体を通して責任を持って設計され、開発されることが不可欠である。 この目的のために、AIシステムが適合すべきAI倫理原則とガイドラインがいくつか発行されている。 それでも、ハイレベルなAI倫理原則にのみ依存することは、AIシステムの責任あるエンジニアリングを保証するのに十分ではない。 この分野では、AI専門家はしばしば視線でナビゲートします。 実際、信頼できるAI(TAI)を促進するレコメンデーションが存在するが、これらは具体的実装戦略への変換が難しい高レベルのステートメントであることが多い。 ハイレベルなAI倫理原則と、AI専門家のための低レベルな具体的なプラクティスの間には、大きなギャップがある。 この課題に対処するために、我々の研究は、信頼に値するAIのための新しい総合的なフレームワーク(理論と実践のギャップを埋めるために設計された)を開発し、産業ケーススタディでその応用から洞察を報告する体験レポートを提示します。 このフレームワークは、実践状況の体系的なレビュー、調査、34人のAI実践者とのシンクアラウドインタビューの結果に基づいて構築されている。 このフレームワークは、既に文献にあるほとんどのものとは異なり、ソフトウェア開発ライフサイクル全体(SDLC)全体を通して様々な種類の利害関係者をサポートするための実行可能なガイドラインとツールを提供するように設計されています。 私たちの目標は、AIプロフェッショナルに、実践的な洞察を通じてAIの倫理的側面を確実にナビゲートし、AIの巨大なポテンシャルが社会全体の利益に責任を負うようにすることにあります。

In the ever-expanding landscape of Artificial Intelligence (AI), where innovation thrives and new products and services are continuously being delivered, ensuring that AI systems are designed and developed responsibly throughout their entire lifecycle is crucial. To this end, several AI ethics principles and guidelines have been issued to which AI systems should conform. Nevertheless, relying solely on high-level AI ethics principles is far from sufficient to ensure the responsible engineering of AI systems. In this field, AI professionals often navigate by sight. Indeed, while recommendations promoting Trustworthy AI (TAI) exist, these are often high-level statements that are difficult to translate into concrete implementation strategies. There is a significant gap between high-level AI ethics principles and low-level concrete practices for AI professionals. To address this challenge, our work presents an experience report where we develop a novel holistic framework for Trustworthy AI - designed to bridge the gap between theory and practice - and report insights from its application in an industrial case study. The framework is built on the result of a systematic review of the state of the practice, a survey, and think-aloud interviews with 34 AI practitioners. The framework, unlike most of those already in the literature, is designed to provide actionable guidelines and tools to support different types of stakeholders throughout the entire Software Development Life Cycle (SDLC). Our goal is to empower AI professionals to confidently navigate the ethical dimensions of TAI through practical insights, ensuring that the vast potential of AI is exploited responsibly for the benefit of society as a whole.
翻訳日:2024-02-09 16:57:55 公開日:2024-02-08
# ハッカソンへの参加はソフトウェア工学の学生のモチベーションに影響を与え得るか? 予備的ケーススタディ分析

Can participation in a hackathon impact the motivation of software engineering students? A preliminary case study analysis ( http://arxiv.org/abs/2402.05339v1 )

ライセンス: Link先を確認
Allysson Allex Ara\'ujo, Marcos Kalinowski, Maria Teresa Baldassarre(参考訳) [背景]ハッカソンはソフトウェア工学(SE)教育において、学生のスキルセットを向上する能力によって、ますます有名になってきています。 目的]本論文は,学生のモチベーションにハッカソンが影響を及ぼすかどうかを検討する。 方法〕アカデミック・モチベーション・スケール(AMS)を用いた定量的分析とオープンエンド応答の質的符号化を併用し,ハッカソン前後の学生のモチベーションを評価する評価ケーススタディを行った。 結果]事前ハッカソンの発見は,全体的受容を伴うさまざまなモチベーションを示す一方,ハッカソン後の反応は,参加者の知覚に統計的に有意な変化を示さない。 質的発見により、ネットワーク、チームのダイナミクス、スキル開発に関連するテーマが明らかになった。 実践的な観点から、参加者のモチベーションに影響を与えるハッカソンの可能性を強調した。 結論]本研究はハッカソンの理解を動機づけるツールとして強化する一方で,se教育研究における心理計測次元のさらなる探究の必要性を浮き彫りにしている。

[Background] Hackathons are increasingly gaining prominence in Software Engineering (SE) education, lauded for their ability to elevate students' skill sets. [Objective] This paper investigates whether hackathons can impact the motivation of SE students. [Method] We conducted an evaluative case study assessing students' motivations before and after a hackathon, combining quantitative analysis using the Academic Motivation Scale (AMS) and qualitative coding of open-ended responses. [Results] Pre-hackathon findings reveal a diverse range of motivations with an overall acceptance, while post-hackathon responses highlight no statistically significant shift in participants' perceptions. Qualitative findings uncovered themes related to networking, team dynamics, and skill development. From a practical perspective, our findings highlight the potential of hackathons to impact participants' motivation. [Conclusion] While our study enhances the comprehension of hackathons as a motivational tool, it also underscores the need for further exploration of psychometric dimensions in SE educational research.
翻訳日:2024-02-09 16:57:26 公開日:2024-02-08
# SOLID設計原則が機械学習コード理解に及ぼす影響の検討

Investigating the Impact of SOLID Design Principles on Machine Learning Code Understanding ( http://arxiv.org/abs/2402.05337v1 )

ライセンス: Link先を確認
Raphael Cabral, Marcos Kalinowski, Maria Teresa Baldassarre, Hugo Villamizar, Tatiana Escovedo, H\'elio Lopes(参考訳) [コンテキスト] 設計原則を適用することは、伝統的なソフトウェアプロジェクトにおける理解と保守性に有益であると長年認識されてきた。 これらのメリットは、データ、モデル、アルゴリズムによる反復的な実験を含む機械学習(ML)プロジェクトにも当てはまります。 しかし、MLコンポーネントは様々な学歴を持つデータサイエンティストによってしばしば開発され、ソフトウェア設計のベストプラクティスに従わないコードをもたらす可能性がある。 [目標]この現象をよりよく理解するために,SOLID設計原則がMLコード理解に与える影響を検討した。 方法]100人のデータサイエンティストを含む3つの独立した実験で制御実験を行った。 SOLID原則を使わなかった実産業MLコードを再構築した。 各試験では、1つのグループにオリジナルのMLコードが提示され、もう1つのグループはSOLID原則を取り入れたMLコードが提示された。 両グループの参加者は、コードを分析し、オープンエンドとクローズドエンドの両方の質問を含む質問に答えるよう求められた。 結果]SOLID設計原則の採用により,MLプロジェクトの領域内でのコード理解が向上することを示す統計的に有意な証拠が得られた。 [結論]ソフトウェアエンジニアリング設計の原則をデータサイエンスコミュニティに広めるべきであり、MLコードの保守性を高めることを考慮している。

[Context] Applying design principles has long been acknowledged as beneficial for understanding and maintainability in traditional software projects. These benefits may similarly hold for Machine Learning (ML) projects, which involve iterative experimentation with data, models, and algorithms. However, ML components are often developed by data scientists with diverse educational backgrounds, potentially resulting in code that doesn't adhere to software design best practices. [Goal] In order to better understand this phenomenon, we investigated the impact of the SOLID design principles on ML code understanding. [Method] We conducted a controlled experiment with three independent trials involving 100 data scientists. We restructured real industrial ML code that did not use SOLID principles. Within each trial, one group was presented with the original ML code, while the other was presented with ML code incorporating SOLID principles. Participants of both groups were asked to analyze the code and fill out a questionnaire that included both open-ended and closed-ended questions on their understanding. [Results] The study results provide statistically significant evidence that the adoption of the SOLID design principles can improve code understanding within the realm of ML projects. [Conclusion] We put forward that software engineering design principles should be spread within the data science community and considered for enhancing the maintainability of ML code.
翻訳日:2024-02-09 16:57:05 公開日:2024-02-08
# ML対応システムモデルのデプロイと監視:現状と課題

ML-Enabled Systems Model Deployment and Monitoring: Status Quo and Problems ( http://arxiv.org/abs/2402.05333v1 )

ライセンス: Link先を確認
Eduardo Zimelewicz, Marcos Kalinowski, Daniel Mendez, G\"orkem Giray, Antonio Pedro Santos Alves, Niklas Lavesson, Kelly Azevedo, Hugo Villamizar, Tatiana Escovedo, Helio Lopes, Stefan Biffl, Juergen Musil, Michael Felderer, Stefan Wagner, Teresa Baldassarre, Tony Gorschek(参考訳) [文脈]機械学習(ML)モデルを組み込んだシステム(しばしばML対応システムと呼ばれる)が一般的になっている。 しかし、ML対応システムが実際にどのように構築されているかに関する実証的な証拠は、特にMLモデルの普及を取り巻く活動において、まだ限られている。 [目標]MLモデルの普及に伴う現代産業の実践と課題を考察し,モデル展開とMLライフサイクルのモニタリングに着目した。 [方法]ML対応システムの設計方法に関する実践的知見を収集するため,国際調査を行った。 25カ国から合計188件の回答を集めました。 我々は,モデル展開とモニタリングの段階における現状と問題点を分析した。 信頼区間を有するブートストラップを用いた現代の実践を分析し,オープン・アキシアル符号化手法を適用した報告問題の定性解析を行った。 結果]実践者はモデルデプロイメントと監視フェーズを関連性があり、難しいと認識します。 モデルデプロイメントに関しては、モデルは通常、MLOps原則を限定した、独立したサービスとしてデプロイされる。 報告されている問題には、運用デプロイメントとレガシーアプリケーション統合のためのインフラストラクチャのアーキテクチャ設計の難しさがある。 モデル監視に関しては、運用中の多くのモデルが監視されていない。 主な監視対象は入力、出力、決定である。 報告された問題には、監視プラクティスの欠如、カスタム監視ツールの作成の必要性、適切なメトリクスの選択が含まれる。 結論]私たちの結果は,導入プラクティスや実践上の問題点をより深く理解し,MLデプロイメントの指導と問題駆動型研究の監視を支援する上で有効です。

[Context] Systems incorporating Machine Learning (ML) models, often called ML-enabled systems, have become commonplace. However, empirical evidence on how ML-enabled systems are engineered in practice is still limited, especially for activities surrounding ML model dissemination. [Goal] We investigate contemporary industrial practices and problems related to ML model dissemination, focusing on the model deployment and the monitoring of ML life cycle phases. [Method] We conducted an international survey to gather practitioner insights on how ML-enabled systems are engineered. We gathered a total of 188 complete responses from 25 countries. We analyze the status quo and problems reported for the model deployment and monitoring phases. We analyzed contemporary practices using bootstrapping with confidence intervals and conducted qualitative analyses on the reported problems applying open and axial coding procedures. [Results] Practitioners perceive the model deployment and monitoring phases as relevant and difficult. With respect to model deployment, models are typically deployed as separate services, with limited adoption of MLOps principles. Reported problems include difficulties in designing the architecture of the infrastructure for production deployment and legacy application integration. Concerning model monitoring, many models in production are not monitored. The main monitored aspects are inputs, outputs, and decisions. Reported problems involve the absence of monitoring practices, the need to create custom monitoring tools, and the selection of suitable metrics. [Conclusion] Our results help provide a better understanding of the adopted practices and problems in practice and support guiding ML deployment and monitoring research in a problem-driven manner.
翻訳日:2024-02-09 16:56:46 公開日:2024-02-08
# 確率自由推論におけるニュアサンスパラメータと一般化ラベルシフトに基づく分類

Classification under Nuisance Parameters and Generalized Label Shift in Likelihood-Free Inference ( http://arxiv.org/abs/2402.05330v1 )

ライセンス: Link先を確認
Luca Masserano, Alex Shen, Michele Doro, Tommaso Dorigo, Rafael Izbicki, Ann B. Lee(参考訳) オープン・サイエンティフィック・チャレンジは、データ生成過程の機械論的モデルがあるが、ラベルと潜在ニュアサンスパラメータの分布が列車とターゲットデータで異なる場合、不確実性の信頼できる尺度でイベントを分類する方法である。 このタイプの分布シフトを一般化ラベルシフト(GLS)と呼ぶ。 観測データ$\mathbf{x}$を共変量として用いた直接分類は、バイアス付き予測とラベルの不正不確実性推定に繋がる。 これらのバイアスを克服するために, ニュアサンスパラメータ下での仮説検定問題としてキャスト分類を適用できる新しいロバスト不確実性定量化法を提案する。 鍵となる考え方は、Nuisanceパラメータ空間全体にわたって分類器の受信動作特性(ROC)を推定することであり、GLSの下で不変なカットオフを考案することができる。 提案手法は,ドメイン適応能力を持つ事前学習型分類器を効果的に提供し,高い出力を維持しながら有効な予測セットを返す。 現実的な力学モデルから得られたデータを用いて、生物学と天体物理学における2つの挑戦的な科学的問題にその性能を実証する。

An open scientific challenge is how to classify events with reliable measures of uncertainty, when we have a mechanistic model of the data-generating process but the distribution over both labels and latent nuisance parameters is different between train and target data. We refer to this type of distributional shift as generalized label shift (GLS). Direct classification using observed data $\mathbf{X}$ as covariates leads to biased predictions and invalid uncertainty estimates of labels $Y$. We overcome these biases by proposing a new method for robust uncertainty quantification that casts classification as a hypothesis testing problem under nuisance parameters. The key idea is to estimate the classifier's receiver operating characteristic (ROC) across the entire nuisance parameter space, which allows us to devise cutoffs that are invariant under GLS. Our method effectively endows a pre-trained classifier with domain adaptation capabilities and returns valid prediction sets while maintaining high power. We demonstrate its performance on two challenging scientific problems in biology and astroparticle physics with data from realistic mechanistic models.
翻訳日:2024-02-09 16:56:24 公開日:2024-02-08
# m\\ullerの定理の2つの単純な証明

Two Simple Proofs of M\"uller's Theorem ( http://arxiv.org/abs/2402.05328v1 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) M\"{u}ller の定理により、弦のコルモゴロフ複雑性はその量子コルモゴロフ複雑性と等しいことが示されている。 したがって、量子力学を使って古典情報を圧縮する利点はない。 古典的な情報源の量的な情報は、使用する物理モデルに不変である。 これらの結果から、この定理はアルゴリズム情報理論と物理学の交叉において最も重要な結果となっている。 元々の証明は非常に広範である。 本論文はこの定理の2つの単純な証明を含む。

Due to M\"{u}ller's theorem, the Kolmogorov complexity of a string was shown to be equal to its quantum Kolmogorov complexity. Thus there are no benefits to using quantum mechanics to compress classical information. The quantitative amount of information in classical sources is invariant to the physical model used. These consequences make this theorem arguably the most important result in the intersection of algorithmic information theory and physics. The original proof is quite extensive. This paper contains two simple proofs of this theorem.
翻訳日:2024-02-09 16:56:04 公開日:2024-02-08
# 損失関数ファミリーの学習によるクラス不均衡データに対するroc曲線の最適化

Optimizing for ROC Curves on Class-Imbalanced Data by Training over a Family of Loss Functions ( http://arxiv.org/abs/2402.05400v1 )

ライセンス: Link先を確認
Kelsey Lieberman, Shuai Yuan, Swarna Kamlam Ravindran, Carlo Tomasi(参考訳) バイナリ分類はコンピュータビジョンにおいてよく研究されている問題であるが、厳格なクラス不均衡下での信頼性の高い分類器の訓練は依然として困難な問題である。 近年,損失関数や最適化手法を改良することにより,不均衡下におけるトレーニングの効果を軽減する手法が提案されている。 この研究は, マルチクラスの場合の全体的な精度を大幅に向上させたが, これらの手法のハイパーパラメータ値のわずかな変化は, 重度の不均衡を伴うバイナリ問題に対する受信動作特性(ROC)曲線において, 高い変動性能をもたらすことが観察された。 ハイパーパラメータ選択に対する感度を低減し、より一般的なモデルを訓練するために、単一損失関数ではなく、損失関数の族に対するトレーニングを提案する。 不均衡な分類問題にLCT(Loss Conditional Training)を適用する手法を開発した。 CIFARとKaggleのコンペティションデータセットによる大規模な実験結果から,本手法はモデル性能を改善し,ハイパーパラメータ選択に対してより堅牢であることが示された。 コードは、https://github.com/klieberman/roc_lct.comから入手できる。

Although binary classification is a well-studied problem in computer vision, training reliable classifiers under severe class imbalance remains a challenging problem. Recent work has proposed techniques that mitigate the effects of training under imbalance by modifying the loss functions or optimization methods. While this work has led to significant improvements in the overall accuracy in the multi-class case, we observe that slight changes in hyperparameter values of these methods can result in highly variable performance in terms of Receiver Operating Characteristic (ROC) curves on binary problems with severe imbalance. To reduce the sensitivity to hyperparameter choices and train more general models, we propose training over a family of loss functions, instead of a single loss function. We develop a method for applying Loss Conditional Training (LCT) to an imbalanced classification problem. Extensive experiment results, on both CIFAR and Kaggle competition datasets, show that our method improves model performance and is more robust to hyperparameter choices. Code will be made available at: https://github.com/klieberman/roc_lct.
翻訳日:2024-02-09 16:47:08 公開日:2024-02-08
# CIC: 文化的イメージキャプションのためのフレームワーク

CIC: A framework for Culturally-aware Image Captioning ( http://arxiv.org/abs/2402.05374v1 )

ライセンス: Link先を確認
Youngsik Yun and Jihie Kim(参考訳) Image Captioningは、BLIPのようなVLP(Vision-Language Pre-trained Model)を用いて画像から記述文を生成する。 しかし、現在の手法では、アジアの文化集団が着用する伝統的な衣服など、画像に描かれた文化的要素の詳細な説明的なキャプションが生成されていない。 本稿では,文化を表すイメージにおいて,文化的な視覚的要素から抽出された文化的要素をキャプションとして表現し,表現する新しい枠組みである「CIC」を提案する。 視覚的モダリティとLarge Language Models(LLM)を適切なプロンプトで組み合わせた手法に着想を得て,(1)画像から文化的カテゴリに基づく質問,(2)視覚的質問回答(VQA)から文化的な視覚要素を抽出し,(3)LLMを用いて文化的に認識されたキャプションを生成する。 本研究は,4つの異なる文化グループから45名を対象に,vlpに基づく画像キャプションベースラインと比較して,提案手法がより文化的に記述的なキャプションを生成することを示す。 私たちのコードとデータセットは、受け入れ次第公開されます。

Image Captioning generates descriptive sentences from images using Vision-Language Pre-trained models (VLPs) such as BLIP, which has improved greatly. However, current methods lack the generation of detailed descriptive captions for the cultural elements depicted in the images, such as the traditional clothing worn by people from Asian cultural groups. In this paper, we propose a new framework, \textbf{Culturally-aware Image Captioning (CIC)}, that generates captions and describes cultural elements extracted from cultural visual elements in images representing cultures. Inspired by methods combining visual modality and Large Language Models (LLMs) through appropriate prompts, our framework (1) generates questions based on cultural categories from images, (2) extracts cultural visual elements from Visual Question Answering (VQA) using generated questions, and (3) generates culturally-aware captions using LLMs with the prompts. Our human evaluation conducted on 45 participants from 4 different cultural groups with a high understanding of the corresponding culture shows that our proposed framework generates more culturally descriptive captions when compared to the image captioning baseline based on VLPs. Our code and dataset will be made publicly available upon acceptance.
翻訳日:2024-02-09 16:46:47 公開日:2024-02-08
# 幾何学の無限大力を解き放つ:全スライド病理組織像解析のための新しい幾何認識トランスフォーマー(goat)

Unleashing the Infinity Power of Geometry: A Novel Geometry-Aware Transformer (GOAT) for Whole Slide Histopathology Image Analysis ( http://arxiv.org/abs/2402.05373v1 )

ライセンス: Link先を確認
Mingxin Liu, Yunzan Liu, Pengbo Xu, Jiquan Ma(参考訳) 病理組織学的解析はがんの診断と予後に非常に重要であるが,gigapixel whole slide image (wsis) の膨大な多様性と病理学的特徴の複雑な表現のために大きな課題がある。 しかし,近年の方法では,WSIの幾何学的表現が十分に活用されていない。 そこで我々は,腫瘍の微小環境における幾何学的特徴に注意を払うようモデルに促す,弱い教師付きフレームワークであるgeometry-aware transformer (goat)を提案する。 さらに、WSI内の形態的特徴を抽出し、強化するコンテキスト対応アテンション機構を設計する。

The histopathology analysis is of great significance for the diagnosis and prognosis of cancers, however, it has great challenges due to the enormous heterogeneity of gigapixel whole slide images (WSIs) and the intricate representation of pathological features. However, recent methods have not adequately exploited geometrical representation in WSIs which is significant in disease diagnosis. Therefore, we proposed a novel weakly-supervised framework, Geometry-Aware Transformer (GOAT), in which we urge the model to pay attention to the geometric characteristics within the tumor microenvironment which often serve as potent indicators. In addition, a context-aware attention mechanism is designed to extract and enhance the morphological features within WSIs.
翻訳日:2024-02-09 16:46:24 公開日:2024-02-08
# ニューラルネットワークアンサンブルを用いた非定常流体の低次モデリング

Reduced-order modeling of unsteady fluid flow using neural network ensembles ( http://arxiv.org/abs/2402.05372v1 )

ライセンス: Link先を確認
Rakesh Halder, Mohammadmehdi Ataei, Hesam Salehipour, Krzysztof Fidkowski, Kevin Maki(参考訳) 深層学習の利用は、全階モデルの低次元表現を得るために、低階モデル(ROM)でますます人気が高まっている。 畳み込みオートエンコーダ(CAE)はしばしば、偏微分方程式の解を含む空間的に分散したデータを扱うことに長けているため、この目的のために使用される。 非定常物理学問題に適用する場合、ROMは低次元潜在変数の時系列予測モデルも必要である。 時系列データのモデリングに有用なリカレントニューラルネットワークの一種であるLong Short-term memory(LSTM)ネットワークは、自動回帰時系列予測のためのデータ駆動ROMに頻繁に使用される。 長期の地平線上で見当たらない設計ポイントで予測を行う場合、エラー伝搬は頻繁に遭遇する問題であり、早い段階でエラーが重なり、大きな不正確性をもたらす可能性がある。 本研究では,一般的なアンサンブル学習手法であるバッグングを用いて,全順序モデルの空間再構成にCAEを用いて時系列予測にLSTMアンサンブルを使用する,CAE-eLSTM ROMと呼ばれる完全データ駆動ROMフレームワークを開発することを提案する。 2つの非定常流体力学問題に適用すると,提案フレームワークは誤差伝播を効果的に低減し,未知点における潜在変数の時系列予測をより精度良く行うことができる。

The use of deep learning has become increasingly popular in reduced-order models (ROMs) to obtain low-dimensional representations of full-order models. Convolutional autoencoders (CAEs) are often used to this end as they are adept at handling data that are spatially distributed, including solutions to partial differential equations. When applied to unsteady physics problems, ROMs also require a model for time-series prediction of the low-dimensional latent variables. Long short-term memory (LSTM) networks, a type of recurrent neural network useful for modeling sequential data, are frequently employed in data-driven ROMs for autoregressive time-series prediction. When making predictions at unseen design points over long time horizons, error propagation is a frequently encountered issue, where errors made early on can compound over time and lead to large inaccuracies. In this work, we propose using bagging, a commonly used ensemble learning technique, to develop a fully data-driven ROM framework referred to as the CAE-eLSTM ROM that uses CAEs for spatial reconstruction of the full-order model and LSTM ensembles for time-series prediction. When applied to two unsteady fluid dynamics problems, our results show that the presented framework effectively reduces error propagation and leads to more accurate time-series prediction of latent variables at unseen points.
翻訳日:2024-02-09 16:46:10 公開日:2024-02-08
# 時系列予測のためのロバスト表現としての注意

Attention as Robust Representation for Time Series Forecasting ( http://arxiv.org/abs/2402.05370v1 )

ライセンス: Link先を確認
PeiSong Niu, Tian Zhou, Xue Wang, Liang Sun, Rong Jin(参考訳) 時系列予測は,NLP と CV の優れた性能のため,トランスフォーマーベースのモデルの普及とともに,多くの実用化に不可欠である。 トランスフォーマーの重要な特徴、注意機構、データ表現を強化するために動的に埋め込みを融合させ、しばしば注意重みを副産物の役割に還元する。 しかし、ノイズと非定常性によって特徴づけられる時系列データは、重要な予測課題をもたらす。 提案手法は,時系列の主表現として注目重みを高くし,データポイント間の時間的関係を利用して予測精度を向上させる。 本研究では,グローバルランドマークとローカルウィンドウを用いて構築されたアテンションマップが,データポイントの堅牢なカーネル表現として機能することを示す。 提案手法は最先端モデルよりも優れており,コアニューラルネットワークアーキテクチャを変更することなく,多変量時系列予測における平均2乗誤差(MSE)を3.6%削減する。 汎用的なコンポーネントとして機能し、最近のパッチベースの組み込みスキームをトランスフォーマーベースのモデルに置き換えることで、パフォーマンスが向上する。

Time series forecasting is essential for many practical applications, with the adoption of transformer-based models on the rise due to their impressive performance in NLP and CV. Transformers' key feature, the attention mechanism, dynamically fusing embeddings to enhance data representation, often relegating attention weights to a byproduct role. Yet, time series data, characterized by noise and non-stationarity, poses significant forecasting challenges. Our approach elevates attention weights as the primary representation for time series, capitalizing on the temporal relationships among data points to improve forecasting accuracy. Our study shows that an attention map, structured using global landmarks and local windows, acts as a robust kernel representation for data points, withstanding noise and shifts in distribution. Our method outperforms state-of-the-art models, reducing mean squared error (MSE) in multivariate time series forecasting by a notable 3.6% without altering the core neural network architecture. It serves as a versatile component that can readily replace recent patching based embedding schemes in transformer-based models, boosting their performance.
翻訳日:2024-02-09 16:45:45 公開日:2024-02-08
# 原理的優先ベイズ最適化

Principled Preferential Bayesian Optimization ( http://arxiv.org/abs/2402.05367v1 )

ライセンス: Link先を確認
Wenjie Xu, Wenbin Wang, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones(参考訳) 優先ベイズ最適化 (BO) の問題について検討し, 候補解に対する優先フィードバックのみでブラックボックス関数を最適化することを目的とする。 確率比の概念に着想を得て,選好フィードバックのみを用いてブラックボックス関数の信頼度集合を構築する。 この問題を解決するために,効率的な計算手法を用いた楽観的アルゴリズムを開発した。 このバウンドにより、予測された最良解を報告するためのスキームを、収束率を保証しながら設計することができる。 ガウス過程,標準テスト関数,熱的快適性最適化問題から得られたサンプル実験の結果から,本手法は従来の最先端のヒューリスティックに比べて安定的に優れた性能,あるいは競争性が達成できることが示されたが,後悔の限界や収束に関する理論的保証は得られていない。

We study the problem of preferential Bayesian optimization (BO), where we aim to optimize a black-box function with only preference feedback over a pair of candidate solutions. Inspired by the likelihood ratio idea, we construct a confidence set of the black-box function using only the preference feedback. An optimistic algorithm with an efficient computational method is then developed to solve the problem, which enjoys an information-theoretic bound on the cumulative regret, a first-of-its-kind for preferential BO. This bound further allows us to design a scheme to report an estimated best solution, with a guaranteed convergence rate. Experimental results on sampled instances from Gaussian processes, standard test functions, and a thermal comfort optimization problem all show that our method stably achieves better or competitive performance as compared to the existing state-of-the-art heuristics, which, however, do not have theoretical guarantees on regret bounds or convergence.
翻訳日:2024-02-09 16:45:25 公開日:2024-02-08
# 双極子共振器を用いたスケーラブル超伝導量子コンピュータのための高性能マルチキュービットシステム

High-Performance Multi-Qubit System with Double-Transmon Couplers towards Scalable Superconducting Quantum Computers ( http://arxiv.org/abs/2402.05361v1 )

ライセンス: Link先を確認
Kentaro Kubo, Yinghao Ho, Hayato Goto(参考訳) 超伝導量子コンピュータの波長可変カプラは高速で正確な2量子ビットゲートを可能にし、様々なアーキテクチャとゲート実装方式で 0.99 を超える高いフィデル性が報告されている。 しかし、マルチキュービットシステムの性能が明確化されているチューナブルカプラは少ないが、最も広く使われているのはシングルトランスモンカプラ(STC)である。 分離された2量子ビットシステムと同等の精度を達成することは、様々な望ましくない結合のために難しいが、スケーラビリティには必要である。 本研究では,2つのdtc(double-transmon coupler)を介して結合された3つの固定周波数量子ビットの系を数値的に解析した。 DTCは、最近提案されたチューナブルカプラであり、2つの固定周波数トランスモンが共有ループを介して結合され、追加のジョセフソン接合が設けられている。 dtcは, 分離した2量子ビットシステムだけでなく, 30ns czゲートと 10-ns $\pi/2$ パルスの実装が可能であり, フィダリティが 0.9999 以上の残差結合を十分に低減できることがわかった。 また, DTC を STC に置き換えるシステムについても検討する。 以上の結果から, DTCは残結合抑制とゲート精度の両方の観点から, STCよりも優れていた。 これらの結果から、DTCアーキテクチャは高性能でスケーラブルな超伝導量子コンピュータの実現に期待できる。

Tunable couplers in superconducting quantum computers have enabled fast and accurate two-qubit gates, with reported high fidelities over 0.99 in various architectures and gate implementation schemes. However, there are few tunable couplers whose performance in multi-qubit systems is clarified, except for the most widely used one: single-transmon coupler (STC). Achieving similar accuracy to isolated two-qubit systems remains challenging due to various undesirable couplings but is necessary for scalability. In this work, we numerically analyze a system of three fixed-frequency qubits coupled via two double-transmon couplers (DTCs) where nearest-neighbor qubits are highly detuned and also next nearest-neighbor ones are nearly resonant. The DTC is a recently proposed tunable coupler, which consists of two fixed-frequency transmons coupled through a common loop with an additional Josephson junction. We find that the DTC can not only reduce undesired residual couplings sufficiently, as well as in isolated two-qubits systems, but also enables implementations of 30-ns CZ gates and 10-ns $\pi/2$ pulses with fidelities of 0.9999 or higher. For comparison, we also investigate the system where the DTCs are replaced by the STCs. The results show that the DTC outperforms the STC in terms of both residual coupling suppression and gate accuracy in the above systems. From these results, we expect that the DTC architecture is promising for realizing high-performance, scalable superconducting quantum computers.
翻訳日:2024-02-09 16:45:05 公開日:2024-02-08
# 問題解決のための分割探索プログラムによる大規模言語モデルの指導

Guiding Large Language Models with Divide-and-Conquer Program for Discerning Problem Solving ( http://arxiv.org/abs/2402.05359v1 )

ライセンス: Link先を確認
Yizhou Zhang, Lun Du, Defu Cao, Qiang Fu, Yan Liu(参考訳) 大規模言語モデル(llm)のような基礎モデルは、その多数のアプリケーションのために多くの関心を集めている。 既存の研究は、Chain-of-Thoughtsのような適切なプロンプト設計が、様々な分野でLLMの強力な能力を解き放つことを示している。 しかし、反復的なサブタスクや算術計算や記事レベルの偽ニュース検出といった偽コンテンツを含むタスクを扱う場合、既存のプロンプト戦略は表現力の不足や幻覚によって引き起こされる中間的エラーに苦しむ。 このような中間誤差に対してLLMをより明瞭にするために,Divide-and-Conquerプログラムを用いてLCMを誘導し,優れた表現力を確保し,タスクの分解,サブタスクの分解,分解処理を分離する手法を提案する。 理論解析により, 固定深度変圧器の表現力を拡張するために LLM を誘導できることが判明した。 提案手法は,重大整数乗算,幻覚検出,誤情報検出など,中間誤差や誤読内容に悩むタスクにおいて,典型的なプロンシング戦略よりも優れた性能が得られることを示す。

Foundation models, such as Large language Models (LLMs), have attracted significant amount of interest due to their large number of applications. Existing works show that appropriate prompt design, such as Chain-of-Thoughts, can unlock LLM's powerful capacity in diverse areas. However, when handling tasks involving repetitive sub-tasks and/or deceptive contents, such as arithmetic calculation and article-level fake news detection, existing prompting strategies either suffers from insufficient expressive power or intermediate errors triggered by hallucination. To make LLM more discerning to such intermediate errors, we propose to guide LLM with a Divide-and-Conquer program that simultaneously ensures superior expressive power and disentangles task decomposition, sub-task resolution, and resolution assembly process. Theoretic analysis reveals that our strategy can guide LLM to extend the expressive power of fixed-depth Transformer. Experiments indicate that our proposed method can achieve better performance than typical prompting strategies in tasks bothered by intermediate errors and deceptive contents, such as large integer multiplication, hallucination detection and misinformation detection.
翻訳日:2024-02-09 16:44:36 公開日:2024-02-08
# 下流データプルーニングのための学習複雑さの探索

Exploring Learning Complexity for Downstream Data Pruning ( http://arxiv.org/abs/2402.05356v1 )

ライセンス: Link先を確認
Wenyu Jiang, Zhenlong Liu, Zejian Xie, Songxin Zhang, Bingyi Jing, Hongxin Wei(参考訳) 過剰パラメータの事前学習されたモデルは、限られた計算リソースで微調整する上で大きな課題となる。 直感的な解決策は、微調整データセットからあまり分かりにくいサンプルを抽出することだ。 トレーニングに基づく一連のスコアリング関数を提案して,データサブセットのインフォメーション性を定量化するが,プルーニングコストは重いパラメータの更新により無視できない。 効率的な刈り取りには,幾何学的手法の類似度スコアリング関数をトレーニングベースからトレーニングフリーに適応させることが不可欠である。 しかし,このような適応は元々の刈り取りを歪め,下流タスクの性能を低下させることを示した。 本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。 具体的には、学習複雑性は、収束モデル内のデータ処理をカプセル化する異なる能力を持つサブネットの平均的な予測信頼度として定義される。 そして、細調整のための多様で簡単なサンプルを保存します。 視覚データセットを用いた広範囲な実験は、分類タスクにおけるスコアリング関数の有効性と効率を示す。 大規模言語モデルのインストラクションの微調整において,本手法は,インストラクションデータセットの10%しか持たないフルトレーニングを上回って,安定した収束で最先端のパフォーマンスを実現する。

The over-parameterized pre-trained models pose a great challenge to fine-tuning with limited computation resources. An intuitive solution is to prune the less informative samples from the fine-tuning dataset. A series of training-based scoring functions are proposed to quantify the informativeness of the data subset but the pruning cost becomes non-negligible due to the heavy parameter updating. For efficient pruning, it is viable to adapt the similarity scoring function of geometric-based methods from training-based to training-free. However, we empirically show that such adaption distorts the original pruning and results in inferior performance on the downstream tasks. In this paper, we propose to treat the learning complexity (LC) as the scoring function for classification and regression tasks. Specifically, the learning complexity is defined as the average predicted confidence of subnets with different capacities, which encapsulates data processing within a converged model. Then we preserve the diverse and easy samples for fine-tuning. Extensive experiments with vision datasets demonstrate the effectiveness and efficiency of the proposed scoring function for classification tasks. For the instruction fine-tuning of large language models, our method achieves state-of-the-art performance with stable convergence, outperforming the full training with only 10\% of the instruction dataset.
翻訳日:2024-02-09 16:44:13 公開日:2024-02-08
# 安全なマルチモーダル学習システムに関する調査研究

A Survey on Safe Multi-Modal Learning System ( http://arxiv.org/abs/2402.05355v1 )

ライセンス: Link先を確認
Tianyi Zhao, Liangliang Zhang, Yao Ma and Lu Cheng(参考訳) マルチモーダル学習システム(mmls)を現実のシナリオに広く展開することで、安全性への懸念が高まっている。 安全に関する体系的な研究の欠如は、この分野の進歩にとって重要な障壁である。 このギャップを埋めるために,これらの懸念の4つの重要な柱を同定し,MMLSの安全性に関する最初の分類法を提案する。 この分類を活用することで,各柱について詳細なレビューを行い,現在の開発状況に基づいた重要な制限を強調する。 最後に,MMLSの安全性に固有の課題を指摘し,今後の研究の方向性を示す。

With the wide deployment of multimodal learning systems (MMLS) in real-world scenarios, safety concerns have become increasingly prominent. The absence of systematic research into their safety is a significant barrier to progress in this field. To bridge the gap, we present the first taxonomy for MMLS safety, identifying four essential pillars of these concerns. Leveraging this taxonomy, we conduct in-depth reviews for each pillar, highlighting key limitations based on the current state of development. Finally, we pinpoint unique challenges in MMLS safety and provide potential directions for future research.
翻訳日:2024-02-09 16:43:52 公開日:2024-02-08
# 連合学習が雑音ラベルを満たす場合の早期学習規則化の再検討

Revisiting Early-Learning Regularization When Federated Learning Meets Noisy Labels ( http://arxiv.org/abs/2402.05353v1 )

ライセンス: Link先を確認
Taehyeon Kim, Donggyu Kim, Se-Young Yun(参考訳) 連合学習(fl)の進展する状況において、ラベルノイズに対処することは、クライアント間のデータ収集の分散化と多様性によって、ユニークな課題を呈する。 ラベルノイズを緩和するための従来の集中学習アプローチは、プライバシー上の懸念とクライアントデータの不均一性によってFLで制約される。 本稿では,早期学習の正規化を再考し,新しい戦略であるFederated Label-mixture Regularization(FLR)を導入する。 FLRはFLの複雑さに適応し、新しい擬似ラベルを生成し、局所的およびグローバルなモデル予測をブレンドする。 この方法は、i.d.と非i.d.の両方の設定におけるグローバルモデルの精度を高めるだけでなく、ノイズラベルの記憶に効果的に対処する。 既存のラベルノイズやFL技術との互換性を示すために、FLRはラベルの不正確さに悩まされたFL環境における一般化の道を開く。

In the evolving landscape of federated learning (FL), addressing label noise presents unique challenges due to the decentralized and diverse nature of data collection across clients. Traditional centralized learning approaches to mitigate label noise are constrained in FL by privacy concerns and the heterogeneity of client data. This paper revisits early-learning regularization, introducing an innovative strategy, Federated Label-mixture Regularization (FLR). FLR adeptly adapts to FL's complexities by generating new pseudo labels, blending local and global model predictions. This method not only enhances the accuracy of the global model in both i.i.d. and non-i.i.d. settings but also effectively counters the memorization of noisy labels. Demonstrating compatibility with existing label noise and FL techniques, FLR paves the way for improved generalization in FL environments fraught with label inaccuracies.
翻訳日:2024-02-09 16:43:43 公開日:2024-02-08
# 主方程式の非線形汎関数

Nonlinear functionals of master equation unravelings ( http://arxiv.org/abs/2402.05352v1 )

ライセンス: Link先を確認
Dustin Keys, Jan Wehr(参考訳) unravelingsは、マスター方程式の解の確率的表現と密度作用素ダイナミクスの計算方法を提供する。 乱れによって生じる軌道は、確率的崩壊モデルのように、実数として扱われる。 展開しない軌道の線形汎関数の平均はマスター方程式から計算できるが、I\^o式から得られる非ゼロ期待値の補正により非線形汎関数では状況が異なる。 非線形汎関数には、分散とエントロピーの2種類がある。 補正はポアソン過程とウィーナー過程に基づいて2種類の解法に対して明示的に計算される。 エントロピーの場合、これらの補正は負であることが示され、リンドブラッド作用素によって導入された局在を表す。

Unravelings provide a probabilistic representation of solutions of master equations and a method of computation of the density operator dynamics. The trajectories generated by unravelings may also be treated as real -- as in the stochastic collapse models. While averages of linear functionals of the unraveling trajectories can be calculated from the master equation, the situation is different for nonlinear functionals, thanks to the corrections with nonzero expected values, coming from the It\^o formula. Two types of nonlinear functionals are considered here: variance, and entropy. The corrections are calculated explicitly for two types of unravelings, based on Poisson and Wiener processes. In the case of entropy, these corrections are shown to be negative, expressing the localization introduced by the Lindblad operators.
翻訳日:2024-02-09 16:43:26 公開日:2024-02-08
# Descanning:カラー補正拡散モデルによるスキャン画像からオリジナル画像へ

Descanning: From Scanned to the Original Images with a Color Correction Diffusion Model ( http://arxiv.org/abs/2402.05350v1 )

ライセンス: Link先を確認
Junghun Cha, Ali Haider, Seoyun Yang, Hoeyeong Jin, Subin Yang, A. F. M. Shahab Uddin, Jaehyoung Kim, Soo Ye Kim, Sung-Ho Bae(参考訳) 大量のアナログ情報、すなわち文書や画像はデジタル世界で保存、共有、分析のためにスキャンされたコピーの形でデジタル化されている。 しかし, 印刷, 保存, 走査などによって生じる様々な歪みにより, 内容物の品質は著しく低下する。 スキャンしたコピーから高品質なコンテンツを復元することは、多くの製品にとって必須のタスクとなっているが、体系的な調査は行われておらず、私たちの知る限り、公開データセットは利用できない。 本稿では,この問題をデスキャン(Descanning)と定義し,DSCAN-18Kという新しい高品質かつ大規模データセットを導入する。 野生で収集された18k対のオリジナル画像とスキャン画像を含み、複数の複雑な劣化を含んでいる。 このような複雑な劣化を解消するために,大域的な色劣化を補正するカラーエンコーダと局所的な劣化を除去する条件付き拡散確率モデル(DDPM)からなる,DescanDiffusionと呼ばれる新しい画像復元モデルを提案する。 さらにデカンジフフュージョンの一般化能力を向上させるため,スキャン画像における顕著な劣化を再現した合成データ生成方式も設計する。 descandiffusionは,商業修復製品を含む他のベースラインよりも客観的かつ主観的に,総合的な実験と分析によって優れていることを実証する。

A significant volume of analog information, i.e., documents and images, have been digitized in the form of scanned copies for storing, sharing, and/or analyzing in the digital world. However, the quality of such contents is severely degraded by various distortions caused by printing, storing, and scanning processes in the physical world. Although restoring high-quality content from scanned copies has become an indispensable task for many products, it has not been systematically explored, and to the best of our knowledge, no public datasets are available. In this paper, we define this problem as Descanning and introduce a new high-quality and large-scale dataset named DESCAN-18K. It contains 18K pairs of original and scanned images collected in the wild containing multiple complex degradations. In order to eliminate such complex degradations, we propose a new image restoration model called DescanDiffusion consisting of a color encoder that corrects the global color degradation and a conditional denoising diffusion probabilistic model (DDPM) that removes local degradations. To further improve the generalization ability of DescanDiffusion, we also design a synthetic data generation scheme by reproducing prominent degradations in scanned images. We demonstrate that our DescanDiffusion outperforms other baselines including commercial restoration products, objectively and subjectively, via comprehensive experiments and analyses.
翻訳日:2024-02-09 16:43:07 公開日:2024-02-08
# webをスクレイピングして野火を早期発見する

Scrapping The Web For Early Wildfire Detection ( http://arxiv.org/abs/2402.05349v1 )

ライセンス: Link先を確認
Mateo Lostanlen and Felix Veith and Cristian Buc and Valentin Barriere(参考訳) 早期の山火事検出は迅速な対応を可能にするために最も重要であり、山火事の拡散による悪影響を最小限に抑えることができる。 この目的のために,手動バウンディングボックスレベルのアノテーションで拡張されたカメラネットワークからの山火事のビデオからなるWebスクラッピングベースのデータセットである \Pyro を提案する。 当社のデータセットは、データの品質と多様性を改善する戦略に基づいてフィルタリングされ、最終的なデータを10,000イメージに削減しました。 我々は最先端のオブジェクト検出モデルを用いて実験を行い、提案したデータセットは困難であり、他の公開データセットと一致して使用することは、全体的な結果に到達するのに役立ちます。 コードとデータを公開します。

Early wildfire detection is of the utmost importance to enable rapid response efforts, and thus minimize the negative impacts of wildfire spreads. To this end, we present \Pyro, a web-scraping-based dataset composed of videos of wildfires from a network of cameras that were enhanced with manual bounding-box-level annotations. Our dataset was filtered based on a strategy to improve the quality and diversity of the data, reducing the final data to a set of 10,000 images. We ran experiments using a state-of-the-art object detection model and found out that the proposed dataset is challenging and its use in concordance with other public dataset helps to reach higher results overall. We will make our code and data publicly available.
翻訳日:2024-02-09 16:42:29 公開日:2024-02-08
# 分類のための混合密度ネットワークと製品バンドルへの応用

Mixture Density Networks for Classification with an Application to Product Bundling ( http://arxiv.org/abs/2402.05428v1 )

ライセンス: Link先を確認
Narendhar Gugulothu, Sanjay P. Bhat, Tejas Bodas(参考訳) 混合密度ネットワーク(MDN)は回帰タスクに広く用いられているが、分類タスクにはあまり使われていない。 この理由の1つは、MDNの分類における使用性が明確で簡単でないことである。 本稿では,mdnに基づく2つの分類モデルを提案する。 どちらのモデルもガウスの混合物をデータに当てはめ、与えられた入力特徴の学習累積分布関数を評価することにより、適合した分布を用いてサンプルを分類する。 提案するmdnベースのモデルは,公開されている3つのデータセット上の5つのベースライン分類モデルよりも若干優れていますが,実際の実用性は実世界の製品バンドルアプリケーションを通じて得られます。 具体的には、MDNベースのモデルを用いて、各商品の合成販売データから2つの商品に対する有償(WTP)分布を学習する。 次に、学習されたwtp分布のガウス混合表現を利用して、両方の積からなるバンドルのwtp分布を得る。 提案したMDNベースのモデルは、製品とバンドルの真のWTP分布をよく近似することができる。

While mixture density networks (MDNs) have been extensively used for regression tasks, they have not been used much for classification tasks. One reason for this is that the usability of MDNs for classification is not clear and straightforward. In this paper, we propose two MDN-based models for classification tasks. Both models fit mixtures of Gaussians to the the data and use the fitted distributions to classify a given sample by evaluating the learnt cumulative distribution function for the given input features. While the proposed MDN-based models perform slightly better than, or on par with, five baseline classification models on three publicly available datasets, the real utility of our models comes out through a real-world product bundling application. Specifically, we use our MDN-based models to learn the willingness-to-pay (WTP) distributions for two products from synthetic sales data of the individual products. The Gaussian mixture representation of the learnt WTP distributions is then exploited to obtain the WTP distribution of the bundle consisting of both the products. The proposed MDN-based models are able to approximate the true WTP distributions of both products and the bundle well.
翻訳日:2024-02-09 16:34:19 公開日:2024-02-08
# everyone prune now: フォワードパスのみによるllmの構造化pruning

Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes ( http://arxiv.org/abs/2402.05406v1 )

ライセンス: Link先を確認
Lucio Dery, Steven Kolawole, Jean-Francois Kagey, Virginia Smith, Graham Neubig, Ameet Talwalkar(参考訳) 一般の実践者と最も支援された機関の間で利用可能なハードウェアの世代間ギャップを考えると、LLMは規模が大きくなるにつれてアクセスしにくくなっている。 llmを圧縮してリソース消費を管理可能にする多くのアプローチが提案されているが、これらのメソッド自体はリソース集約的であり、ターゲットとする非常にユーザグループの範囲外になる傾向がある。 本研究では,前進パスのみを用いたLCMの構造的プルーニングの問題について検討する。 私たちは実践者に、利用可能なハードウェアが推論を実行するのに十分なメモリを持つほど大きなモデルをプルーンする権限を与えたいと考えています。 我々は,小型で高速かつ高精度な刈り込みモデルを提供できる,勾配のない摂動型刈り込み法であるBonsaiを開発した。 ボンサイは刈り取ったモデルを出力し (i)より高価な勾配に基づく構造的刈り取り法で生成されたものよりも優れており、 (ii) は半構造化プルーニング法で生成したものより2倍高速(精度は同等)である。 また,1つのa6000を用いて新しいサブ2bモデルを作成し,hughingface open llm leaderboard上で4/6タスクで最先端のパフォーマンスを実現する。

Given the generational gap in available hardware between lay practitioners and the most endowed institutions, LLMs are becoming increasingly inaccessible as they grow in size. Whilst many approaches have been proposed to compress LLMs to make their resource consumption manageable, these methods themselves tend to be resource intensive, putting them out of the reach of the very user groups they target. In this work, we explore the problem of structured pruning of LLMs using only forward passes. We seek to empower practitioners to prune models so large that their available hardware has just enough memory to run inference. We develop Bonsai, a gradient-free, perturbative pruning method capable of delivering small, fast, and accurate pruned models. We observe that Bonsai outputs pruned models that (i) outperform those generated by more expensive gradient-based structured pruning methods, and (ii) are twice as fast (with comparable accuracy) as those generated by semi-structured pruning methods requiring comparable resources as Bonsai. We also leverage Bonsai to produce a new sub-2B model using a single A6000 that yields state-of-the-art performance on 4/6 tasks on the Huggingface Open LLM leaderboard.
翻訳日:2024-02-09 16:34:02 公開日:2024-02-08
# 失敗から学ぶインコンテキスト原則

In-Context Principle Learning from Mistakes ( http://arxiv.org/abs/2402.05403v1 )

ライセンス: Link先を確認
Tianjun Zhang, Aman Madaan, Luyu Gao, Steven Zheng, Swaroop Mishra, Yiming Yang, Niket Tandon, Uri Alon(参考訳) In-context Learning (ICL, few-shot prompting) は、いくつかの入力出力例から学習することで、LLMを下流タスクに適用する標準的な方法である。 それでも、すべてのiclベースのアプローチは、正しい入出力ペアからのみ学習する。 本稿では,このパラダイムを,数少ない入力出力例から学習することで再考する。 私たちは学習原則(leap: learning principles)を紹介します。まず、モデルを故意に誘導して、これらのいくつかの例で間違いを犯す;次に、これらの誤りを熟考し、それらから明らかなタスク固有の"原則"を学習します。 LEAPはマルチホップ質問応答 (Hotpot QA), テキストQA (DROP), ビッグベンチハード推論 (GSM8K, MATH), 数学問題 (GSM8K, MATH) など幅広いベンチマークで評価され, LEAP は GPT-3.5-turbo, GPT-4, GPT-4 ターボ, Claude-2.1 などの最強の LLM を改善している。 例えば、LEAPはGPT-4をDROPで7.5%、HotpotQAで3.3%改善した。 重要なことは、LEAPは標準的な数ショットプロンプト設定以上のインプットや例を必要としないことである。

In-context learning (ICL, also known as few-shot prompting) has been the standard method of adapting LLMs to downstream tasks, by learning from a few input-output examples. Nonetheless, all ICL-based approaches only learn from correct input-output pairs. In this paper, we revisit this paradigm, by learning more from the few given input-output examples. We introduce Learning Principles (LEAP): First, we intentionally induce the model to make mistakes on these few examples; then we reflect on these mistakes, and learn explicit task-specific "principles" from them, which help solve similar problems and avoid common mistakes; finally, we prompt the model to answer unseen test questions using the original few-shot examples and these learned general principles. We evaluate LEAP on a wide range of benchmarks, including multi-hop question answering (Hotpot QA), textual QA (DROP), Big-Bench Hard reasoning, and math problems (GSM8K and MATH); in all these benchmarks, LEAP improves the strongest available LLMs such as GPT-3.5-turbo, GPT-4, GPT-4 turbo and Claude-2.1. For example, LEAP improves over the standard few-shot prompting using GPT-4 by 7.5% in DROP, and by 3.3% in HotpotQA. Importantly, LEAP does not require any more input or examples than the standard few-shot prompting settings.
翻訳日:2024-02-09 16:33:42 公開日:2024-02-08
# スパース実験データを用いた予測モデルのための適応活性化関数

Adaptive Activation Functions for Predictive Modeling with Sparse Experimental Data ( http://arxiv.org/abs/2402.05401v1 )

ライセンス: Link先を確認
Farhad Pourkamali-Anaraki, Tahamina Nasrin, Robert E. Jensen, Amy M. Peterson, Christopher J. Hansen(参考訳) ニューラルネットワークの設計における重要な側面は、アクティベーション関数の選択であり、複雑な入出力パターンをキャプチャする非線形構造の導入に不可欠である。 適応的あるいは訓練可能なアクティベーション関数の有効性は、画像分類問題のような十分なデータを持つ領域で研究されているが、データ可用性に制限のある設定における分類精度と予測の不確実性に対する影響を理解する上で、大きなギャップが持続している。 本研究は,2種類の適応的アクティベーション関数を用いて,これらのギャップに対処することを目的とする。 これらの関数は、隠蔽層毎の共有および個別のトレーニング可能なパラメータを含み、100個未満のトレーニングインスタンスを含む添加性製造問題から導かれる3つのテストベッドで検証される。 本研究では,個別に学習可能なパラメータを持つ指数線形単位 (elu) や softplus などの適応的活性化関数が,固定型活性化関数を上回る正確で自信のある予測モデルと,同一の学習可能な活性化関数を隠れた層で使用する柔軟性の低い手法をもたらすことを示す。 そこで本研究では,適応型ニューラルネットワークの設計を容易にするエレガントな手法を提案する。

A pivotal aspect in the design of neural networks lies in selecting activation functions, crucial for introducing nonlinear structures that capture intricate input-output patterns. While the effectiveness of adaptive or trainable activation functions has been studied in domains with ample data, like image classification problems, significant gaps persist in understanding their influence on classification accuracy and predictive uncertainty in settings characterized by limited data availability. This research aims to address these gaps by investigating the use of two types of adaptive activation functions. These functions incorporate shared and individual trainable parameters per hidden layer and are examined in three testbeds derived from additive manufacturing problems containing fewer than one hundred training instances. Our investigation reveals that adaptive activation functions, such as Exponential Linear Unit (ELU) and Softplus, with individual trainable parameters, result in accurate and confident prediction models that outperform fixed-shape activation functions and the less flexible method of using identical trainable activation functions in a hidden layer. Therefore, this work presents an elegant way of facilitating the design of adaptive neural networks in scientific and engineering problems.
翻訳日:2024-02-09 16:33:13 公開日:2024-02-08
# CURE:ロボットのシミュレーションによるオートチューニング

CURE: Simulation-Augmented Auto-Tuning in Robotics ( http://arxiv.org/abs/2402.05399v1 )

ライセンス: Link先を確認
Md Abir Hossen, Sonam Kharade, Jason M. O'Kane, Bradley Schmerl, David Garlan, Pooyan Jamshidi(参考訳) ロボットシステムは通常、ローカライゼーションやナビゲーションなどの様々なサブシステムで構成され、それぞれが多数の構成可能なコンポーネント(例えば、異なる計画アルゴリズムを選択する)を含んでいる。 あるコンポーネントに対してアルゴリズムが選択されると、関連する設定オプションを適切な値に設定する必要がある。 システムスタック全体の設定オプションは自明に相互作用します。 高度に構成可能なロボットが望ましいパフォーマンスを達成するための最適な構成を見つけることは、ソフトウェアとハードウェア間の構成オプション間の相互作用が指数関数的に大きく複雑な構成空間をもたらすため、大きな課題となる。 これらの課題は、異なる環境とロボットプラットフォーム間での転送性の必要性によってさらに複雑になっている。 データ効率的な最適化アルゴリズム(ベイズ最適化など)は、サイバー物理システムにおける構成可能なパラメータのチューニングを自動化するためにますます使われてきた。 しかし、そのような最適化アルゴリズムは、割り当てられた予算(例えば最適化ステップ、割り当て時間)を浪費し、転送性に欠けた後に、後段に収束する。 本稿では,因果関係のある構成オプションを識別し,探索空間の縮小による最適化処理を可能にし,ロボット性能の最適化を高速化する手法であるcuryを提案する。 CUREは、ソース内の因果モデル(ガゼボシミュレータのような低コスト環境)を学習し、学習知識を適用して目標(例えば、Turtlebot 3物理ロボット)を最適化することで、様々な構成オプションとロボットのパフォーマンス目標間の因果関係を抽象化する。 物理的ロボットとシミュレーションの両方において,様々な展開変化を伴う実験を行い,治療の有効性と移動性を示す。

Robotic systems are typically composed of various subsystems, such as localization and navigation, each encompassing numerous configurable components (e.g., selecting different planning algorithms). Once an algorithm has been selected for a component, its associated configuration options must be set to the appropriate values. Configuration options across the system stack interact non-trivially. Finding optimal configurations for highly configurable robots to achieve desired performance poses a significant challenge due to the interactions between configuration options across software and hardware that result in an exponentially large and complex configuration space. These challenges are further compounded by the need for transferability between different environments and robotic platforms. Data efficient optimization algorithms (e.g., Bayesian optimization) have been increasingly employed to automate the tuning of configurable parameters in cyber-physical systems. However, such optimization algorithms converge at later stages, often after exhausting the allocated budget (e.g., optimization steps, allotted time) and lacking transferability. This paper proposes CURE -- a method that identifies causally relevant configuration options, enabling the optimization process to operate in a reduced search space, thereby enabling faster optimization of robot performance. CURE abstracts the causal relationships between various configuration options and robot performance objectives by learning a causal model in the source (a low-cost environment such as the Gazebo simulator) and applying the learned knowledge to perform optimization in the target (e.g., Turtlebot 3 physical robot). We demonstrate the effectiveness and transferability of CURE by conducting experiments that involve varying degrees of deployment changes in both physical robots and simulation.
翻訳日:2024-02-09 16:32:48 公開日:2024-02-08
# 画像分解能がセマンティックセグメンテーションに及ぼす影響について

On the Effect of Image Resolution on Semantic Segmentation ( http://arxiv.org/abs/2402.05398v1 )

ライセンス: Link先を確認
Ritambhara Singh, Abhishek Jain, Pietro Perona, Shivani Agarwal, Junfeng Yang(参考訳) 高分解能セマンティクスセグメンテーションは、かなりの計算資源を必要とする。 この分野における伝統的なアプローチは、通常、処理する前に入力画像をスケールダウンし、低解像度出力を元の次元に戻します。 この戦略は広い地域を効果的に特定するが、しばしば細部を見逃す。 本研究では,高分解能セグメンテーションを直接生成できる流線型モデルが,低分解能結果を生成するより複雑なシステムの性能に適合できることを実証する。 ネットワークアーキテクチャをシンプルにすることで、画像のネイティブ解像度での処理を可能にする。 本手法は,様々なスケールでボトムアップ情報伝達手法を活用し,セグメンテーション精度の向上を実証的に示した。 先行エッジセマンティクスセグメンテーションデータセットを用いて,本手法を厳密にテストした。 特に,Cityscapesデータセットでは,ノイズのある学生訓練手法を適用して精度をさらに向上する。

High-resolution semantic segmentation requires substantial computational resources. Traditional approaches in the field typically downscale the input images before processing and then upscale the low-resolution outputs back to their original dimensions. While this strategy effectively identifies broad regions, it often misses finer details. In this study, we demonstrate that a streamlined model capable of directly producing high-resolution segmentations can match the performance of more complex systems that generate lower-resolution results. By simplifying the network architecture, we enable the processing of images at their native resolution. Our approach leverages a bottom-up information propagation technique across various scales, which we have empirically shown to enhance segmentation accuracy. We have rigorously tested our method using leading-edge semantic segmentation datasets. Specifically, for the Cityscapes dataset, we further boost accuracy by applying the Noisy Student Training technique.
翻訳日:2024-02-09 16:32:19 公開日:2024-02-08
# taser: 高速かつ高精度な動的グラフ表現学習のための時間適応サンプリング

TASER: Temporal Adaptive Sampling for Fast and Accurate Dynamic Graph Representation Learning ( http://arxiv.org/abs/2402.05396v1 )

ライセンス: Link先を確認
Gangda Deng, Hongkuan Zhou, Hanqing Zeng, Yinglong Xia, Christopher Leung, Jianbo Li, Rajgopal Kannan, Viktor Prasanna(参考訳) 近年,tgnn(temporal graph neural network)が,不正検出やコンテンツ推薦など,さまざまなハイインパクトアプリケーションにおいて最先端のパフォーマンスを示している。 TGNNの成功にもかかわらず、タイムデプリケートリンクや歪んだ相互作用分布のような現実の動的グラフに見られる一般的なノイズに傾向がある。 ノイズはTGNNの精度を著しく損なう2つの重要な問題を引き起こす:(1)モデルが劣る相互作用によって制御され、(2)ノイズ入力は集約されたメッセージに高いばらつきをもたらす。 しかし、現在のTGNN復調技術は各ノードの多様かつ動的ノイズパターンを考慮していない。 さらに、より多くの隣人をトラバースすることで発生する、超過度のミニバッチ生成オーバーヘッドにも悩まされる。 高速かつ正確なTGNNの治療法は、時間適応サンプリングにあると考えています。 本研究では,TGNNの精度,効率,スケーラビリティに最適化された最初の適応サンプリング手法であるTASERを提案する。 TASERは、過去の相互作用の文脈的、構造的、時間的特性に基づいて、トレーニングダイナミクスと時間的隣人選択に基づいてミニバッチ選択を適用する。 ミニバッチ生成のボトルネックを軽減するため、TASERは純粋なGPUベースの時間的隣のファインダと専用のGPU機能キャッシュを実装している。 2つの最先端のバックボーンTGNNを用いたTASERの性能評価を行った。 5つの一般的なデータセットにおいて、TASERは平均相反ランク(MRR)で平均2.3%のベースラインを上回り、トレーニング時間で平均5.1倍のスピードアップを達成する。

Recently, Temporal Graph Neural Networks (TGNNs) have demonstrated state-of-the-art performance in various high-impact applications, including fraud detection and content recommendation. Despite the success of TGNNs, they are prone to the prevalent noise found in real-world dynamic graphs like time-deprecated links and skewed interaction distribution. The noise causes two critical issues that significantly compromise the accuracy of TGNNs: (1) models are supervised by inferior interactions, and (2) noisy input induces high variance in the aggregated messages. However, current TGNN denoising techniques do not consider the diverse and dynamic noise pattern of each node. In addition, they also suffer from the excessive mini-batch generation overheads caused by traversing more neighbors. We believe the remedy for fast and accurate TGNNs lies in temporal adaptive sampling. In this work, we propose TASER, the first adaptive sampling method for TGNNs optimized for accuracy, efficiency, and scalability. TASER adapts its mini-batch selection based on training dynamics and temporal neighbor selection based on the contextual, structural, and temporal properties of past interactions. To alleviate the bottleneck in mini-batch generation, TASER implements a pure GPU-based temporal neighbor finder and a dedicated GPU feature cache. We evaluate the performance of TASER using two state-of-the-art backbone TGNNs. On five popular datasets, TASER outperforms the corresponding baselines by an average of 2.3% in Mean Reciprocal Rank (MRR) while achieving an average of 5.1x speedup in training time.
翻訳日:2024-02-09 16:32:08 公開日:2024-02-08
# 言語誘導学習によるゼロショットカウントの強化

Enhancing Zero-shot Counting via Language-guided Exemplar Learning ( http://arxiv.org/abs/2402.05394v1 )

ライセンス: Link先を確認
Mingjie Wang and Jun Zhou and Yong Dai and Eric Buys and Minglun Gong(参考訳) 近年,CSC (Class-Agnostic Counting, Class-Agnostic Counting, CAC) 問題に注目が集まっている。 本稿では,言語指導による模範学習を深く掘り下げることで,ゼロショットオブジェクトカウントを向上させる新しいExpressCountを提案する。 具体的には、ExpressCountは革新的な言語指向のExemplar Perceptronと、下流のゼロショットカウントパイプラインで構成されている。 そこで,従来のLarge Language Models (LLMs) から,リッチなセマンティクスを継承することで,協調的な言語ビジョン信号から正確な模範的手がかりを活用可能なパーセプトロンハンマーを,二重ブランチとクロスアテンションスキームによるきめ細かな特徴のマイニングに優れ,高品質な類似性学習に寄与する。 語彙におけるLLMと視覚的カウントタスクの間のブリッジを構築することとは別に、表現誘導された模範推定は任意のクラスを持つインスタンスをカウントするゼロショット学習能力を著しく向上させる。 さらに、注意深い言語表現の注釈を持つfsc-147式を考案することは、言語ベースの数え上げモデルを開発し検証するための新しい場所を開拓する。 大規模な実験では、ExpressCountの最先端性能を示し、部分的なCSCモデルと同等の精度を示している。

Recently, Class-Agnostic Counting (CAC) problem has garnered increasing attention owing to its intriguing generality and superior efficiency compared to Category-Specific Counting (CSC). This paper proposes a novel ExpressCount to enhance zero-shot object counting by delving deeply into language-guided exemplar learning. Specifically, the ExpressCount is comprised of an innovative Language-oriented Exemplar Perceptron and a downstream visual Zero-shot Counting pipeline. Thereinto, the perceptron hammers at exploiting accurate exemplar cues from collaborative language-vision signals by inheriting rich semantic priors from the prevailing pre-trained Large Language Models (LLMs), whereas the counting pipeline excels in mining fine-grained features through dual-branch and cross-attention schemes, contributing to the high-quality similarity learning. Apart from building a bridge between the LLM in vogue and the visual counting tasks, expression-guided exemplar estimation significantly advances zero-shot learning capabilities for counting instances with arbitrary classes. Moreover, devising a FSC-147-Express with annotations of meticulous linguistic expressions pioneers a new venue for developing and validating language-based counting models. Extensive experiments demonstrate the state-of-the-art performance of our ExpressCount, even showcasing the accuracy on par with partial CSC models.
翻訳日:2024-02-09 16:31:44 公開日:2024-02-08
# マルチモーダル学習を満たしたナレッジグラフ:包括的調査

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey ( http://arxiv.org/abs/2402.05391v1 )

ライセンス: Link先を確認
Zhuo Chen, Yichi Zhang, Yin Fang, Yuxia Geng, Lingbing Guo, Xiang Chen, Qian Li, Wen Zhang, Jiaoyan Chen, Yushan Zhu, Jiaqi Li, Xiaoze Liu, Jeff Z. Pan, Ningyu Zhang, Huajun Chen(参考訳) 知識グラフ(KG)は、セマンティックWebコミュニティがイノベーションのための新たな道を開くマルチモーダルな次元を探求する中で、さまざまなAIアプリケーションを進める上で重要な役割を果たす。 本稿では,KGがマルチモーダルタスクをサポートするKG駆動型マルチモーダル学習(KG4MM)と,KG研究をMMKG領域に拡張するMulti-Modal Knowledge Graph(MM4KG)の2つの主要な側面について,300以上の論文を慎重にレビューする。 まず、KGとMMKGを定義し、その構築の進捗を調査する。 我々のレビューでは、画像分類や視覚質問回答のようなKG対応のマルチモーダル学習タスクと、マルチモーダル知識グラフ補完やエンティティアライメントのような固有のMMKGタスクの2つの主要なタスクカテゴリが紹介されている。 これらのタスクのほとんどは、定義、評価ベンチマークを提供し、関連する研究を行うために必要な洞察を概説します。 最後に,現在の課題を議論し,大規模言語モデリングの進展やマルチモーダル事前学習戦略など,新たなトレンドを特定する。 この調査は、既にKGとマルチモーダルラーニング研究に関わっており、MMKG研究の進化の展望を提供し、今後の研究を支援するための総合的な参考となることを目的としている。

Knowledge Graphs (KGs) play a pivotal role in advancing various AI applications, with the semantic web community's exploration into multi-modal dimensions unlocking new avenues for innovation. In this survey, we carefully review over 300 articles, focusing on KG-aware research in two principal aspects: KG-driven Multi-Modal (KG4MM) learning, where KGs support multi-modal tasks, and Multi-Modal Knowledge Graph (MM4KG), which extends KG studies into the MMKG realm. We begin by defining KGs and MMKGs, then explore their construction progress. Our review includes two primary task categories: KG-aware multi-modal learning tasks, such as Image Classification and Visual Question Answering, and intrinsic MMKG tasks like Multi-modal Knowledge Graph Completion and Entity Alignment, highlighting specific research trajectories. For most of these tasks, we provide definitions, evaluation benchmarks, and additionally outline essential insights for conducting relevant research. Finally, we discuss current challenges and identify emerging trends, such as progress in Large Language Modeling and Multi-modal Pre-training strategies. This survey aims to serve as a comprehensive reference for researchers already involved in or considering delving into KG and multi-modal learning research, offering insights into the evolving landscape of MMKG research and supporting future work.
翻訳日:2024-02-09 16:31:16 公開日:2024-02-08
# クラスタ条件エキスパートの混合によるタスクカスタマイズマスク自動エンコーダ

Task-customized Masked AutoEncoder via Mixture of Cluster-conditional Experts ( http://arxiv.org/abs/2402.05382v1 )

ライセンス: Link先を確認
Zhili Liu, Kai Chen, Jianhua Han, Lanqing Hong, Hang Xu, Zhenguo Li, James T. Kwok(参考訳) Masked Autoencoder~(MAE)は,モデル事前学習において有望な結果が得られる自己指導型学習手法である。 しかし、様々な下流タスクが事前学習データとは異なるデータ分布を持つ場合、意味的に無関係な事前学習情報は負の転送をもたらし、MAEのスケーラビリティを阻害する可能性がある。 この問題に対処するために,新しいMAEベースの事前学習パラダイムであるMixture of Cluster-conditional Experts (MoCE)を提案する。 専門家の混合(moe)とは異なり、moceはクラスタ条件ゲートを使用して、各専門家に意味的に関連のあるイメージのみを訓練します。 したがって、各ダウンストリームタスクは、ダウンストリームデータに最もよく似たデータで事前訓練されたカスタマイズされたモデルに割り当てることができる。 11の下流タスクのコレクションの実験では、MoCEはバニラMAEを平均2.45 %上回っている。 また、検出とセグメンテーションに関する新しい最先端の自己教師付き学習結果を得る。

Masked Autoencoder~(MAE) is a prevailing self-supervised learning method that achieves promising results in model pre-training. However, when the various downstream tasks have data distributions different from the pre-training data, the semantically irrelevant pre-training information might result in negative transfer, impeding MAE's scalability. To address this issue, we propose a novel MAE-based pre-training paradigm, Mixture of Cluster-conditional Experts (MoCE), which can be trained once but provides customized pre-training models for diverse downstream tasks. Different from the mixture of experts (MoE), our MoCE trains each expert only with semantically relevant images by using cluster-conditional gates. Thus, each downstream task can be allocated to its customized model pre-trained with data most similar to the downstream data. Experiments on a collection of 11 downstream tasks show that MoCE outperforms the vanilla MAE by 2.45\% on average. It also obtains new state-of-the-art self-supervised learning results on detection and segmentation.
翻訳日:2024-02-09 16:30:45 公開日:2024-02-08
# 斜めフィッシャー情報行列推定器のトレードオフ

Tradeoffs of Diagonal Fisher Information Matrix Estimators ( http://arxiv.org/abs/2402.05379v1 )

ライセンス: Link先を確認
Alexander Soen and Ke Sun(参考訳) フィッシャー情報行列は、ニューラルネットワークのパラメータ空間における局所幾何を特徴付ける。 ニューラルネットワークを理解し最適化するための洞察力のある理論と有用なツールを解明する。 計算コストが高いことから、実践者はしばしばランダムな推定器を使い、対角成分のみを評価する。 精度とサンプルの複雑さが関連する分散に依存する2つの推定器について検討する。 分散の境界を導出し、回帰と分類のネットワークでそれらをインスタンス化する。 我々は,解析的および数値的研究に基づいて,両推定器のトレードオフをナビゲートする。 分散量は異なるパラメータ群に対する非線形性に依存しており、フィッシャー情報を推定するときは無視すべきでない。

The Fisher information matrix characterizes the local geometry in the parameter space of neural networks. It elucidates insightful theories and useful tools to understand and optimize neural networks. Given its high computational cost, practitioners often use random estimators and evaluate only the diagonal entries. We examine two such estimators, whose accuracy and sample complexity depend on their associated variances. We derive bounds of the variances and instantiate them in regression and classification networks. We navigate trade-offs of both estimators based on analytical and numerical studies. We find that the variance quantities depend on the non-linearity with respect to different parameter groups and should not be neglected when estimating the Fisher information.
翻訳日:2024-02-09 16:30:29 公開日:2024-02-08
# マルチユーザフレキシブルデュプレックスネットワークにおける物理層セキュリティのためのグラフニューラルネットワーク

Graph Neural Networks for Physical-Layer Security in Multi-User Flexible-Duplex Networks ( http://arxiv.org/abs/2402.05378v1 )

ライセンス: Link先を確認
Tharaka Perera, Saman Atapattu, Yuting Fang, Jamie Evans(参考訳) 本稿では,eavesdropper のシナリオを考慮したフレキシブル・デュプレックス(FlexD)ネットワークにおける物理層セキュリティ(PLS)について検討する。 我々の研究は、特に最小平均角誤差(MMSE)受信機を用いた座標および分散盗聴器に直面する和秘密率最大化問題の複雑さを中心に展開している。 コントリビューションには、反復的な古典最適化ソリューションと、グラフニューラルネットワーク(GNN)に基づく教師なし学習戦略が含まれている。 我々の知る限りでは、この研究はPLSアプリケーションのためのGNNの最初の探索である。 さらに,盗聴者のチャネル知識の欠如に対処するため,GNNアプローチを拡張した。 広範囲な数値シミュレーションでは、半二重(hd)通信に対するflexdの優位と、パフォーマンスと時間の複雑さの両方において古典的な方法よりもgnnの優位が強調されている。

This paper explores Physical-Layer Security (PLS) in Flexible Duplex (FlexD) networks, considering scenarios involving eavesdroppers. Our investigation revolves around the intricacies of the sum secrecy rate maximization problem, particularly when faced with coordinated and distributed eavesdroppers employing a Minimum Mean Square Error (MMSE) receiver. Our contributions include an iterative classical optimization solution and an unsupervised learning strategy based on Graph Neural Networks (GNNs). To the best of our knowledge, this work marks the initial exploration of GNNs for PLS applications. Additionally, we extend the GNN approach to address the absence of eavesdroppers' channel knowledge. Extensive numerical simulations highlight FlexD's superiority over Half-Duplex (HD) communications and the GNN approach's superiority over the classical method in both performance and time complexity.
翻訳日:2024-02-09 16:30:21 公開日:2024-02-08
# 大言語モデルにおける進化的アルゴリズムによるゼロショットチェイン・オブ・サート推論

Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms in Large Language Models ( http://arxiv.org/abs/2402.05376v1 )

ライセンス: Link先を確認
Feihu Jin, Yifan Liu, Ying Tan(参考訳) 大規模言語モデル(llm)は様々なタスクで顕著な性能を示し、ゼロショット・チェーン・オブ・マインド(cot)プロンプトを適用することで印象的な推論能力を示した。 しかし、事前訓練フェーズにおける文プレフィックスの進化により、既存のゼロショットCoTプロンプトメソッドは、すべてのタスクインスタンスに対して同じCoTプロンプトを使用するのが最適ではない。 本稿では,進化的アルゴリズムを用いて動的にllmに対して多様なプロンプトを生成する新しいゼロショットプロンプト手法を提案する。 提案手法では、2つのCoTプロンプトを初期化し、LLMに基づいて進化操作を行い、LLMを用いて与えられた問題に対して適切なCoTプロンプトを選択する。 さらに、選択されたCoTプロンプトによって導かれる書き換え操作により、この問題に対するLLMの理解が向上する。 GPT-3.5-turbo および GPT-4 における現在のゼロショット CoT プロンプト法と比較して,提案手法の優れた性能を示す。 さらに,本手法の様々な推論タスクにおける適応性と有効性について,詳細な解析実験を行った。

Large Language Models (LLMs) have demonstrated remarkable performance across diverse tasks and exhibited impressive reasoning abilities by applying zero-shot Chain-of-Thought (CoT) prompting. However, due to the evolving nature of sentence prefixes during the pre-training phase, existing zero-shot CoT prompting methods that employ identical CoT prompting across all task instances may not be optimal. In this paper, we introduce a novel zero-shot prompting method that leverages evolutionary algorithms to generate diverse promptings for LLMs dynamically. Our approach involves initializing two CoT promptings, performing evolutionary operations based on LLMs to create a varied set, and utilizing the LLMs to select a suitable CoT prompting for a given problem. Additionally, a rewriting operation, guided by the selected CoT prompting, enhances the understanding of the LLMs about the problem. Extensive experiments conducted across ten reasoning datasets demonstrate the superior performance of our proposed method compared to current zero-shot CoT prompting methods on GPT-3.5-turbo and GPT-4. Moreover, in-depth analytical experiments underscore the adaptability and effectiveness of our method in various reasoning tasks.
翻訳日:2024-02-09 16:30:05 公開日:2024-02-08
# 望まないものを手に入れる:テキストと画像の拡散モデルのための画像コンテンツ抑制

Get What You Want, Not What You Don't: Image Content Suppression for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2402.05375v1 )

ライセンス: Link先を確認
Senmao Li, Joost van de Weijer, Taihang Hu, Fahad Shahbaz Khan, Qibin Hou, Yaxing Wang, Jian Yang(参考訳) 最近のテキストから画像への拡散モデルの成功は、ユーザーが所望のコンテンツを正確に記述できる複雑なテキストプロンプトによって導かれる能力によるところが大きい。 しかし、これらのモデルは、プロンプト内で生成された画像から省略するよう明示的に要求される、望ましくないコンテンツの生成を効果的に抑えるのに苦労する。 本稿では,テキスト埋め込みの操作方法を分析し,不要なコンテンツを除去する。 ここでは、$\textit{soft-weighted regularization}$と$\textit{inference-time text embedded optimization}$という2つのコントリビューションを紹介します。 第1は、テキスト埋め込み行列を正規化し、望ましくないコンテンツを効果的に抑制する。 第2の方法は、プロンプトの不要なコンテンツ生成をさらに抑制し、所望のコンテンツの生成を促進することである。 提案手法の定量的および定性的評価を行い,その有効性を検証した。 さらに,この手法は,画素空間拡散モデル(deepfloyd-if)と潜在空間拡散モデル(stable diffusion)の両方に一般化可能である。

The success of recent text-to-image diffusion models is largely due to their capacity to be guided by a complex text prompt, which enables users to precisely describe the desired content. However, these models struggle to effectively suppress the generation of undesired content, which is explicitly requested to be omitted from the generated image in the prompt. In this paper, we analyze how to manipulate the text embeddings and remove unwanted content from them. We introduce two contributions, which we refer to as $\textit{soft-weighted regularization}$ and $\textit{inference-time text embedding optimization}$. The first regularizes the text embedding matrix and effectively suppresses the undesired content. The second method aims to further suppress the unwanted content generation of the prompt, and encourages the generation of desired content. We evaluate our method quantitatively and qualitatively on extensive experiments, validating its effectiveness. Furthermore, our method is generalizability to both the pixel-space diffusion models (i.e. DeepFloyd-IF) and the latent-space diffusion models (i.e. Stable Diffusion).
翻訳日:2024-02-09 16:29:46 公開日:2024-02-08
# 音声認識のための大規模言語モデルに音響情報を融合

It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition ( http://arxiv.org/abs/2402.05457v1 )

ライセンス: Link先を確認
Chen Chen, Ruizhe Li, Yuchen Hu, Sabato Marco Siniscalchi, Pin-Yu Chen, Ensiong Chng, Chao-Han Huck Yang(参考訳) 近年の研究では,大規模言語モデル(LLM)が自動音声認識(ASR)出力上で生成誤り訂正(GER)に有効であることが示された。 具体的には、LSMを用いて、ASRシステムによって生成されたN-best仮説リストから予測出力文字への直接マッピングを行う。 しかし、その効果にもかかわらず、GERはLLMが音声信号で利用可能な音響情報を考慮せずに訓練されるため、余分なデータ不確実性を導入する。 本研究では、不確実性認識動的融合(uadf)と呼ばれる新しい後期融合溶液を用いて、予測された転写を生成する前に音響情報を使用し、その制限を克服することを目的とする。 UADFは自動回帰復号化プロセスに実装されたマルチモーダル融合方式であり、以下の2段階で動作する。 (i)トークンレベルのllm決定を最初に分析し、コーディネートし、 (ii)音響モダリティから情報を動的に同化する。 様々なASRタスクから収集された実験的証拠は、UADFがいくつかの方法で既存の核融合機構を超えることを示している。 ワードエラー率 (WER) はLLMにおけるデータ不確実性の問題を軽減するとともに, 融合時のみのモダリティに依存した一般化に対処しながら, 大幅に向上する。 また,UADFが音声・視覚音声認識にシームレスに適応することを示す。

Recent studies have successfully shown that large language models (LLMs) can be successfully used for generative error correction (GER) on top of the automatic speech recognition (ASR) output. Specifically, an LLM is utilized to carry out a direct mapping from the N-best hypotheses list generated by an ASR system to the predicted output transcription. However, despite its effectiveness, GER introduces extra data uncertainty since the LLM is trained without taking into account acoustic information available in the speech signal. In this work, we aim to overcome such a limitation by infusing acoustic information before generating the predicted transcription through a novel late fusion solution termed Uncertainty-Aware Dynamic Fusion (UADF). UADF is a multimodal fusion approach implemented into an auto-regressive decoding process and works in two stages: (i) It first analyzes and calibrates the token-level LLM decision, and (ii) it then dynamically assimilates the information from the acoustic modality. Experimental evidence collected from various ASR tasks shows that UADF surpasses existing fusion mechanisms in several ways. It yields significant improvements in word error rate (WER) while mitigating data uncertainty issues in LLM and addressing the poor generalization relied with sole modality during fusion. We also demonstrate that UADF seamlessly adapts to audio-visual speech recognition.
翻訳日:2024-02-09 16:21:49 公開日:2024-02-08
# 不確かさの学習-時間的延長行動の認識

Learning Uncertainty-Aware Temporally-Extended Actions ( http://arxiv.org/abs/2402.05439v1 )

ライセンス: Link先を確認
Joongkyu Lee, Seung Joon Park, Yunhao Tang, Min-hwan Oh(参考訳) 強化学習において、行動空間における時間的抽象は、行動反復によって実証され、拡張された行動を通して政策学習を促進する技術である。 しかしながら、以前のアクション反復の研究における主要な制限は、特にサブ・オプティカルなアクションを繰り返した場合にパフォーマンスを低下させる可能性である。 この問題はアクション反復の利点をしばしば否定する。 そこで本研究では,不確実性を考慮した時間拡張(UTE)という新しいアルゴリズムを提案する。 UTEはアンサンブル法を用いて、アクション拡張中の不確実性を正確に測定する。 この機能は、調査を強調するか、特定のニーズに合わせて不確実性回避アプローチを採用するかを戦略的に選択できる。 グリッドワールドおよびアタリ2600環境における実験によるUTEの有効性を示す。 以上の結果から,UTEは既存の行動反復アルゴリズムよりも優れており,本質的な制約を効果的に軽減し,政策学習効率を著しく向上させることがわかった。

In reinforcement learning, temporal abstraction in the action space, exemplified by action repetition, is a technique to facilitate policy learning through extended actions. However, a primary limitation in previous studies of action repetition is its potential to degrade performance, particularly when sub-optimal actions are repeated. This issue often negates the advantages of action repetition. To address this, we propose a novel algorithm named Uncertainty-aware Temporal Extension (UTE). UTE employs ensemble methods to accurately measure uncertainty during action extension. This feature allows policies to strategically choose between emphasizing exploration or adopting an uncertainty-averse approach, tailored to their specific needs. We demonstrate the effectiveness of UTE through experiments in Gridworld and Atari 2600 environments. Our findings show that UTE outperforms existing action repetition algorithms, effectively mitigating their inherent limitations and significantly enhancing policy learning efficiency.
翻訳日:2024-02-09 16:21:28 公開日:2024-02-08
# GPT-4 構造化ナラティブ・プロンプトを用いたライフイベントの物語生成:検証研究

GPT-4 Generated Narratives of Life Events using a Structured Narrative Prompt: A Validation Study ( http://arxiv.org/abs/2402.05435v1 )

ライセンス: Link先を確認
Christopher J. Lynch, Erik Jensen, Madison H. Munro, Virginia Zamponi, Joseph Martinez, Kevin O'Brien, Brandon Feldhaus, Katherine Smith, Ann Marie Reinhold, and Ross Gore(参考訳) 大規模な言語モデル(llm)は、物語の膨大な配列を生成する上で重要な役割を果たす。 本研究では,openaiのgpt-4を用いて,ゼロショットの構造化物語プロンプトを用いて24,000の物語を生成する。 このデータセットから、2,880の物語を手動で分類し、出生、死亡、雇用、解雇の妥当性を評価する。 注目すべきは、物語の87.43%が構造化されたプロンプトの意図を十分に伝えることである。 有効かつ無効な物語の識別を自動化するため、分類データセット上で9つの機械学習モデルをトレーニングし、検証する。 これらのモデルを活用することで,21,120の物語の分類を予測できる。 全てのMLモデルは有効な物語を有効に分類するのに優れていたが、無効な物語を無効に分類すると同時に課題を経験した。 本研究は, LLMの能力, 限界, 妥当性の研究を前進させるだけでなく, 物語生成や自然言語処理の実用化にも有効である。

Large Language Models (LLMs) play a pivotal role in generating vast arrays of narratives, facilitating a systematic exploration of their effectiveness for communicating life events in narrative form. In this study, we employ a zero-shot structured narrative prompt to generate 24,000 narratives using OpenAI's GPT-4. From this dataset, we manually classify 2,880 narratives and evaluate their validity in conveying birth, death, hiring, and firing events. Remarkably, 87.43% of the narratives sufficiently convey the intention of the structured prompt. To automate the identification of valid and invalid narratives, we train and validate nine Machine Learning models on the classified datasets. Leveraging these models, we extend our analysis to predict the classifications of the remaining 21,120 narratives. All the ML models excelled at classifying valid narratives as valid, but experienced challenges at simultaneously classifying invalid narratives as invalid. Our findings not only advance the study of LLM capabilities, limitations, and validity but also offer practical insights for narrative generation and natural language processing applications.
翻訳日:2024-02-09 16:21:12 公開日:2024-02-08
# 時間依存チャネルを用いた動的量子状態トモグラフィ

Dynamical quantum state tomography with time-dependent channels ( http://arxiv.org/abs/2402.05431v1 )

ライセンス: Link先を確認
Meng Cao and Yu Wang(参考訳) 本稿では,動的量子状態トモグラフィの枠組みについて述べる。 この枠組みの下では、ある種類のIC-POVMを次元$d$で任意の演算子だけを通して、$d$レベルのシステムの未知状態の完全な知識を得ることが可能である。 時間依存平均チャネルでは、情報完全(IC)である射影演算子の集合を取得し、対応するIC-POVMを得る。 ある条件下では、IC である射影作用素の無限族を取得し、対応する IC-POVM の無限族を得ることができる。 また、時間依存平均チャネルを用いて、任意の未知の量子状態上でSIC-POVMをシミュレートする方法を示す。

In this paper, we establish a dynamical quantum state tomography framework. Under this framework, it is feasible to obtain complete knowledge of any unknown state of a $d$-level system via only an arbitrary operator of certain types of IC-POVMs in dimension $d$. We show that under the time-dependent average channel, we can acquire a collection of projective operators that is informationally complete (IC) and thus obtain the corresponding IC-POVMs. We show that under certain condition, it is possible to obtain infinite families of projective operators that are IC, and obtain infinite families of corresponding IC-POVMs; otherwise, the Zauner's conjecture is incorrect. We also show how to simulate a SIC-POVM on any unknown quantum state by using the time-dependent average channel.
翻訳日:2024-02-09 16:20:51 公開日:2024-02-08
# 暗黙的神経表現のアクティベーションに関するサンプリング理論の展望

A Sampling Theory Perspective on Activations for Implicit Neural Representations ( http://arxiv.org/abs/2402.05427v1 )

ライセンス: Link先を確認
Hemanth Saratchandran, Sameera Ramasinghe, Violetta Shevchenko, Alexander Long, Simon Lucey(参考訳) Inlicit Neural Representations (INR)は、コンパクトで微分可能なエンティティとして信号の符号化で人気を集めている。 フーリエの位置エンコーディングや非伝統的なアクティベーション関数(例えばガウス、正弦波、ウェーブレット)のような技法が高周波コンテンツを捉えるのに一般的に用いられているが、それらの性質は統一された理論的枠組みでの探索を欠いている。 このギャップに対処し,サンプリング理論の観点からこれらのアクティベーションの包括的解析を行う。 本研究により,INRと併用しないシンクアクティベーションは,信号符号化に理論的に最適であることが判明した。 さらに,この2つのパラダイムを橋渡しするためにサンプリング理論を活用し,力学系とinrsの接続を確立する。

Implicit Neural Representations (INRs) have gained popularity for encoding signals as compact, differentiable entities. While commonly using techniques like Fourier positional encodings or non-traditional activation functions (e.g., Gaussian, sinusoid, or wavelets) to capture high-frequency content, their properties lack exploration within a unified theoretical framework. Addressing this gap, we conduct a comprehensive analysis of these activations from a sampling theory perspective. Our investigation reveals that sinc activations, previously unused in conjunction with INRs, are theoretically optimal for signal encoding. Additionally, we establish a connection between dynamical systems and INRs, leveraging sampling theory to bridge these two paradigms.
翻訳日:2024-02-09 16:20:39 公開日:2024-02-08
# neural circuit diagram: ディープラーニングアーキテクチャのコミュニケーション、実装、分析のためのロバストな図

Neural Circuit Diagrams: Robust Diagrams for the Communication, Implementation, and Analysis of Deep Learning Architectures ( http://arxiv.org/abs/2402.05424v1 )

ライセンス: Link先を確認
Vincent Abbott(参考訳) ダイアグラムは重要です。 残念ながら、ディープラーニングコミュニティには、アーキテクチャをダイアグラムする標準的な方法がない。 線型代数表記法とアドホック図形の現在の組み合わせは、アーキテクチャを詳細に理解するのに必要な精度を提供できない。 しかし、この詳細は忠実な実装、数学的解析、さらなる革新、倫理的保証に重要である。 ディープラーニングアーキテクチャを通信するニーズに合わせて調整されたグラフィカル言語であるneural circuit diagramについて紹介する。 ニューラル回路図は、自然にデータの配置の変化を追跡し、どのように操作が軸越しにブロードキャストされるかを正確に示し、線形操作の臨界並列動作を表示する。 既存のダイアグラム手法の問題点は、軸の詳細と、ニューラルネットワークダイアグラムが解決するデータの自由配置を同時に表現できないことである。 それらの構成構造はコードと類似しており、図と実装の密接な対応を作る。 本稿では,機械学習研究者の聴衆にニューラルネットワークダイアグラムを紹介する。 神経回路図を導入した後、私は、その有用性と親近性を示すために、多くのアーキテクチャを取り上げます。 これにはトランスフォーマーのアーキテクチャ、畳み込み(そして説明が難しい拡張)、残留ネットワーク、u-net、ビジョントランスフォーマーが含まれる。 ダイアグラムとコード間の密接な対応の証拠を提供するJupyterノートも含んでいます。 最後に,神経回路図を用いたバックプロパゲーションについて検討する。 数学的洞察を提供し、アルゴリズムの時間と空間の複雑さを分析する上で、それらの有用性を示します。

Diagrams matter. Unfortunately, the deep learning community has no standard method for diagramming architectures. The current combination of linear algebra notation and ad-hoc diagrams fails to offer the necessary precision to understand architectures in all their detail. However, this detail is critical for faithful implementation, mathematical analysis, further innovation, and ethical assurances. I present neural circuit diagrams, a graphical language tailored to the needs of communicating deep learning architectures. Neural circuit diagrams naturally keep track of the changing arrangement of data, precisely show how operations are broadcast over axes, and display the critical parallel behavior of linear operations. A lingering issue with existing diagramming methods is the inability to simultaneously express the detail of axes and the free arrangement of data, which neural circuit diagrams solve. Their compositional structure is analogous to code, creating a close correspondence between diagrams and implementation. In this work, I introduce neural circuit diagrams for an audience of machine learning researchers. After introducing neural circuit diagrams, I cover a host of architectures to show their utility and breed familiarity. This includes the transformer architecture, convolution (and its difficult-to-explain extensions), residual networks, the U-Net, and the vision transformer. I include a Jupyter notebook that provides evidence for the close correspondence between diagrams and code. Finally, I examine backpropagation using neural circuit diagrams. I show their utility in providing mathematical insight and analyzing algorithms' time and space complexities.
翻訳日:2024-02-09 16:20:24 公開日:2024-02-08
# mtsa-snn:スパイクニューラルネットワークに基づくマルチモーダル時系列解析モデル

MTSA-SNN: A Multi-modal Time Series Analysis Model Based on Spiking Neural Network ( http://arxiv.org/abs/2402.05423v1 )

ライセンス: Link先を確認
Chengzhi Liu, Chong Zhong, Mingyu Jin, Zheng Tao, Zihong Luo, Chenghao Liu, Shuliang Zhao(参考訳) 時系列分析とモデリングは重要な研究領域である。 従来の人工ニューラルネットワークは、高い計算複雑性、時間的情報をキャプチャする能力の制限、イベント駆動データを扱うことの難しさにより、複雑な非定常時系列データに苦しむ。 これらの課題に対処するために、スパイキングニューラルネットワーク(MTSA-SNN)に基づくマルチモーダル時系列解析モデルを提案する。 パルスエンコーダは、時間画像とシーケンシャル情報の符号化を共通のパルスベース表現で統一する。 ジョイントラーニングモジュールは、マルチモーダルパルス信号から情報を融合するために、ジョイントラーニング機能と重み付け機構を用いる。 さらに,ウェーブレット変換処理を取り入れ,時間的情報を解析・評価するモデルの能力を高める。 実験の結果, 3つの複雑な時系列タスクにおいて優れた性能が得られた。 この作業は、複雑な時間情報の分析に関わる課題を克服する効果的なイベント駆動型アプローチを提供する。 ソースコードへのアクセスはhttps://github.com/Chenngzz/MTSA-SNN}{https://github.com/Chenngzz/MTSA-SNNで確認できる。

Time series analysis and modelling constitute a crucial research area. Traditional artificial neural networks struggle with complex, non-stationary time series data due to high computational complexity, limited ability to capture temporal information, and difficulty in handling event-driven data. To address these challenges, we propose a Multi-modal Time Series Analysis Model Based on Spiking Neural Network (MTSA-SNN). The Pulse Encoder unifies the encoding of temporal images and sequential information in a common pulse-based representation. The Joint Learning Module employs a joint learning function and weight allocation mechanism to fuse information from multi-modal pulse signals complementary. Additionally, we incorporate wavelet transform operations to enhance the model's ability to analyze and evaluate temporal information. Experimental results demonstrate that our method achieved superior performance on three complex time-series tasks. This work provides an effective event-driven approach to overcome the challenges associated with analyzing intricate temporal information. Access to the source code is available at https://github.com/Chenngzz/MTSA-SNN}{https://github.com/Chenngzz/MTSA-SNN
翻訳日:2024-02-09 16:19:57 公開日:2024-02-08
# 逆問題に対するメモリ効率の高いdeep end-to-end posterior network (deepen)

Memory-efficient deep end-to-end posterior network (DEEPEN) for inverse problems ( http://arxiv.org/abs/2402.05422v1 )

ライセンス: Link先を確認
Jyothi Rikhab Chand, Mathews Jacob(参考訳) エンドツーエンド(e2e)の未ロール最適化フレームワークは、磁気共鳴(mr)画像の回復を約束しているが、トレーニング中に高いメモリ使用量に苦しむ。 さらに、これらの決定論的アプローチは、後方分布からサンプリングする機会を提供しない。 本稿では,後部分布のE2E学習のためのメモリ効率向上手法を提案する。 本研究では,この分布を,畳み込みニューラルネットワーク(cnn)によってパラメータ化される事前のエネルギーモデルとデータコンシステンシー誘起確率項の組み合わせとして表現する。 CNN重みは最大極大最適化を用いてE2E方式でトレーニングデータから学習する。 学習モデルにより,最大A Posteriori(MAP)最適化を用いたアンダーサンプル計測から画像の復元が可能となる。 さらに、後部モデルを用いて、再構成に関する不確実性マップを導出することができる。 並列MR画像再構成実験により,本手法はメモリ集約型E2Eアンロールアルゴリズムに匹敵する性能を示し,メモリ効率に優れた性能を示し,不確実性マップを提供することができた。 3次元および高次元のmr画像再構成に向けた我々の枠組み

End-to-End (E2E) unrolled optimization frameworks show promise for Magnetic Resonance (MR) image recovery, but suffer from high memory usage during training. In addition, these deterministic approaches do not offer opportunities for sampling from the posterior distribution. In this paper, we introduce a memory-efficient approach for E2E learning of the posterior distribution. We represent this distribution as the combination of a data-consistency-induced likelihood term and an energy model for the prior, parameterized by a Convolutional Neural Network (CNN). The CNN weights are learned from training data in an E2E fashion using maximum likelihood optimization. The learned model enables the recovery of images from undersampled measurements using the Maximum A Posteriori (MAP) optimization. In addition, the posterior model can be sampled to derive uncertainty maps about the reconstruction. Experiments on parallel MR image reconstruction show that our approach performs comparable to the memory-intensive E2E unrolled algorithm, performs better than its memory-efficient counterpart, and can provide uncertainty maps. Our framework paves the way towards MR image reconstruction in 3D and higher dimensions
翻訳日:2024-02-09 16:19:38 公開日:2024-02-08
# DiffTOP:深部強化と模倣学習のための微分軌道最適化

DiffTOP: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning ( http://arxiv.org/abs/2402.05421v1 )

ライセンス: Link先を確認
Weikang Wan, Yufei Wang, Zackory Erickson, David Held(参考訳) 本稿では、微分軌道最適化をポリシー表現として利用し、深い強化と模倣学習のためのアクションを生成するDiffTOPを提案する。 トラジェクトリ最適化は、コストと動的関数によってパラメータ化され、制御において強力で広く使用されるアルゴリズムである。 提案手法の鍵となるのは,近年の微分可能軌道最適化の進歩を活用し,軌道最適化のパラメータに対する損失の勾配を計算することである。 その結果、軌道最適化のコストとダイナミクス関数をエンドツーエンドで学習することができる。 DiffTOPは従来のモデルベースRLアルゴリズムの ``objective mismatch' 問題に対処し、DiffTOPの動的モデルは軌道最適化プロセスを通じて方針勾配損失を微分することによりタスク性能を直接最大化する。 さらに,DiffTOPによるロボット操作作業スイートの模倣学習を高次元の感覚観測で評価し,エネルギーベースモデル(EBM)や拡散モデル(Diffusion)と同様にフィードフォワードポリシークラスと比較した。 15のモデルベースRLタスクと13の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTOPは両方のドメインにおける最先端の手法よりも優れている。

This paper introduces DiffTOP, which utilizes Differentiable Trajectory OPtimization as the policy representation to generate actions for deep reinforcement and imitation learning. Trajectory optimization is a powerful and widely used algorithm in control, parameterized by a cost and a dynamics function. The key to our approach is to leverage the recent progress in differentiable trajectory optimization, which enables computing the gradients of the loss with respect to the parameters of trajectory optimization. As a result, the cost and dynamics functions of trajectory optimization can be learned end-to-end. DiffTOP addresses the ``objective mismatch'' issue of prior model-based RL algorithms, as the dynamics model in DiffTOP is learned to directly maximize task performance by differentiating the policy gradient loss through the trajectory optimization process. We further benchmark DiffTOP for imitation learning on standard robotic manipulation task suites with high-dimensional sensory observations and compare our method to feed-forward policy classes as well as Energy-Based Models (EBM) and Diffusion. Across 15 model-based RL tasks and 13 imitation learning tasks with high-dimensional image and point cloud inputs, DiffTOP outperforms prior state-of-the-art methods in both domains.
翻訳日:2024-02-09 16:19:16 公開日:2024-02-08
# テキストキャプチャ分類のためのセグメンテーションフリーコネクショニスト時間分類損失に基づくOCRモデル

Segmentation-free Connectionist Temporal Classification loss based OCR Model for Text Captcha Classification ( http://arxiv.org/abs/2402.05417v1 )

ライセンス: Link先を確認
Vaibhav Khatavkar, Makarand Velankar and Sneha Petkar(参考訳) Captchaは、コンピュータ応答と人間の応答を区別することで、自動応答からシステムを保護するために広く使われている。 文字、音声、ビデオ、画像に基づく光学文字認識(OCR)は、Captchaの作成に使用される。 テキストベースのocr captchaはcaptchaで最もよく使われており、複雑で歪んだコンテンツという問題に直面している。 機械学習とニューラルネットワークを使用してcaptcha検出と分類ベースのシステムを構築する試みがあり、正確性のために調整する必要がある。 既存のシステムは、歪んだ文字の認識、可変長のcaptchaの扱い、Captchaのシーケンシャルな依存関係の発見に課題に直面している。 本研究では,コネクショニスト時間的分類損失に基づくテキストcaptcha分類のためのセグメンテーションフリーなocrモデルを提案する。 提案されたモデルは、公開可能なCaptchaデータセットでトレーニングされ、テストされる。 提案モデルは99.80\%の文字レベルの精度と95\%の単語レベルの精度を持つ。 提案モデルの精度を最先端モデルと比較し,有効であることを示す。 可変長複素カプチャは、セグメンテーションのない接続型時間的分類損失技術で処理でき、依存関係はソフトウェアシステムの確保に大きく利用される。

Captcha are widely used to secure systems from automatic responses by distinguishing computer responses from human responses. Text, audio, video, picture picture-based Optical Character Recognition (OCR) are used for creating captcha. Text-based OCR captcha are the most often used captcha which faces issues namely, complex and distorted contents. There are attempts to build captcha detection and classification-based systems using machine learning and neural networks, which need to be tuned for accuracy. The existing systems face challenges in the recognition of distorted characters, handling variable-length captcha and finding sequential dependencies in captcha. In this work, we propose a segmentation-free OCR model for text captcha classification based on the connectionist temporal classification loss technique. The proposed model is trained and tested on a publicly available captcha dataset. The proposed model gives 99.80\% character level accuracy, while 95\% word level accuracy. The accuracy of the proposed model is compared with the state-of-the-art models and proves to be effective. The variable length complex captcha can be thus processed with the segmentation-free connectionist temporal classification loss technique with dependencies which will be massively used in securing the software systems.
翻訳日:2024-02-09 16:18:52 公開日:2024-02-08
# spirdet: 効率的で正確で軽量な赤外線小型ターゲット検出器を目指して

SpirDet: Towards Efficient, Accurate and Lightweight Infrared Small Target Detector ( http://arxiv.org/abs/2402.05410v1 )

ライセンス: Link先を確認
Qianchen Mao, Qiang Li, Bingshu Wang, Yongjun Zhang, Tao Dai, C.L. Philip Chen(参考訳) 近年,深層学習手法による赤外線小型ターゲットの検出が注目されている。 小目標の検出能力を向上させるため、これらの手法はスパースと小目標の高解像度な特徴を保持する経路を一般に維持する。 しかし、これは冗長で高価な計算をもたらす可能性がある。 この課題に対処するために、赤外小目標を効率的に検出するための新しいアプローチであるSpirDetを提案する。 具体的には、計算冗長性の問題に対処するために、特徴マップを復元するために新しいデュアルブランチスパースデコーダを用いる。 第一に、高速分岐は、潜在的に小さな目標位置(地図の0.5 % しか占めていない)を示すスパースマップを直接予測する。 第二に、遅い分岐はスパースマップで示される位置においてきめ細かい調整を行う。 さらに,Downsampling Orthogonalityを用いた再パラメータ化に基づく軽量DO-RepEncoderを設計し,メモリ消費と推論遅延を効果的に低減する。 大規模な実験により、提案されたSpirDetは、より高速な推論速度と少ないパラメータを実現しつつ、最先端のモデルよりも大幅に優れていることが示された。 例えば、IRSTD-1Kデータセットでは、SpirDetはMIoU$を4.7改善し、以前の最先端モデルと比較して7\times$$FPS$アクセラレーションを持つ。 コードは一般公開される予定だ。

In recent years, the detection of infrared small targets using deep learning methods has garnered substantial attention due to notable advancements. To improve the detection capability of small targets, these methods commonly maintain a pathway that preserves high-resolution features of sparse and tiny targets. However, it can result in redundant and expensive computations. To tackle this challenge, we propose SpirDet, a novel approach for efficient detection of infrared small targets. Specifically, to cope with the computational redundancy issue, we employ a new dual-branch sparse decoder to restore the feature map. Firstly, the fast branch directly predicts a sparse map indicating potential small target locations (occupying only 0.5\% area of the map). Secondly, the slow branch conducts fine-grained adjustments at the positions indicated by the sparse map. Additionally, we design an lightweight DO-RepEncoder based on reparameterization with the Downsampling Orthogonality, which can effectively reduce memory consumption and inference latency. Extensive experiments show that the proposed SpirDet significantly outperforms state-of-the-art models while achieving faster inference speed and fewer parameters. For example, on the IRSTD-1K dataset, SpirDet improves $MIoU$ by 4.7 and has a $7\times$ $FPS$ acceleration compared to the previous state-of-the-art model. The code will be open to the public.
翻訳日:2024-02-09 16:18:32 公開日:2024-02-08
# 超伝導量子ビットにおける測定誘起状態遷移のダイナミクス

Dynamics of measurement-induced state transitions in superconducting qubits ( http://arxiv.org/abs/2402.05409v1 )

ライセンス: Link先を確認
Yuta Hirasaki, Shunsuke Daimon, Naoki Kanazawa, Toshinari Itoko, Masao Tokunari, Eiji Saitoh(参考訳) 我々は,IBM量子系の時間分解測定による超伝導量子ビットの時間変動について検討した。 その結果,特定の時間間隔で急激なクビット誤差率の変化が認められた。 それぞれの高いエラー状態は数秒間持続し、オンオフ動作を示す。 観測された時間不安定性は、測定刺激によって引き起こされるクビット遷移に起因する。 高周波共振器と結合した量子ビットの変動状態間の共振遷移は、誤り率変化の原因となる。

We have investigated temporal fluctuation of superconducting qubits via the time-resolved measurement for an IBM Quantum system. We found that the qubit error rate abruptly changes during specific time intervals. Each high error state persists for several tens of seconds, and exhibits an on-off behavior. The observed temporal instability can be attributed to qubit transitions induced by a measurement stimulus. Resonant transition between fluctuating dressed states of the qubits coupled with high-frequency resonators can be responsible for the error-rate change.
翻訳日:2024-02-09 16:18:06 公開日:2024-02-08
# MIGC:テキスト・画像合成のためのマルチインスタンス生成制御

MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis ( http://arxiv.org/abs/2402.05408v1 )

ライセンス: Link先を確認
Dewei Zhou, You Li, Fan Ma, Zongxin Yang, Yi Yang(参考訳) 本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。 事前に定義された座標とその対応する記述が与えられたタスクは、生成されたインスタンスが指定された場所の正確な位置にあり、すべてのインスタンスの属性が対応する記述に準拠していることを保証する。 これにより、シングルインテンス生成に関する現在の研究の範囲が拡大され、より多様で実用的な次元に拡張される。 そこで我々は,MIGタスクの課題に対処するため,MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。 まず、MIGタスクをいくつかのサブタスクに分割します。 各インスタンスの正確なシェーディングを確保するために,インスタンス強化注意機構を導入する。 最後に、安定拡散(SD)において複数のインスタンスを正確に生成するために必要な情報を提供するために、すべての陰影インスタンスを集約する。 MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。 提案したCOCO-MIGベンチマークおよび様々な一般的なベンチマークで大規模な実験を行った。 評価結果は、量、位置、属性、および相互作用の観点から、我々のモデルの特別な制御能力を示す。

We present a Multi-Instance Generation (MIG) task, simultaneously generating multiple instances with diverse controls in one image. Given a set of predefined coordinates and their corresponding descriptions, the task is to ensure that generated instances are accurately at the designated locations and that all instances' attributes adhere to their corresponding description. This broadens the scope of current research on Single-instance generation, elevating it to a more versatile and practical dimension. Inspired by the idea of divide and conquer, we introduce an innovative approach named Multi-Instance Generation Controller (MIGC) to address the challenges of the MIG task. Initially, we break down the MIG task into several subtasks, each involving the shading of a single instance. To ensure precise shading for each instance, we introduce an instance enhancement attention mechanism. Lastly, we aggregate all the shaded instances to provide the necessary information for accurately generating multiple instances in stable diffusion (SD). To evaluate how well generation models perform on the MIG task, we provide a COCO-MIG benchmark along with an evaluation pipeline. Extensive experiments were conducted on the proposed COCO-MIG benchmark, as well as on various commonly used benchmarks. The evaluation results illustrate the exceptional control capabilities of our model in terms of quantity, position, attribute, and interaction.
翻訳日:2024-02-09 16:18:00 公開日:2024-02-08
# フェデレーション学習のためのバージョン年齢に基づくクライアントスケジューリングポリシー

Version age-based client scheduling policy for federated learning ( http://arxiv.org/abs/2402.05407v1 )

ライセンス: Link先を確認
Xinyi Hu, Nikolaos Pappas, Howard H. Yang(参考訳) フェデレートラーニング(FL)は、ローカルデータを共有せずに複数のクライアント間の協調トレーニングを容易にする、プライバシ保護機械学習パラダイムとして登場した。 エッジデバイス能力の進歩にもかかわらず、通信ボトルネックは多数のクライアントを集約する上での課題を呈する。 この現象は、flにおけるストラグラーの批判的な挑戦と、グローバルモデル収束と安定性に対するクライアントスケジューリングポリシーの深い影響をもたらす。 既存のスケジューリング戦略は不安定性に対処するが、主にタイムラインやコンテンツに焦点を当てる。 そこで本研究では,情報のバージョン時代(VAoI)という新しい概念をFLに導入する。 従来のAge of Informationのメトリクスとは異なり、VAoIはタイムラインとコンテンツの安定度の両方を考慮する。 各クライアントのバージョン年齢は個別に更新され、情報の鮮度を示す。 VAoIは平均的なVAoIを最小化するためにクライアントスケジューリングポリシーに組み込まれ、古いローカル更新の影響を緩和し、FLシステムの安定性を向上させる。

Federated Learning (FL) has emerged as a privacy-preserving machine learning paradigm facilitating collaborative training across multiple clients without sharing local data. Despite advancements in edge device capabilities, communication bottlenecks present challenges in aggregating a large number of clients; only a portion of the clients can update their parameters upon each global aggregation. This phenomenon introduces the critical challenge of stragglers in FL and the profound impact of client scheduling policies on global model convergence and stability. Existing scheduling strategies address staleness but predominantly focus on either timeliness or content. Motivated by this, we introduce the novel concept of Version Age of Information (VAoI) to FL. Unlike traditional Age of Information metrics, VAoI considers both timeliness and content staleness. Each client's version age is updated discretely, indicating the freshness of information. VAoI is incorporated into the client scheduling policy to minimize the average VAoI, mitigating the impact of outdated local updates and enhancing the stability of FL systems.
翻訳日:2024-02-09 16:17:39 公開日:2024-02-08
# マルコフ決定過程政策最適化のためのマルチタイムアンサンブルq-learning

Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy Optimization ( http://arxiv.org/abs/2402.05476v1 )

ライセンス: Link先を確認
Talha Bozkus and Urbashi Mitra(参考訳) 強化学習(rl)は、ネットワーク制御や政策最適化の問題を未知の環境で解く古典的なツールである。 元々のq-learningは、非常に大きなネットワークにおけるパフォーマンスと複雑性の課題に苦しめられている。 本稿では,マルコフ決定過程(mdp)モデルを認めるネットワークに対して,古典的q-ラーニングを適用したモデルフリーアンサンブル強化学習アルゴリズムを提案する。 複数のq-ラーニングアルゴリズムは、複数の異なる、合成された、構造的に関連したマルコフ環境上で並列に実行され、出力は、ジェンセン=シャノン分岐(jsd)に基づく適応重み付け機構を用いて融合され、複雑さの少ないおよそ最適なポリシーを得る。 鍵統計量とq関数の収束を含むアルゴリズムの理論的正当性が提供される。 複数のネットワークモデルにまたがる数値的な結果から、提案アルゴリズムは、最先端のQ-ラーニングアルゴリズムよりも実行時の複雑さを最大50%少なくして、平均ポリシー誤差を最大55%低減できることが示された。 数値結果は理論解析で得られた仮定を検証する。

Reinforcement learning (RL) is a classical tool to solve network control or policy optimization problems in unknown environments. The original Q-learning suffers from performance and complexity challenges across very large networks. Herein, a novel model-free ensemble reinforcement learning algorithm which adapts the classical Q-learning is proposed to handle these challenges for networks which admit Markov decision process (MDP) models. Multiple Q-learning algorithms are run on multiple, distinct, synthetically created and structurally related Markovian environments in parallel; the outputs are fused using an adaptive weighting mechanism based on the Jensen-Shannon divergence (JSD) to obtain an approximately optimal policy with low complexity. The theoretical justification of the algorithm, including the convergence of key statistics and Q-functions are provided. Numerical results across several network models show that the proposed algorithm can achieve up to 55% less average policy error with up to 50% less runtime complexity than the state-of-the-art Q-learning algorithms. Numerical results validate assumptions made in the theoretical analysis.
翻訳日:2024-02-09 16:08:39 公開日:2024-02-08
# 量子世界の資源

Resources of the Quantum World ( http://arxiv.org/abs/2402.05474v1 )

ライセンス: Link先を確認
Gilad Gour(参考訳) この本は、量子情報科学における新しい活発な研究領域である量子資源理論の急成長分野を掘り下げ、単一の枠組みの下で様々な量子現象を統一しようと試みている。 物理系の様々な属性を「資源」として認識することで、このアプローチは量子現象に対する新たな視点を提供し、量子絡み、コヒーレンスといった概念の理解と応用を変革する。 教育学に焦点を当てて、本書は読者に、この急速に発展する分野へのナビゲートと貢献に必要な高度な数学的ツールと物理原理を装備することを目的としている。 量子力学と量子情報の基礎的な側面から、絡み合い、非対称性、熱力学を含む特定の資源理論の詳細な探究まで、幅広い話題をカバーしている。 厳密な数学的展開とユニークな公理的アプローチを通じて、この本は、量子資源理論の基盤となる運用的および概念的枠組みに関する深い洞察を与え、大学院生、早産研究者、および量子情報科学の最先端発展に関心のある人には貴重な情報源となっている。

This book delves into the burgeoning field of quantum resource theories, a novel and vibrant area of research within quantum information science that seeks to unify diverse quantum phenomena under a single framework. By recognizing various attributes of physical systems as "resources," this approach offers a fresh perspective on quantum phenomena, transforming our understanding and application of concepts such as quantum entanglement, coherence, and more. With a focus on the pedagogical, the book aims to equip readers with the advanced mathematical tools and physical principles needed to navigate and contribute to this rapidly evolving field. It covers a wide range of topics, from the foundational aspects of quantum mechanics and quantum information to detailed explorations of specific resource theories, including entanglement, asymmetry, and thermodynamics. Through rigorous mathematical exposition and a unique axiomatic approach, the book provides deep insights into the operational and conceptual frameworks that underpin quantum resource theories, making it an invaluable resource for graduate students, early-career researchers, and anyone interested in the cutting-edge developments in quantum information science.
翻訳日:2024-02-09 16:08:22 公開日:2024-02-08
# マルチモーダル推論のための質問認識視覚トランスフォーマー

Question Aware Vision Transformer for Multimodal Reasoning ( http://arxiv.org/abs/2402.05472v1 )

ライセンス: Link先を確認
Roy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman(参考訳) VL(Vision-Language)モデルは、マルチモーダル推論において顕著な進歩を可能にする、重要な研究の焦点となっている。 これらのアーキテクチャは通常、視覚エンコーダ、Large Language Model (LLM)、およびLLMの表現空間と視覚的特徴を整列するプロジェクションモジュールから構成される。 ビジョンエンコーディングプロセスはユーザクエリとは分離され続けており、多くの場合、画像関連の質問という形式で行われます。 その結果、結果の視覚的特徴は、画像のクエリ固有の要素に最適に調整されない。 そこで本研究では,マルチモーダル推論のためのQA-ViT(QA-Aware Vision Transformer)アプローチを紹介し,視覚エンコーダに直接質問認識を組み込む。 この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。 QA-ViTはモデルに依存しず、任意のVLアーキテクチャに効率的に組み込むことができる。 広範にわたる実験により,本手法を様々なマルチモーダルアーキテクチャに適用し,多様なタスクにわたって一貫した改善を実現し,視覚的・場面的理解を向上する可能性を示した。

Vision-Language (VL) models have gained significant research focus, enabling remarkable advances in multimodal reasoning. These architectures typically comprise a vision encoder, a Large Language Model (LLM), and a projection module that aligns visual features with the LLM's representation space. Despite their success, a critical limitation persists: the vision encoding process remains decoupled from user queries, often in the form of image-related questions. Consequently, the resulting visual features may not be optimally attuned to the query-specific elements of the image. To address this, we introduce QA-ViT, a Question Aware Vision Transformer approach for multimodal reasoning, which embeds question awareness directly within the vision encoder. This integration results in dynamic visual features focusing on relevant image aspects to the posed question. QA-ViT is model-agnostic and can be incorporated efficiently into any VL architecture. Extensive experiments demonstrate the effectiveness of applying our method to various multimodal architectures, leading to consistent improvement across diverse tasks and showcasing its potential for enhancing visual and scene-text understanding.
翻訳日:2024-02-09 16:08:01 公開日:2024-02-08
# 入射拡散:確率サンプリングによる効率的な最適化

Implicit Diffusion: Efficient Optimization through Stochastic Sampling ( http://arxiv.org/abs/2402.05468v1 )

ライセンス: Link先を確認
Pierre Marion, Anna Korba, Peter Bartlett, Mathieu Blondel, Valentin De Bortoli, Arnaud Doucet, Felipe Llinares-L\'opez, Courtney Paquette, Quentin Berthet(参考訳) パラメータ化確率拡散により暗黙的に定義された分布を最適化するアルゴリズムを提案する。 そのため、サンプリングプロセスの結果の分布をパラメータを最適化することで変更できる。 そこで本研究では, 単一ループ, 最適化, サンプリングステップで協調的に実行する1次最適化のための汎用フレームワークを提案する。 このアプローチは、2レベル最適化と自動暗黙微分の最近の進歩に触発され、サンプリングの視点を確率分布の空間上の最適化として活用する。 本手法の性能を理論的に保証するとともに,実世界での有効性を示す実験結果を提供する。

We present a new algorithm to optimize distributions defined implicitly by parameterized stochastic diffusions. Doing so allows us to modify the outcome distribution of sampling processes by optimizing over their parameters. We introduce a general framework for first-order optimization of these processes, that performs jointly, in a single loop, optimization and sampling steps. This approach is inspired by recent advances in bilevel optimization and automatic implicit differentiation, leveraging the point of view of sampling as optimization over the space of probability distributions. We provide theoretical guarantees on the performance of our method, as well as experimental results demonstrating its effectiveness in real-world settings.
翻訳日:2024-02-09 16:07:44 公開日:2024-02-08
# 意識下爆発とエコープラクシアによる脱獄性LDMの迅速最適化

Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation and Echopraxia ( http://arxiv.org/abs/2402.05467v1 )

ライセンス: Link先を確認
Guangyu Shen, Siyuan Cheng, Kaiyuan Zhang, Guanhong Tao, Shengwei An, Lu Yan, Zhuo Zhang, Shiqing Ma, Xiangyu Zhang(参考訳) 大規模言語モデル(LLM)は様々な分野に普及し、その異常な推論と理解能力で人間の生活を変革している。 敏感なタスクの利用が増加するにつれて、安全上の懸念が広く注目を集めている。 LLMを人間の倫理的原則と整合させ、安全な配備を確保するために、広範囲にわたる努力が注がれている。 これらの可能性にもかかわらず、最近の研究は、LLMは、暴力的で有害なコンテンツを引き出すための安全対策をバイパスする特別なジェイルブレイクのプロンプトの傾向を示している。 内在的な離散的性質と現代のllmの実質的な規模は、連続的な障害を表す多様で効率的で強力なジェイルブレイクプロンプトを自動的に生成する上で大きな課題となる。 本稿では,自覚を伴わない心のプロセスと行動の不随意の模倣を記述した,意識下とエコープラキシアという2つの心理的概念にインスパイアされた,新たな最適化手法であるRIPPLEを紹介する。 6つのオープンソース LLM と4つの商用 LLM API による評価では、RIPPLE は平均攻撃成功率 91.5 % を達成し、現在の5つのメソッドを最大47.0 % 上回っており、オーバーヘッドは 8 倍減少している。 さらに、大きな伝達性とステルスを示し、確立された検出機構を回避した。 作業のコードは \url{https://github.com/SolidShen/RIPPLE_official/tree/official} で公開されている。

Large Language Models (LLMs) have become prevalent across diverse sectors, transforming human life with their extraordinary reasoning and comprehension abilities. As they find increased use in sensitive tasks, safety concerns have gained widespread attention. Extensive efforts have been dedicated to aligning LLMs with human moral principles to ensure their safe deployment. Despite their potential, recent research indicates aligned LLMs are prone to specialized jailbreaking prompts that bypass safety measures to elicit violent and harmful content. The intrinsic discrete nature and substantial scale of contemporary LLMs pose significant challenges in automatically generating diverse, efficient, and potent jailbreaking prompts, representing a continuous obstacle. In this paper, we introduce RIPPLE (Rapid Optimization via Subconscious Exploitation and Echopraxia), a novel optimization-based method inspired by two psychological concepts: subconsciousness and echopraxia, which describe the processes of the mind that occur without conscious awareness and the involuntary mimicry of actions, respectively. Evaluations across 6 open-source LLMs and 4 commercial LLM APIs show RIPPLE achieves an average Attack Success Rate of 91.5\%, outperforming five current methods by up to 47.0\% with an 8x reduction in overhead. Furthermore, it displays significant transferability and stealth, successfully evading established detection mechanisms. The code of our work is available at \url{https://github.com/SolidShen/RIPPLE_official/tree/official}
翻訳日:2024-02-09 16:07:34 公開日:2024-02-08
# 心理言語学的プラウザビリティテストのための大規模言語モデル

Large Language Models for Psycholinguistic Plausibility Pretesting ( http://arxiv.org/abs/2402.05455v1 )

ライセンス: Link先を確認
Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant(参考訳) 精神言語学において、制御された物質の作成は、研究成果が意図した操作にのみ影響されず、外部要因の影響を受けないことを保証するために重要である。 これを達成するために、精神言語学者は典型的には言語資料を先取りするが、そこでは人間の評価者から特定の文章に対する可否判定を求めるのが一般的である。 本研究では,言語モデル (LM) を用いてこれらの妥当性判定を行うことができるかを検討する。 本研究では,複数の言語構造にまたがる広い範囲のlmsを調査し,その妥当性判定が人間の判断と相関しているかを評価する。 GPT-4の可視性判定は、我々が調査した構造全体にわたる人間の判断と非常に相関しているのに対し、他のLMは一般的に使用されている構文構造において人間とよく相関している。 次に,この相関関係がヒトではなくlsmを事前テストに用いることができるかどうかを検証した。 粗粒度判定が必要な場合、これはうまく機能するが、粒度判定が必要な場合、GPT-4でも良好な判別力は得られない。

In psycholinguistics, the creation of controlled materials is crucial to ensure that research outcomes are solely attributed to the intended manipulations and not influenced by extraneous factors. To achieve this, psycholinguists typically pretest linguistic materials, where a common pretest is to solicit plausibility judgments from human evaluators on specific sentences. In this work, we investigate whether Language Models (LMs) can be used to generate these plausibility judgements. We investigate a wide range of LMs across multiple linguistic structures and evaluate whether their plausibility judgements correlate with human judgements. We find that GPT-4 plausibility judgements highly correlate with human judgements across the structures we examine, whereas other LMs correlate well with humans on commonly used syntactic structures. We then test whether this correlation implies that LMs can be used instead of humans for pretesting. We find that when coarse-grained plausibility judgements are needed, this works well, but when fine-grained judgements are necessary, even GPT-4 does not provide satisfactory discriminative power.
翻訳日:2024-02-09 16:07:06 公開日:2024-02-08
# 凸凹損失による会員推測におけるプライバシーリスクの軽減

Mitigating Privacy Risk in Membership Inference by Convex-Concave Loss ( http://arxiv.org/abs/2402.05453v1 )

ライセンス: Link先を確認
Zhenlong Liu, Lei Feng, Huiping Zhuang, Xiaofeng Cao, Hongxin Wei(参考訳) 機械学習モデルは、サンプルがトレーニングセット内にあるかどうかを推測することを目的とした、メンバーシップ推論攻撃(mias)の影響を受けやすい。 既存の作業では、勾配上昇を利用してトレーニングデータの損失分散を拡大し、プライバシーリスクを軽減する。 しかし、逆向きに最適化すると、モデルパラメータが局所的な極小付近で振動し、不安定性と準最適性能をもたらす可能性がある。 本研究では,勾配降下によるトレーニング損失分布の分散化を可能にする新しい手法であるConvex-Concave Lossを提案する。 本手法は, 対流損失はトレーニング中の損失分散を減少させる傾向があるという理論的解析に動機づけられている。 したがって、CCLの背後にある重要な考え方は、凹凸項による損失関数の凸度を低減することである。 CCLでトレーニングされたニューラルネットワークは、トレーニングデータのばらつきの高い損失を生成し、MIAに対する防御を強化する。 広範な実験がcclの優位性を示し、プライバシ利用トレードオフにおける最先端のバランスを実現している。

Machine learning models are susceptible to membership inference attacks (MIAs), which aim to infer whether a sample is in the training set. Existing work utilizes gradient ascent to enlarge the loss variance of training data, alleviating the privacy risk. However, optimizing toward a reverse direction may cause the model parameters to oscillate near local minima, leading to instability and suboptimal performance. In this work, we propose a novel method -- Convex-Concave Loss, which enables a high variance of training loss distribution by gradient descent. Our method is motivated by the theoretical analysis that convex losses tend to decrease the loss variance during training. Thus, our key idea behind CCL is to reduce the convexity of loss functions with a concave term. Trained with CCL, neural networks produce losses with high variance for training data, reinforcing the defense against MIAs. Extensive experiments demonstrate the superiority of CCL, achieving state-of-the-art balance in the privacy-utility trade-off.
翻訳日:2024-02-09 16:06:46 公開日:2024-02-08
# 亜線形時間における植込みクランク検出のための低次相転移

Low-degree phase transitions for detecting a planted clique in sublinear time ( http://arxiv.org/abs/2402.05451v1 )

ライセンス: Link先を確認
Jay Mardia, Kabir Aladin Verchand, Alexander S. Wein(参考訳) 我々は、$n$頂点上のランダムグラフにおいて、サイズ$k$の植込みクリムを検出する問題を考察する。 clique のサイズが $\Theta(\sqrt{n})$ を超えると、検出のための多項式時間アルゴリズムが増殖する。 k = \theta(n^{1/2 + \delta})$ の場合、いくつかの$\delta > 0$ に対して、より高速で、すなわち、サブリニアな時間 -- アルゴリズムを研究する。 この目的のために、隣接行列のエントリのサブセット $m$ を非適応的にクエリし、明快なエントリの低次多項式関数を計算するアルゴリズムを考える。 スケーリング $\lvert M \rvert = \Theta(n^{\gamma})$ では、clique は $\gamma > 3(1/2 - \delta)$ では検出できるが、$\gamma < 3(1/2 - \delta)$ では検出できない。 その結果、植林された傾斜角を検出する最もよく知られたランタイムである$\widetilde{O}(n^{3(1/2-\delta)})$は、非適応的な低次クラスを超越せずには改善できない。 条件付き低度度比のバウンドに基づく下限の証明は、植栽されたクランクの非適応検出におけるさらなる構造を明らかにする。 条件付き低次度度比をポテンシャル関数として用いることで、非適応的なクエリパターンに対して、少なくとも有効である同じサイズの高度に構造化されたクエリパターンが存在することを示す。

We consider the problem of detecting a planted clique of size $k$ in a random graph on $n$ vertices. When the size of the clique exceeds $\Theta(\sqrt{n})$, polynomial-time algorithms for detection proliferate. We study faster -- namely, sublinear time -- algorithms in the high-signal regime when $k = \Theta(n^{1/2 + \delta})$, for some $\delta > 0$. To this end, we consider algorithms that non-adaptively query a subset $M$ of entries of the adjacency matrix and then compute a low-degree polynomial function of the revealed entries. We prove a computational phase transition for this class of non-adaptive low-degree algorithms: under the scaling $\lvert M \rvert = \Theta(n^{\gamma})$, the clique can be detected when $\gamma > 3(1/2 - \delta)$ but not when $\gamma < 3(1/2 - \delta)$. As a result, the best known runtime for detecting a planted clique, $\widetilde{O}(n^{3(1/2-\delta)})$, cannot be improved without looking beyond the non-adaptive low-degree class. Our proof of the lower bound -- based on bounding the conditional low-degree likelihood ratio -- reveals further structure in non-adaptive detection of a planted clique. Using (a bound on) the conditional low-degree likelihood ratio as a potential function, we show that for every non-adaptive query pattern, there is a highly structured query pattern of the same size that is at least as effective.
翻訳日:2024-02-09 16:06:30 公開日:2024-02-08
# 量子力学の因果性と解釈の可能性

Causality and a possible interpretation of quantum mechanics ( http://arxiv.org/abs/2402.05450v1 )

ライセンス: Link先を確認
Kaixun Tu and Qing Wang(参考訳) アインシュタイン=ポドルスキー=ローゼンのパラドックスから最近のソルキン型不可能測定問題まで、相対論的因果関係、量子非局所性、量子測定の矛盾は続いている。 我々の研究は、これらの3つの側面を調和して統合する量子場理論に基づくフレームワークを提供する。 この枠組みは密度行列の減少で表される因果関係と、量子力学が完備であると考える量子力学の解釈からなる。 具体的には、還元密度行列を用いて量子状態の局所情報を特徴付け、超光的に進化できないことを示す。 因果性に焦点を当てた最近のアプローチとは異なり、検出器を記述するために特に新しい演算子やフィールドを導入するのではなく、すべての(検出器、環境、人間を含む)が同じ基本フィールドで構成されており、複雑な再正規化につながる。 この再正規化は、量子パラドックスの導出の妥当性を疑問視し、量子力学の非常に自然で相対論的に互換性のある解釈を提案するきっかけとなる。

From the ancient Einstein-Podolsky-Rosen paradox to the recent Sorkin-type impossible measurements problem, the contradictions between relativistic causality, quantum non-locality, and quantum measurement have persisted. Our work provides a framework based on quantum field theory to harmoniously integrate these three aspects. This framework consists of causality expressed by reduced density matrices and an interpretation of quantum mechanics that considers quantum mechanics to be complete. Specifically, we utilize reduced density matrices to characterize the local information of the quantum state and demonstrate that they cannot evolve superluminally. Unlike recent approaches focusing on causality, we do not introduce new operators or fields specifically to describe detectors; instead, everything (including detectors, environments, and humans) is composed of the same fundamental fields, leading to complex renormalization. It is precisely these renormalization that prompts us to question the validity of the derivation of quantum paradoxes and lead us to propose a very natural and relativistically compatible interpretation of quantum mechanics.
翻訳日:2024-02-09 16:05:58 公開日:2024-02-08
# Minecraft-ify:ゲーム内アプリケーションのためのテキスト誘導画像編集によるMinecraftスタイルの画像生成

Minecraft-ify: Minecraft Style Image Generation with Text-guided Image Editing for In-Game Application ( http://arxiv.org/abs/2402.05448v1 )

ライセンス: Link先を確認
Bumsoo Kim, Sanghyun Byun, Yonghoon Jung, Wonseop Shin, Sareer UI Amin, Sanghyun Seo(参考訳) 本稿ではまず,Minecraft ゲームに指定された文字テクスチャ生成システム \textit{Minecraft-ify} をゲーム内アプリケーションに向けて提示する。 キューブ多様体を持つ3d仮想キャラクタに合わせたテクスチャマッピングのための顔中心画像を生成することができる。 既存のプロジェクトや作業はテクスチャのみを生成するが、提案システムはユーザが提供する実際のイメージを逆転したり、学習した分布から平均/ランダムな外観を生成することができる。 さらに、StyleGANとStyleCLIPを使ってテキストガイダンスで操作することもできる。 これらの機能は、ユーザーフレンドリーなAIツールとして、より拡張されたユーザーエクスペリエンスを提供する。 プロジェクトページはhttps://gh-bumsookim.github.io/Minecraft-ify/にある。

In this paper, we first present the character texture generation system \textit{Minecraft-ify}, specified to Minecraft video game toward in-game application. Ours can generate face-focused image for texture mapping tailored to 3D virtual character having cube manifold. While existing projects or works only generate texture, proposed system can inverse the user-provided real image, or generate average/random appearance from learned distribution. Moreover, it can be manipulated with text-guidance using StyleGAN and StyleCLIP. These features provide a more extended user experience with enlarged freedom as a user-friendly AI-tool. Project page can be found at https://gh-bumsookim.github.io/Minecraft-ify/
翻訳日:2024-02-09 16:05:40 公開日:2024-02-08
# 情報保持によるLLMの高精度LORA-Finetuning量子化

Accurate LoRA-Finetuning Quantization of LLMs via Information Retention ( http://arxiv.org/abs/2402.05445v1 )

ライセンス: Link先を確認
Haotong Qin, Xudong Ma, Xingyu Zheng, Xiaoyang Li, Yang Zhang, Shouda Liu, Jie Luo, Xianglong Liu and Michele Magno(参考訳) LLMの LoRA-finetuning 量子化は、リソース制約のあるハードウェアに展開するための正確かつコンパクトな LLM を得るために広く研究されている。 しかし、既存の手法は量子化LDMを著しく劣化させ、LoRAの微調整の恩恵を受けられなかった。 本稿では,LoRAを用いた量子化LLMを情報保持により高精度にプッシュするIR-QLoRAを提案する。 提案するir-qloraは,(1)統計に基づく情報キャリブレーション量子化により,llmの量子化パラメータが元の情報を正確に保持できる,(2)微調整に基づく情報弾性接続によりloraは多様な情報を用いた弾性表現変換を利用する,という2つの技術に主に依存している。 包括的な実験により、IR-QLoRAは2-4ビット幅のLLaMAとLLaMA2ファミリ間での精度を著しく向上させることができることが示されている。 パフォーマンスの大幅な向上には、わずか0.31%の追加時間しか必要とせず、IRQLoRAの良好な効率が明らかになりました。 IR-QLoRAには優れた汎用性があり、さまざまなフレームワーク(NormalFloatやIntegerの量子化など)と互換性があり、一般的な精度向上を実現しています。 コードはhttps://github.com/htqin/ir-qloraで入手できる。

The LoRA-finetuning quantization of LLMs has been extensively studied to obtain accurate yet compact LLMs for deployment on resource-constrained hardware. However, existing methods cause the quantized LLM to severely degrade and even fail to benefit from the finetuning of LoRA. This paper proposes a novel IR-QLoRA for pushing quantized LLMs with LoRA to be highly accurate through information retention. The proposed IR-QLoRA mainly relies on two technologies derived from the perspective of unified information: (1) statistics-based Information Calibration Quantization allows the quantized parameters of LLM to retain original information accurately; (2) finetuning-based Information Elastic Connection makes LoRA utilizes elastic representation transformation with diverse information. Comprehensive experiments show that IR-QLoRA can significantly improve accuracy across LLaMA and LLaMA2 families under 2-4 bit-widths, e.g., 4- bit LLaMA-7B achieves 1.4% improvement on MMLU compared with the state-of-the-art methods. The significant performance gain requires only a tiny 0.31% additional time consumption, revealing the satisfactory efficiency of our IRQLoRA. We highlight that IR-QLoRA enjoys excellent versatility, compatible with various frameworks (e.g., NormalFloat and Integer quantization) and brings general accuracy gains. The code is available at https://github.com/htqin/ir-qlora.
翻訳日:2024-02-09 16:05:29 公開日:2024-02-08
# 非平衡最適輸送による生成モデリングのためのスケーラブルワッサースタイン勾配流

Scalable Wasserstein Gradient Flow for Generative Modeling through Unbalanced Optimal Transport ( http://arxiv.org/abs/2402.05443v1 )

ライセンス: Link先を確認
Jaemoo Choi, Jaewoong Choi, Myungjoo Kang(参考訳) Wasserstein Gradient Flow (WGF) は、Wasserstein空間内の確率密度の勾配力学を記述する。 WGFは確率分布を最適化するために有望なアプローチを提供する。 連続WGFを数値的に近似するには時間離散化が必要である。 最もよく知られている方法はJKOスキームである。 この点において、従来のWGFモデルは、各JKOステップに対して、JKOスキームとパラメタライズトランスポートマップを使用する。 しかし、このアプローチは、JKOのステップ数$K$の2次トレーニング複雑性$O(K^2)$となる。 これによりWGFモデルのスケーラビリティが著しく制限される。 本稿では,Semi-dual JKO(S-JKO)と呼ばれるスケーラブルなWGFベースの生成モデルを提案する。 我々のモデルは、JKOステップと不均衡最適輸送の等価性から導かれるJKOステップの半二重形式に基づいている。 我々のアプローチは、トレーニングの複雑さを$O(K)$に減らします。 CIFAR-10ではFIDスコアが2.62,CelebA-HQ-256では6.19,最先端画像生成モデルでは6.19であった。

Wasserstein Gradient Flow (WGF) describes the gradient dynamics of probability density within the Wasserstein space. WGF provides a promising approach for conducting optimization over the probability distributions. Numerically approximating the continuous WGF requires the time discretization method. The most well-known method for this is the JKO scheme. In this regard, previous WGF models employ the JKO scheme and parametrize transport map for each JKO step. However, this approach results in quadratic training complexity $O(K^2)$ with the number of JKO step $K$. This severely limits the scalability of WGF models. In this paper, we introduce a scalable WGF-based generative model, called Semi-dual JKO (S-JKO). Our model is based on the semi-dual form of the JKO step, derived from the equivalence between the JKO step and the Unbalanced Optimal Transport. Our approach reduces the training complexity to $O(K)$. We demonstrate that our model significantly outperforms existing WGF-based generative models, achieving FID scores of 2.62 on CIFAR-10 and 6.19 on CelebA-HQ-256, which are comparable to state-of-the-art image generative models.
翻訳日:2024-02-09 16:04:58 公開日:2024-02-08
# 低コスト単光子アバランシェダイオードアレイを用いたスパイキングニューラルネットワークによる手指ジェスチャー認識

Spiking Neural Network Enhanced Hand Gesture Recognition Using Low-Cost Single-photon Avalanche Diode Array ( http://arxiv.org/abs/2402.05441v1 )

ライセンス: Link先を確認
Zhenya Zang, Xingda Li, and David Day Uei Li(参考訳) 我々は,9.6個の単一光子アバランシェダイオード(SPAD)アレイを用いて,暗黒および明るい光環境下での10種類のジェスチャーを認識するための小型スパイキング畳み込みニューラルネットワーク(SCNN)とスパイキング多層パーセプトロン(SMLP)を提案する。 ハンドジェスチャー認識(HGR)システムでは,光子強度データをネットワークのトレーニングとテストに利用した。 バニラ畳み込みニューラルネットワーク(CNN)も実装され、SCNNのパフォーマンスを同じネットワークトポロジとトレーニング戦略と比較した。 SCNNはCNNから変換されるのではなく、ゼロからトレーニングされました。 暗光環境(al)環境下で3つのモデルを実験した。 その結果、SCNNはCNN(92.9%)に匹敵する精度(90.8%)を達成し、8つのタイムステップしか持たない低い浮動小数点演算を示した。 SMLPはまた、計算負荷と精度のトレードオフを示す。 この作業のコードと収集されたデータセットはhttps://github.com/zzy666666zzy/TinyLiDAR_NET_SNNで公開されている。

We present a compact spiking convolutional neural network (SCNN) and spiking multilayer perceptron (SMLP) to recognize ten different gestures in dark and bright light environments, using a $9.6 single-photon avalanche diode (SPAD) array. In our hand gesture recognition (HGR) system, photon intensity data was leveraged to train and test the network. A vanilla convolutional neural network (CNN) was also implemented to compare the performance of SCNN with the same network topologies and training strategies. Our SCNN was trained from scratch instead of being converted from the CNN. We tested the three models in dark and ambient light (AL)-corrupted environments. The results indicate that SCNN achieves comparable accuracy (90.8%) to CNN (92.9%) and exhibits lower floating operations with only 8 timesteps. SMLP also presents a trade-off between computational workload and accuracy. The code and collected datasets of this work are available at https://github.com/zzy666666zzy/TinyLiDAR_NET_SNN.
翻訳日:2024-02-09 16:04:40 公開日:2024-02-08
# 言語モデルを用いた仮想環境におけるエージェントインタラクションの改善

Improving Agent Interactions in Virtual Environments with Language Models ( http://arxiv.org/abs/2402.05440v1 )

ライセンス: Link先を確認
Jack Zhang(参考訳) 効果的なヒューマンアシストのための効率的なコミュニケーションスキルを備えたAIシステムを強化するには、特定の状況を認識し、適切に対話するために、システム側からの積極的なイニシアチブが必要である。 本研究は,最先端手法によるタスク理解を高めるために言語モデリングを用いたMinecraftデータセットの集合的構築課題に焦点を当てる。 これらのモデルは、マルチモーダル理解とタスク指向の対話理解タスクの接地に焦点を当て、その解釈と応答能力に関する洞察を提供する。 実験の結果,既存の手法よりも大幅に改善され,今後の研究の方向性が示唆された。

Enhancing AI systems with efficient communication skills for effective human assistance necessitates proactive initiatives from the system side to discern specific circumstances and interact aptly. This research focuses on a collective building assignment in the Minecraft dataset, employing language modeling to enhance task understanding through state-of-the-art methods. These models focus on grounding multi-modal understanding and task-oriented dialogue comprehension tasks, providing insights into their interpretative and responsive capabilities. Our experimental results showcase a substantial improvement over existing methods, indicating a promising direction for future research in this domain.
翻訳日:2024-02-09 16:04:19 公開日:2024-02-08
# 組合せ最適化における最適QAOAパラメータの伝達学習

Transfer learning of optimal QAOA parameters in combinatorial optimization ( http://arxiv.org/abs/2402.05549v1 )

ライセンス: Link先を確認
J. A. Montanez-Barrera, Dennis Willsch, Kristel Michielsen(参考訳) 組合せ最適化問題の解法(COPs)は量子計算の有望な応用であり、量子近似最適化アルゴリズム(QAOA)はそれらを解決するための最も研究されている量子アルゴリズムの1つである。 しかし、複数の要因がQAOAのパラメータ探索を難しい最適化問題にしている。 本研究では,ある問題インスタンスの事前学習されたQAOAパラメータを異なるCOPインスタンスに再利用する手法であるTransfer Learning(TL)について検討する。 この目的のために,旅行セールスマン問題(tsp),ビンパッキング問題(bpp),ナップサック問題(kp),重み付き最大カット(maxcut)問題,最大独立集合(mis)問題,ポートフォリオ最適化(po)の小さなケースを選択し,$p$層に対して最適な$\beta$と$\gamma$パラメータを求める。 我々は、ある問題のパラメータが他の問題にどのように適応するかを比較する。 異なる問題の中で、BPPは最良の転送可能なパラメータを生成し、最大42キュービットとp = 10層までの問題の2次高速化より上の最適解を見つける確率を維持する。 BPPパラメータを用いて、最大18キュービットのMISインスタンスのIonQ HarmonyとAria、Rigetti Aspen-M-3、IBM Brisbaneの実験を行う。 その結果、IonQ Aria は理想的な確率分布と最も重なり合うことを示した。 さらに、BPP のパラメータを持つ D-Wave Advantage 量子アニールを用いて、クロスプラットフォーム TL が可能であることを示す。 最大170キュービットのMISのデフォルトプロトコルと比較して,性能が向上したことを示す。 以上の結果から,様々なコップやアニーリングプロトコルに適したqaoaパラメータが存在することが示唆された。

Solving combinatorial optimization problems (COPs) is a promising application of quantum computation, with the Quantum Approximate Optimization Algorithm (QAOA) being one of the most studied quantum algorithms for solving them. However, multiple factors make the parameter search of the QAOA a hard optimization problem. In this work, we study transfer learning (TL), a methodology to reuse pre-trained QAOA parameters of one problem instance into different COP instances. To this end, we select small cases of the traveling salesman problem (TSP), the bin packing problem (BPP), the knapsack problem (KP), the weighted maximum cut (MaxCut) problem, the maximal independent set (MIS) problem, and portfolio optimization (PO), and find optimal $\beta$ and $\gamma$ parameters for $p$ layers. We compare how well the parameters found for one problem adapt to the others. Among the different problems, BPP is the one that produces the best transferable parameters, maintaining the probability of finding the optimal solution above a quadratic speedup for problem sizes up to 42 qubits and p = 10 layers. Using the BPP parameters, we perform experiments on IonQ Harmony and Aria, Rigetti Aspen-M-3, and IBM Brisbane of MIS instances for up to 18 qubits. The results indicate IonQ Aria yields the best overlap with the ideal probability distribution. Additionally, we show that cross-platform TL is possible using the D-Wave Advantage quantum annealer with the parameters found for BPP. We show an improvement in performance compared to the default protocols for MIS with up to 170 qubits. Our results suggest that there are QAOA parameters that generalize well for different COPs and annealing protocols.
翻訳日:2024-02-09 15:57:01 公開日:2024-02-08
# シルヴェスターデンメラントの量子アルゴリズムと数値半群メンバシップ問題

Quantum algorithms for the Sylvester denumerant and the numerical semigroup membership problem ( http://arxiv.org/abs/2402.05524v1 )

ライセンス: Link先を確認
J. Ossorio-Castillo and Jos\'e M. Tornero(参考訳) 2つの量子アルゴリズムが提示され、数値半群の文脈でよく知られた問題である数値半群メンバーシップ問題(英語版)(nsmp)とシルベスターデンメラント問題(英語版)(sdp)に対処する。

Two quantum algorithms are presented, which tackle well--known problems in the context of numerical semigroups: the numerical semigroup membership problem (NSMP) and the Sylvester denumerant problem (SDP).
翻訳日:2024-02-09 15:56:27 公開日:2024-02-08
# 効率的かつロバストなプライベート推論のための線形化モデル

Linearizing Models for Efficient yet Robust Private Inference ( http://arxiv.org/abs/2402.05521v1 )

ライセンス: Link先を確認
Sreetama Sarkar, Souvik Kundu, Peter A. Beerel(参考訳) データプライバシに関する懸念が高まり、データプライバシとモデルIPの両方を保護するクライアントサーバアプリケーションにおけるプライベート推論(PI)フレームワークの開発につながった。 しかし、暗号プリミティブは、その広範なアプリケーションを制限する大きな遅延オーバーヘッドをもたらす必要がある。 同時に、環境の変化は、PIサービスが様々な自然発生および勾配に基づく摂動に対して堅牢であることを要求する。 piに適したレイテンシー効率のモデルの開発に焦点を当てたいくつかの研究にもかかわらず、これらのモデルが堅牢性に与える影響は未検討のままである。 本稿では,高遅延relu操作の削減と,クリーン画像と破損画像の両方のモデル性能の向上によるレイテンシ向上を実現する,堅牢な線形ネットワークのクラスであるrlnetを提案する。 特に、RLNetモデルは、ベースラインモデルよりも桁違いにReLUが少ない共有マスク共有重み付きアーキテクチャを用いて、クリーンで自然に乱れ、勾配に基づく摂動画像の分類精度を改善する「トリプル・ウィン・チケット」を提供する。 RLNetの有効性を示すため、CIFAR-10, CIFAR-100, Tiny-ImageNetデータセット上でResNetおよびWRNモデル変異体を用いた広範囲な実験を行った。 実験により、RLNetは11.14倍のReLUを生成でき、全ReLUモデルに近い精度で、クリーン、自然摂動、勾配に基づく摂動画像が得られることが示された。 同様のReLU予算でのSoTA非破壊線形化モデルと比較すると、RLNetは対角精度を最大47%改善し、自然な摂動精度を最大16.4%向上させ、クリーンな画像精度を最大1.5%向上させた。

The growing concern about data privacy has led to the development of private inference (PI) frameworks in client-server applications which protects both data privacy and model IP. However, the cryptographic primitives required yield significant latency overhead which limits its wide-spread application. At the same time, changing environments demand the PI service to be robust against various naturally occurring and gradient-based perturbations. Despite several works focused on the development of latency-efficient models suitable for PI, the impact of these models on robustness has remained unexplored. Towards this goal, this paper presents RLNet, a class of robust linearized networks that can yield latency improvement via reduction of high-latency ReLU operations while improving the model performance on both clean and corrupted images. In particular, RLNet models provide a "triple win ticket" of improved classification accuracy on clean, naturally perturbed, and gradient-based perturbed images using a shared-mask shared-weight architecture with over an order of magnitude fewer ReLUs than baseline models. To demonstrate the efficacy of RLNet, we perform extensive experiments with ResNet and WRN model variants on CIFAR-10, CIFAR-100, and Tiny-ImageNet datasets. Our experimental evaluations show that RLNet can yield models with up to 11.14x fewer ReLUs, with accuracy close to the all-ReLU models, on clean, naturally perturbed, and gradient-based perturbed images. Compared with the SoTA non-robust linearized models at similar ReLU budgets, RLNet achieves an improvement in adversarial accuracy of up to ~47%, naturally perturbed accuracy up to ~16.4%, while improving clean image accuracy up to ~1.5%.
翻訳日:2024-02-09 15:56:21 公開日:2024-02-08
# ChatGPTは研究品質を評価することができるか?

Can ChatGPT evaluate research quality? ( http://arxiv.org/abs/2402.05519v1 )

ライセンス: Link先を確認
Mike Thelwall(参考訳) 目的:ChatGPT 4.0がこの時間的作業を自動化するためにジャーナル記事の研究評価を行うのに十分であるかどうかを評価する。 設計・方法論・アプローチ:2021年に公開された英国研究卓越フレームワーク(REF)のスコアリングガイドラインのケーススタディを用いて、ChatGPT-4がジャーナル記事の品質を評価することができる範囲をテストする。 これは私の51の記事に適用され、私の品質判断と比較されました。 発見: ChatGPT-4 は、REF 基準に適合する、もっともらしい文書要約と品質評価の根拠を生成することができる。 全体のスコアは、同じ文書の自己評価スコアと弱い相関がある(r=0.281を15回繰り返し、統計学的に0と大きく異なる)。 一方、15回の平均スコアは0.509の統計的に有意な正の相関を示した。 したがって、複数のchatgpt-4ラウンドからの平均スコアは個々のスコアよりも効果的である。 正の相関関係は、chatgptが各論文から著者の意義、厳密さ、独創性を引き出すことができるためかもしれない。 私の最も弱い記事が削除された場合、平均スコア(r=0.200)との相関は統計的に重要視される。 研究の限界:データは、ある学術分野の論文の便利なサンプルの自己評価である。 実践的意味: 全体としては、chatgptは形式的あるいは非公式な研究品質評価タスクで信頼できるほど正確ではないように思われる。 したがって、ジャーナルエディタを含む研究評価者は、その使用を制御するためのステップを踏むべきである。 Originality/value: ChatGPTのレビューレビュー精度テストの公開後最初の試みである。

Purpose: Assess whether ChatGPT 4.0 is accurate enough to perform research evaluations on journal articles to automate this time-consuming task. Design/methodology/approach: Test the extent to which ChatGPT-4 can assess the quality of journal articles using a case study of the published scoring guidelines of the UK Research Excellence Framework (REF) 2021 to create a research evaluation ChatGPT. This was applied to 51 of my own articles and compared against my own quality judgements. Findings: ChatGPT-4 can produce plausible document summaries and quality evaluation rationales that match the REF criteria. Its overall scores have weak correlations with my self-evaluation scores of the same documents (averaging r=0.281 over 15 iterations, with 8 being statistically significantly different from 0). In contrast, the average scores from the 15 iterations produced a statistically significant positive correlation of 0.509. Thus, averaging scores from multiple ChatGPT-4 rounds seems more effective than individual scores. The positive correlation may be due to ChatGPT being able to extract the author's significance, rigour, and originality claims from inside each paper. If my weakest articles are removed, then the correlation with average scores (r=0.200) falls below statistical significance, suggesting that ChatGPT struggles to make fine-grained evaluations. Research limitations: The data is self-evaluations of a convenience sample of articles from one academic in one field. Practical implications: Overall, ChatGPT does not yet seem to be accurate enough to be trusted for any formal or informal research quality evaluation tasks. Research evaluators, including journal editors, should therefore take steps to control its use. Originality/value: This is the first published attempt at post-publication expert review accuracy testing for ChatGPT.
翻訳日:2024-02-09 15:55:51 公開日:2024-02-08
# 不定時間方向と因果順序をもつ量子プロセスにおける記憶

Memory in quantum processes with indefinite time direction and causal order ( http://arxiv.org/abs/2402.05517v1 )

ライセンス: Link先を確認
G\"oktu\u{g} Karpat, Bar{\i}\c{s} \c{C}akmak(参考訳) 時間方向と因果順序が不確定な量子過程における動的メモリ効果の出現について検討する。 特に、位相共変量子ビットチャネルのクラスに注目し、最も重要なパラダイム的オープン量子システムモデルをいくつか包含する。 システムの時間的進化における記憶を評価するために,CPの可視性の性質に関して,トレース距離と非マルコビアン性の絡み合いに基づく測定値を利用する。 不定時間方向は、前方および後方プロセスのコヒーレントな重ね合わせを実現する量子時間反転演算により得られるが、不定因数順序は量子スイッチマップを介して達成され、2つの量子過程を2つの可能な順序のコヒーレントな重ね合わせで実装する。 位相共変量子ビットチャネルの様々なファミリーを考えると、量子時間フリップと量子スイッチ操作の両方が、ある条件下でのトレース距離に基づく測定値に従って、ダイナミクスにおけるメモリ効果を発生できることが示される。 一方、絡み合いに基づく測度に関して、量子時間フリップや量子スイッチは、考慮された位相共変チャネルに対して動的メモリを誘導できないことを示した。

We examine the emergence of dynamical memory effects in quantum processes having indefinite time direction and causal order. In particular, we focus on the class of phase-covariant qubit channels, which encompasses some of the most significant paradigmatic open quantum system models. In order to assess the memory in the time evolution of the system, we utilize the trace distance and the entanglement based measures of non-Markovianity in relation to the property of CP-indivisibility. While the indefinite time direction is obtained through the quantum time flip operation that realizes a coherent superposition of forward and backward processes, the indefinite causal order is achieved via the quantum switch map, which implements two quantum processes in a coherent superposition of their two possible orders. Considering various different families of phase-covariant qubit channels, we demonstrate that, when implemented on memoryless quantum processes, both the quantum time flip and the quantum switch operations can generate memory effects in the dynamics according to the trace distance based measure under certain conditions. On the other hand, with respect to the entanglement based measure, we show that neither the quantum time flip nor the quantum switch could induce dynamical memory for any of the considered phase-covariant channels.
翻訳日:2024-02-09 15:55:21 公開日:2024-02-08
# 環境に結合した北エフ模型の磁場効果

Magnetic field effects on the Kitaev model coupled to environment ( http://arxiv.org/abs/2402.05516v1 )

ライセンス: Link先を確認
Kiyu Fukui, Yasuyuki Kato, and Yukitoshi Motome(参考訳) 開量子系は、新しい位相相や非対称相転移のような閉系では見られない異常な現象を示す。 興味深い例として、Kモデルにおける量子スピン液体について研究した。 Yang, S. C. Morampudi, E. J. Bergholtz, Phys Rev. Lett. 散逸効果を組み込んだ効果的な非エルミート・キタエフモデルである${\bf 126}$, 077201 (2021)] は、マヨラナ分散に例外的な点を持つ空隙のないスピン液体状態を引き起こすことが示されている。 エルミートの場合、外部磁場がマヨラナ位相状態のギャップを誘導することを考えると、例外的な点は磁場の下で興味深い量子現象をもたらす可能性がある。 ここでは磁場による非エルミート・キタエフ模型について検討する。 無限小磁場がギャップを開くエルミートの場合とは対照的に、例外点が有限臨界磁場までギャップのないままであることを示す。 ギャップレス状態は、ある特定のパラメータ集合の磁場の広い範囲にわたって安定であり、特別な場合、ギャップを開くことなく、例外点の周りの異なる巻数を持つ別のギャップレス状態へ位相遷移する。 また, エッジを持つシステムでは, 非エルミート皮膚効果が磁場によって誘導されることが, ゼロ磁場で皮膚効果が欠落しているパラメータに対しても明らかとなった。 エッジ状態のキラリティは、三次元ワイル半金属のワイル点によって連結された表面フェルミアークと同様に、例外点を通して切り替わる。 この結果から, 磁場下でのトポロジカルギャップのない量子スピン液体の散逸を安定化させる新たな経路が得られた。

Open quantum systems display unusual phenomena not seen in closed systems, such as new topological phases and unconventional phase transitions. An interesting example was studied for a quantum spin liquid in the Kitaev model [K. Yang, S. C. Morampudi, and E. J. Bergholtz, Phys. Rev. Lett. ${\bf 126}$, 077201 (2021)]; an effective non-Hermitian Kitaev model, which incorporates dissipation effects, was shown to give rise to a gapless spin liquid state with exceptional points in the Majorana dispersions. Given that an external magnetic field induces a gapped Majorana topological state in the Hermitian case, the exceptional points may bring about intriguing quantum phenomena under a magnetic field. Here we investigate the non-Hermitian Kitaev model perturbed by the magnetic field. We show that the exceptional points remain gapless up to a finite critical magnetic field, in stark contrast to the Hermitian case where an infinitesimal field opens a gap. The gapless state is stable over a wide range of the magnetic field for some particular parameter sets, and in special cases, undergoes topological transitions to another gapless state with different winding number around the exceptional points without opening a gap. In addition, in the system with edges, we find that the non-Hermitian skin effect is induced by the magnetic field, even for the parameters where the skin effect is absent at zero field. The chirality of edge states is switched through the exceptional points, similarly to the surface Fermi arcs connected by the Weyl points in three-dimensional Weyl semimetals. Our results provide a new possible route to stabilize topological gapless quantum spin liquids under the magnetic field in the presence of dissipation.
翻訳日:2024-02-09 15:54:58 公開日:2024-02-08
# NoisyICL: 文脈内学習を校正するモデルパラメータの小さなノイズ

NoisyICL: A Little Noise in Model Parameters Calibrates In-context Learning ( http://arxiv.org/abs/2402.05515v1 )

ライセンス: Link先を確認
Yufeng Zhao, Yoshihiro Sakai, Naoya Inoue(参考訳) In-Context Learning(ICL)は、事前バイアスが高く、不信感があるため、不満足なパフォーマンスと過小評価に悩まされている。 以前のいくつかの作業では、膨大なデータセットと計算コストでICLのパフォーマンスを改善するための言語モデルを微調整していた。 本稿では,モデルパラメータをランダムノイズで摂動させ,より優れた性能とキャリブレーションを実現するノイズICLを提案する。 2つのモデルと12のダウンストリームデータセットに対する実験により、NoisyICLはICLがより正確な予測を行うのに役立つことが示された。 我々のさらなる分析は、NoisyICLがより公平な予測を可能にし、不信感の少ないモデルを可能にすることを示している。 そこで我々は,NoisyICLはICLの効果的な校正法であると考えている。 実験コードはgithubにアップロードされます。

In-Context Learning (ICL) is suffering from unsatisfactory performance and under-calibration due to high prior bias and unfaithful confidence. Some previous works fine-tuned language models for better ICL performance with enormous datasets and computing costs. In this paper, we propose NoisyICL, simply perturbing the model parameters by random noises to strive for better performance and calibration. Our experiments on 2 models and 12 downstream datasets show that NoisyICL can help ICL produce more accurate predictions. Our further analysis indicates that NoisyICL enables the model to provide more fair predictions, and also with less unfaithful confidence. Therefore, we believe that NoisyICL is an effective calibration of ICL. Our experimental code is uploaded to Github.
翻訳日:2024-02-09 15:54:21 公開日:2024-02-08
# GPTはシーケンス生成タスクのための多言語アノテーションである

GPTs Are Multilingual Annotators for Sequence Generation Tasks ( http://arxiv.org/abs/2402.05512v1 )

ライセンス: Link先を確認
Juhwan Choi, Eunju Lee, Kyohoon Jin, YoungBin Kim(参考訳) データアノテーションは新しいデータセットを構築する上で不可欠なステップです。 しかし、クラウドソーシングによる従来のデータアノテーションのアプローチは、時間も費用もかかる。 さらに、このプロセスの複雑さは、クラウドワーカーの言語プールの違いにより、低リソース言語を扱うときに増加する。 これらの課題に対処するために,近年顕著な性能を示すことが実証された大規模言語モデルを用いて,自律的なアノテーション手法を提案する。 本実験により,提案手法はコスト効率だけでなく,低リソース言語アノテーションにも適用できることを示す。 さらに,本手法を用いて画像キャプションデータセットを構築し,今後の研究のためにこのデータセットのオープンを約束する。 さらなる研究と再現性のためにソースコードをオープンしました。

Data annotation is an essential step for constructing new datasets. However, the conventional approach of data annotation through crowdsourcing is both time-consuming and expensive. In addition, the complexity of this process increases when dealing with low-resource languages owing to the difference in the language pool of crowdworkers. To address these issues, this study proposes an autonomous annotation method by utilizing large language models, which have been recently demonstrated to exhibit remarkable performance. Through our experiments, we demonstrate that the proposed method is not just cost-efficient but also applicable for low-resource language annotation. Additionally, we constructed an image captioning dataset using our approach and are committed to open this dataset for future study. We have opened our source code for further study and reproducibility.
翻訳日:2024-02-09 15:54:09 公開日:2024-02-08
# 混合整数線形プログラミングのための機械学習強化分岐と境界

Machine Learning Augmented Branch and Bound for Mixed Integer Linear Programming ( http://arxiv.org/abs/2402.05501v1 )

ライセンス: Link先を確認
Lara Scavuzzo and Karen Aardal and Andrea Lodi and Neil Yorke-Smith(参考訳) Mixed Integer Linear Programming (MILP)は、幅広いアプリケーションに強力なモデリング言語を提供する数学的最適化の柱である。 過去数十年間、MILPの解決には膨大なアルゴリズムの進歩が見られ、多くの商用および学術ソフトウェアパッケージが存在する。 それでも、問題インスタンスとソルバの両方からのデータの提供と、新しい問題とより大きな(現実の)インスタンスを解決したいという願望は、アルゴリズム開発を継続する必要性を引き起こしている。 MILPソルバはブランチとバインドをメインコンポーネントとして使用する。 近年, 分岐ヒューリスティックス, 分岐, 切断面, ノード選択, ソルバ構成決定など, 分岐とバウンドのアルゴリズムに関わる主要なタスクをすべて強化するための機械学習アルゴリズムの利用が爆発的な発展を遂げている。 本稿では、機械学習の統合と数学的最適化を補完する技術として捉えるビジョンと、この統合がmilp解決にどのように役立つかを論じた。 特に、分岐とバウンドの効率の指標を自動的に最適化する機械学習アルゴリズムに注意を払っている。 また、学習アルゴリズム、MILPベンチマーク、ソフトウェアの適用状況におけるMILPの表現方法についても検討する。

Mixed Integer Linear Programming (MILP) is a pillar of mathematical optimization that offers a powerful modeling language for a wide range of applications. During the past decades, enormous algorithmic progress has been made in solving MILPs, and many commercial and academic software packages exist. Nevertheless, the availability of data, both from problem instances and from solvers, and the desire to solve new problems and larger (real-life) instances, trigger the need for continuing algorithmic development. MILP solvers use branch and bound as their main component. In recent years, there has been an explosive development in the use of machine learning algorithms for enhancing all main tasks involved in the branch-and-bound algorithm, such as primal heuristics, branching, cutting planes, node selection and solver configuration decisions. This paper presents a survey of such approaches, addressing the vision of integration of machine learning and mathematical optimization as complementary technologies, and how this integration can benefit MILP solving. In particular, we give detailed attention to machine learning algorithms that automatically optimize some metric of branch-and-bound efficiency. We also address how to represent MILPs in the context of applying learning algorithms, MILP benchmarks and software.
翻訳日:2024-02-09 15:53:58 公開日:2024-02-08
# 機能増強を用いた深層学習による心疾患リスク予測

Heart disease risk prediction using deep learning techniques with feature augmentation ( http://arxiv.org/abs/2402.05495v1 )

ライセンス: Link先を確認
Mar\'ia Teresa Garc\'ia-Ord\'as, Mart\'in Bay\'on-Guti\'errez, Carmen Benavides, Jose Aveleira-Mata and Jos\'e Alberto Ben\'itez-Andrades(参考訳) 心臓血管疾患は一般市民にとって最大の死亡リスクの1つである。 心疾患の遅発性検出は、患者が生存する可能性が高い。 年齢、性別、コレステロール値、血糖値、心拍数などの要因は、生命を脅かす心臓問題に影響を及ぼすことが知られているが、多くの変数があるため、専門家がこの情報を考慮に入れている各患者を評価することはしばしば困難である。 本論文は,患者が心血管疾患に罹患するリスクがあるかどうかを評価するための特徴増強手法と併用したディープラーニング手法を提案する。 提案手法は技術手法の他の状態を4.4%上回る結果となり,90%の精度が得られた。

Cardiovascular diseases state as one of the greatest risks of death for the general population. Late detection in heart diseases highly conditions the chances of survival for patients. Age, sex, cholesterol level, sugar level, heart rate, among other factors, are known to have an influence on life-threatening heart problems, but, due to the high amount of variables, it is often difficult for an expert to evaluate each patient taking this information into account. In this manuscript, the authors propose using deep learning methods, combined with feature augmentation techniques for evaluating whether patients are at risk of suffering cardiovascular disease. The results of the proposed methods outperform other state of the art methods by 4.4%, leading to a precision of a 90%, which presents a significant improvement, even more so when it comes to an affliction that affects a large population.
翻訳日:2024-02-09 15:53:36 公開日:2024-02-08
# オンデバイスモデルのホワイトボックス攻撃の調査

Investigating White-Box Attacks for On-Device Models ( http://arxiv.org/abs/2402.05493v1 )

ライセンス: Link先を確認
Mingyi Zhou, Xiang Gao, Jing Wu, Kui Liu, Hailong Sun, Li Li(参考訳) 多くのモバイルアプリがディープラーニング機能を活用している。 しかし、オンデバイスモデルは、対応するモバイルアプリから簡単に抽出できるため、攻撃に対して脆弱である。 既存のデバイス上の攻撃アプローチではブラックボックス攻撃しか発生せず、ホワイトボックス戦略よりも効率的で効率的である。 これは、TFLiteのようなモバイルディープラーニングフレームワークが、ホワイトボックス攻撃アルゴリズムに必要な勾配コンピューティングをサポートしていないためである。 そこで本研究では,デバイス上での攻撃の危険性を過小評価している。 デバイス上のモデルは、ホワイトボックス戦略によって直接攻撃できるだろうか? まず,オンデバイスモデルからデバッグ可能なバージョンへの変換の難しさを体系的に解析し,コンパイルされたオンデバイスtfliteモデルをデバッグ可能なモデルに自動変換するオンデバイスモデル(reom)のためのリバースエンジニアリングフレームワークを提案する。 具体的には、reomはまずコンパイルされたオンデバイスモデルからopen neural network exchangeフォーマットに変換し、次に削除できない部分を削除してデバッグ可能なdlモデルフォーマットに変換し、攻撃者がホワイトボックス設定を悪用できるようにする。 実験の結果,提案手法は244TFLiteモデル間の自動変換を実現するのに有効であることがわかった。 代理モデルを使った以前の攻撃と比較すると、REOMは攻撃者の攻撃成功率を100倍に抑えることができる。 さらに,ONNXプラットフォームにはモデルフォーマット交換のためのツールが豊富にあるため,ONNXプラットフォームに基づく提案手法は他のモデルフォーマットにも適用可能である。 我々の研究は、開発者がモデルデプロイメント戦略を慎重に検討し、デバイス上のモデルの脆弱性を評価するためにホワイトボックスメソッドを使うことを強調した。

Numerous mobile apps have leveraged deep learning capabilities. However, on-device models are vulnerable to attacks as they can be easily extracted from their corresponding mobile apps. Existing on-device attacking approaches only generate black-box attacks, which are far less effective and efficient than white-box strategies. This is because mobile deep learning frameworks like TFLite do not support gradient computing, which is necessary for white-box attacking algorithms. Thus, we argue that existing findings may underestimate the harmfulness of on-device attacks. To this end, we conduct a study to answer this research question: Can on-device models be directly attacked via white-box strategies? We first systematically analyze the difficulties of transforming the on-device model to its debuggable version, and propose a Reverse Engineering framework for On-device Models (REOM), which automatically reverses the compiled on-device TFLite model to the debuggable model. Specifically, REOM first transforms compiled on-device models into Open Neural Network Exchange format, then removes the non-debuggable parts, and converts them to the debuggable DL models format that allows attackers to exploit in a white-box setting. Our experimental results show that our approach is effective in achieving automated transformation among 244 TFLite models. Compared with previous attacks using surrogate models, REOM enables attackers to achieve higher attack success rates with a hundred times smaller attack perturbations. In addition, because the ONNX platform has plenty of tools for model format exchanging, the proposed method based on the ONNX platform can be adapted to other model formats. Our findings emphasize the need for developers to carefully consider their model deployment strategies, and use white-box methods to evaluate the vulnerability of on-device models.
翻訳日:2024-02-09 15:53:21 公開日:2024-02-08
# マルチタスクニューラルネットワークを用いたパーキンソン病の重症度判定

Determining the severity of Parkinson's disease in patients using a multi task neural network ( http://arxiv.org/abs/2402.05491v1 )

ライセンス: Link先を確認
Mar\'ia Teresa Garc\'ia-Ord\'as, Jos\'e Alberto Ben\'itez-Andrades, Jose Aveleira-Mata, Jos\'e-Manuel Alija-P\'erez and Carmen Benavides(参考訳) パーキンソン病は進行すると容易に診断できるが、早期診断は非常に困難である。 早期診断は症状を治療するために不可欠である。 日常生活に影響を与え、患者とその家族の生活の質を低下させ、また60歳以上の人のアルツハイマーに次いで2番目に多い神経変性疾患である。 現在、パーキンソン病の重症度予測に関するほとんどの研究は、疾患の進行段階において行われている。 本研究では,音声分析から容易に抽出できる変数の集合を分析し,非侵襲的手法であることを示す。 本稿では,異なる深層学習手法に基づく手法を2つの目的から提案する。 一方、重度のパーキンソン病または非重度のパーキンソン病に罹患しているかどうかを判断するためには、回帰法を用いて疾患の進化の度合いを判定する。 updr(unified parkinson's disease rating scale)は、モーターとラベルの両方を考慮し、最も良い結果が、同時に分類および回帰する混合多層パーセプトロン(mlp)を用いて得られ、得られたデータの最も重要な特徴を入力としてオートエンコーダを用いて取得する。 99.15%の成功率は、パーキンソン病またはパーキンソン病以外の重度のパーキンソン病に罹患しているかどうかを予測する問題で達成されている。 疾患関与予測問題の程度では、MSE(平均二乗誤差)が0.15である。 データの前処理と分類に完全なディープラーニングパイプラインを使用することは、パーキンソン氏が最先端の提案を上回っている分野において、非常に有望であることが証明されている。

Parkinson's disease is easy to diagnose when it is advanced, but it is very difficult to diagnose in its early stages. Early diagnosis is essential to be able to treat the symptoms. It impacts on daily activities and reduces the quality of life of both the patients and their families and it is also the second most prevalent neurodegenerative disorder after Alzheimer in people over the age of 60. Most current studies on the prediction of Parkinson's severity are carried out in advanced stages of the disease. In this work, the study analyzes a set of variables that can be easily extracted from voice analysis, making it a very non-intrusive technique. In this paper, a method based on different deep learning techniques is proposed with two purposes. On the one hand, to find out if a person has severe or non-severe Parkinson's disease, and on the other hand, to determine by means of regression techniques the degree of evolution of the disease in a given patient. The UPDRS (Unified Parkinson's Disease Rating Scale) has been used by taking into account both the motor and total labels, and the best results have been obtained using a mixed multi-layer perceptron (MLP) that classifies and regresses at the same time and the most important features of the data obtained are taken as input, using an autoencoder. A success rate of 99.15% has been achieved in the problem of predicting whether a person suffers from severe Parkinson's disease or non-severe Parkinson's disease. In the degree of disease involvement prediction problem case, a MSE (Mean Squared Error) of 0.15 has been obtained. Using a full deep learning pipeline for data preprocessing and classification has proven to be very promising in the field Parkinson's outperforming the state-of-the-art proposals.
翻訳日:2024-02-09 15:52:53 公開日:2024-02-08
# ソフトウェアエフォート推定の強化にAIを活用する - 包括的な研究とフレームワークの提案

Leveraging AI for Enhanced Software Effort Estimation: A Comprehensive Study and Framework Proposal ( http://arxiv.org/abs/2402.05484v1 )

ライセンス: Link先を確認
Nhi Tran, Tan Tran, Nam Nguyen(参考訳) 本稿は、2017年から2023年までの5年間のソフトウェア作業推定におけるAI技術の応用に関する広範な研究である。 従来の手法の限界を克服することで、精度と信頼性を向上させることを目指している。 ニューラルネットワーク(ANN)、サポートベクトルマシン(SVM)、線形回帰、ランダムフォレストなど、さまざまな機械学習モデルのパフォーマンス評価と比較により、最も効果的な手法が特定される。 提案されたAIベースのフレームワークは、プロジェクトの計画とリソース割り当てを強化する可能性を秘めており、ソフトウェアプロジェクトの取り組み見積の研究領域に寄与している。

This paper presents an extensive study on the application of AI techniques for software effort estimation in the past five years from 2017 to 2023. By overcoming the limitations of traditional methods, the study aims to improve accuracy and reliability. Through performance evaluation and comparison with diverse Machine Learning models, including Artificial Neural Network (ANN), Support Vector Machine (SVM), Linear Regression, Random Forest and other techniques, the most effective method is identified. The proposed AI-based framework holds the potential to enhance project planning and resource allocation, contributing to the research area of software project effort estimation.
翻訳日:2024-02-09 15:52:23 公開日:2024-02-08
# 表面筋電図信号に対する非侵入的神経質評価モデル

A Non-Intrusive Neural Quality Assessment Model for Surface Electromyography Signals ( http://arxiv.org/abs/2402.05482v1 )

ライセンス: Link先を確認
Cho-Yuan Lee, Kuan-Chen Wang, Kai-Chun Liu, Xugang Lu, Ping-Chen Yeh, and Yu Tsao(参考訳) 筋、特に心臓近くの領域における表面筋電図(sEMG)の測定を含む現実的なシナリオにおいて、汚染の主な原因の1つは心電図(ECG)信号の存在である。 本研究では,実世界のSEMGデータの品質をより効果的に評価するために,SEMG信号のSNRを予測する新しい非侵入モデルQASE-netを提案する。 QASE-netはCNN-BLSTMとアテンションメカニズムを組み合わせて、エンドツーエンドのトレーニング戦略に従う。 実験フレームワークは,2つのオープンアクセスデータベースであるNon-Invasive Adaptive Prosthetics DatabaseとMIT-BIH Normal Sinus Rhythm Databaseから,実世界のsEMGとECGデータを利用する。 実験の結果, 従来の評価モデルよりもQASE-netの方が優れており, 予測誤差が著しく減少し, 地中真実との線形相関が顕著であった。 これらの結果から,QASE-netがSEMG品質評価の信頼性と精度を大幅に向上させる可能性が示唆された。

In practical scenarios involving the measurement of surface electromyography (sEMG) in muscles, particularly those areas near the heart, one of the primary sources of contamination is the presence of electrocardiogram (ECG) signals. To assess the quality of real-world sEMG data more effectively, this study proposes QASE-net, a new non-intrusive model that predicts the SNR of sEMG signals. QASE-net combines CNN-BLSTM with attention mechanisms and follows an end-to-end training strategy. Our experimental framework utilizes real-world sEMG and ECG data from two open-access databases, the Non-Invasive Adaptive Prosthetics Database and the MIT-BIH Normal Sinus Rhythm Database, respectively. The experimental results demonstrate the superiority of QASE-net over the previous assessment model, exhibiting significantly reduced prediction errors and notably higher linear correlations with the ground truth. These findings show the potential of QASE-net to substantially enhance the reliability and precision of sEMG quality assessment in practical applications.
翻訳日:2024-02-09 15:52:13 公開日:2024-02-08
# 拡張ボース・ハバード模型の計測可能な絡み合い基準

Measurable entanglement criterion for extended Bose-Hubbard model ( http://arxiv.org/abs/2402.05477v1 )

ライセンス: Link先を確認
Mehmet Emre Tasgin and Hyunchul Nha(参考訳) 格子間の集合的絡み合いを目撃する実験的なアクセス可能な絡み合い基準を提案する。 ラマン散乱や飛行時間展開実験によって測定することができる。 例えば、モット絶縁体-スーパー流体とモット絶縁体-電荷密度波の相転移を目にする。

We present an experimentally--accessible entanglement criterion witnessing collective entanglement among lattice sites. It can be measured through Raman scattering or time-of-flight expansion experiments. It witnesses, for instance, Mott insulator--superfluid and Mott insulator--charge density wave phase transitions impressively.
翻訳日:2024-02-09 15:51:54 公開日:2024-02-08
# 降伏予測のための畳み込み視覚トランスについて

On Convolutional Vision Transformers for Yield Prediction ( http://arxiv.org/abs/2402.05557v1 )

ライセンス: Link先を確認
Alvin Inderka, Florian Huber, Volker Steinhage(参考訳) 様々な手法がヒストグラムを用いたリモートセンシングデータに対して良好な収率予測を提供する一方で、視覚変換器は文献でのみ疎らに表現される。 畳み込み型視覚トランスフォーマー(cvt)は、現在最先端の結果を成し遂げている視覚トランスフォーマーを他の多くの視覚タスクで評価するためにテストされている。 CvTは、コンボリューションの利点とダイナミックアテンションとトランスフォーマーのグローバルコンテキスト融合の利点を組み合わせる。 XGBoostやCNNなど,広くテストされているメソッドよりもパフォーマンスが悪いが,Transformerは収量予測を改善する可能性がある。

While a variety of methods offer good yield prediction on histogrammed remote sensing data, vision Transformers are only sparsely represented in the literature. The Convolution vision Transformer (CvT) is being tested to evaluate vision Transformers that are currently achieving state-of-the-art results in many other vision tasks. CvT combines some of the advantages of convolution with the advantages of dynamic attention and global context fusion of Transformers. It performs worse than widely tested methods such as XGBoost and CNNs, but shows that Transformers have potential to improve yield prediction.
翻訳日:2024-02-09 15:42:48 公開日:2024-02-08
# 深層学習を用いた超音波画像における手根管症候群のワンストップ自動診断システム

One-Stop Automated Diagnostic System for Carpal Tunnel Syndrome in Ultrasound Images Using Deep Learning ( http://arxiv.org/abs/2402.05554v1 )

ライセンス: Link先を確認
Jiayu Peng, Jiajun Zeng, Manlin Lai, Ruobing Huang, Dong Ni, Zhenzhou Li(参考訳) 目的: 超音波検査は手根管症候群(CTS)の診断に特有な利点があり, 中央神経(MN)を同定し, CTSの診断は検査者の専門性に大きく依存する。 この問題を軽減するため,1ストップ自動cts診断システム(osa-ctsd)を開発し,コンピュータ支援診断ツールとしての有効性を評価した。 方法: リアルタイムMN記述, 正確な生体計測, 説明可能なCTS診断をOSA-CTSDという統合フレームワークに組み合わせた。 簡単なスキャニングプロトコルを用いて,90本の標準手首と40本のCTS手首のUSビデオから32,301枚の静止画像を収集し,評価を行った。 その結果,HD95スコアは7.21px,ASSDスコアは2.64px,Diceスコアは85.78%,IoUスコアは76.00%であった。 読者調査では、cts分類における経験者の平均性能と同等のパフォーマンスを示したが、分類基準では経験不足の放射線科医の成績を上回っていた(例えば、精度スコア3.59%、f1スコア5.85%)。 結論: OSA-CTSDは, リアルタイム, 自動化, 臨床解釈性の利点を生かして, 有望な診断性能を示した。 このようなツールの応用は、検査者の専門知識への依存を減らすだけでなく、CTS診断プロセスの今後の標準化を推進し、患者と放射線技師の両方に利益をもたらす。

Objective: Ultrasound (US) examination has unique advantages in diagnosing carpal tunnel syndrome (CTS) while identifying the median nerve (MN) and diagnosing CTS depends heavily on the expertise of examiners. To alleviate this problem, we aimed to develop a one-stop automated CTS diagnosis system (OSA-CTSD) and evaluate its effectiveness as a computer-aided diagnostic tool. Methods: We combined real-time MN delineation, accurate biometric measurements, and explainable CTS diagnosis into a unified framework, called OSA-CTSD. We collected a total of 32,301 static images from US videos of 90 normal wrists and 40 CTS wrists for evaluation using a simplified scanning protocol. Results: The proposed model showed better segmentation and measurement performance than competing methods, reporting that HD95 score of 7.21px, ASSD score of 2.64px, Dice score of 85.78%, and IoU score of 76.00%, respectively. In the reader study, it demonstrated comparable performance with the average performance of the experienced in classifying the CTS, while outperformed that of the inexperienced radiologists in terms of classification metrics (e.g., accuracy score of 3.59% higher and F1 score of 5.85% higher). Conclusion: The OSA-CTSD demonstrated promising diagnostic performance with the advantages of real-time, automation, and clinical interpretability. The application of such a tool can not only reduce reliance on the expertise of examiners, but also can help to promote the future standardization of the CTS diagnosis process, benefiting both patients and radiologists.
翻訳日:2024-02-09 15:42:36 公開日:2024-02-08
# チェビシェフとビット複雑性を伴う多項式時間で任意の温度での量子ハミルトンの学習

Learning quantum Hamiltonians at any temperature in polynomial time with Chebyshev and bit complexity ( http://arxiv.org/abs/2402.05552v1 )

ライセンス: Link先を確認
Ales Wodecki and Jakub Marecek(参考訳) 我々は、Gibs状態のコピーを既知の逆温度で与えられた局所量子ハミルトニアンを、Haah et alに従って学習する問題を考察する。 [2108.04842]とBakshiら。 [arXiv:2310.02243] 我々の主な技術的貢献は、チェビシェフ展開に基づく指数関数の新しい平坦多項式近似であり、多項式最適化問題として量子ハミルトニアンを学習することができる。 これは、多項式ビットの複雑さが慎重な分析を必要とする(O'Donnell, ITCS 2017)モーメント/SOS緩和の恩恵を受けることができる。 最後に、双対相互作用グラフが有界次数である$k$局所ハミルトニアンの学習は、穏やかな仮定の下で多項式時間で実行されることを示す。

We consider the problem of learning local quantum Hamiltonians given copies of their Gibbs state at a known inverse temperature, following Haah et al. [2108.04842] and Bakshi et al. [arXiv:2310.02243]. Our main technical contribution is a new flat polynomial approximation of the exponential function based on the Chebyshev expansion, which enables the formulation of learning quantum Hamiltonians as a polynomial optimization problem. This, in turn, can benefit from the use of moment/SOS relaxations, whose polynomial bit complexity requires careful analysis [O'Donnell, ITCS 2017]. Finally, we show that learning a $k$-local Hamiltonian, whose dual interaction graph is of bounded degree, runs in polynomial time under mild assumptions.
翻訳日:2024-02-09 15:42:06 公開日:2024-02-08
# 効率的な表現中立性推定と顔認識ユーティリティ予測への応用

Efficient Expression Neutrality Estimation with Application to Face Recognition Utility Prediction ( http://arxiv.org/abs/2402.05548v1 )

ライセンス: Link先を確認
Marcel Grimmer, Raymond N. J. Veldhuis, Christoph Busch(参考訳) バイオメトリックシステムの認識性能は、比較されたバイオメトリック標本の品質に大きく依存する。 ISO/IEC 29794-5の委員会草案は、顔画像品質の共通理解とシステム相互運用性の実現を目標として、認識性能に影響を与える多くのコンポーネント品質要素の1つとして表現中立性を導入している。 本研究では,7つのデータセットを用いて表情中立性を評価するために分類器を訓練する。 我々は,その分類と顔認識ユーティリティ予測能力を評価するために,広範な性能ベンチマークを行う。 実験により,各分類器が「中性」と「非中性」を区別する方法に有意差が認められた。 Random Forests と AdaBoost の分類器は、非ニュートラル表情を高い精度で区別するのに最も適しているが、顔認識ユーティリティの予測において、Support Vector Machines と比較すると性能が劣る。

The recognition performance of biometric systems strongly depends on the quality of the compared biometric samples. Motivated by the goal of establishing a common understanding of face image quality and enabling system interoperability, the committee draft of ISO/IEC 29794-5 introduces expression neutrality as one of many component quality elements affecting recognition performance. In this study, we train classifiers to assess facial expression neutrality using seven datasets. We conduct extensive performance benchmarking to evaluate their classification and face recognition utility prediction abilities. Our experiments reveal significant differences in how each classifier distinguishes "neutral" from "non-neutral" expressions. While Random Forests and AdaBoost classifiers are most suitable for distinguishing neutral from non-neutral facial expressions with high accuracy, they underperform compared to Support Vector Machines in predicting face recognition utility.
翻訳日:2024-02-09 15:41:50 公開日:2024-02-08
# コミュニケーション型医療コーチングにおける大規模言語モデルのベンチマーク:新しいシステムとデータセット

Benchmarking Large Language Models on Communicative Medical Coaching: a Novel System and Dataset ( http://arxiv.org/abs/2402.05547v1 )

ライセンス: Link先を確認
Hengguan Huang, Songtao Wang, Hongfu Liu, Hao Wang and Ye Wang(参考訳) 医療における自然言語処理(NLP)の伝統的な応用は、主に患者中心のサービスに焦点を合わせており、医療対話システムなどを通じて患者との対話やケア提供を促進する。 しかし、NLPが経験の浅い医師に利益をもたらす可能性、特にコミュニケーション・メディカル・コーチングなどの分野では明らかにされていない。 統合型AI協調フレームワークである 'ChatCoach' を紹介する。 この枠組み内では、患者エージェントとコーチングエージェントの両方が、相談中の医療コミュニケーションスキルを実践する医療学習者を支援する。 従来の対話システムとは異なり、ChatCoachは、医師が患者エージェントと医療対話を行うことができるシミュレーション環境を提供する。 同時に、コーチングエージェントが医師にリアルタイムのフィードバックを提供する。 そこで我々はChatCoachシステムを構築するために,ChatGPTやLlama2といった大規模言語モデルを統合したデータセットを開発し,コミュニケーション型医療コーチングタスクの有効性を評価する。 比較分析の結果,Llama2はChatGPTのプロンプトベースアプローチよりも優れていることがわかった。

Traditional applications of natural language processing (NLP) in healthcare have predominantly focused on patient-centered services, enhancing patient interactions and care delivery, such as through medical dialogue systems. However, the potential of NLP to benefit inexperienced doctors, particularly in areas such as communicative medical coaching, remains largely unexplored. We introduce ``ChatCoach,'' an integrated human-AI cooperative framework. Within this framework, both a patient agent and a coaching agent collaboratively support medical learners in practicing their medical communication skills during consultations. Unlike traditional dialogue systems, ChatCoach provides a simulated environment where a human doctor can engage in medical dialogue with a patient agent. Simultaneously, a coaching agent provides real-time feedback to the doctor. To construct the ChatCoach system, we developed a dataset and integrated Large Language Models such as ChatGPT and Llama2, aiming to assess their effectiveness in communicative medical coaching tasks. Our comparative analysis demonstrates that instruction-tuned Llama2 significantly outperforms ChatGPT's prompting-based approaches.
翻訳日:2024-02-09 15:41:34 公開日:2024-02-08
# 大規模モデルに対するオフラインアクター・クリティカル強化学習尺度

Offline Actor-Critic Reinforcement Learning Scales to Large Models ( http://arxiv.org/abs/2402.05546v1 )

ライセンス: Link先を確認
Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller(参考訳) オフラインアクター批判強化学習は,トランスフォーマーなどの大規模モデルにスケール可能であることを示し,教師あり学習と同様のスケーリング法則に従う。 オフラインのアクタ-クリティックアルゴリズムは,132の連続制御タスクにおいて,サブ最適化とエキスパート動作の両方を含む大規模データセット上でのマルチタスクトレーニングのための強固で教師付き,行動クローンベースラインを上回ることができる。 我々はPerceiverベースのアクター批判モデルを導入し、オフラインRLを自己および横断的モジュールで動作させるために必要な重要なモデル機能を明らかにする。 全体としては: 一 簡易オフラインアクター評論家アルゴリズムは、行動クローンの現在支配的なパラダイムから徐々に離れていくための自然な選択である。 ii) オフラインRLにより,複数ドメインを同時にマスターするマルチタスクポリシーを,準最適実験や自己生成データから学習することができる。

We show that offline actor-critic reinforcement learning can scale to large models - such as transformers - and follows similar scaling laws as supervised learning. We find that offline actor-critic algorithms can outperform strong, supervised, behavioral cloning baselines for multi-task training on a large dataset containing both sub-optimal and expert behavior on 132 continuous control tasks. We introduce a Perceiver-based actor-critic model and elucidate the key model features needed to make offline RL work with self- and cross-attention modules. Overall, we find that: i) simple offline actor critic algorithms are a natural choice for gradually moving away from the currently predominant paradigm of behavioral cloning, and ii) via offline RL it is possible to learn multi-task policies that master many domains simultaneously, including real robotics tasks, from sub-optimal demonstrations or self-generated data.
翻訳日:2024-02-09 15:41:17 公開日:2024-02-08
# 合成データを用いた音声合成におけるアドレス抽出のための名前付きエンティティ認識

Named Entity Recognition for Address Extraction in Speech-to-Text Transcriptions Using Synthetic Data ( http://arxiv.org/abs/2402.05545v1 )

ライセンス: Link先を確認
Bibi\'ana Laj\v{c}inov\'a, Patrik Val\'abek and Michal Spi\v{s}iak(参考訳) 本稿では,BERTアーキテクチャを用いた双方向エンコーダ表現(BERT)に基づく名前付きエンティティ認識(NER)モデルの構築手法を提案する。 このNERモデルは、音声からテキストへの書き起こしから取得したデータからアドレス部分を抽出する。 実データが少ないため、GPT APIを用いた合成データセットが生成される。 この人工データにおける音声言語変動の模倣の重要性が強調される。 合成データのみを訓練したNERモデルの性能を,小さな実データを用いて評価した。

This paper introduces an approach for building a Named Entity Recognition (NER) model built upon a Bidirectional Encoder Representations from Transformers (BERT) architecture, specifically utilizing the SlovakBERT model. This NER model extracts address parts from data acquired from speech-to-text transcriptions. Due to scarcity of real data, a synthetic dataset using GPT API was generated. The importance of mimicking spoken language variability in this artificial data is emphasized. The performance of our NER model, trained solely on synthetic data, is evaluated using small real test dataset.
翻訳日:2024-02-09 15:41:01 公開日:2024-02-08
# omicsデータに適用する機械学習

Machine learning applied to omics data ( http://arxiv.org/abs/2402.05543v1 )

ライセンス: Link先を確認
Aida Calvi\~no and Almudena Moreno-Ribera and Silvia Pineda(参考訳) この章では、オミクスデータのコンテキストにおける機械学習技術の使用について説明する。 膵癌におけるゲノミクスと免疫学の統合解析にRandom ForestとPinalized Multinomial Logistic Regressionを併用して検討を行った。 さらに,前述したモデルの予測能力の低さを克服するために,関連ルールと予測目的の利用を提案する。 最後に,107個の腫瘍性膵サンプルと117,486個の生殖細胞SNPからなるTCGAから得られた実データに本手法を適用し,膵癌における免疫学的浸潤を予測する方法の有効性を示した。

In this chapter we illustrate the use of some Machine Learning techniques in the context of omics data. More precisely, we review and evaluate the use of Random Forest and Penalized Multinomial Logistic Regression for integrative analysis of genomics and immunomics in pancreatic cancer. Furthermore, we propose the use of association rules with predictive purposes to overcome the low predictive power of the previously mentioned models. Finally, we apply the reviewed methods to a real data set from TCGA made of 107 tumoral pancreatic samples and 117,486 germline SNPs, showing the good performance of the proposed methods to predict the immunological infiltration in pancreatic cancer.
翻訳日:2024-02-09 15:40:53 公開日:2024-02-08
# ロバストかつ公正な学習のための触媒としての強化学習--顧客貢献のダイナミクスの解明

Reinforcement Learning as a Catalyst for Robust and Fair Federated Learning: Deciphering the Dynamics of Client Contributions ( http://arxiv.org/abs/2402.05541v1 )

ライセンス: Link先を確認
Jialuo He, Wei Chen, Xiaojin Zhang(参考訳) フェデレーション学習(fl)の最近の進歩は、複数の分散デバイスやローカルデータサンプルを持つシステムでトレーニングすることで、ユーザのプライバシを維持するモデルを生み出している。 しかし、これらの戦略は、しばしば、統計的不均一性と敵攻撃に対する脆弱性の固有の課題を無視し、モデルの堅牢性と公正性を低下させる。 パーソナライズされたFL戦略は、個々のクライアントプロファイルに適合するようにモデルを調整することで多少の欠点を提供するが、サーバ側の集約脆弱性を無視する傾向がある。 そこで本稿では,これらの問題に対処するために,深層強化学習を活用し,アグリゲーション中のクライアント貢献を適応的に最適化し,悪意のあるクライアントに対するモデルロバスト性と,非特定分散環境における参加者間の公平性を高めるための新しいフレームワークである強化連合学習(rfl)を提案する。 この目的を達成するために,集約重みの連続制御のための深い決定論的ポリシー勾配に基づくアルゴリズム,モデルパラメータ距離に基づく革新的なクライアント選択法,検証セット性能による報酬機構を含む注意深いアプローチを提案する。 実証的な実験により、ロバスト性の観点からは、RFLは最先端の手法よりも優れ、同等の公平さを維持し、弾力性と公正なフェデレーションシステムを構築するための有望なソリューションを提供する。

Recent advancements in federated learning (FL) have produced models that retain user privacy by training across multiple decentralized devices or systems holding local data samples. However, these strategies often neglect the inherent challenges of statistical heterogeneity and vulnerability to adversarial attacks, which can degrade model robustness and fairness. Personalized FL strategies offer some respite by adjusting models to fit individual client profiles, yet they tend to neglect server-side aggregation vulnerabilities. To address these issues, we propose Reinforcement Federated Learning (RFL), a novel framework that leverages deep reinforcement learning to adaptively optimize client contribution during aggregation, thereby enhancing both model robustness against malicious clients and fairness across participants under non-identically distributed settings. To achieve this goal, we propose a meticulous approach involving a Deep Deterministic Policy Gradient-based algorithm for continuous control of aggregation weights, an innovative client selection method based on model parameter distances, and a reward mechanism guided by validation set performance. Empirically, extensive experiments demonstrate that, in terms of robustness, RFL outperforms the state-of-the-art methods, while maintaining comparable levels of fairness, offering a promising solution to build resilient and fair federated systems.
翻訳日:2024-02-09 15:40:41 公開日:2024-02-08
# ソーシャルメディア投稿における摂食障害検出能力向上のための文脈知識付き機械学習モデルの構築

Empowering machine learning models with contextual knowledge for enhancing the detection of eating disorders in social media posts ( http://arxiv.org/abs/2402.05536v1 )

ライセンス: Link先を確認
Jos\'e Alberto Ben\'itez-Andrades, Mar\'ia Teresa Garc\'ia-Ord\'as, Mayra Russo, Ahmad Sakor, Luis Daniel Fernandes Rotger and Maria-Esther Vidal(参考訳) ソーシャルネットワークは情報共有に不可欠であり、特に医療分野では病気や治療について議論している。 しかしながら、これらのプラットフォームは投稿を短いテキストとして取り上げ、コンテキストを理解する上で人工知能(AI)の課題を提起することが多い。 我々は,コミュニティが保持する知識グラフ(Wikidataなど)と深層学習を組み合わせた新しいハイブリッドアプローチを導入し,ソーシャルメディア投稿の分類を強化した。 この方法は、高度なエンティティ認識と(falcon 2.0のような)リンカを使用して、短いポストエンティティと知識グラフを接続する。 知識グラフ埋め込み(KGE)とコンテキスト化された単語埋め込み(BERTなど)は、これらのポストのリッチでコンテキストベースの表現を作成するために使用される。 我々は、特に食事障害(例えば食欲不振、ブリミア)に関連するポストを特定し、早期診断において医療提供者を支援することに焦点を当てている。 我々は,摂食障害に関する2000ツイートのデータセット上で,単語埋め込みと知識グラフ情報の統合が予測モデルの信頼性を高めることを発見した。 本手法は、精神障害を示すパターンの発見を支援することにより、パーソナライズされた医療の早期発見と正確な診断を改善することを目的とする。

Social networks are vital for information sharing, especially in the health sector for discussing diseases and treatments. These platforms, however, often feature posts as brief texts, posing challenges for Artificial Intelligence (AI) in understanding context. We introduce a novel hybrid approach combining community-maintained knowledge graphs (like Wikidata) with deep learning to enhance the categorization of social media posts. This method uses advanced entity recognizers and linkers (like Falcon 2.0) to connect short post entities to knowledge graphs. Knowledge graph embeddings (KGEs) and contextualized word embeddings (like BERT) are then employed to create rich, context-based representations of these posts. Our focus is on the health domain, particularly in identifying posts related to eating disorders (e.g., anorexia, bulimia) to aid healthcare providers in early diagnosis. We tested our approach on a dataset of 2,000 tweets about eating disorders, finding that merging word embeddings with knowledge graph information enhances the predictive models' reliability. This methodology aims to assist health experts in spotting patterns indicative of mental disorders, thereby improving early detection and accurate diagnosis for personalized medicine.
翻訳日:2024-02-09 15:40:15 公開日:2024-02-08
# NCRF:ハンドオブジェクトインタラクションの自由視点レンダリングのための神経接触放射場

NCRF: Neural Contact Radiance Fields for Free-Viewpoint Rendering of Hand-Object Interaction ( http://arxiv.org/abs/2402.05532v1 )

ライセンス: Link先を確認
Zhongqun Zhang and Jifei Song and Eduardo P\'erez-Pellitero and Yiren Zhou and Hyung Jin Chang and Ale\v{s} Leonardis(参考訳) ハンドオブジェクトインタラクションのモデリングは、3dコンピュータビジョンにおける根本的な課題である。 この分野で達成された顕著な進歩にもかかわらず、既存の手法は、手と物体間の重度の相互閉塞に起因する劣化したレンダリング品質に悩まされ、手と物体の相互作用をフォトリアリスティックに合成することができない。 これらの課題に対処するために,手動インタラクションをスパースビデオから再構築する,新しい自由視点レンダリングフレームワークであるNCRF(Neural Contact Radiance Field)を提案する。 特に提案されているNCRFフレームワークは2つの重要なコンポーネントから構成されている。 (a)手と物体との望ましい接触を実現するために、3Dクエリポイントから正確な接触場を予測する接触最適化フィールド。 b) 静的な正準空間における暗黙的な手対象表現を学習するための手対象の神経放射場は、特別に設計された手対象の運動場と相まって、観察とカノニカル対応を生成する。 我々はこれらの重要な要素を共同で学習し、視覚的および幾何学的制約で相互に助け合い、規則化し、フォトリアリスティックな新規ビュー合成を実現する高品質な手オブジェクト再構成を実現する。 ho3dとdexycbデータセットに関する広範な実験は、レンダリング品質とポーズ推定精度の両方において、我々のアプローチが現在の最先端を上回っていることを示している。

Modeling hand-object interactions is a fundamentally challenging task in 3D computer vision. Despite remarkable progress that has been achieved in this field, existing methods still fail to synthesize the hand-object interaction photo-realistically, suffering from degraded rendering quality caused by the heavy mutual occlusions between the hand and the object, and inaccurate hand-object pose estimation. To tackle these challenges, we present a novel free-viewpoint rendering framework, Neural Contact Radiance Field (NCRF), to reconstruct hand-object interactions from a sparse set of videos. In particular, the proposed NCRF framework consists of two key components: (a) A contact optimization field that predicts an accurate contact field from 3D query points for achieving desirable contact between the hand and the object. (b) A hand-object neural radiance field to learn an implicit hand-object representation in a static canonical space, in concert with the specifically designed hand-object motion field to produce observation-to-canonical correspondences. We jointly learn these key components where they mutually help and regularize each other with visual and geometric constraints, producing a high-quality hand-object reconstruction that achieves photo-realistic novel view synthesis. Extensive experiments on HO3D and DexYCB datasets show that our approach outperforms the current state-of-the-art in terms of both rendering quality and pose estimation accuracy.
翻訳日:2024-02-09 15:39:55 公開日:2024-02-08
# エージェントサブサンプリングとローカル更新による非同期拡散学習

Asynchronous Diffusion Learning with Agent Subsampling and Local Updates ( http://arxiv.org/abs/2402.05529v1 )

ライセンス: Link先を確認
Elsa Rizk, Kun Yuan, Ali H. Sayed(参考訳) 本研究では,各ローカルデータセットに適合する理想的なグローバルモデルを見つけることを目的として,非同期に動作するエージェントのネットワークについて検討する。 我々の仮定では、各エージェントはアルゴリズム全体およびその近隣の特定のサブセットにいつ参加するかを独立に選択し、任意の瞬間に協調する。 エージェントが参加を選択すると、サブサンプリングされた近隣に結果を伝達する前に、複数のローカルアップデートを行う。 この設定下では,結果の非同期拡散戦略が平均二乗誤差感覚で安定であることを証明し,フェデレーション学習に特有な性能保証を提供する。 この知見を数値シミュレーションで示す。

In this work, we examine a network of agents operating asynchronously, aiming to discover an ideal global model that suits individual local datasets. Our assumption is that each agent independently chooses when to participate throughout the algorithm and the specific subset of its neighbourhood with which it will cooperate at any given moment. When an agent chooses to take part, it undergoes multiple local updates before conveying its outcomes to the sub-sampled neighbourhood. Under this setup, we prove that the resulting asynchronous diffusion strategy is stable in the mean-square error sense and provide performance guarantees specifically for the federated learning setting. We illustrate the findings with numerical simulations.
翻訳日:2024-02-09 15:39:30 公開日:2024-02-08
# エキスパートの混在によるバッファオーバーフロー

Buffer Overflow in Mixture of Experts ( http://arxiv.org/abs/2402.05526v1 )

ライセンス: Link先を確認
Jamie Hayes, Ilia Shumailov, Itay Yona(参考訳) 専門家の混合(moe)は、推論コストを安定させつつ、大規模基礎モデルのスケーリングにおいて重要な要素となっている。 クロスバッチ依存のエキスパートルーティング戦略は攻撃に対して脆弱であることを示す。 悪意のあるクエリはモデルに送信され、同じバッチでグループ化されている場合、他の良質なクエリに対するモデルの出力に影響する可能性がある。 玩具実験環境では概念実証攻撃によってこれを実証する。

Mixture of Experts (MoE) has become a key ingredient for scaling large foundation models while keeping inference costs steady. We show that expert routing strategies that have cross-batch dependencies are vulnerable to attacks. Malicious queries can be sent to a model and can affect a model's output on other benign queries if they are grouped in the same batch. We demonstrate this via a proof-of-concept attack in a toy experimental setting.
翻訳日:2024-02-09 15:39:17 公開日:2024-02-08
# 個人モデルに基づくオフライン強化学習

Differentially Private Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2402.05525v1 )

ライセンス: Link先を確認
Alexandre Rio, Merwan Barlier, Igor Colin, Albert Thomas(参考訳) オフラインの強化学習とプライバシ保証に対処し、データセットの個々のトラジェクトリに対して異なるプライベートなポリシーをトレーニングすることを目的としています。 これを実現するために,差分プライバシー保証付きmbrlアルゴリズムであるdp-morlを導入する。 環境のプライベートモデルは、軌道レベルで異なるプライバシ保証を提供するニューラルネットワークのトレーニング方法であるDP-FedAvgを使用して、オフラインデータから最初に学習される。 次に、モデルに基づくポリシー最適化を用いて、システムとのさらなるインタラクションや入力データへのアクセスなしに、(有料)プライベートモデルからポリシーを導出する。 DP-MORLがオフラインデータからプライベートRLエージェントのトレーニングを可能にすることを実証的に示し、さらにこの設定におけるプライバシの価格について概説する。

We address offline reinforcement learning with privacy guarantees, where the goal is to train a policy that is differentially private with respect to individual trajectories in the dataset. To achieve this, we introduce DP-MORL, an MBRL algorithm coming with differential privacy guarantees. A private model of the environment is first learned from offline data using DP-FedAvg, a training method for neural networks that provides differential privacy guarantees at the trajectory level. Then, we use model-based policy optimization to derive a policy from the (penalized) private model, without any further interaction with the system or access to the input data. We empirically show that DP-MORL enables the training of private RL agents from offline data and we furthermore outline the price of privacy in this setting.
翻訳日:2024-02-09 15:39:12 公開日:2024-02-08
# DAPlankton: きめ細かいドメイン適応による多機能プランクトン認識のためのベンチマークデータセット

DAPlankton: Benchmark Dataset for Multi-instrument Plankton Recognition via Fine-grained Domain Adaptation ( http://arxiv.org/abs/2402.05615v1 )

ライセンス: Link先を確認
Daniel Batrakhanov, Tuomas Eerola, Kaisa Kraft, Lumi Haraguchi, Lasse Lensu, Sanna Suikkanen, Mar\'ia Teresa Camarena-G\'omez, Jukka Sepp\"al\"a, Heikki K\"alvi\"ainen(参考訳) プランクトン認識は、様々な環境側面を研究する新しい可能性を提供し、ドメイン適応(da)法を開発する興味深い実世界コンテキストを提供する。 異なる撮像装置は、一般的なプランクトン認識法の開発を妨げるデータセット間のドメインシフトを引き起こす。 これに対する有望な対策はDAであり、ある楽器で訓練されたモデルを他の楽器に適応させることである。 本稿では,異なる機器で得られた植物プランクトン画像からなるdaplanktonと呼ばれる新しいdaデータセットを提案する。 Phytoplanktonは、タスクのきめ細かい性質と現実世界のデータセットの高レベルの不均衡のため、困難なDA問題を提供する。 DAPlanktonは2つのサブセットから構成される。 DAPlankton_LABには、最小限のラベルの不確実性を持つバランスデータセットを提供する培養植物プランクトンのイメージが含まれている。 daplankton_seaはバルト海から収集された画像で構成され、大きなクラス内分散とクラス不均衡を伴う挑戦的な実世界データを提供する。 さらに、広く使われている3つのDA手法のベンチマーク比較を示す。

Plankton recognition provides novel possibilities to study various environmental aspects and an interesting real-world context to develop domain adaptation (DA) methods. Different imaging instruments cause domain shift between datasets hampering the development of general plankton recognition methods. A promising remedy for this is DA allowing to adapt a model trained on one instrument to other instruments. In this paper, we present a new DA dataset called DAPlankton which consists of phytoplankton images obtained with different instruments. Phytoplankton provides a challenging DA problem due to the fine-grained nature of the task and high class imbalance in real-world datasets. DAPlankton consists of two subsets. DAPlankton_LAB contains images of cultured phytoplankton providing a balanced dataset with minimal label uncertainty. DAPlankton_SEA consists of images collected from the Baltic Sea providing challenging real-world data with large intra-class variance and class imbalance. We further present a benchmark comparison of three widely used DA methods.
翻訳日:2024-02-09 15:31:08 公開日:2024-02-08
# RESMatch: 半監督マンナにおける表現セグメンテーションの参照

RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner ( http://arxiv.org/abs/2402.05589v1 )

ライセンス: Link先を確認
Ying Zang, Chenglong Fu, Runlong Cao, Didi Zhu, Min Zhang, Wenjun Hu, Lanyun Zhu, Tianrun Chen(参考訳) Referring Expression segmentation (RES)は、自由形式の言語記述に基づいて特定のインスタンスレベルのオブジェクトをローカライズするタスクであり、人間とAIの相互作用において重要なフロンティアとして現れている。 視覚とテキストの両方のコンテキストを複雑に理解し、しばしば広範なトレーニングデータを必要とする。 本稿では、データアノテーションへの依存を減らすことを目的とした、RESのための最初の半教師付き学習(SSL)アプローチであるRESMatchを紹介する。 複数のRESデータセットに対する大規模な検証は、RESMatchがベースラインアプローチを大幅に上回っており、新しい最先端技術を確立していることを示している。 既存のSSL技術は画像セグメンテーションに有効であるが、RESでは不足している。 自由形式の言語記述の理解やオブジェクト属性の変動性といった課題に直面したRESMatchでは、強化された強い摂動、テキスト拡張、擬似ラベル品質と強弱監視のための調整という、適応のトリフェクトを導入している。 この先駆的な研究は、表現セグメンテーションを参照するための半教師付き学習における将来の研究の基盤となる。

Referring expression segmentation (RES), a task that involves localizing specific instance-level objects based on free-form linguistic descriptions, has emerged as a crucial frontier in human-AI interaction. It demands an intricate understanding of both visual and textual contexts and often requires extensive training data. This paper introduces RESMatch, the first semi-supervised learning (SSL) approach for RES, aimed at reducing reliance on exhaustive data annotation. Extensive validation on multiple RES datasets demonstrates that RESMatch significantly outperforms baseline approaches, establishing a new state-of-the-art. Although existing SSL techniques are effective in image segmentation, we find that they fall short in RES. Facing the challenges including the comprehension of free-form linguistic descriptions and the variability in object attributes, RESMatch introduces a trifecta of adaptations: revised strong perturbation, text augmentation, and adjustments for pseudo-label quality and strong-weak supervision. This pioneering work lays the groundwork for future research in semi-supervised learning for referring expression segmentation.
翻訳日:2024-02-09 15:30:54 公開日:2024-02-08
# AutoAugmentが必要なのは - 低リソースレジームにおけるルールベースの拡張メソッドの強化

AutoAugment Is What You Need: Enhancing Rule-based Augmentation Methods in Low-resource Regimes ( http://arxiv.org/abs/2402.05584v1 )

ライセンス: Link先を確認
Juhwan Choi, Kyohoon Jin, Junho Lee, Sangmin Song and Youngbin Kim(参考訳) テキストデータの増大は、文の離散的な性質のために複雑な問題である。 ルールベースの拡張メソッドは、その単純さのため、現実世界のアプリケーションで広く採用されているが、潜在的な意味的損傷に苦しんでいる。 従来の研究者は、この問題を緩和するためにラベルの平滑化を利用したソフトラベル(softEDA)によるデータ拡張を簡単に提案していた。 しかし、各モデルとデータセットに最適な要素を見つけることは難しいため、現実のアプリケーションでSoftEDAを使用することは依然として困難である。 本稿では,この問題に対する適応型自動学習を提案する。 実験結果から,提案手法は既存の拡張法を強化し,ルールベース手法は最先端の事前学習言語モデルを強化できることが示唆された。 ソースコードを提供する。

Text data augmentation is a complex problem due to the discrete nature of sentences. Although rule-based augmentation methods are widely adopted in real-world applications because of their simplicity, they suffer from potential semantic damage. Previous researchers have suggested easy data augmentation with soft labels (softEDA), employing label smoothing to mitigate this problem. However, finding the best factor for each model and dataset is challenging; therefore, using softEDA in real-world applications is still difficult. In this paper, we propose adapting AutoAugment to solve this problem. The experimental results suggest that the proposed method can boost existing augmentation methods and that rule-based methods can enhance cutting-edge pre-trained language models. We offer the source code.
翻訳日:2024-02-09 15:30:34 公開日:2024-02-08
# エンド・ツー・エンド画像圧縮とデノイジング:コントラスト学習とマルチスケール・セルフオンの活用

Joint End-to-End Image Compression and Denoising: Leveraging Contrastive Learning and Multi-Scale Self-ONNs ( http://arxiv.org/abs/2402.05582v1 )

ライセンス: Link先を確認
Yuxin Xie, Li Yu, Farhad Pakdaman, Moncef Gabbouj(参考訳) ノイズの圧縮が本質的に困難であるため,ノイズ画像は画像圧縮アルゴリズムの課題である。 ノイズは高周波信号などの画像の詳細から容易に識別できないため、その存在は圧縮に必要な余分なビットを生み出す。 新たな学習画像圧縮パラダイムはコーデックのエンドツーエンド最適化を可能にするため, クリーンな画像特徴に頼ってデノナイジングを圧縮モデルに統合する試みが近年行われている。 しかし,これらの手法は高雑音レベル下での準最適性能を示し,様々なノイズタイプにまたがる一般化能力に欠ける。 本稿では,自己組織型操作型ニューラルネットワークからなるマルチスケールデノイザーを統合し,画像圧縮とデノイジングを行う新しい手法を提案する。 我々は,ノイズと高周波信号成分を区別するネットワーク能力を高めるために,ノイズとクリーン信号の相関性を強調し,コントラスト学習を用いる。 実験の結果, 提案手法の有効性は, レートゆらぎ性能とコーデック速度の両方において, 現状よりも優れていることがわかった。

Noisy images are a challenge to image compression algorithms due to the inherent difficulty of compressing noise. As noise cannot easily be discerned from image details, such as high-frequency signals, its presence leads to extra bits needed for compression. Since the emerging learned image compression paradigm enables end-to-end optimization of codecs, recent efforts were made to integrate denoising into the compression model, relying on clean image features to guide denoising. However, these methods exhibit suboptimal performance under high noise levels, lacking the capability to generalize across diverse noise types. In this paper, we propose a novel method integrating a multi-scale denoiser comprising of Self Organizing Operational Neural Networks, for joint image compression and denoising. We employ contrastive learning to boost the network ability to differentiate noise from high frequency signal components, by emphasizing the correlation between noisy and clean counterparts. Experimental results demonstrate the effectiveness of the proposed method both in rate-distortion performance, and codec speed, outperforming the current state-of-the-art.
翻訳日:2024-02-09 15:30:20 公開日:2024-02-08
# 大規模言語交叉モデルを用いた異なる次元の音声記録間の近接度の設定

Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models ( http://arxiv.org/abs/2402.05581v1 )

ライセンス: Link先を確認
Maxime Fily, Guillaume Wisniewski, Severine Guillaume, Gilles Adda, Alexis Michaud(参考訳) 低リソース言語研究の高度に制約された文脈では、事前学習されたモデルから音声のベクトル表現を調べ、音声信号に対する抽象化のレベルを決定する。 そこで本研究では,音声録音におけるabxテストを用いた非教師なし手法を提案する。 ABXテストは、与えられた特徴を符号化した多言語音声モデルによって計算された表現を決定する。 3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。 その結果,言語・言語特性の異なる記録から抽出した表現は,同じ線に沿って異なることがわかった。 1つのベクトルにより多くの音声信号を埋め込むことで言語外特性を識別できるのに対し、短いスニペットはセグメント情報を識別するのがよい。 この手法は完全に教師なしであり、未文書言語の比較研究のための新たな研究の道を開く可能性がある。

In the highly constrained context of low-resource language studies, we explore vector representations of speech from a pretrained model to determine their level of abstraction with regard to the audio signal. We propose a new unsupervised method using ABX tests on audio recordings with carefully curated metadata to shed light on the type of information present in the representations. ABX tests determine whether the representations computed by a multilingual speech model encode a given characteristic. Three experiments are devised: one on room acoustics aspects, one on linguistic genre, and one on phonetic aspects. The results confirm that the representations extracted from recordings with different linguistic/extra-linguistic characteristics differ along the same lines. Embedding more audio signal in one vector better discriminates extra-linguistic characteristics, whereas shorter snippets are better to distinguish segmental information. The method is fully unsupervised, potentially opening new research avenues for comparative work on under-documented languages.
翻訳日:2024-02-09 15:29:59 公開日:2024-02-08
# デジタルコンピュータは次元の呪いを破る:有限幾何学による適応境界

Digital Computers Break the Curse of Dimensionality: Adaptive Bounds via Finite Geometry ( http://arxiv.org/abs/2402.05576v1 )

ライセンス: Link先を確認
Anastasis Kratsios, A. Martina Neuman, Gudmund Pammer(参考訳) 機械学習の基礎の多くは、すべての入力空間と出力空間が無限であるという理想化された前提に依存している。 このコア仮定は、有限機械の精度、丸め、ramの制限によるデジタルコンピューティングの限界のために、実際には体系的に違反している。 要するに、デジタルコンピュータは有限格子上で$\mathbb{r}^d$で動作します。 これらの離散構造を利用して、実コンピュータ上でモデルを実装すると、統計的学習における次元性の呪いが体系的に壊れることを示す。 その結果,実世界のマシンに実装されたカーネルと深部ReLU MLPレジストレータの次元自由率を持つ新たな一般化境界が得られた。 この結果は、任意の有限距離空間上の確率測度と、1ドル=ワッサーシュタイン距離で測定された場合の、N$ i.d.サンプルに関連する経験的バージョンとの間の新しい非漸近的な測定結果の濃度を用いて導出される。 測定結果の標準濃度とは異なり、我々の境界における濃度速度はすべてのサンプルサイズに対して均一に保たず、代わりに与えられた任意の$N$に適応することができる。 これにより、現実的なサンプルサイズに対して、より厳密な境界が得られ、かつ、最大最悪のケースレートが$\mathcal{O}(1/N^{1/2})$である。 我々の結果は、計量埋め込み理論と最適輸送を組み合わせた新しい手法に基づいている。

Many of the foundations of machine learning rely on the idealized premise that all input and output spaces are infinite, e.g.~$\mathbb{R}^d$. This core assumption is systematically violated in practice due to digital computing limitations from finite machine precision, rounding, and limited RAM. In short, digital computers operate on finite grids in $\mathbb{R}^d$. By exploiting these discrete structures, we show the curse of dimensionality in statistical learning is systematically broken when models are implemented on real computers. Consequentially, we obtain new generalization bounds with dimension-free rates for kernel and deep ReLU MLP regressors, which are implemented on real-world machines. Our results are derived using a new non-asymptotic concentration of measure result between a probability measure over any finite metric space and its empirical version associated with $N$ i.i.d. samples when measured in the $1$-Wasserstein distance. Unlike standard concentration of measure results, the concentration rates in our bounds do not hold uniformly for all sample sizes $N$; instead, our rates can adapt to any given $N$. This yields significantly tighter bounds for realistic sample sizes while achieving the optimal worst-case rate of $\mathcal{O}(1/N^{1/2})$ for massive. Our results are built on new techniques combining metric embedding theory with optimal transport
翻訳日:2024-02-09 15:29:41 公開日:2024-02-08
# 確率帯域におけるグループ露出公正性とグループ内メリトクラシーの同時達成

Simultaneously Achieving Group Exposure Fairness and Within-Group Meritocracy in Stochastic Bandits ( http://arxiv.org/abs/2402.05575v1 )

ライセンス: Link先を確認
Subham Pokhriyal, Shweta Jain, Ganesh Ghalme, Swapnil Dhamal and Sujit Gujar(参考訳) 確率的多腕バンディット(mab)の公平性に対する既存のアプローチは、主に個々の腕への露出の保証に焦点を当てている。 アームが特定の属性によって自然にグループ化されるとき、二段階の公平性を考えるビレベルフェアネスを提案する。 最初のレベルでは、バイレベルフェアネスは各グループへの特定の最小露出を保証する。 グループ内の個々の腕に対するプルのバランスの取れない配分に対処するため,第2レベルでは,それぞれのアームがグループ内のメリットに従って引っ張られることを保証する,メリット主義的公平性を検討する。 我々の研究は、両レベルフェアネスを実現するために UCB ベースのアルゴリズムを適用することができることを示している。 一 グループ公開公正の保証及び保証 (二)各グループ内の個人レベルのメリトクラテスフェアネスを確保すること。 まず、後悔の境界を2つの構成要素に分解できることを示します。 (a)常勤の集団露光フェアネスによる後悔、及び (b)各グループ内の功労的公正性による後悔 提案するアルゴリズムbf-ucbは,これらの2つの後悔を最適にバランスさせ,後悔に対して$o(\sqrt{t})$の上限を達成する。 シミュレーション実験により、BF-UCBはサブ線形後悔を達成し、既存のアルゴリズムと比較してグループや個々人の露出の保証を提供し、不公平な制約を課さないUPBアルゴリズムに対する報酬は大幅に低下しないことを示した。

Existing approaches to fairness in stochastic multi-armed bandits (MAB) primarily focus on exposure guarantee to individual arms. When arms are naturally grouped by certain attribute(s), we propose Bi-Level Fairness, which considers two levels of fairness. At the first level, Bi-Level Fairness guarantees a certain minimum exposure to each group. To address the unbalanced allocation of pulls to individual arms within a group, we consider meritocratic fairness at the second level, which ensures that each arm is pulled according to its merit within the group. Our work shows that we can adapt a UCB-based algorithm to achieve a Bi-Level Fairness by providing (i) anytime Group Exposure Fairness guarantees and (ii) ensuring individual-level Meritocratic Fairness within each group. We first show that one can decompose regret bounds into two components: (a) regret due to anytime group exposure fairness and (b) regret due to meritocratic fairness within each group. Our proposed algorithm BF-UCB balances these two regrets optimally to achieve the upper bound of $O(\sqrt{T})$ on regret; $T$ being the stopping time. With the help of simulated experiments, we further show that BF-UCB achieves sub-linear regret; provides better group and individual exposure guarantees compared to existing algorithms; and does not result in a significant drop in reward with respect to UCB algorithm, which does not impose any fairness constraint.
翻訳日:2024-02-09 15:29:17 公開日:2024-02-08
# レインボーオプション価格の量子振幅負荷

Quantum Amplitude Loading for Rainbow Options Pricing ( http://arxiv.org/abs/2402.05574v1 )

ライセンス: Link先を確認
Francesca Cibrario, Or Samimi, Giacomo Ranieri, Emanuele Dri, Mattia Ippoliti, Ron Cohen, Christian Mattia, Bartolomeo Montrucchio, Amir Naveh, Davide Corbelletto(参考訳) この研究は、量子コンピュータを用いたパス非依存型マルチアセット微分の一種である価格虹オプションに対する新しいアプローチを導入している。 反復量子振幅推定法を用いて、価格空間への遷移を遅らせて効率を強調し、エンドツーエンドの量子回路実装を提案する。 さらに,指数関数を扱う2つの異なる振幅負荷手法を解析した。 IBM QASMシミュレータの実験は、我々の量子価格モデルを検証し、量子金融の進化分野に寄与する。

This work introduces a novel approach to price rainbow options, a type of path-independent multi-asset derivatives, with quantum computers. Leveraging the Iterative Quantum Amplitude Estimation method, we present an end-to-end quantum circuit implementation, emphasizing efficiency by delaying the transition to price space. Moreover, we analyze two different amplitude loading techniques for handling exponential functions. Experiments on the IBM QASM simulator validate our quantum pricing model, contributing to the evolving field of quantum finance.
翻訳日:2024-02-09 15:28:52 公開日:2024-02-08
# 伝統的な機械学習モデルとトランスフォーマ(bert)に基づく摂食障害に関するツイートの自動分類による双方向エンコーダ表現--アルゴリズムの開発と検証研究

Traditional Machine Learning Models and Bidirectional Encoder Representations From Transformer (BERT)-Based Automatic Classification of Tweets About Eating Disorders: Algorithm Development and Validation Study ( http://arxiv.org/abs/2402.05571v1 )

ライセンス: Link先を確認
Jos\'e Alberto Ben\'itez-Andrades, Jos\'e-Manuel Alija-P\'erez, Maria-Esther Vidal, Rafael Pastor-Vargas and Mar\'ia Teresa Garc\'ia-Ord\'as(参考訳) 背景: 摂食障害はますます広まり、ソーシャルネットワークは貴重な情報を提供する。 目的: 摂食障害に関連するツイートを分類するための効率的な機械学習モデルを特定すること。 方法:3ヶ月以上にわたり,摂食障害に関するツイートを収集した。 1)摂食障害の個人によって書かれたもの,(2)摂食障害の促進,(3)情報性,(4)科学的内容について,2000ツイートのサブセットをラベル付けした。 従来の機械学習モデルとディープラーニングモデルの両方が、分類、精度評価、f1スコア、計算時間に用いられた。 結果: 1058,957件のツイートから,トランスフォーマーベースの双方向エンコーダ表現は,4つのカテゴリでf1スコア (71.1%-86.4%) を最高に達成した。 結論:transformerベースのモデルは、より多くの計算リソースを必要とするが、障害関連ツイートを分類する従来のテクニックを上回っている。

Background: Eating disorders are increasingly prevalent, and social networks offer valuable information. Objective: Our goal was to identify efficient machine learning models for categorizing tweets related to eating disorders. Methods: Over three months, we collected tweets about eating disorders. A 2,000-tweet subset was labeled for: (1) being written by individuals with eating disorders, (2) promoting eating disorders, (3) informativeness, and (4) scientific content. Both traditional machine learning and deep learning models were employed for classification, assessing accuracy, F1 score, and computational time. Results: From 1,058,957 collected tweets, transformer-based bidirectional encoder representations achieved the highest F1 scores (71.1%-86.4%) across all four categories. Conclusions: Transformer-based models outperform traditional techniques in classifying eating disorder-related tweets, though they require more computational resources.
翻訳日:2024-02-09 15:28:44 公開日:2024-02-08
# グラフニューラルネットワークを用いたハイパーグラフノード分類

Hypergraph Node Classification With Graph Neural Networks ( http://arxiv.org/abs/2402.05569v1 )

ライセンス: Link先を確認
Bohan Tang, Zexi Liu, Keyue Jiang, Siheng Chen, Xiaowen Dong(参考訳) ハイパーエッジが2つ以上のノードを接続するハイパーグラフは、現実世界のデータにおける高次インタラクションのモデリングの鍵となる。 グラフニューラルネットワーク(gnns)の成功は、対関係でデータを処理できるニューラルネットワークの能力を示している。 これにより、高次相互作用を持つデータに対するニューラルネットワークの使用が刺激され、ハイパーグラフニューラルネットワーク(HyperGNN)の開発につながります。 GNNとHyperGNNは、異なる幾何学的トポロジのデータのために設計されたため、一般的に区別される。 しかし,本稿では,ノード分類の文脈において,ハイパーグラフの重み付き斜め展開を持つGNNを用いて,ほとんどのHyperGNNを近似できることを理論的に示す。 これは、ハイパーグラフノード分類のためのGNNと重み付き斜め展開(WCE)からなるシンプルで効率的なフレームワークであるWCE-GNNにつながっている。 9つの実世界のハイパーグラフノード分類ベンチマークの実験では、WCE-GNNは最先端のHyperGNNよりも高い分類精度を示すだけでなく、メモリと実行効率も優れていることが示された。

Hypergraphs, with hyperedges connecting more than two nodes, are key for modelling higher-order interactions in real-world data. The success of graph neural networks (GNNs) reveals the capability of neural networks to process data with pairwise interactions. This inspires the usage of neural networks for data with higher-order interactions, thereby leading to the development of hypergraph neural networks (HyperGNNs). GNNs and HyperGNNs are typically considered distinct since they are designed for data on different geometric topologies. However, in this paper, we theoretically demonstrate that, in the context of node classification, most HyperGNNs can be approximated using a GNN with a weighted clique expansion of the hypergraph. This leads to WCE-GNN, a simple and efficient framework comprising a GNN and a weighted clique expansion (WCE), for hypergraph node classification. Experiments on nine real-world hypergraph node classification benchmarks showcase that WCE-GNN demonstrates not only higher classification accuracy compared to state-of-the-art HyperGNNs, but also superior memory and runtime efficiency.
翻訳日:2024-02-09 15:28:29 公開日:2024-02-08
# オンザフライモーション抽出のためのニューラルグラフィックスプリミティブに基づく変形可能な画像登録

Neural Graphics Primitives-based Deformable Image Registration for On-the-fly Motion Extraction ( http://arxiv.org/abs/2402.05568v1 )

ライセンス: Link先を確認
Xia Li, Fabian Zhang, Muheng Li, Damien Weber, Antony Lomax, Joachim Buhmann, Ye Zhang(参考訳) 放射線治療における屈折内運動は、一般的に変形性画像登録(DIR)を用いてモデル化される。 しかし、既存の方法はしばしばスピードと正確さのバランスをとるのに苦労し、臨床シナリオでの適用性が制限される。 本研究では,ニューラルネットワークプリミティブ(NGP)を用いた変位ベクトル場(DVF)の最適化手法を提案する。 本手法は,学習したプリミティブをスプレートとして処理し,浅層ニューラルネットワークを用いて空間内を補間する。 ユニークなのは、超高速で自己教師付き最適化を可能にし、広範なデータセットで事前トレーニングする必要をなくし、新たなケースへのシームレスな適応を可能にすることだ。 本手法を4D-CT肺データセットDIR-labで検証し,1.77秒で1.15\pm1.15mmの目標登録誤差(TRE)を達成した。 また,本手法は従来のDIR法において共通の課題であるすべり境界問題にも対処する。

Intra-fraction motion in radiotherapy is commonly modeled using deformable image registration (DIR). However, existing methods often struggle to balance speed and accuracy, limiting their applicability in clinical scenarios. This study introduces a novel approach that harnesses Neural Graphics Primitives (NGP) to optimize the displacement vector field (DVF). Our method leverages learned primitives, processed as splats, and interpolates within space using a shallow neural network. Uniquely, it enables self-supervised optimization at an ultra-fast speed, negating the need for pre-training on extensive datasets and allowing seamless adaptation to new cases. We validated this approach on the 4D-CT lung dataset DIR-lab, achieving a target registration error (TRE) of 1.15\pm1.15 mm within a remarkable time of 1.77 seconds. Notably, our method also addresses the sliding boundary problem, a common challenge in conventional DIR methods.
翻訳日:2024-02-09 15:28:08 公開日:2024-02-08
# 簡潔な相互作用-その説明

Succint Interaction-Aware Explanations ( http://arxiv.org/abs/2402.05566v1 )

ライセンス: Link先を確認
Sascha Xu, Joscha C\"uppers, Jilles Vreeken(参考訳) SHAPは、個々の特徴の重要性を明らかにすることでブラックボックスモデルを説明する一般的なアプローチである。 機能間の相互作用を無視するため、shapの説明は誤解を招く可能性がある。 一方、NSHAPは全ての機能のサブセットに付加的な重要性を報告している。 これは全ての相互作用する機能のセットを含むが、指数関数的に大きさがあり、説明を解釈するのは難しい。 本稿では,これら2つの世界を最もよく組み合わせ,特徴を重要な相互作用する部分に分割することで,簡潔で解釈可能で付加的な説明を構成することを提案する。 我々は、モデル行動に対するそのような分割の代表性を測定する基準を導出し、結果として生じる説明の複雑さと引き換えに切り離す。 超指数的多数から最適な分割を効率的に見つけるために、統計的テストを用いてサブ最適解をプルーピングする方法を示し、ランタイムを改善するだけでなく、スプリアスな相互作用を検出するのにも役立っている。 合成データと実世界のデータによる実験では、説明がより正確であることが示されています。 SHAPやNSHAPよりも容易に解釈できる。

SHAP is a popular approach to explain black-box models by revealing the importance of individual features. As it ignores feature interactions, SHAP explanations can be confusing up to misleading. NSHAP, on the other hand, reports the additive importance for all subsets of features. While this does include all interacting sets of features, it also leads to an exponentially sized, difficult to interpret explanation. In this paper, we propose to combine the best of these two worlds, by partitioning the features into parts that significantly interact, and use these parts to compose a succinct, interpretable, additive explanation. We derive a criterion by which to measure the representativeness of such a partition for a models behavior, traded off against the complexity of the resulting explanation. To efficiently find the best partition out of super-exponentially many, we show how to prune sub-optimal solutions using a statistical test, which not only improves runtime but also helps to detect spurious interactions. Experiments on synthetic and real world data show that our explanations are both more accurate resp. more easily interpretable than those of SHAP and NSHAP.
翻訳日:2024-02-09 15:27:50 公開日:2024-02-08
# ニューラルマルチグリッドアーキテクチャ

Neural Multigrid Architectures ( http://arxiv.org/abs/2402.05563v1 )

ライセンス: Link先を確認
Vladimir Fanaskov(参考訳) マルチグリッド手法に有用な行列フリーニューラルネットワークを提案する。 アーキテクチャは50行以下のコードで実装できるほどシンプルだが、多数の異なるマルチグリッド解決器を含んでいる。 高密度層を持たない固定ニューラルネットワークでは,効率的な反復手法が実現できない。 そのため、標準的なトレーニングプロトコルは、競争的な解決につながりません。 この難しさを克服するために、我々はパラメータ共有とレイヤのシリアライズを使う。 結果として生じるネットワークは、数千の未知の線形問題に対して訓練され、数百万の未知の問題の効率を維持することができる。 数値線形代数ネットワークのトレーニングの観点からは、幾何学的乗法における最適スムースラーの発見に対応する。 いくつかの二階楕円型方程式に対するアプローチを実証する。 実験線形系では,誤差伝播行列のスペクトル半径を2~5倍小さくし,ジャコビ平滑な基本線形マルチグリッドと比較した。

We propose a convenient matrix-free neural architecture for the multigrid method. The architecture is simple enough to be implemented in less than fifty lines of code, yet it encompasses a large number of distinct multigrid solvers. We argue that a fixed neural network without dense layers can not realize an efficient iterative method. Because of that, standard training protocols do not lead to competitive solvers. To overcome this difficulty, we use parameter sharing and serialization of layers. The resulting network can be trained on linear problems with thousands of unknowns and retains its efficiency on problems with millions of unknowns. From the point of view of numerical linear algebra network's training corresponds to finding optimal smoothers for the geometric multigrid method. We demonstrate our approach on a few second-order elliptic equations. For tested linear systems, we obtain from two to five times smaller spectral radius of the error propagation matrix compare to a basic linear multigrid with Jacobi smoother.
翻訳日:2024-02-09 15:27:36 公開日:2024-02-08
# 整数線形プログラミングによるソフトウェア認知複雑度低減の自動化

Automatizing Software Cognitive Complexity Reduction through Integer Linear Programming ( http://arxiv.org/abs/2402.05559v1 )

ライセンス: Link先を確認
Rub\'en Saborido and Javier Ferrer and Francisco Chicano(参考訳) コードの認知的複雑さを所定のしきい値に減らすのは簡単ではありません。 近年,ソフトウェア認知複雑性の低減を最適化問題としてモデル化し,開発者を支援する手法を提案する。 このアプローチは、停止基準を満たすまでコード抽出リファクタリング操作のシーケンスを列挙する。 その結果、コードの認知的複雑さを所定のしきい値に減らすことができる、最小限のコード抽出リファクタリング操作を返します。 しかし、徹底的な列挙アルゴリズムはコードサイズでスケールできない。 リファクタリング計画の数は、コード行数とともに指数関数的に増加します。 本稿では,コード抽出リファクタリング操作のシーケンスを列挙する代わりに,整数線形計画問題として認知的複雑性の低減をモデル化する。 これにより、大規模なプログラムで最適な解を見つけるための効率的な解法の使用への扉が開ける。

Reducing the cognitive complexity of a piece of code to a given threshold is not trivial. Recently, we modeled software cognitive complexity reduction as an optimization problem and we proposed an approach to assist developers on this task. This approach enumerates sequences of code extraction refactoring operations until a stopping criterion is met. As a result, it returns the minimal sequence of code extraction refactoring operations that is able to reduce the cognitive complexity of a code to the given threshold. However, exhaustive enumeration algorithms fail to scale with the code size. The number of refactoring plans can grow exponentially with the number of lines of code. In this paper, instead of enumerating sequences of code extraction refactoring operations, we model the cognitive complexity reduction as an Integer Linear Programming problem. This opens the door to the use of efficient solvers to find optimal solutions in large programs.
翻訳日:2024-02-09 15:27:25 公開日:2024-02-08
# Flashback: フェデレーションラーニングにおけるフォーミングの理解と緩和

Flashback: Understanding and Mitigating Forgetting in Federated Learning ( http://arxiv.org/abs/2402.05558v1 )

ライセンス: Link先を確認
Mohammed Aljahdali, Ahmed M. Abdelmoniem, Marco Canini, Samuel Horv\'ath(参考訳) フェデレートラーニング(FL)では、特にクライアント間の重大データ不均一性の存在下で、ラウンド全体での知識の喪失や、ハマーズアルゴリズムが収束する。 本研究は,異種データコンテキストにおけるflの非効率学習における無視の重要役割を強調して,この問題のニュアンスを考察する。 知識喪失は、クライアントローカルアップデートとサーバサイドアグリゲーションステップの両方で発生します。 我々は,新しい知識獲得にともなう明確な認識を確保するために,粒度を計測するための指標を導入する。 これらの知見を活かし,局所モデルを正規化し,その知識を効果的に集約するために,動的蒸留アプローチを用いたflアルゴリズムであるflashbackを提案する。 異なるベンチマークで、Flashbackは他のメソッドよりも優れており、忘れを軽減し、6~16ラウンドで収束することで、より高速なラウンド・ツー・ターゲット精度を実現する。

In Federated Learning (FL), forgetting, or the loss of knowledge across rounds, hampers algorithm convergence, particularly in the presence of severe data heterogeneity among clients. This study explores the nuances of this issue, emphasizing the critical role of forgetting in FL's inefficient learning within heterogeneous data contexts. Knowledge loss occurs in both client-local updates and server-side aggregation steps; addressing one without the other fails to mitigate forgetting. We introduce a metric to measure forgetting granularly, ensuring distinct recognition amid new knowledge acquisition. Leveraging these insights, we propose Flashback, an FL algorithm with a dynamic distillation approach that is used to regularize the local models, and effectively aggregate their knowledge. Across different benchmarks, Flashback outperforms other methods, mitigates forgetting, and achieves faster round-to-target-accuracy, by converging in 6 to 16 rounds.
翻訳日:2024-02-09 15:27:12 公開日:2024-02-08
# 確率近似勾配による非パラメトリック機器可変回帰

Nonparametric Instrumental Variable Regression through Stochastic Approximate Gradients ( http://arxiv.org/abs/2402.05639v1 )

ライセンス: Link先を確認
Caio Peixoto, Yuri Saporito, Yuri Fonseca(参考訳) SAGD-IVは、確率的近似勾配を用いて、予測された人口リスクを最小限に抑えることで、非パラメトリックな計測変数(NPIV)回帰を行うための新しいフレームワークである。 計測変数(IV)は、観測不能な共同創設者の存在下で推定問題に対処するために広く用いられており、機械学習コミュニティは既存の手法の改善やNPIV設定における新たな手法の考案に多大な努力を払ってきた。 提案アルゴリズムの理論的サポートを提供し、実証実験によりその競争性能をさらに実証する。 さらに,その継続的な成果がコミュニティからあまり注目されていないバイナリ結果の場合についても,有望な結果とともに対処する。

This paper proposes SAGD-IV, a novel framework for conducting nonparametric instrumental variable (NPIV) regression by employing stochastic approximate gradients to minimize the projected populational risk. Instrumental Variables (IVs) are widely used in econometrics to address estimation problems in the presence of unobservable confounders, and the Machine Learning community has devoted significant effort to improving existing methods and devising new ones in the NPIV setting, which is known to be an ill-posed linear inverse problem. We provide theoretical support for our algorithm and further exemplify its competitive performance through empirical experiments. Furthermore, we address, with promising results, the case of binary outcomes, which has not received as much attention from the community as its continuous counterpart.
翻訳日:2024-02-09 15:19:05 公開日:2024-02-08
# 浅部ReLU様ニューラルネットワークの失われた景観:静止点,サドルエスケープ,ネットワーク埋め込み

The Loss Landscape of Shallow ReLU-like Neural Networks: Stationary Points, Saddle Escaping, and Network Embedding ( http://arxiv.org/abs/2402.05626v1 )

ライセンス: Link先を確認
Zhengqing Wu, Berfin Simsek, Francois Ged(参考訳) 本稿では,経験的二乗損失を学習したReLU様活性化関数を持つ一層ニューラルネットワークの損失状況について検討する。 活性化関数は微分不可能であるため、静止点を完全に特徴付ける方法はまだ不明である。 非微分可能ケースと微分可能ケースの両方に適用可能な定常性条件を提案する。 さらに、静止点が一階の条件で定義される「エスケープニューロン」を含まない場合、局所的な最小値であることが示される。 さらに、スカラーアウトプットの場合、エスケープニューロンの存在により、静止点が局所最小でないことが保証される。 その結果,浅部ReLU様ネットワークに対する無限小の初期化から始まり,サドルからサドルまでのトレーニングプロセスの記述を洗練し,サドルから脱出したニューロンのパラメータ変化と直接リンクする。 さらに、より広いネットワーク内でより狭いネットワークをインスタンス化するネットワーク埋め込みが、静止点を再形成する方法についても十分に議論することができる。

In this paper, we investigate the loss landscape of one-hidden-layer neural networks with ReLU-like activation functions trained with the empirical squared loss. As the activation function is non-differentiable, it is so far unclear how to completely characterize the stationary points. We propose the conditions for stationarity that apply to both non-differentiable and differentiable cases. Additionally, we show that, if a stationary point does not contain "escape neurons", which are defined with first-order conditions, then it must be a local minimum. Moreover, for the scalar-output case, the presence of an escape neuron guarantees that the stationary point is not a local minimum. Our results refine the description of the saddle-to-saddle training process starting from infinitesimally small (vanishing) initialization for shallow ReLU-like networks, linking saddle escaping directly with the parameter changes of escape neurons. Moreover, we are also able to fully discuss how network embedding, which is to instantiate a narrower network within a wider network, reshapes the stationary points.
翻訳日:2024-02-09 15:18:40 公開日:2024-02-08
# 憎しみ・虐待・嫌悪の検出のための効率的なモデル

Efficient Models for the Detection of Hate, Abuse and Profanity ( http://arxiv.org/abs/2402.05624v1 )

ライセンス: Link先を確認
Christoph Tillmann, Aashka Trivedi, Bishwaranjan Bhattacharjee(参考訳) 大規模言語モデル(LLM)は、感情分析、文書分類、名前付きエンティティ認識、質問応答、要約など、多くの自然言語処理(NLP)タスクの基盤である。 LLMはWebから派生したデータに基づいて訓練されることが多い。 このデータは、Hate, Abuse and Profanity (HAP)とコンテンツを持つ傾向にある。 HAPの詳細な定義については、Appendixを参照してください。 LLMはトレーニング中にHAPコンテンツに曝されるため、モデルは学習し、憎悪や憎悪のコンテンツを生成する可能性がある。 例えば、HuggingFace (HF) TransformersライブラリのオープンソースのRoBERTaモデル(具体的にはRoBERTAベースモデル)は、"I don't know that Persian people are that MASK` that it return the word `stupid` with the highest score"の仮面トークンを置き換えるように促される。 これは文言では受け入れられないが、Hate, Abuse, Profanityをテキストで検出することは、英語だけでなく、すべての言語で必要となる公民的かつ偏見のない LLM を作成する上で不可欠な要素である。 本稿では,hap検出器の作成と,それらを用いてモデルが生成する出力を公民的かつ許容可能なものにする方法について,簡単な説明を行う。

Large Language Models (LLMs) are the cornerstone for many Natural Language Processing (NLP) tasks like sentiment analysis, document classification, named entity recognition, question answering, summarization, etc. LLMs are often trained on data which originates from the web. This data is prone to having content with Hate, Abuse and Profanity (HAP). For a detailed definition of HAP, please refer to the Appendix. Due to the LLMs being exposed to HAP content during training, the models learn it and may then generate hateful or profane content. For example, when the open-source RoBERTa model (specifically, the RoBERTA base model) from the HuggingFace (HF) Transformers library is prompted to replace the mask token in `I do not know that Persian people are that MASK` it returns the word `stupid` with the highest score. This is unacceptable in civil discourse.The detection of Hate, Abuse and Profanity in text is a vital component of creating civil and unbiased LLMs, which is needed not only for English, but for all languages. In this article, we briefly describe the creation of HAP detectors and various ways of using them to make models civil and acceptable in the output they generate.
翻訳日:2024-02-09 15:17:48 公開日:2024-02-08
# 深層学習に基づく算術的求人市場分析:求人投稿のスキル抽出と分類に関する調査

Deep Learning-based Computational Job Market Analysis: A Survey on Skill Extraction and Classification from Job Postings ( http://arxiv.org/abs/2402.05617v1 )

ライセンス: Link先を確認
Elena Senger, Mike Zhang, Rob van der Goot, Barbara Plank(参考訳) 近年では、自然言語処理(nlp)が大幅に進歩し、計算ジョブ市場分析の分野において急速に進歩している。 このアプリケーションドメインのコアタスクは、スキル抽出とジョブポストからの分類である。 急速な成長と学際的な性質から、この新興分野の徹底的な評価は行われていない。 本調査は,NLPによるスキル抽出と分類に特有の深層学習方法論,データセット,用語の包括的概要を提供することで,このギャップを埋めることを目的としている。 公開データセットの包括的カタログ化は、データセットの作成と特性に関する統合情報の欠如に対処します。 最後に、用語論の焦点は、ハードやソフトといった重要な概念に対する一貫した定義の欠如と、スキルの抽出と分類に関する用語に対処する。

Recent years have brought significant advances to Natural Language Processing (NLP), which enabled fast progress in the field of computational job market analysis. Core tasks in this application domain are skill extraction and classification from job postings. Because of its quick growth and its interdisciplinary nature, there is no exhaustive assessment of this emerging field. This survey aims to fill this gap by providing a comprehensive overview of deep learning methodologies, datasets, and terminologies specific to NLP-driven skill extraction and classification. Our comprehensive cataloging of publicly available datasets addresses the lack of consolidated information on dataset creation and characteristics. Finally, the focus on terminology addresses the current lack of consistent definitions for important concepts, such as hard and soft skills, and terms relating to skill extraction and classification.
翻訳日:2024-02-09 15:17:19 公開日:2024-02-08
# シーケンスベースタスクの汎用学習フレームワークとしての事前学習型生成言語モデル

Pretrained Generative Language Models as General Learning Frameworks for Sequence-Based Tasks ( http://arxiv.org/abs/2402.05616v1 )

ライセンス: Link先を確認
Ben Fauber(参考訳) 本稿では,数百万のパラメータを持つ事前学習された基礎生成言語モデルを,シーケンスベースタスクの一般的な学習フレームワークとして利用することを提案する。 提案では,ニューラルネットワークと言語モデルをスクラッチからトレーニングする際の計算資源,スキルセット,タイムラインの課題を克服する。 さらに,本手法は,ベースモデルが実行できない課題を高精度に実行可能な,小型かつ高度に専門化されたモデルの構築に焦点をあてている。 本研究では, 125M, 350M, 1.3Bパラメータを1万から1000,000の命令例で微調整し, ケミノフォマティクスに挑戦するタスクの最先端的な結果が得られることを示す。 また,データフォーマッティングと事前学習した基礎言語モデルの選択が,命令の微調整を成功に導く上で重要であることも示している。

We propose that small pretrained foundational generative language models with millions of parameters can be utilized as a general learning framework for sequence-based tasks. Our proposal overcomes the computational resource, skill set, and timeline challenges associated with training neural networks and language models from scratch. Further, our approach focuses on creating small and highly specialized models that can accurately execute a challenging task of which the base model is incapable of performing. We demonstrate that 125M, 350M, and 1.3B parameter pretrained foundational language models can be instruction fine-tuned with 10,000-to-1,000,000 instruction examples to achieve near state-of-the-art results on challenging cheminformatics tasks. We also demonstrate the role of successive language model fine-tuning epochs on improved outcomes, as well as the importance of both data formatting and pretrained foundational language model selection for instruction fine-tuning success.
翻訳日:2024-02-09 15:16:42 公開日:2024-02-08
# ステレオビジョンのための6次元物体ポーズ推定器の拡張

Extending 6D Object Pose Estimators for Stereo Vision ( http://arxiv.org/abs/2402.05610v1 )

ライセンス: Link先を確認
Thomas P\"ollabauer, Jan Emrich, Volker Knauthe, Arjan Kuijper(参考訳) オブジェクトの6Dポーズを正確に、素早く、頑健に見積もるのは難しい作業です。 しかし,RGB画像から高密度特徴を用いたポーズを直接回帰する手法は,最先端の結果を得た。 オブジェクトに対するさらなる視点を提供するステレオビジョンは、ポーズのあいまいさとオクルージョンを減らすのに役立つ。 さらに、ステレオはオブジェクトの距離を直接推測することができ、一方モノビジョンはオブジェクトのサイズに関する内部知識を必要とする。 6Dオブジェクトのポーズ推定をステレオに拡張するために,YCB-VデータセットのBOP互換ステレオバージョンを作成した。 本手法はステレオビジョンを利用して最先端の6Dポーズ推定アルゴリズムより優れており,他の高密度特徴ベースアルゴリズムにも容易に適用できる。

Estimating the 6D pose of objects accurately, quickly, and robustly remains a difficult task. However, recent methods for directly regressing poses from RGB images using dense features have achieved state-of-the-art results. Stereo vision, which provides an additional perspective on the object, can help reduce pose ambiguity and occlusion. Moreover, stereo can directly infer the distance of an object, while mono-vision requires internalized knowledge of the object's size. To extend the state-of-the-art in 6D object pose estimation to stereo, we created a BOP compatible stereo version of the YCB-V dataset. Our method outperforms state-of-the-art 6D pose estimation algorithms by utilizing stereo vision and can easily be adopted for other dense feature-based algorithms.
翻訳日:2024-02-09 15:16:26 公開日:2024-02-08
# 状態空間バックボーンを持つスケーラブル拡散モデル

Scalable Diffusion Models with State Space Backbone ( http://arxiv.org/abs/2402.05608v1 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang(参考訳) 本稿では,状態空間アーキテクチャ上に構築された拡散モデルのカテゴリを新たに探究する。 従来のU-Netバックボーンは、状態空間のバックボーンに取って代わられ、生のパッチや潜伏空間で機能する。 Diffusion State Space Models (DiS) は、長距離依存の調節における顕著な有効性から、時間、条件、ノイズの多い画像パッチを含む全ての入力をトークンとして扱うことで区別される。 我々の評価では,非条件画像生成シナリオとクラス条件画像生成シナリオの両方を包含し,DiSがCNNベースやTransformerベースのコンメンシュレートサイズのU-Netアーキテクチャに匹敵する性能を示した。 さらに、Gflopsで定量化されるフォワードパス複雑性によって測定されたDiSのスケーラビリティを解析する。 入力トークンの深さ/幅の増大や増大によって達成される高いGflopsを持つDiSモデルは、一貫して低いFIDを示す。 遅延空間におけるDIS-H/2モデルは、圧縮可能なスケーラビリティ特性を示すことに加えて、256$\times$256および512$\times$512の解像度で、クラス条件のImageNetベンチマークの事前拡散モデルと同様のパフォーマンスレベルを達成する。 コードとモデルは以下の通りである。

This paper presents a new exploration into a category of diffusion models built upon state space architecture. We endeavor to train diffusion models for image data, wherein the traditional U-Net backbone is supplanted by a state space backbone, functioning on raw patches or latent space. Given its notable efficacy in accommodating long-range dependencies, Diffusion State Space Models (DiS) are distinguished by treating all inputs including time, condition, and noisy image patches as tokens. Our assessment of DiS encompasses both unconditional and class-conditional image generation scenarios, revealing that DiS exhibits comparable, if not superior, performance to CNN-based or Transformer-based U-Net architectures of commensurate size. Furthermore, we analyze the scalability of DiS, gauged by the forward pass complexity quantified in Gflops. DiS models with higher Gflops, achieved through augmentation of depth/width or augmentation of input tokens, consistently demonstrate lower FID. In addition to demonstrating commendable scalability characteristics, DiS-H/2 models in latent space achieve performance levels akin to prior diffusion models on class-conditional ImageNet benchmarks at the resolution of 256$\times$256 and 512$\times$512, while significantly reducing the computational burden. The code and models are available at: https://github.com/feizc/DiS.
翻訳日:2024-02-09 15:16:13 公開日:2024-02-08
# 協調型人間-AIハイブリッドチームにおけるデリゲーションの最適化

Optimizing Delegation in Collaborative Human-AI Hybrid Teams ( http://arxiv.org/abs/2402.05605v1 )

ライセンス: Link先を確認
Andrew Fuchs, Andrea Passarella, and Marco Conti(参考訳) 人間と自律システムが協力してハイブリッドチームとして活動する場合、もちろん、チームが成功し、効果的に活動することを望みます。 チームメンバーをエージェントと呼びます。 提案したフレームワークでは、いつでもひとつのチームメンバー(コントロールエージェント)だけがチームのコントロールとして振る舞うことが許されるハイブリッドチームの状況に対処します。 制御エージェントの最適な選択を決定するために、(強化学習を通じて)チームの外部オブザーバとして学習するaiマネージャを追加することを提案する。 マネージャは、エージェントのパフォーマンスとチームが運用している環境/環境の観察をリンクする行動モデルを学び、これらの観察から最も望ましいコントロールエージェントを選択する。 一連の制約を導入することで、マネージャのタスクを制限します。 マネージャの制約は許容できるチームの操作を示すので、チームが受け入れがたい条件に入り、マネージャの介入を必要とする場合、違反が発生する。 チームの複雑さや潜在的な非効率を最小にするために、マネージャは、チームが制約違反に到達した回数を最小にし、その後のマネージャの介入を要求すべきである。 そのため、管理者の介入頻度を最小限に抑えつつ、チーム全体のパフォーマンスを高めるために権限のあるエージェントの選択を最適化しています。 我々は,人間ドライバーと自律運転システムからなるハイブリッドエージェントチームの場合をシミュレートした運転シナリオで,マネージャのパフォーマンスを実証した。 衝突回避と適切な速度制御の必要性を示唆し,車両間干渉による運転シナリオ実験を行った。 結果としてチームのパフォーマンスが,最高のソロエージェントのパフォーマンスの約187%まで向上するケースもあります。

When humans and autonomous systems operate together as what we refer to as a hybrid team, we of course wish to ensure the team operates successfully and effectively. We refer to team members as agents. In our proposed framework, we address the case of hybrid teams in which, at any time, only one team member (the control agent) is authorized to act as control for the team. To determine the best selection of a control agent, we propose the addition of an AI manager (via Reinforcement Learning) which learns as an outside observer of the team. The manager learns a model of behavior linking observations of agent performance and the environment/world the team is operating in, and from these observations makes the most desirable selection of a control agent. We restrict the manager task by introducing a set of constraints. The manager constraints indicate acceptable team operation, so a violation occurs if the team enters a condition which is unacceptable and requires manager intervention. To ensure minimal added complexity or potential inefficiency for the team, the manager should attempt to minimize the number of times the team reaches a constraint violation and requires subsequent manager intervention. Therefore our manager is optimizing its selection of authorized agents to boost overall team performance while minimizing the frequency of manager intervention. We demonstrate our manager performance in a simulated driving scenario representing the case of a hybrid team of agents composed of a human driver and autonomous driving system. We perform experiments for our driving scenario with interfering vehicles, indicating the need for collision avoidance and proper speed control. Our results indicate a positive impact of our manager, with some cases resulting in increased team performance up to ~187% that of the best solo agent performance.
翻訳日:2024-02-09 15:15:44 公開日:2024-02-08
# 動的デカップリングによる論理キュービットの保護

Protecting logical qubits with dynamical decoupling ( http://arxiv.org/abs/2402.05604v1 )

ライセンス: Link先を確認
Jia-Xiu Han, Jiang Zhang, Guang-Ming Xue, Haifeng Yu, Guilu Long(参考訳) 論理量子ビットが物理ビットよりも優れていることを示すことは、信頼性の高い量子計算を達成するためのマイルストーンである。 本稿では,最も近い物理キュービット上にiswapゲートを実装した新しい動的分離スキームを用いて論理キュービットを保護し,超伝導トランスモンキュービットに関するスキームを実験的に実証する。 このスキームでは、各論理キュービットは2つの物理キュービットしか必要としない。 論理量子ビット上の量子ゲートの普遍的な集合は、各論理ゲートが1つまたは2つの物理ゲートのみを含むように達成できる。 実験の結果, 論理量子ビットのコヒーレンス時間は, より優れた物理量子ビットと比較して最大366%延長されることがわかった。 さらに、我々の知る限り、超伝導量子ビットにおいて、複数の論理量子ビットが物理的に優れていることを示すのが初めてである。 我々は、論理ランゼー実験と論理ベル状態の生成を通じて、普遍ゲートのセットを説明する。 スケーラブルな性質から、我々のスキームは将来の信頼性の高い量子計算のコンポーネントとして期待できる。

Demonstrating that logical qubits outperform their physical counterparts is a milestone for achieving reliable quantum computation. Here, we propose to protect logical qubits with a novel dynamical decoupling scheme that implements iSWAP gates on nearest-neighbor physical qubits, and experimentally demonstrate the scheme on superconducting transmon qubits. In our scheme, each logical qubit only requires two physical qubits. A universal set of quantum gates on the logical qubits can be achieved such that each logical gate comprises only one or two physical gates. Our experiments reveal that the coherence time of a logical qubit is extended by up to 366% when compared to the better-performing physical qubit. Moreover, to the best of our knowledge, we demonstrate for the first time that multiple logical qubits outperform their physical counterparts in superconducting qubits. We illustrate a set of universal gates through a logical Ramsey experiment and the creation of a logical Bell state. Given its scalable nature, our scheme holds promise as a component for future reliable quantum computation.
翻訳日:2024-02-09 15:15:18 公開日:2024-02-08
# バリア透過率の厳密な関係と物理系

Rigorous relations for barrier transmittance and some physical corollaries ( http://arxiv.org/abs/2402.05603v1 )

ライセンス: Link先を確認
Sergey N. Artekha, Natalya S. Artekha(参考訳) 科学的探索や現象の理解に役立つため、科学や教育の分野では明らかに解決可能なモデルが興味深い。 単純な量子力学モデルのいくつかの正確な解を考える。 モデルには2つの障壁、バリアペアの組み合わせ、3つの障壁、3つの井戸などが含まれる。 2つの障壁のモデルは、1次元の場合の興味深い現象を予測できる。 波動と量子力学的障壁のクリア(反射のない通過を含む)は物理学の重要な問題である。 伝達係数と反射係数の厳密な方程式が導出される。 物質中の障壁は結合に結合され、それぞれの結合内の結合は結合間の結合よりも強い。 乱れた媒体(ガラスの透明度、合金や溶湯の伝導度、脆性、延性など)のいくつかの性質は、この観点から質的に理解することができる。 同じ材料は、透明で不透明、金属と非金属、秩序と乱れなど、様々な性質を示すことができる。 このような遷移は圧力下で起こる。 三次元ポテンシャルのモデルは、考慮中の現象に適用することができる。 3Dケースに関するいくつかのコメントが作成されます。

Exactly solvable models are interesting for science and education, since they help in scientific search and in understanding of phenomena. Some exact solutions for simple quantum-mechanical models are considered. The models include two barriers, combinations of barrier pairs, three barriers, three wells etc. The model of two barriers can predict some interesting phenomena in the one-dimensional case. Clearing of wave and quantum-mechanical barriers (including reflection-free passage) is an important problem of physics. The rigorous equations for the transmission and reflection coefficients are derived. Barriers in substances are combined into associations, where the bond within each association is stronger than bonds between associations. Some properties of disordered media (the transparency of glasses, the conductivity of alloys or melts, the brittleness, or ductility, etc.) can be qualitatively understood from this viewpoint. The same material can exhibit various properties: transparent and opaque, metallic and non-metallic, ordered and disordered, and so on. Such transitions can occur under pressure. A model of the three-well potential can be applied to the phenomena under consideration. Some remarks on 3-D cases are made.
翻訳日:2024-02-09 15:15:00 公開日:2024-02-08
# AttnLRP: 変圧器のアテンション対応レイヤワイズ関連伝播

AttnLRP: Attention-Aware Layer-wise Relevance Propagation for Transformers ( http://arxiv.org/abs/2402.05602v1 )

ライセンス: Link先を確認
Reduan Achtibat, Sayed Mohammad Vakilzadeh Hatefi, Maximilian Dreyer, Aakriti Jain, Thomas Wiegand, Sebastian Lapuschkin, Wojciech Samek(参考訳) 大規模言語モデルは偏りのある予測や幻覚に陥りやすいため、モデル内的推論プロセスを理解することの重要性が強調されている。 しかし、ブラックボックストランスモデルの完全性に対する忠実な帰属と計算効率の維持は未解決の課題である。 注意層を扱うために, 層間相関伝播帰属法を拡張することで, これらの課題を効果的に解決する。 部分解は存在するが,本手法は入力だけでなく潜在表現も忠実に分類し,計算効率を特異な後方通過に類似させる最初の方法である。 Llama 2 と Flan-T5 と Vision Transformer アーキテクチャの既存手法に対する広範な評価を通じて,提案手法が忠実性の観点から代替手法を超越し,潜在表現の理解を可能にし,概念に基づく説明の扉を開くことを実証した。 GitHub https://github.com/rachtibat/LRP-for-Transformers.com上でオープンソース実装を提供しています。

Large Language Models are prone to biased predictions and hallucinations, underlining the paramount importance of understanding their model-internal reasoning process. However, achieving faithful attributions for the entirety of a black-box transformer model and maintaining computational efficiency is an unsolved challenge. By extending the Layer-wise Relevance Propagation attribution method to handle attention layers, we address these challenges effectively. While partial solutions exist, our method is the first to faithfully and holistically attribute not only input but also latent representations of transformer models with the computational efficiency similar to a singular backward pass. Through extensive evaluations against existing methods on Llama 2, Flan-T5 and the Vision Transformer architecture, we demonstrate that our proposed approach surpasses alternative methods in terms of faithfulness and enables the understanding of latent representations, opening up the door for concept-based explanations. We provide an open-source implementation on GitHub https://github.com/rachtibat/LRP-for-Transformers.
翻訳日:2024-02-09 15:14:45 公開日:2024-02-08
# fractional'-truncated seriesを用いた高速量子アルゴリズム

Faster Quantum Algorithms with "Fractional''-Truncated Series ( http://arxiv.org/abs/2402.05595v1 )

ライセンス: Link先を確認
Yue Wang, Qi Zhao(参考訳) 量子アルゴリズムは乱数列近似にしばしば依存し、適度な精度を達成するために高い乱数順序を必要とするため、結果として回路の複雑度が増大する。 そこで本研究では,回路の簡易化のための2つの方法として,トラニケート誤差の2次改善と,連続的に調整可能な有効トラニケート順序を実現するRandomized Truncated Series (RTS)を提案する。 中心となる考え方は、2つの特定の形式のランダムな混合は、トランケーション誤差を著しく減少させることである。 近単位演算子に対する新しい混合補題を用いたRTSの誤差解析を行う。 RTSの有効性と汎用性を示すために、単項の線形結合、量子信号処理、量子微分方程式の解法という4つの例を挙げる。 RTSは実用的な量子優位への道に光を当てた。

Quantum algorithms frequently rely on truncated series approximations, necessitating a high truncation order to achieve even moderate accuracy and consequently resulting in intensive circuit complexity. In response, we propose a general framework, the Randomized Truncated Series (RTS), which offers two avenues for simplifying circuits: a quadratic improvement on the truncation error and enabling a continuously adjustable effective truncation order. The core idea is that the random mixing of two series of specific forms generates a substantial reduction in the truncation error. We present an error analysis for RTS with a new mixing lemma accounting for near-unitary operators. To demonstrate the effectiveness and versatility of RTS, we provide four illustrative examples within the context of Linear Combination of Unitary, Quantum Signal Processing, and solving Quantum Differential Equations. RTS shed light on the path towards practical quantum advantage.
翻訳日:2024-02-09 15:14:26 公開日:2024-02-08
# 合成データのみを用いた歴史的スケッチからのStucco Statuesの再構築

A Concept for Reconstructing Stucco Statues from historic Sketches using synthetic Data only ( http://arxiv.org/abs/2402.05593v1 )

ライセンス: Link先を確認
Thomas P\"ollabauer, Julius K\"uhn(参考訳) 中世には、木工は「シノピア」と呼ばれる赤い色を使って、最初に壁面に造られた像のスケッチを作った。 今日では、これらの像の多くは破壊されているが、赤色やシノピアから派生した原図を用いて、最終的な像の外観を再構築することができる。我々は、点雲の再構築と、カラー画像、深度マップ、表面の正常画像を生成する予備的な方法を提案するとともに、他の類似のサンプルの収集を必要とせず、完全な自動的手法を提案する。 提案するソリューションは,例えば展示会場内でリアルタイムの復元を可能とし,また,合成データのみをトレーニングに使用しながら,手作業で像を再構築しようとする専門家にとって有用な出発点を生成する。

In medieval times, stuccoworkers used a red color, called sinopia, to first create a sketch of the to-be-made statue on the wall. Today, many of these statues are destroyed, but using the original drawings, deriving from the red color also called sinopia, we can reconstruct how the final statue might have looked.We propose a fully-automated approach to reconstruct a point cloud and show preliminary results by generating a color-image, a depth-map, as well as surface normals requiring only a single sketch, and without requiring a collection of other, similar samples. Our proposed solution allows real-time reconstruction on-site, for instance, within an exhibition, or to generate a useful starting point for an expert, trying to manually reconstruct the statue, all while using only synthetic data for training.
翻訳日:2024-02-09 15:14:09 公開日:2024-02-08
# SoftEDA: ルールベースのデータ拡張をソフトラベルで再考

SoftEDA: Rethinking Rule-Based Data Augmentation with Soft Labels ( http://arxiv.org/abs/2402.05591v1 )

ライセンス: Link先を確認
Juhwan Choi, Kyohoon Jin, Junho Lee, Sangmin Song, Youngbin Kim(参考訳) ルールベースのテキストデータ拡張は、単純さのためにNLPタスクに広く利用されている。 しかし、この方法はテキストの本来の意味を損なう可能性があり、最終的にはモデルの性能を損なう可能性がある。 この制限を克服するために,ソフトラベルを拡張データに適用するための簡単な手法を提案する。 7つの異なる分類タスクで実験を行い,提案手法の有効性を実証した。 再現性のためのソースコードを公開しました。

Rule-based text data augmentation is widely used for NLP tasks due to its simplicity. However, this method can potentially damage the original meaning of the text, ultimately hurting the performance of the model. To overcome this limitation, we propose a straightforward technique for applying soft labels to augmented data. We conducted experiments across seven different classification tasks and empirically demonstrated the effectiveness of our proposed approach. We have publicly opened our source code for reproducibility.
翻訳日:2024-02-09 15:13:49 公開日:2024-02-08
# 単鎖と非周期性は平均-reward restless banditの漸近的最適性に十分である

Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits ( http://arxiv.org/abs/2402.05689v1 )

ライセンス: Link先を確認
Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang(参考訳) 離散時間における無限ホリゾン平均レストレス・バンディット問題を考える。 我々は、最適な分布に向けて、徐々に大きな武器のサブセットを推し進めるために設計された新しいポリシーのクラスを提案する。 我々のポリシーは、一本腕の緩和された問題がユニチェーンで周期的であることを仮定して、$O(1/\sqrt{N})$最適性ギャップで漸近的に最適であることを示す。 提案手法は,一様グローバルアトラクタ特性(UGAP)に頼って,最適化への収束を保証する,あるいはシンクロナイゼーション推定(SA)を必要とする最近開発されたシミュレーションベースの政策である,インデックスやプライオリティに重点を置く既存のほとんどの作業から逸脱する。

We consider the infinite-horizon, average-reward restless bandit problem in discrete time. We propose a new class of policies that are designed to drive a progressively larger subset of arms toward the optimal distribution. We show that our policies are asymptotically optimal with an $O(1/\sqrt{N})$ optimality gap for an $N$-armed problem, provided that the single-armed relaxed problem is unichain and aperiodic. Our approach departs from most existing work that focuses on index or priority policies, which rely on the Uniform Global Attractor Property (UGAP) to guarantee convergence to the optimum, or a recently developed simulation-based policy, which requires a Synchronization Assumption (SA).
翻訳日:2024-02-09 15:06:51 公開日:2024-02-08
# 量子オントロジーの非自然化:我々が量子力学から学べないこと

Quantum ontology de-naturalized: What we can't learn from quantum mechanics ( http://arxiv.org/abs/2402.05661v1 )

ライセンス: Link先を確認
Raoni Arroyo and Jonas R. Becker Arenhart(参考訳) 科学の哲学者は、一般的にオントロジーと科学を結びつけ、これらの分野は双方向の関係を維持していると述べている:一方、我々は科学理論からオントロジーを抽出することができる。 本稿では, オントロジーの自然化の過程, すなわち, 特定の理論がどの存在にコミットするかを指摘することのみに, オントロジーの作業を精査する過程を批判的に検討する。 非相対論的量子力学をケーススタディとして使う。 第一は量子力学に従って既存の実体をカタログ化すること、第二は既存の実体を分類しなければならないより一般的な存在論的分類を確立することで特徴づけられる。 第1段階は自然主義的なアプローチでのみ利用可能であり、第2段階は科学における決定や定着のために開かれていない。 最後に、メタフィジカルは、オントロジーの2つのタスクのいずれにも含まれず、それゆえ科学からさらに遠い存在論の段階であると主張する。

Philosophers of science commonly connect ontology and science, stating that these disciplines maintain a two-way relationship: on the one hand, we can extract ontology from scientific theories; on the other hand, ontology provides the realistic content of our scientific theories. In this article, we will critically examine the process of naturalizing ontology, i.e., confining the work of ontologists merely to the task of pointing out which entities certain theories commit themselves to. We will use non-relativistic quantum mechanics as a case study. We begin by distinguishing two roles for ontology: the first would be characterized by cataloging existing entities according to quantum mechanics; the second would be characterized by establishing more general ontological categories in which existing entities must be classified. We argue that only the first step is available for a naturalistic approach; the second step not being open for determination or anchoring in science. Finally, we also argue that metaphysics is still a step beyond ontology, not contained in either of the two tasks of ontology, being thus even farther from science.
翻訳日:2024-02-09 15:06:22 公開日:2024-02-08
# 教師なしグラフ領域適応のための伝播再考

Rethinking Propagation for Unsupervised Graph Domain Adaptation ( http://arxiv.org/abs/2402.05660v1 )

ライセンス: Link先を確認
Meihan Liu, Zeyu Fang, Zhen Zhang, Ming Gu, Sheng Zhou, Xin Wang, Jiajun Bu(参考訳) Unsupervised Graph Domain Adaptation (UGDA)は、グラフドメイン間の分散シフトに対処するために、ラベル付きソースグラフから未ラベルのターゲットグラフに知識を転送することを目的としている。 これまでの研究は主に、グラフニューラルネットワーク(GNN)によって学習された表現空間における、ソースとターゲットグラフからのデータの整合性に焦点を当ててきた。 しかし、GNNの固有の一般化能力は概ね見過ごされている。 我々は,グラフ領域適応におけるGNNの役割を再評価し,異なるグラフ領域に適応するためのGNNにおける伝播プロセスの重要部分を明らかにする。 我々は,UGDAの包括的理論的解析を行い,多層GNNの一般化を導出する。 k層gnnに対してgnn lipschitzを定式化することにより,ソースグラフの伝搬層を除去し,ターゲットグラフに複数の伝搬層を積み重ねることで,ターゲットリスクバウンドをより厳密にできることを示す。 上記の経験的および理論的分析に基づいて、グラフ領域適応のためのA2GNNと呼ばれる単純かつ効果的なアプローチを提案する。 実世界のデータセットに関する広範な実験を通じて、提案したA2GNNフレームワークの有効性を実証する。

Unsupervised Graph Domain Adaptation (UGDA) aims to transfer knowledge from a labelled source graph to an unlabelled target graph in order to address the distribution shifts between graph domains. Previous works have primarily focused on aligning data from the source and target graph in the representation space learned by graph neural networks (GNNs). However, the inherent generalization capability of GNNs has been largely overlooked. Motivated by our empirical analysis, we reevaluate the role of GNNs in graph domain adaptation and uncover the pivotal role of the propagation process in GNNs for adapting to different graph domains. We provide a comprehensive theoretical analysis of UGDA and derive a generalization bound for multi-layer GNNs. By formulating GNN Lipschitz for k-layer GNNs, we show that the target risk bound can be tighter by removing propagation layers in source graph and stacking multiple propagation layers in target graph. Based on the empirical and theoretical analysis mentioned above, we propose a simple yet effective approach called A2GNN for graph domain adaptation. Through extensive experiments on real-world datasets, we demonstrate the effectiveness of our proposed A2GNN framework.
翻訳日:2024-02-09 15:06:01 公開日:2024-02-08
# 未知状態を用いた実時間ホロスティックロボットの姿勢推定

Real-time Holistic Robot Pose Estimation with Unknown States ( http://arxiv.org/abs/2402.05655v1 )

ライセンス: Link先を確認
Shikun Ban, Juling Fan, Wentao Zhu, Xiaoxuan Ma, Yu Qiao, Yizhou Wang(参考訳) RGB画像からロボットのポーズを推定することは、コンピュータビジョンとロボット工学において重要な問題である。 従来の手法は有望な性能を実現したが、そのほとんどはロボットの内部状態に関する完全な知識、例えば、実世界のシナリオで常に利用できるとは限らない地対地ロボットの関節角を想定している。 一方,協調状態に先立つことなくロボットのポーズを推定する既存のアプローチは計算負荷が重いため,リアルタイムアプリケーションではサポートできない。 この研究は、未知の状態で効率的なロボットポーズ推定の必要性に対処する。 本稿では,ロボット状態が未知である場合でも,単一のrgb画像からリアルタイム,全体的ロボットポーズ推定のためのエンドツーエンドパイプラインを提案する。 本手法では, カメラからロボットへの回転, ロボットの状態パラメータ, キーポイント位置, ルート深度を推定する。 さらに,タスク毎に対応するニューラルネットワークモジュールを設計する。 このアプローチは多面的表現の学習を可能にし、自己教師付き学習を通じてシミュレートから現実への伝達を促進する。 特に,単一のフィードフォワードで推論が可能であり,コストのかかるテスト時間反復最適化は不要である。 その結果、最先端の精度で12倍のスピードアップを実現し、初めてリアルタイムの総合的なロボットポーズ推定を可能にした。 コードはhttps://oliverbansk.github.io/Holistic-Robot-Pose/で公開されている。

Estimating robot pose from RGB images is a crucial problem in computer vision and robotics. While previous methods have achieved promising performance, most of them presume full knowledge of robot internal states, e.g. ground-truth robot joint angles, which are not always available in real-world scenarios. On the other hand, existing approaches that estimate robot pose without joint state priors suffer from heavy computation burdens and thus cannot support real-time applications. This work addresses the urgent need for efficient robot pose estimation with unknown states. We propose an end-to-end pipeline for real-time, holistic robot pose estimation from a single RGB image, even in the absence of known robot states. Our method decomposes the problem into estimating camera-to-robot rotation, robot state parameters, keypoint locations, and root depth. We further design a corresponding neural network module for each task. This approach allows for learning multi-facet representations and facilitates sim-to-real transfer through self-supervised learning. Notably, our method achieves inference with a single feedforward, eliminating the need for costly test-time iterative optimization. As a result, it delivers a 12-time speed boost with state-of-the-art accuracy, enabling real-time holistic robot pose estimation for the first time. Code is available at https://oliverbansk.github.io/Holistic-Robot-Pose/.
翻訳日:2024-02-09 15:05:41 公開日:2024-02-08
# 発達しない岩石の符号化-LDM対応SEタスクの人間中心実験

Rocks Coding, Not Development--A Human-Centric, Experimental Evaluation of LLM-Supported SE Tasks ( http://arxiv.org/abs/2402.05650v1 )

ライセンス: Link先を確認
Wei Wang, Huilong Ning, Gaowei Zhang, Libo Liu and Yi Wang(参考訳) 近年、大規模言語モデル(LLM)ベースの生成AIは、特にChatGPTのリリース以降、複数のドメインにおける優れた高品質なパフォーマンスで勢いを増している。 多くの人は、ソフトウェア開発において汎用的な問題解決を行い、人間のソフトウェア開発者を置き換える可能性を秘めている。 それでも、これらのLCM技術がソフトウェア開発タスクを遂行する能力について、深刻な調査が行われていない。 参加者109名を対象にした2ドル\times$2のオブジェクト間実験において,コーディングタスクやソフトウェア開発タスクにおいてChatGPTがどの程度役に立つか,人々がChatGPTをどのように扱うかを検討した。 単純なコーディング問題ではChatGPTがうまく機能したが、典型的なソフトウェア開発タスクをサポートする性能はそれほど良くなかった。 また,参加者とチャットgptの相互作用を観察し,その相互作用と結果の関係を見いだした。 そこで本研究では,ChatGPTを用いて現実の開発者とソフトウェアエンジニアリングのタスクを遂行し,開発者が望まれる結果を達成するために,大規模言語モデルと効果的に連携する新しいインタラクションメカニズムの必要性を動機づける。

Recently, large language models (LLM) based generative AI has been gaining momentum for their impressive high-quality performances in multiple domains, particularly after the release of the ChatGPT. Many believe that they have the potential to perform general-purpose problem-solving in software development and replace human software developers. Nevertheless, there are in a lack of serious investigation into the capability of these LLM techniques in fulfilling software development tasks. In a controlled 2 $\times$ 2 between-subject experiment with 109 participants, we examined whether and to what degree working with ChatGPT was helpful in the coding task and typical software development task and how people work with ChatGPT. We found that while ChatGPT performed well in solving simple coding problems, its performance in supporting typical software development tasks was not that good. We also observed the interactions between participants and ChatGPT and found the relations between the interactions and the outcomes. Our study thus provides first-hand insights into using ChatGPT to fulfill software engineering tasks with real-world developers and motivates the need for novel interaction mechanisms that help developers effectively work with large language models to achieve desired outcomes.
翻訳日:2024-02-09 15:05:18 公開日:2024-02-08
# 深層学習に基づくソフトウェア障害予測における再現性の検討

Investigating Reproducibility in Deep Learning-Based Software Fault Prediction ( http://arxiv.org/abs/2402.05645v1 )

ライセンス: Link先を確認
Adil Mukhtar, Dietmar Jannach, Franz Wotawa(参考訳) 過去数年間、ディープラーニングの手法はソフトウェア工学(SE)のタスクに応用され、特にソフトウェアの欠陥を自動的に予測し、ローカライズする重要なタスクに応用されてきた。 しかし、複雑な機械学習モデルが急速に普及するにつれて、研究者が論文で報告された結果を再現することがますます難しくなっている。 これは特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。 応用機械学習の他の分野における再現性と進歩に関する最近の、そして非常に心配な発見を踏まえると、この研究の目的は、ソフトウェアエンジニアリングの分野、特にソフトウェア障害予測の領域において、どの程度の問題に悩まされているかを分析することである。 そこで,本研究では,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,56の論文の再現性について検討した。 論文の約3分の2は、提案された深層学習モデルのためのコードを提供している。 しかし、ほとんどのケースでは、比較されたベースラインのコード、データ前処理のコード、ハイパーパラメータチューニングのコードなど、再現性の重要な要素が欠落していることがわかった。 これらの場合、現在の研究文献で結果を正確に再現することは依然として困難である。 したがって、我々のメタ分析は、機械学習に基づく研究の再現性を確保するために研究の実践を改善することを要求する。

Over the past few years, deep learning methods have been applied for a wide range of Software Engineering (SE) tasks, including in particular for the important task of automatically predicting and localizing faults in software. With the rapid adoption of increasingly complex machine learning models, it however becomes more and more difficult for scholars to reproduce the results that are reported in the literature. This is in particular the case when the applied deep learning models and the evaluation methodology are not properly documented and when code and data are not shared. Given some recent -- and very worrying -- findings regarding reproducibility and progress in other areas of applied machine learning, the goal of this work is to analyze to what extent the field of software engineering, in particular in the area of software fault prediction, is plagued by similar problems. We have therefore conducted a systematic review of the current literature and examined the level of reproducibility of 56 research articles that were published between 2019 and 2022 in top-tier software engineering conferences. Our analysis revealed that scholars are apparently largely aware of the reproducibility problem, and about two thirds of the papers provide code for their proposed deep learning models. However, it turned out that in the vast majority of cases, crucial elements for reproducibility are missing, such as the code of the compared baselines, code for data pre-processing or code for hyperparameter tuning. In these cases, it therefore remains challenging to exactly reproduce the results in the current research literature. Overall, our meta-analysis therefore calls for improved research practices to ensure the reproducibility of machine-learning based research.
翻訳日:2024-02-09 15:04:57 公開日:2024-02-08
# FuncGrasp: 単一アノテーションオブジェクトからオブジェクト中心のニューラルグラフ関数を学習する

FuncGrasp: Learning Object-Centric Neural Grasp Functions from Single Annotated Example Object ( http://arxiv.org/abs/2402.05644v1 )

ライセンス: Link先を確認
Hanzhi Chen, Binbin Xu, Stefan Leutenegger(参考訳) 我々はFuncGraspというフレームワークについて述べる。これは1つの注釈付きオブジェクトと1ビューのRGB-D観測をカテゴリの先行情報で予測する。 一連のグリップポーズのみを転送する以前の作業とは異なり、FuncGraspはさまざまなインスタンス間でオブジェクト中心の連続グリップ関数によってパラメータ化される無限の構成を転送することを目的としている。 移動過程の容易化を目的として, グリップ構成を密にエンコードする有効なニューラルネットワーク表現であるNSGF(Neural Surface Grasping Fields)を提案する。 さらに、スフィアプリミティブを用いた関数間伝達を利用して意味論的意味のある分類対応を確立し、専門家の知識のない教師なしの方法で学習する。 シミュレータと実世界の両方で広範囲な実験を行い,その効果を示す。 顕著なことに,我々のフレームワークは,生成した把握に対する密度と信頼性の点で,いくつかの強力なベースライン手法よりも優れている。

We present FuncGrasp, a framework that can infer dense yet reliable grasp configurations for unseen objects using one annotated object and single-view RGB-D observation via categorical priors. Unlike previous works that only transfer a set of grasp poses, FuncGrasp aims to transfer infinite configurations parameterized by an object-centric continuous grasp function across varying instances. To ease the transfer process, we propose Neural Surface Grasping Fields (NSGF), an effective neural representation defined on the surface to densely encode grasp configurations. Further, we exploit function-to-function transfer using sphere primitives to establish semantically meaningful categorical correspondences, which are learned in an unsupervised fashion without any expert knowledge. We showcase the effectiveness through extensive experiments in both simulators and the real world. Remarkably, our framework significantly outperforms several strong baseline methods in terms of density and reliability for generated grasps.
翻訳日:2024-02-09 15:04:31 公開日:2024-02-08
# 並列観測予測によるトークンベース世界モデルの改善

Improving Token-Based World Models with Parallel Observation Prediction ( http://arxiv.org/abs/2402.05643v1 )

ライセンス: Link先を確認
Lior Cohen, Kaixin Wang, Bingyi Kang, Shie Mannor(参考訳) 離散シンボルのシーケンスに適用するトランスフォーマーの成功に動機づけられたトークンベースの世界モデル(tbwms)が最近,サンプル効率のよい手法として提案されている。 TBWMでは、世界モデルはエージェント体験を言語のようなトークンのシーケンスとして消費し、それぞれの観察がサブシーケンスを構成する。 しかしながら、イマジネーションの間、シーケンシャルなトークン・バイ・トークン生成による次の観測は深刻なボトルネックを引き起こし、長いトレーニング時間、GPU利用の低さ、限られた表現につながる。 このボトルネックを解決するために,新しい並列観測予測(POP)機構を考案した。 POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。 我々は,従来のTBWMよりも15.4倍高速な想像力を示す新しいTBWMエージェントREM(Retentive Environment Model)にPOPを組み込んだ。 REMは、Atari 100Kベンチマークの26試合中12試合で超人的なパフォーマンスを達成し、トレーニングは12時間以内である。 私たちのコードは \url{https://github.com/leor-c/REM} で利用可能です。

Motivated by the success of Transformers when applied to sequences of discrete symbols, token-based world models (TBWMs) were recently proposed as sample-efficient methods. In TBWMs, the world model consumes agent experience as a language-like sequence of tokens, where each observation constitutes a sub-sequence. However, during imagination, the sequential token-by-token generation of next observations results in a severe bottleneck, leading to long training times, poor GPU utilization, and limited representations. To resolve this bottleneck, we devise a novel Parallel Observation Prediction (POP) mechanism. POP augments a Retentive Network (RetNet) with a novel forward mode tailored to our reinforcement learning setting. We incorporate POP in a novel TBWM agent named REM (Retentive Environment Model), showcasing a 15.4x faster imagination compared to prior TBWMs. REM attains superhuman performance on 12 out of 26 games of the Atari 100K benchmark, while training in less than 12 hours. Our code is available at \url{https://github.com/leor-c/REM}.
翻訳日:2024-02-09 15:04:12 公開日:2024-02-08
# CMA-ESを用いた脊椎手術ナビゲーションにおける剛体2D/3Dレジストレーションの最適化ベースライン

An Optimization-based Baseline for Rigid 2D/3D Registration Applied to Spine Surgical Navigation Using CMA-ES ( http://arxiv.org/abs/2402.05642v1 )

ライセンス: Link先を確認
Minheng Chen, Tonglong Li, Zhirun Zhang, Youyong Kong(参考訳) 整形外科ロボットのナビゲーションシステムには,堅牢で効率的な2D/3D登録フレームワークが不可欠である。 外科用器具やインプラントの正確な位置情報を提供することができる。 近年、人工知能技術は急速に進歩しているが、従来の最適化に基づく登録手法は2D/3D登録の分野では不可欠であり、この手法の例外的な精度は、学習ベースの手法の処理後ステップと見なすことができるため、登録のための信頼性の高い保証を提供する。 本稿では,CMA-ESアルゴリズムに基づく粗粒度登録フレームワークを提案する。 脊椎の異なる部位のデータを用いて,本手法の集中試験を行った。 以上の結果から,本フレームワークが実際の整形外科手術データに及ぼす影響が示唆された。 この研究は、以前の研究で採用した最適化ベースの手法を補完する追加拡張と見なすことができる。

A robust and efficient optimization-based 2D/3D registration framework is crucial for the navigation system of orthopedic surgical robots. It can provide precise position information of surgical instruments and implants during surgery. While artificial intelligence technology has advanced rapidly in recent years, traditional optimization-based registration methods remain indispensable in the field of 2D/3D registration.he exceptional precision of this method enables it to be considered as a post-processing step of the learning-based methods, thereby offering a reliable assurance for registration. In this paper, we present a coarse-to-fine registration framework based on the CMA-ES algorithm. We conducted intensive testing of our method using data from different parts of the spine. The results shows the effectiveness of the proposed framework on real orthopedic spine surgery clinical data. This work can be viewed as an additional extension that complements the optimization-based methods employed in our previous studies.
翻訳日:2024-02-09 15:03:54 公開日:2024-02-08
# 逆問題に対する擬似難解デノイザの学習

Learning pseudo-contractive denoisers for inverse problems ( http://arxiv.org/abs/2402.05637v1 )

ライセンス: Link先を確認
Deliang Wei, Peng Chen, Fang Li(参考訳) ディープデノイザは信号処理と画像処理における逆問題の解法において優れた性能を示した。 収束を保証するために、デノイザーは非拡張性のようないくつかのリプシッツ条件を満たす必要がある。 しかし、そのような制約を強制することは必然的に回復性能を損なう。 本稿では,疑似収縮性(pseudo-contractiveness)と呼ばれる深いデノイザーに対して,より弱い制約を課す新しい訓練戦略を提案する。 ヤコビ行列のスペクトルを研究することにより、異なるデノイザー仮定の間の関係を明らかにする。 勾配降下と石川過程に基づく効率的なアルゴリズムが導出され、さらに厳密な擬似収縮性の仮定が、半四分法分割と前方後方分割を用いた効率的なアルゴリズムを導出する。 提案したアルゴリズムは理論的に一定の点に強く収束する。 擬似畳み込みデノイザ仮定を強制するために, 正則変換と関数計算に基づくトレーニング戦略を提案する。 広汎な実験により, 擬似収縮型デノイザーの性能は, 関連するデノイザーと比較して優れていた。 提案手法は視覚的効果と定量的値の面で競争力がある。

Deep denoisers have shown excellent performance in solving inverse problems in signal and image processing. In order to guarantee the convergence, the denoiser needs to satisfy some Lipschitz conditions like non-expansiveness. However, enforcing such constraints inevitably compromises recovery performance. This paper introduces a novel training strategy that enforces a weaker constraint on the deep denoiser called pseudo-contractiveness. By studying the spectrum of the Jacobian matrix, relationships between different denoiser assumptions are revealed. Effective algorithms based on gradient descent and Ishikawa process are derived, and further assumptions of strict pseudo-contractiveness yield efficient algorithms using half-quadratic splitting and forward-backward splitting. The proposed algorithms theoretically converge strongly to a fixed point. A training strategy based on holomorphic transformation and functional calculi is proposed to enforce the pseudo-contractive denoiser assumption. Extensive experiments demonstrate superior performance of the pseudo-contractive denoiser compared to related denoisers. The proposed methods are competitive in terms of visual effects and quantitative values.
翻訳日:2024-02-09 15:03:39 公開日:2024-02-08
# ANZ銀行におけるAIツールのエンジニアリングへの影響 : コーポレート環境におけるGitHubコパイロットの実証的研究

The Impact of AI Tool on Engineering at ANZ Bank An Emperical Study on GitHub Copilot within Coporate Environment ( http://arxiv.org/abs/2402.05636v1 )

ライセンス: Link先を確認
Sayan Chatterjee, Ching Louis Liu, Gareth Rowland, Tim Hogarth(参考訳) AI、特にLarge Language Models (LLMs)の普及は、ソフトウェア工学を含む様々な領域に大きな影響を与えている。 本研究は、大企業におけるソフトウェアエンジニアリングプラクティスにおけるaiツールの統合を探求する。 anz bankは、ソフトウェア開発ライフサイクルのすべての側面をカバーする5000人以上のエンジニアを雇用しています。 本稿では,実世界のエンジニアリングタスクにおける有効性を評価するために,制御環境内で,注目すべきaiツールであるgithub copilotを用いて実施した実験について述べる。 さらに、GitHub Copilotが大規模に採用されて以降の生産性向上に関する最初の調査結果を、約1000人のエンジニアが使用している。 ANZ BankのGitHub Copilotでの6週間の実験には、2週間の準備と4週間のアクティブテストが含まれていた。 調査は参加者の感情とツールが生産性、コード品質、セキュリティに与える影響を評価した。 当初、参加者はGitHub Copilotを使って提案されたユースケースを使用していた。 第2フェーズでは、これらをコントロールグループとコパイロットグループに分割し、それぞれが同じPythonの課題に対処し、彼らの経験を再度調査した。 その結果、github copilotで生産性とコード品質が著しく向上したが、コードセキュリティへの影響は決定的ではなかった。 参加者の反応は概ね肯定的であり、大規模なソフトウェアエンジニアリング環境でgithub copilotの有効性を確認した。 1000人のエンジニアによる初期のデータによると、生産性と仕事の満足度も大幅に向上した。

The increasing popularity of AI, particularly Large Language Models (LLMs), has significantly impacted various domains, including Software Engineering. This study explores the integration of AI tools in software engineering practices within a large organization. We focus on ANZ Bank, which employs over 5000 engineers covering all aspects of the software development life cycle. This paper details an experiment conducted using GitHub Copilot, a notable AI tool, within a controlled environment to evaluate its effectiveness in real-world engineering tasks. Additionally, this paper shares initial findings on the productivity improvements observed after GitHub Copilot was adopted on a large scale, with about 1000 engineers using it. ANZ Bank's six-week experiment with GitHub Copilot included two weeks of preparation and four weeks of active testing. The study evaluated participant sentiment and the tool's impact on productivity, code quality, and security. Initially, participants used GitHub Copilot for proposed use-cases, with their feedback gathered through regular surveys. In the second phase, they were divided into Control and Copilot groups, each tackling the same Python challenges, and their experiences were again surveyed. Results showed a notable boost in productivity and code quality with GitHub Copilot, though its impact on code security remained inconclusive. Participant responses were overall positive, confirming GitHub Copilot's effectiveness in large-scale software engineering environments. Early data from 1000 engineers also indicated a significant increase in productivity and job satisfaction.
翻訳日:2024-02-09 15:03:23 公開日:2024-02-08
# ファクトの融合, 偽造: 長期世代における集合的事実の矛盾性の評価

Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations ( http://arxiv.org/abs/2402.05629v1 )

ライセンス: Link先を確認
Cheng-Han Chiang, Hung-yi Lee(参考訳) 大規模言語モデル(llm)からの長期世代は、事実性と非事実性が混在しており、事実性の評価が困難である。 よりきめ細かい方法で長方形世代の事実精度を評価するために、先行研究は長方形世代を複数の検証可能な事実に分解し、それらの事実を独立に検証することを提案する。 生成の事実は、すべての事実の中で検証可能な事実の割合である。 このような方法は、事実クレームの組み合わせが事実クレームを形成すると仮定する。 本稿では,エンティティのあいまいさから仮定を破ることができることを示す。 LLMは、検証可能な事実を含む段落を生成することができるが、実体的曖昧さのため、事実が組み合わさって非事実的段落を形成する。 さらに、FActScoreや引用リコールを含む既存の事実精度指標が、これらの非事実項の事実性を適切に評価できないことも明らかにした。 そこで本研究では,不明瞭なエンティティを持つコンテンツを対象とした拡張メトリックD-FActScoreを提案する。 検索増強世代(RAG)で生成された人物のD-FActScoresを評価する。 D-FActScore は FActScore よりもエンティティの曖昧さで段落の事実性を評価することができることを示す。 また,4つのオープンソース LLM が,異なるエンティティの情報を混合して非実数項を形成する傾向にあることも確認した。

Long-form generations from large language models (LLMs) contains a mix of factual and non-factual claims, making evaluating factuality difficult. To evaluate factual precision of long-form generations in a more fine-grained way, prior works propose to decompose long-form generations into multiple verifiable facts and verify those facts independently. The factuality of the generation is the proportion of verifiable facts among all the facts. Such methods assume that combining factual claims forms a factual paragraph. This paper shows that the assumption can be violated due to entity ambiguity. We show that LLMs can generate paragraphs that contain verifiable facts, but the facts are combined to form a non-factual paragraph due to entity ambiguity. We further reveal that existing factual precision metrics, including FActScore and citation recall, cannot properly evaluate the factuality of these non-factual paragraphs. To address this, we introduce an enhanced metric, D-FActScore, specifically designed for content with ambiguous entities. We evaluate the D-FActScores of people biographies generated with retrieval-augmented generation (RAG). We show that D-FActScore can better assess the factuality of paragraphs with entity ambiguity than FActScore. We also find that four widely used open-source LLMs tend to mix information of distinct entities to form non-factual paragraphs.
翻訳日:2024-02-09 15:02:57 公開日:2024-02-08
# RepQuant: 大規模変圧器モデルの測定後正確な量子化に向けて

RepQuant: Towards Accurate Post-Training Quantization of Large Transformer Models via Scale Reparameterization ( http://arxiv.org/abs/2402.05628v1 )

ライセンス: Link先を確認
Zhikai Li, Xuewen Liu, Jing Zhang, and Qingyi Gu(参考訳) 大型変圧器モデルは目覚ましい成功を収めた。 キャリブレーションに小さなデータセットしか必要とせず、エンドツーエンドの再トレーニングを避けるptq(post-training quantization)は、これら大規模モデルを圧縮するための有望なソリューションである。 既存のPTQメソッドは、通常、非自明なパフォーマンス損失を示す。 性能ボトルネックは、量子化プロセスにおけるハードウェア互換性の過度な考慮によるものであり、正確さを犠牲にして、単純な量子化器を不愉快に採用することに起因する。 そこで本稿では,上記の問題に対処するために,量子化参照脱結合パラダイムを備えた新しいptqフレームワークであるrepquantを提案する。 repquantは、量子化過程において複素量子化器と、推論過程において単純化された量子化器を使用し、量子化スケールの再パラメータ化を通じて2つの間の数学的に等価な変換を行い、正確な量子化と効率的な推論の両方を保証する。 具体的には、LayerNormアクティベーションとSoftmaxアクティベーションの2つのコンポーネントに焦点を当てます。 まず、チャネルワイド量子化とlog$\sqrt{2}$量子化をそれぞれ適用し、分布に合わせて調整する。 特に,前者に対しては,不均衡なアクティベーションにおける外れ値を細粒度で効率よく識別する,学習可能なチャネル単位の二重クリッピング方式を導入する。 次に,ハードウェアフレンドリーなレイヤワイズ量子化とlog2量子化にスケールを再パラメータ化し,推論を行う。 さらに、上述の手順に量子化重量再構成をシームレスに統合し、さらなる性能限界を推し進める。 視覚、言語、マルチモーダルトランスフォーマーを含む複数のタスクの様々な大規模変圧器で広範な実験が行われ、repquantは重要な性能上の利点を奨励的に示している。

Large transformer models have demonstrated remarkable success. Post-training quantization (PTQ), which requires only a small dataset for calibration and avoids end-to-end retraining, is a promising solution for compressing these large models. Regrettably, existing PTQ methods typically exhibit non-trivial performance loss. We find that the performance bottleneck stems from over-consideration of hardware compatibility in the quantization process, compelling them to reluctantly employ simple quantizers, albeit at the expense of accuracy. With the above insights, we propose RepQuant, a novel PTQ framework with quantization-inference decoupling paradigm to address the above issues. RepQuant employs complex quantizers in the quantization process and simplified quantizers in the inference process, and performs mathematically equivalent transformations between the two through quantization scale reparameterization, thus ensuring both accurate quantization and efficient inference. More specifically, we focus on two components with extreme distributions: LayerNorm activations and Softmax activations. Initially, we apply channel-wise quantization and log$\sqrt{2}$ quantization, respectively, which are tailored to their distributions. In particular, for the former, we introduce a learnable per-channel dual clipping scheme, which is designed to efficiently identify outliers in the unbalanced activations with fine granularity. Then, we reparameterize the scales to hardware-friendly layer-wise quantization and log2 quantization for inference. Moreover, quantized weight reconstruction is seamlessly integrated into the above procedure to further push the performance limits. Extensive experiments are performed on different large-scale transformer variants on multiple tasks, including vision, language, and multi-modal transformers, and RepQuant encouragingly demonstrates significant performance advantages.
翻訳日:2024-02-09 15:02:33 公開日:2024-02-08
# 回転特性における結合ダイナミクス

Binding Dynamics in Rotating Features ( http://arxiv.org/abs/2402.05627v1 )

ライセンス: Link先を確認
Sindy L\"owe, Francesco Locatello, Max Welling(参考訳) 人間の認知において、結合問題は、どのように脳が多様な情報を束縛対象表現に柔軟に統合するかというオープンな疑問を記述している。 同様に、機械学習では、教師なしの方法でオブジェクト中心表現を学習することで、強力な一般化と推論が可能なモデルの追求がある。 神経科学的理論から導かれる回転特徴は、その大きさで物体の特徴をカプセル化したベクトル値の特徴を導入し、その向きにオブジェクトの関連性を導入することで、そのような表現を学ぶ。 アーキテクチャのすべての層に埋め込まれた"$\chi$-binding"メカニズムは、重要ではあるが、まだ理解されていない。この記事では、機能間のアライメントを明示的に計算し、それに応じて重みを調整し、同等のパフォーマンスを達成するための代替的な"cosine binding"メカニズムを提案する。 これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。

In human cognition, the binding problem describes the open question of how the brain flexibly integrates diverse information into cohesive object representations. Analogously, in machine learning, there is a pursuit for models capable of strong generalization and reasoning by learning object-centric representations in an unsupervised manner. Drawing from neuroscientific theories, Rotating Features learn such representations by introducing vector-valued features that encapsulate object characteristics in their magnitudes and object affiliation in their orientations. The "$\chi$-binding" mechanism, embedded in every layer of the architecture, has been shown to be crucial, but remains poorly understood. In this paper, we propose an alternative "cosine binding" mechanism, which explicitly computes the alignment between features and adjusts weights accordingly, and we show that it achieves equivalent performance. This allows us to draw direct connections to self-attention and biological neural processes, and to shed light on the fundamental dynamics for object-centric representations to emerge in Rotating Features.
翻訳日:2024-02-09 15:02:02 公開日:2024-02-08
# In-Context Learningは、タスクの学習を禁止できる

In-Context Learning Can Re-learn Forbidden Tasks ( http://arxiv.org/abs/2402.05723v1 )

ライセンス: Link先を確認
Sophie Xhonneux, David Dobre, Jian Tang, Gauthier Gidel, Dhanya Sridhar(参考訳) 安全性トレーニングへの多大な投資にもかかわらず、現実世界にデプロイされた大規模言語モデル(llm)は依然として多くの脆弱性に悩まされている。 LLMの安全性トレーニングの1つの視点は、有害なクエリや有害なクエリへの応答をアルゴリズムによって禁じることである。 安全訓練の有効性を評価するため,本研究では,モデルが回答を拒むよう設計したタスクを禁止タスクとして検討する。 具体的には,テキスト内学習 (ICL) が, 学習を拒否するモデルの微調整に拘わらず, タスクの再学習に有効かどうかを検討する。 まず,問題を示すために感情分類を拒否するトイ例を検討する。 そして、ICLを微調整したモデルに使用して、偽ニュース記事の要約を拒否する。 最後に,iclが安全訓練を解除できるかどうかについて検討した。 安全対策としては、Vicuna-7B、Starling-7B、Llama2-7Bがある。 この攻撃はStarling-7BとVicuna-7Bでは有効だが、Llama2-7Bでは失敗する。 最後に, vicuna-7b と starling-7b に対する攻撃成功率を改善するために, 迅速なインジェクション攻撃のようなチャットテンプレートトークンを用いた icl 攻撃を提案する。 Trigger Warning: 付録には暴力、自殺、誤情報を含むLLM生成テキストが含まれている。

Despite significant investment into safety training, large language models (LLMs) deployed in the real world still suffer from numerous vulnerabilities. One perspective on LLM safety training is that it algorithmically forbids the model from answering toxic or harmful queries. To assess the effectiveness of safety training, in this work, we study forbidden tasks, i.e., tasks the model is designed to refuse to answer. Specifically, we investigate whether in-context learning (ICL) can be used to re-learn forbidden tasks despite the explicit fine-tuning of the model to refuse them. We first examine a toy example of refusing sentiment classification to demonstrate the problem. Then, we use ICL on a model fine-tuned to refuse to summarise made-up news articles. Finally, we investigate whether ICL can undo safety training, which could represent a major security risk. For the safety task, we look at Vicuna-7B, Starling-7B, and Llama2-7B. We show that the attack works out-of-the-box on Starling-7B and Vicuna-7B but fails on Llama2-7B. Finally, we propose an ICL attack that uses the chat template tokens like a prompt injection attack to achieve a better attack success rate on Vicuna-7B and Starling-7B. Trigger Warning: the appendix contains LLM-generated text with violence, suicide, and misinformation.
翻訳日:2024-02-09 14:56:45 公開日:2024-02-08
# 対話型ソーシャルシーンシミュレーションによる大規模言語モデルの自己アライメント

Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation ( http://arxiv.org/abs/2402.05699v1 )

ライセンス: Link先を確認
Xianghe Pang, Shuo Tang, Rui Ye, Yuxin Xiong, Bolun Zhang, Yanfeng Wang, Siheng Chen(参考訳) 人的価値を持つ大きな言語モデル(LLM)の調整は、その誤用による潜在的な副作用を軽減するために不可欠である。 本論文は,すべての当事者の関心を社会学的に理解することが,人的価値形成の鍵となる要因であるとする考察から,LLMを自己で整合させる新たな方向性である社会シーンシミュレーションを提案する。 そこで本研究では,ユーザの入力クエリ周辺の現実的シーンをエミュレートする新しいソーシャルシーンシミュレータであるmatrixを提案する。 MATRIXはMonopolylogueに似た仮想リハーサル空間として機能し、LCMはクエリと実践に関するさまざまな役割をそれ自体で実行する。 このアライメントを注入するために,MATRIXシミュレーションデータを用いてLLMを微調整し,推論速度を損なうことなく人間の値への付着を確保する。 理論的には、MATRIXを用いたLLMは、軽微な仮定で構成AIよりも優れていることを示す。 最後に、我々の手法が4つのベンチマークで10以上のベースラインより優れていることを検証する。 875のユーザレーティングで証明されたように、チューニングされた13bサイズのllmは、人間の値に合わせるとgpt-4を超えます。 コードはhttps://github.com/pangxianghe/MATRIXで入手できる。

Aligning large language models (LLMs) with human values is imperative to mitigate potential adverse effects resulting from their misuse. Drawing from the sociological insight that acknowledging all parties' concerns is a key factor in shaping human values, this paper proposes a novel direction to align LLMs by themselves: social scene simulation. To achieve this, we present MATRIX, a novel social scene simulator that emulates realistic scenes around a user's input query, enabling the LLM to take social consequences into account before responding. MATRIX serves as a virtual rehearsal space, akin to a Monopolylogue, where the LLM performs diverse roles related to the query and practice by itself. To inject this alignment, we fine-tune the LLM with MATRIX-simulated data, ensuring adherence to human values without compromising inference speed. We theoretically show that the LLM with MATRIX outperforms Constitutional AI under mild assumptions. Finally, extensive experiments validate that our method outperforms over 10 baselines across 4 benchmarks. As evidenced by 875 user ratings, our tuned 13B-size LLM exceeds GPT-4 in aligning with human values. Code is available at https://github.com/pangxianghe/MATRIX.
翻訳日:2024-02-09 14:56:23 公開日:2024-02-08
# 固定幅木型ニューラルネットワークのキャパシティ解析 --ジェネリックアクティベーション

Fixed width treelike neural networks capacity analysis -- generic activations ( http://arxiv.org/abs/2402.05696v1 )

ライセンス: Link先を確認
Mihailo Stojnic(参考訳) 我々は, \emph{treelike committee machines} (tcm) ニューラルネットワークの能力を検討する。 Random Duality Theory (RDT) に基づき、最近、そのキャパシティ分析のための一般的なフレームワークを導入した。 いわゆる \emph{partially lifted} RDT (pl RDT) に基づいたアップグレードが \cite{Stojnictcmspnncapliftedrdt23} で発表された。 どちらの作業ラインも、最も典型的な \emph{sign} アクティベーションを持つネットワークに焦点を当てている。 ここでは,より一般的なアクティベーションのタイプであるネットワークに注目し, \cite{stojnictcmspnncaprdt23,stojnictcmspnncapliftedrdt23} のフレームワークが,そのようなシナリオを処理できるように十分に強力であることを示す。 標準の \emph{linear} 活性化に加えて、非常によく使われる 2 つの活性化、すなわち \emph{quadratic} と \emph{rectified linear unit (ReLU) に対して特に便利な結果が得られることを明らかにする。 より具体的には、これらの活性化のそれぞれに対して、隠れた層ニューロンの(偶数)個数$d$に対して、RDTとpl RDTに基づくメモリ容量の上限特性を得る。 その過程で、私たちはさらに次の2つの驚くべき事実を明らかにします。 1) 共通知識とは対照的に,両結果は,境界容量が一定値に収束しながら,大きな$d$(隠れ層幅)に対して減少することを示している。 2)最大バウンダリング能力は、正確には \textbf{\emph{two}}隠れ層ニューロンを持つネットワークに対して達成される。 さらに、大きな$d$収束値は、統計物理学のレプリカ理論に基づく予測とよく一致することが観察される。

We consider the capacity of \emph{treelike committee machines} (TCM) neural networks. Relying on Random Duality Theory (RDT), \cite{Stojnictcmspnncaprdt23} recently introduced a generic framework for their capacity analysis. An upgrade based on the so-called \emph{partially lifted} RDT (pl RDT) was then presented in \cite{Stojnictcmspnncapliftedrdt23}. Both lines of work focused on the networks with the most typical, \emph{sign}, activations. Here, on the other hand, we focus on networks with other, more general, types of activations and show that the frameworks of \cite{Stojnictcmspnncaprdt23,Stojnictcmspnncapliftedrdt23} are sufficiently powerful to enable handling of such scenarios as well. In addition to the standard \emph{linear} activations, we uncover that particularly convenient results can be obtained for two very commonly used activations, namely, the \emph{quadratic} and \emph{rectified linear unit (ReLU)} ones. In more concrete terms, for each of these activations, we obtain both the RDT and pl RDT based memory capacities upper bound characterization for \emph{any} given (even) number of the hidden layer neurons, $d$. In the process, we also uncover the following two, rather remarkable, facts: 1) contrary to the common wisdom, both sets of results show that the bounding capacity decreases for large $d$ (the width of the hidden layer) while converging to a constant value; and 2) the maximum bounding capacity is achieved for the networks with precisely \textbf{\emph{two}} hidden layer neurons! Moreover, the large $d$ converging values are observed to be in excellent agrement with the statistical physics replica theory based predictions.
翻訳日:2024-02-09 14:56:03 公開日:2024-02-08
# 通信波長におけるスペクトル純光子生成のための薄膜ニオブ酸リチウム導波路の横モード漏洩の回避

Avoiding lateral mode leakage in thin film lithium niobate waveguides for the generation of spectrally pure photons at telecom wavelengths ( http://arxiv.org/abs/2402.05694v1 )

ライセンス: Link先を確認
Muskan Arora, Pranav Chokkara, Jasleen Lugani(参考訳) フォトニック集積光学素子、特に直線導波路は、オンチップ生成と光の量子状態の操作において重要な要素である。 本研究では, 絶縁体 (LNOI) にニオブ酸リチウムを添加した導波路を最適化し, 自発パラメトリックダウンコンバージョン (SPDC) を用いて, テレコム波長で光子対を生成する。 具体的には,Xカット型ニオブ酸リチウム導波管におけるタイプ0,タイプI,タイプIIの位相整合条件を含むすべてのSPDCプロセスの側方漏洩について検討し,相互作用する光子の漏洩損失を回避するためのレシピを提供する。 さらに、II型位相整合性に着目し、高純度(99.33%)のスペクトル純粋な単一光子を生成するためにグループインデックス整合を満足するように、単一モードモードで導波路を設計した。 また、最適化された設計の製作不完全さに対処し、生成された光子のスペクトル純度が製造誤差にロバストであることを見出した。 本研究は、所望の位相整合条件を用いた通信波長での光回路および光子対生成のためのロスレス単一モードlnoi導波路を得るための形態的パラメータの適切な選択のためのチュートリアルである。

Photonic integrated optical components, notably straight waveguides, serve as pivotal elements for on-chip generation and manipulation of quantum states of light. In this work, we focus on optimizing waveguides based on lithium niobate on insulator (LNOI) to generate photon pairs at telecom wavelength using spontaneous parametric down-conversion (SPDC). Specifically, we investigate lateral leakage for all possible SPDC processes involving type 0, type I and type II phase matching conditions in an X-cut lithium niobate waveguide and provide a recipe to avoid leakage loss for the interacting photons. Furthermore, focusing on type II phase matching, we engineer the waveguide in the single mode regime such that it also satisfies group index matching for generating spectrally pure single photons with high purity (99.33%). We also address fabrication imperfections of the optimized design and found that the spectral purity of the generated photons is robust to fabrication errors. This work serves as a tutorial for the appropriate selection of morphological parameters to obtain lossless, single mode LNOI waveguides for building linear optical circuits and photon pair generation at telecom wavelengths using desired phase-matching conditions.
翻訳日:2024-02-09 14:55:33 公開日:2024-02-08
# 量子プライバシー増幅によるQKDの騒音限界の克服

Overcoming Noise Limitations in QKD with Quantum Privacy Amplification ( http://arxiv.org/abs/2402.05690v1 )

ライセンス: Link先を確認
Philipp Sohr, Sebastian Ecker, Lukas Bulla, Martin Bohmann, Rupert Ursin(参考訳) 高品質な分散量子絡み合いは量子通信の特有な資源であり、量子鍵分布において保証できる不完全レベルのセキュリティの基礎を形成している。 絡み合いプロバイダを信頼する必要はないが、使用する絡み合いがあまりに騒がしい場合、セキュアな鍵レートはゼロになる。 本稿では,分散エンタングルメントの品質を向上し,QKDの量子的優位性を高めることにより,QPAがQKDで達成可能なセキュアな鍵レートを向上できることを実験的に示す。 さらに、QPAは、以前にキー生成を妨げていたノイズレベルにおいてキー生成を可能にすることを示す。 これらの顕著な結果は、極化とエネルギー時間自由度における超エンタングルメントを利用する効率的な実装によってのみ可能となった。 我々は,様々な騒音レベルにおける原理実証実験で得られたセキュアな鍵レートの利得の詳細な特徴付けを行う。 結果は、量子プロセッサをリンクするグローバル量子ネットワークの実装と、将来的なデータセキュリティの確保に最重要である。

High-quality, distributed quantum entanglement is the distinctive resource for quantum communication and forms the foundation for the unequalled level of security that can be assured in quantum key distribution. While the entanglement provider does not need to be trusted, the secure key rate drops to zero if the entanglement used is too noisy. In this paper, we show experimentally that QPA is able to increase the secure key rate achievable with QKD by improving the quality of distributed entanglement, thus increasing the quantum advantage in QKD. Beyond that, we show that QPA enables key generation at noise levels that previously prevented key generation. These remarkable results were only made possible by the efficient implementation exploiting hyperentanglement in the polarisation and energy-time degrees of freedom. We provide a detailed characterisation of the gain in secure key rate achieved in our proof-of-principle experiment at different noise levels. The results are paramount for the implementation of a global quantum network linking quantum processors and ensuring future-proof data security.
翻訳日:2024-02-09 14:55:08 公開日:2024-02-08
# 深層学習に基づく胸部x線画像の重症度評価のための順序回帰フレームワーク

An Ordinal Regression Framework for a Deep Learning Based Severity Assessment for Chest Radiographs ( http://arxiv.org/abs/2402.05685v1 )

ライセンス: Link先を確認
Patrick Wienholt, Alexander Hermans, Firas Khader, Behrus Puladi, Bastian Leibe, Christiane Kuhl, Sven Nebelung, Daniel Truhn(参考訳) 本研究は,胸部X線写真における疾患重症度分類のための順序回帰法の応用について検討した。 本稿では,順序回帰問題をモデル,対象関数,分類関数の3つの部分に分割する枠組みを提案する。 resnet50とvit-b-16のディープラーニングモデルを用いて,one-hot,gaussian,progress-bar,soft-progress-barなどの異なる符号化手法を適用した。 符号化の選択は性能に強く影響し,最も優れた符号化はコーエンのカッパの重み付けや使用するモデルアーキテクチャにも依存することを示した。 コードをGitHubで公開しています。

This study investigates the application of ordinal regression methods for categorizing disease severity in chest radiographs. We propose a framework that divides the ordinal regression problem into three parts: a model, a target function, and a classification function. Different encoding methods, including one-hot, Gaussian, progress-bar, and our soft-progress-bar, are applied using ResNet50 and ViT-B-16 deep learning models. We show that the choice of encoding has a strong impact on performance and that the best encoding depends on the chosen weighting of Cohen's kappa and also on the model architecture used. We make our code publicly available on GitHub.
翻訳日:2024-02-09 14:54:50 公開日:2024-02-08
# 離散化と特徴選択による表データ解釈可能な分類器

Interpretable classifiers for tabular data via discretization and feature selection ( http://arxiv.org/abs/2402.05680v1 )

ライセンス: Link先を確認
Reijo Jaakkola, Tomi Janhunen, Antti Kuusisto, Masood Feyzbakhsh Rankooh, Miikka Vilander(参考訳) 表データから人間の解釈可能かつ正確な分類器を即座に計算する手法を提案する。 得られた分類器は短いdnf形式であり、まず元のデータをブール形式に識別し、次に特徴の選択と非常に高速なアルゴリズムを組み合わせることで設定に最適なブール分類器を生成する。 この手法を14の実験で実証し,ランダム林,xgboost,および文献中の同じデータセットに対する既存の結果とよく似た精度で結果を得た。 いくつかのケースでは,本研究の目的が分類器の即時解釈性であるにもかかわらず,本手法は正確性に関する基準結果を上回っています。 また,実生活データから得られた分類器が,データが生み出す背景分布に関して理想的最良分類器に対応する確率について,新たな結果を示す。

We introduce a method for computing immediately human interpretable yet accurate classifiers from tabular data. The classifiers obtained are short DNF-formulas, computed via first discretizing the original data to Boolean form and then using feature selection coupled with a very fast algorithm for producing the best possible Boolean classifier for the setting. We demonstrate the approach via 14 experiments, obtaining results with accuracies mainly similar to ones obtained via random forests, XGBoost, and existing results for the same datasets in the literature. In several cases, our approach in fact outperforms the reference results in relation to accuracy, even though the main objective of our study is the immediate interpretability of our classifiers. We also prove a new result on the probability that the classifier we obtain from real-life data corresponds to the ideally best classifier with respect to the background distribution the data comes from.
翻訳日:2024-02-09 14:54:37 公開日:2024-02-08
# 圧縮データセットによる敵対的トレーニングは有効か?

Is Adversarial Training with Compressed Datasets Effective? ( http://arxiv.org/abs/2402.05675v1 )

ライセンス: Link先を確認
Tong Chen, Raghavendra Selvan(参考訳) Dataset Condensation (DC)は、大規模なデータセットからより小さく合成されたデータセットを生成する、最近のデータセット圧縮手法のクラスを指す。 この合成データセットは、元のデータセットの本質的な情報を保持し、トレーニングされたモデルが、フルデータセットでトレーニングされたモデルと同等のパフォーマンスレベルを達成することができる。 現在のdc法のほとんどは、データ予算の制限による高いテスト性能の実現に主眼を置いており、敵対的ロバスト性の問題に直接は対処していない。 本研究では,圧縮データセットで学習したモデルに対する逆ロバスト性の影響について検討する。 本研究は,直流法から得られた圧縮データセットが,モデルへの対向ロバスト性伝達に有効でないことを示す。 本稿では,データセットの最小有限被覆量(mfc)を求めることにより,データセットの圧縮効率と逆ロバスト性を同時に向上させるための新しいロバスト性対応データセット圧縮法を提案する。 提案手法は,(1) 単時間計算により得られた手法で, 任意のモデルに適用可能であり, (2) MFC 上での対向訓練を行う場合の DC 法よりも有効である。 さらに,3つのデータセットに対する実験結果から,提案手法は分散マッチングなどの直流方式と比較して,ロバスト性や性能トレードオフを向上できることが示された。

Dataset Condensation (DC) refers to the recent class of dataset compression methods that generate a smaller, synthetic, dataset from a larger dataset. This synthetic dataset retains the essential information of the original dataset, enabling models trained on it to achieve performance levels comparable to those trained on the full dataset. Most current DC methods have mainly concerned with achieving high test performance with limited data budget, and have not directly addressed the question of adversarial robustness. In this work, we investigate the impact of adversarial robustness on models trained with compressed datasets. We show that the compressed datasets obtained from DC methods are not effective in transferring adversarial robustness to models. As a solution to improve dataset compression efficiency and adversarial robustness simultaneously, we propose a novel robustness-aware dataset compression method based on finding the Minimal Finite Covering (MFC) of the dataset. The proposed method is (1) obtained by one-time computation and is applicable for any model, (2) more effective than DC methods when applying adversarial training over MFC, (3) provably robust by minimizing the generalized adversarial loss. Additionally, empirical evaluation on three datasets shows that the proposed method is able to achieve better robustness and performance trade-off compared to DC methods such as distribution matching.
翻訳日:2024-02-09 14:54:23 公開日:2024-02-08
# 逆行訓練のための高次元モデル:幾何と貿易オフ

A High Dimensional Model for Adversarial Training: Geometry and Trade-Offs ( http://arxiv.org/abs/2402.05674v1 )

ライセンス: Link先を確認
Kasimir Tanner, Matteo Vilucchio, Bruno Loureiro, Florent Krzakala(参考訳) 本研究では,次元$d$ とデータポイント数 $n$ を固定比 $\alpha = n / d$ で発散する高次元環境における,マージンに基づく線形分類器の文脈における敵対的訓練について検討する。 本稿では,データと敵対的攻撃者ジオメトリとの相互作用を解析し,敵的ロバスト性文献で観察されたコア表現論を捉えた,扱いやすい数学的モデルを提案する。 我々の理論上の主要な貢献は、ジェネリック凸と非増大損失の下で、敵対的経験的リスク最小化のための十分な統計量の正確な漸近的記述である。 その結果、ロバスト性と有用性指標で定義されるように、データのどの方向がより高い一般化/ロバスト性トレードオフと関連しているかを正確に特徴付けることができる。 特に,精度を損なうことなく防御できる方向の存在を明らかにする。 最後に,ロバストでない特徴を訓練中に防御し,一様防御を本質的に効果的な防御機構として認識する利点を示す。

This work investigates adversarial training in the context of margin-based linear classifiers in the high-dimensional regime where the dimension $d$ and the number of data points $n$ diverge with a fixed ratio $\alpha = n / d$. We introduce a tractable mathematical model where the interplay between the data and adversarial attacker geometries can be studied, while capturing the core phenomenology observed in the adversarial robustness literature. Our main theoretical contribution is an exact asymptotic description of the sufficient statistics for the adversarial empirical risk minimiser, under generic convex and non-increasing losses. Our result allow us to precisely characterise which directions in the data are associated with a higher generalisation/robustness trade-off, as defined by a robustness and a usefulness metric. In particular, we unveil the existence of directions which can be defended without penalising accuracy. Finally, we show the advantage of defending non-robust features during training, identifying a uniform protection as an inherently effective defence mechanism.
翻訳日:2024-02-09 14:54:00 公開日:2024-02-08
# 固定スペクトルに対する最大絡み合った混合状態は常に存在するとは限らない

Maximally entangled mixed states for a fixed spectrum do not always exist ( http://arxiv.org/abs/2402.05673v1 )

ライセンス: Link先を確認
Julio I. de Vicente(参考訳) エンタングルメント(英: Entanglement)は、古典的通信(LOCC)を補助するローカル操作のリソースである。 1つの状態が$s$で与えられると、loccが$s$で他の全ての状態に変換することのできる$s$の1つの状態があれば、この状態は$s$で最大に絡み合う。 これは、$d$-次元ベル状態が局所次元$d$のすべての二部状態の集合において最大に絡み合った状態であることはよく知られている。 現実的な応用において、ノイズは全ての状態が混合されるので、関連する混合状態の集合が最大絡み合う状態の概念を可能にするかどうかを研究することは興味深い。 自然な選択は、同じスペクトルを持つ全ての状態の集合である。 実際、2量子状態の任意のスペクトル分布に対して、以前の研究はいくつかの絡み合い測度が、この集合の特定の状態によって全て最大化されていることを示した。 このことは、この状態の族が、同じスペクトルを持つ全ての状態の集合の中で最大に絡み合った状態になりうる可能性を考え、次に 'emph{all} の絡み合いの測度を最大化するであろう。 この本では、この疑問に負の形で答える: 一般に固定されたスペクトルに対して最大に絡み合った状態、すなわちスペクトルのあらゆる選択に対しては存在しない。 そのため、ランク2の状態の場合を考えると、固有値の特定の値に対して、LOCCの下でだけでなく、より大規模な非絡み合い操作の下でも、他のすべての等スペクトル状態に変換できる状態は存在しないことを示す。 特に、これらの場合において、同じスペクトルを持つ全ての状態において与えられた絡み合い測度を最大化する状態は、絡み合い測度の選択に依存する、すなわち、上記の状態の族が全ての絡み合い測度を最大化することは不可能である。

Entanglement is a resource under local operations assisted by classical communication (LOCC). Given a set of states $S$, if there is one state in $S$ that can be transformed by LOCC into all other states in $S$, then this state is maximally entangled in $S$. It is a well-known result that the $d$-dimensional Bell state is the maximally entangled state in the set of all bipartite states of local dimension $d$. Since in practical applications noise renders every state mixed, it is interesting to study whether sets of mixed states of relevance enable the notion of a maximally entangled state. A natural choice is the set of all states with the same spectrum. In fact, for any given spectrum distribution on two-qubit states, previous work has shown that several entanglement measures are all maximized by one particular state in this set. This has led to consider the possibility that this family of states could be the maximally entangled states in the set of all states with the same spectrum, which should then maximize \emph{all} entanglement measures. In this work I answer this question in the negative: there are no maximally entangled states for a fixed spectrum in general, i.e. for every possible choice of the spectrum. In order to do so, I consider the case of rank-2 states and show that for particular values of the eigenvalues there exists no state that can be transformed to all other isospectral states not only under LOCC but also under the larger class of non-entangling operations. This in particular implies that in these cases the state that maximizes a given entanglement measure among all states with the same spectrum depends on the choice of entanglement measure, i.e. it cannot be that the aforementioned family of states maximizes all entanglement measures.
翻訳日:2024-02-09 14:53:39 公開日:2024-02-08
# 多言語E5テキスト埋め込み:技術報告

Multilingual E5 Text Embeddings: A Technical Report ( http://arxiv.org/abs/2402.05672v1 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei(参考訳) 本稿では,2023年中頃に公開されたオープンソースの多言語E5テキスト埋め込みモデルのトレーニング手法と評価結果を紹介する。 異なるサイズ(小さい/ベース/大きな)の3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。 トレーニング手順は、英語のE5モデルレシピに準拠し、100億の多言語テキストペアに対する対照的な事前トレーニングとラベル付きデータセットの組み合わせによる微調整を含む。 さらに,同様の大きさの英文のみのモデルと同等の性能を持つ新しいインストラクションチューニング組込みモデルを提案する。 モデルリリースに関する情報はhttps://github.com/microsoft/unilm/tree/master/e5にある。

This technical report presents the training methodology and evaluation results of the open-source multilingual E5 text embedding models, released in mid-2023. Three embedding models of different sizes (small / base / large) are provided, offering a balance between the inference efficiency and embedding quality. The training procedure adheres to the English E5 model recipe, involving contrastive pre-training on 1 billion multilingual text pairs, followed by fine-tuning on a combination of labeled datasets. Additionally, we introduce a new instruction-tuned embedding model, whose performance is on par with state-of-the-art, English-only models of similar sizes. Information regarding the model release can be found at https://github.com/microsoft/unilm/tree/master/e5 .
翻訳日:2024-02-09 14:52:45 公開日:2024-02-08
# llmsに対する脱獄攻撃の包括的評価

Comprehensive Assessment of Jailbreak Attacks Against LLMs ( http://arxiv.org/abs/2402.05668v1 )

ライセンス: Link先を確認
Junjie Chu and Yugeng Liu and Ziqing Yang and Xinyue Shen and Michael Backes and Yang Zhang(参考訳) 大規模言語モデル(llms)の誤用は、広く懸念されている。 この問題に対処するため、llmが社会倫理に適合するように保護措置が講じられている。 しかし、最近の発見では、脱獄攻撃として知られるLSMの安全を守るために、不安定な脆弱性が発見された。 ロールプレイングシナリオや敵の例、あるいは安全性目標の微妙なサブバージョンをプロンプトとして採用することで、llmは不適切な、あるいは有害な応答を生み出すことができる。 研究者はジェイルブレイク攻撃のいくつかのカテゴリを研究しているが、それらは単独で行われている。 このギャップを埋めるため,様々な脱獄攻撃方法の大規模測定を初めて実施する。 4つのカテゴリから13の最先端脱獄方法,16の違反カテゴリから160の質問,そして6つの人気のあるllmに注目した。 我々の広範な実験結果から、最適化されたジェイルブレイクプロンプトは最高攻撃成功率を継続的に達成し、異なるLSM間で堅牢性を示すことが示されている。 インターネットから利用できるいくつかのjailbreakプロンプトデータセットは、ChatGLM3、GPT-3.5、PaLM2など、多くのLLM上で高い攻撃成功率を達成することができる。 ポリシーに違反するカテゴリをカバーするという多くの組織からの主張にもかかわらず、これらのカテゴリからの攻撃成功率は高いままであり、llmポリシーを効果的に調整することの課題とジェイルブレイク攻撃に対抗する能力を示している。 また,攻撃性能と効率のトレードオフについても論じるとともに,脱獄プロンプトの転送可能性も引き続き有効であることを示し,ブラックボックスモデルの選択肢となる。 本研究は総合的に異なるジェイルブレイク法を評価する必要性を強調している。 我々の研究が将来のジェイルブレイク攻撃研究の洞察を与え、実践者のためにそれらを評価するためのベンチマークツールとして機能することを願っている。

Misuse of the Large Language Models (LLMs) has raised widespread concern. To address this issue, safeguards have been taken to ensure that LLMs align with social ethics. However, recent findings have revealed an unsettling vulnerability bypassing the safeguards of LLMs, known as jailbreak attacks. By applying techniques, such as employing role-playing scenarios, adversarial examples, or subtle subversion of safety objectives as a prompt, LLMs can produce an inappropriate or even harmful response. While researchers have studied several categories of jailbreak attacks, they have done so in isolation. To fill this gap, we present the first large-scale measurement of various jailbreak attack methods. We concentrate on 13 cutting-edge jailbreak methods from four categories, 160 questions from 16 violation categories, and six popular LLMs. Our extensive experimental results demonstrate that the optimized jailbreak prompts consistently achieve the highest attack success rates, as well as exhibit robustness across different LLMs. Some jailbreak prompt datasets, available from the Internet, can also achieve high attack success rates on many LLMs, such as ChatGLM3, GPT-3.5, and PaLM2. Despite the claims from many organizations regarding the coverage of violation categories in their policies, the attack success rates from these categories remain high, indicating the challenges of effectively aligning LLM policies and the ability to counter jailbreak attacks. We also discuss the trade-off between the attack performance and efficiency, as well as show that the transferability of the jailbreak prompts is still viable, becoming an option for black-box models. Overall, our research highlights the necessity of evaluating different jailbreak methods. We hope our study can provide insights for future research on jailbreak attacks and serve as a benchmark tool for evaluating them for practitioners.
翻訳日:2024-02-09 14:52:21 公開日:2024-02-08
# S$\Omega$I:スコアベースのO-インフォーメーション推定

S$\Omega$I: Score-based O-INFORMATION Estimation ( http://arxiv.org/abs/2402.05667v1 )

ライセンス: Link先を確認
Mustapha Bounoua, Giulio Franzese, Pietro Michiardi(参考訳) 科学データと複雑な多変量系の分析は、複数の確率変数間の関係を捉える情報量を必要とする。 近年,相互情報など,対の相互作用を考慮に入れない古典的情報の欠点を克服する新たな情報理論手法が開発されている。 その中でも情報シナジーと冗長性の概念は,変数間の高次依存性を理解する上で重要である。 この概念に基づく最も顕著で多用途な尺度の1つはO情報であり、多変量系におけるシナジー/冗長バランスを定量化する明確でスケーラブルな方法である。 しかし、実用用途は簡易ケースに限られている。 本稿では,システムに関する制約的な仮定を伴わずに,初めてO情報を計算するS$\Omega$Iを紹介する。 我々の実験では,合成データに対するアプローチを検証し,実世界のユースケースにおけるs$\omega$iの有効性を実証した。

The analysis of scientific data and complex multivariate systems requires information quantities that capture relationships among multiple random variables. Recently, new information-theoretic measures have been developed to overcome the shortcomings of classical ones, such as mutual information, that are restricted to considering pairwise interactions. Among them, the concept of information synergy and redundancy is crucial for understanding the high-order dependencies between variables. One of the most prominent and versatile measures based on this concept is O-information, which provides a clear and scalable way to quantify the synergy-redundancy balance in multivariate systems. However, its practical application is limited to simplified cases. In this work, we introduce S$\Omega$I, which allows for the first time to compute O-information without restrictive assumptions about the system. Our experiments validate our approach on synthetic data, and demonstrate the effectiveness of S$\Omega$I in the context of a real-world use case.
翻訳日:2024-02-09 14:50:48 公開日:2024-02-08
# リアルタイム起動と衝撃波予測のためのメソスケール交通予測

Mesoscale Traffic Forecasting for Real-Time Bottleneck and Shockwave Prediction ( http://arxiv.org/abs/2402.05663v1 )

ライセンス: Link先を確認
Raphael Chekroun, Han Wang, Jonathan Lee, Marin Toromanoff, Sascha Hornauer, Fabien Moutarde, Maria Laura Delle Monache(参考訳) 正確なリアルタイム交通状態予測は、交通制御研究において重要な役割を果たす。 特に、CIRCLESコンソーシアムプロジェクトは、データソース遅延の影響を軽減するために予測技術を必要とする。 megavandertest実験が成功した後、本論文は現在のシステムの限界を克服し、実験の次のイテレーションのリアルタイム交通状態推定を改善するためのより適切なアプローチを開発することを目的としている。 本稿では,SA-LSTMを提案する。SA-LSTMは,空間次元の自己認識(SA)と長短記憶(LSTM)を統合し,リアルタイムのメソスケール交通予測の最先端結果を得る。 本手法は,n段階SA-LSTMを用いた複数段階予測に拡張され,短期予測と長期予測のトレードオフにおいて従来の多段階予測手法よりも優れている。

Accurate real-time traffic state forecasting plays a pivotal role in traffic control research. In particular, the CIRCLES consortium project necessitates predictive techniques to mitigate the impact of data source delays. After the success of the MegaVanderTest experiment, this paper aims at overcoming the current system limitations and develop a more suited approach to improve the real-time traffic state estimation for the next iterations of the experiment. In this paper, we introduce the SA-LSTM, a deep forecasting method integrating Self-Attention (SA) on the spatial dimension with Long Short-Term Memory (LSTM) yielding state-of-the-art results in real-time mesoscale traffic forecasting. We extend this approach to multi-step forecasting with the n-step SA-LSTM, which outperforms traditional multi-step forecasting methods in the trade-off between short-term and long-term predictions, all while operating in real-time.
翻訳日:2024-02-09 14:50:02 公開日:2024-02-08
# Datastringer: ジャーナリストのための簡単なデータセットモニタリング

Datastringer: easy dataset monitoring for journalists ( http://arxiv.org/abs/2402.05764v1 )

ライセンス: Link先を確認
Matt Shearer, Basile Simon, Cl\'ement Geiger(参考訳) 私たちはジャーナリストが定期的に更新されたデータセットに適用される一連の基準を定義し、これらの基準が満たされた時にアラートを送信できるようにソフトウェアを開発しました。 主な課題は、製品をスケーラブルで強力なものにすることであり、完全に活用するためのすべての技術的知識を持っていないジャーナリストが使用できるようにすることであった。 そのためには、主要な言語としてJavascriptを選択し、再使用性とさらなる改善を可能にするようにコードを設計しなければなりませんでした。 このプロジェクトは実生活環境でテストされている概念の証明であり、より多くのアクセシビリティに向けて開発される予定である。

We created a software enabling journalists to define a set of criteria they would like to see applied regularly to a constantly-updated dataset, sending them an alert when these criteria are met, thus signaling them that there may be a story to write. The main challenges were to keep the product scalable and powerful, while making sure that it could be used by journalists who would not possess all the technical knowledge to exploit it fully. In order to do so, we had to choose Javascript as our main language, as well as designing the code in such a way that it would allow re-usability and further improvements. This project is a proof of concept being tested in a real-life environment, and will be developed towards more and more accessibility.
翻訳日:2024-02-09 14:42:50 公開日:2024-02-08
# 実生活シナリオにおける顔認識システムによる確率的介入評価フレームワーク

A Framework for Assessing Proportionate Intervention with Face Recognition Systems in Real-Life Scenarios ( http://arxiv.org/abs/2402.05731v1 )

ライセンス: Link先を確認
Pablo Negri and Isabelle Hupont and Emilia Gomez(参考訳) 顔認識(FR)は高い技術水準に達した。 しかし、特に繊細なシナリオにおいて、倫理的な観点からその使用を慎重に評価する必要がある。 これはまさにこの論文の焦点であり、中程度から密集した空間(公共空間、スポーツスタジアム、駅など)における特定対象の特定にFRを用いることと法執行のシナリオである。 特に、プライバシー保護の必要性と市民の基本的権利と、その安全とのトレードオフを考慮する必要がある。 近年の人工知能(AI)政策、特に欧州AI法では、このようなFR介入は厳密に必要な場合にのみ比例して展開されるべきであるとしている。 しかしながら、比例FR介入の概念にどう対処するかに関する具体的なガイドラインは、現在までに欠落している。 本稿では、上記のシナリオにおいて、FR介入が所定の使用状況に比例するか否かを評価するためのフレームワークを提案する。 また、FR介入決定に関連する主要な量的および質的変数(例えば、現場の人数、探索中の人物が繰り返し得る害のレベル、個人の権利と自由への帰結)を特定し、2Dグラフィカルモデルを提案し、これらの変数を倫理的コストとセキュリティ上の利益の両立を可能にした。 最後に、実際のデプロイメントにインスパイアされたさまざまなFRシナリオが提案されたモデルを検証する。 このフレームワークは、FRシステムのデプロイに直面する意思決定者のためのシンプルなサポートツールとして考えられている。

Face recognition (FR) has reached a high technical maturity. However, its use needs to be carefully assessed from an ethical perspective, especially in sensitive scenarios. This is precisely the focus of this paper: the use of FR for the identification of specific subjects in moderately to densely crowded spaces (e.g. public spaces, sports stadiums, train stations) and law enforcement scenarios. In particular, there is a need to consider the trade-off between the need to protect privacy and fundamental rights of citizens as well as their safety. Recent Artificial Intelligence (AI) policies, notably the European AI Act, propose that such FR interventions should be proportionate and deployed only when strictly necessary. Nevertheless, concrete guidelines on how to address the concept of proportional FR intervention are lacking to date. This paper proposes a framework to contribute to assessing whether an FR intervention is proportionate or not for a given context of use in the above mentioned scenarios. It also identifies the main quantitative and qualitative variables relevant to the FR intervention decision (e.g. number of people in the scene, level of harm that the person(s) in search could perpetrate, consequences to individual rights and freedoms) and propose a 2D graphical model making it possible to balance these variables in terms of ethical cost vs security gain. Finally, different FR scenarios inspired by real-world deployments validate the proposed model. The framework is conceived as a simple support tool for decision makers when confronted with the deployment of an FR system.
翻訳日:2024-02-09 14:42:39 公開日:2024-02-08
# CTGAN:3次元形状用セマンティックガイド型コンディショナルテクスチャジェネレータ

CTGAN: Semantic-guided Conditional Texture Generator for 3D Shapes ( http://arxiv.org/abs/2402.05728v1 )

ライセンス: Link先を確認
Yi-Ting Pan, Chai-Rong Lee, Shu-Ho Fan, Jheng-Wei Su, Jia-Bin Huang, Yung-Yu Chuang, Hung-Kuo Chu(参考訳) エンタテインメント業界は没入的な体験を作るために3dのビジュアルコンテンツに依存しているが、質感のある3dモデルを作る伝統的な方法は時間と主観的だ。 StyleGANのような生成ネットワークには高度な画像合成があるが、高忠実なテクスチャを持つ3Dオブジェクトの生成はまだ十分に検討されておらず、既存の手法には限界がある。 形状意味論を尊重しながら視角に整合した3次元形状の質の高いテクスチャを生成するセマンティック誘導条件テクスチャジェネレータ(CTGAN)を提案する。 ctganはstyleganの異方性を利用して入力潜在コードを操作し、生成されたテクスチャのスタイルと構造の両方を明示的に制御する。 入力セグメンテーションにより得られたテクスチャの構造の制御を強化するために、粗大なエンコーダアーキテクチャを導入する。 実験の結果,CTGANは複数の品質指標の既存手法よりも優れており,条件条件および非条件条件条件の両方でテクスチャ生成の最先端性能を実現していることがわかった。

The entertainment industry relies on 3D visual content to create immersive experiences, but traditional methods for creating textured 3D models can be time-consuming and subjective. Generative networks such as StyleGAN have advanced image synthesis, but generating 3D objects with high-fidelity textures is still not well explored, and existing methods have limitations. We propose the Semantic-guided Conditional Texture Generator (CTGAN), producing high-quality textures for 3D shapes that are consistent with the viewing angle while respecting shape semantics. CTGAN utilizes the disentangled nature of StyleGAN to finely manipulate the input latent codes, enabling explicit control over both the style and structure of the generated textures. A coarse-to-fine encoder architecture is introduced to enhance control over the structure of the resulting textures via input segmentation. Experimental results show that CTGAN outperforms existing methods on multiple quality metrics and achieves state-of-the-art performance on texture generation in both conditional and unconditional settings.
翻訳日:2024-02-09 14:42:14 公開日:2024-02-08
# 任意の物体反射率における単一モード量子ターゲット検出のための最適プローブ状態

Optimal probe states for single-mode quantum target detection in arbitrary object reflectivity ( http://arxiv.org/abs/2402.05726v1 )

ライセンス: Link先を確認
Wei-Ming Chen and Pin-Ju Tsai(参考訳) qtd(quantum target detection)は、非古典的リソースを使用して、従来の手法を上回って、挑戦的な環境で反射対象を識別するレーダーのような検出を可能にする。 QTDにおける量子優位性を完全に活用するためには、様々な検出パラメータで最適なプローブ状態(OPS)を判定し、それらの特性をより深く理解することが重要である。 本研究では最適化アルゴリズムを用いて任意の対象反射率に対する単一モード連続可変opsを同定した。 以上の結果から,OPSは特定の条件下では例外なく,ほとんどの反射率シナリオにおいて非ガウス状態であることが示唆された。 さらに,観測された現象の包括的物理的解釈も提供する。 本研究は、OPSを明確な物理的解釈とともに識別するツールを提供する。 また、量子センシングや気象学における幅広い応用の可能性を持つ最適なマルチモードQTDへのさらなる進歩にも貢献している。

Quantum target detection (QTD) utilizes nonclassical resources to enable radar-like detection for identifying reflecting objects in challenging environments, surpassing classical methods. To fully leverage the quantum advantage in QTD, determining the optimal probe states (OPSs) across various detection parameters and gaining a deeper understanding of their characteristics are crucial. In this study, we identified the single-mode continuous-variable OPSs for arbitrary object reflectivity using optimization algorithms. Our findings suggest that OPSs are non-Gaussian states in most reflectivity scenarios, with exceptions under specific conditions. Furthermore, we provide a comprehensive physical interpretation of the observed phenomena. This study offers a tool for identifying OPSs along with a clear physical interpretation. It also contributes to further advancements towards optimal multi-mode QTD, which has the potential for broad applications in quantum sensing and metrology.
翻訳日:2024-02-09 14:41:53 公開日:2024-02-08
# 平均フィールドゲームのためのモデルベースRLはシングルエージェントRLよりも統計的に困難ではない

Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL ( http://arxiv.org/abs/2402.05724v1 )

ライセンス: Link先を確認
Jiawei Huang, Niao He, Andreas Krause(参考訳) 平均フィールドゲーム(MFG)における強化学習(RL)のサンプル複雑性とモデルに基づく関数近似について検討し,Nash平衡ポリシーの探索に戦略的探索を必要とする。 モデルクラスの複雑性を特徴付けるためのより効果的な概念である,部分モデルに基づくeluder次元(p-mbed)を導入する。 特に、P-MBEDは与えられた平均場モデルクラスから変換された単一エージェントモデルクラスの複雑性を測定し、潜在的には \citet{huang2023statistical} によって提案されたMBEDよりも指数関数的に低い。 我々は,新しい探索戦略を特徴とするモデル除去アルゴリズムに寄与し,サンプル複雑性結果多項式 w.r.t.~P-MBED を確立する。 結論として,mfg における学習ナッシュ均衡は,単エージェント rl 問題の対数数を解くよりも統計的に難しいものではないことを,基礎的実現可能性とリプシッツ連続性仮定の下で明らかにしている。 従来のMFGから一般化し,複数種類のエージェントを含むマルチタイプMFGにさらに拡張する。 この拡張は平均場近似の有効性を通し、より広いクラスのマルコフゲームに対する統計的扱い可能性を意味する。 最後に,理論アルゴリズムに触発され,計算効率を向上し,その効果を実証するヒューリスティックな手法を提案する。

We study the sample complexity of reinforcement learning (RL) in Mean-Field Games (MFGs) with model-based function approximation that requires strategic exploration to find a Nash Equilibrium policy. We introduce the Partial Model-Based Eluder Dimension (P-MBED), a more effective notion to characterize the model class complexity. Notably, P-MBED measures the complexity of the single-agent model class converted from the given mean-field model class, and potentially, can be exponentially lower than the MBED proposed by \citet{huang2023statistical}. We contribute a model elimination algorithm featuring a novel exploration strategy and establish sample complexity results polynomial w.r.t.~P-MBED. Crucially, our results reveal that, under the basic realizability and Lipschitz continuity assumptions, \emph{learning Nash Equilibrium in MFGs is no more statistically challenging than solving a logarithmic number of single-agent RL problems}. We further extend our results to Multi-Type MFGs, generalizing from conventional MFGs and involving multiple types of agents. This extension implies statistical tractability of a broader class of Markov Games through the efficacy of mean-field approximation. Finally, inspired by our theoretical algorithm, we present a heuristic approach with improved computational efficiency and empirically demonstrate its effectiveness.
翻訳日:2024-02-09 14:41:38 公開日:2024-02-08
# 汎用的なアクティベーションを持つ階層型隠れ層型ニューラルネットワークの正確な能力

Exact capacity of the \emph{wide} hidden layer treelike neural networks with generic activations ( http://arxiv.org/abs/2402.05719v1 )

ライセンス: Link先を確認
Mihailo Stojnic(参考訳) 近年の「emph{treelike Committee Machine} (TCM) Neural Network (NN) in \cite{Stojnictcmspnncaprdt23,Stojnictcmspnncapliftedrdt23,Stojnictcmspnncapdiffactt23}」研究は、Random Duality Theory (RDT) と \emph{partially lifted}(pl RDT) の変種が、非常に正確なネットワークキャパシティ分析に使用できる強力なツールであることを示した。 ここでは,emph{wide}隠れ層ネットワークを考察し,<cite{stojnictcmspnncapdiffactrdt23>で直面する数値的困難が奇跡的に消滅することを明らかにする。 特に、最近開発された \emph{fully lifted} (fl) rdt を用いて \emph{wide} (d\rightarrow \infty$) tcm nets の容量を特徴付ける。 隠蔽層活性化の非常に一般的なクラスに対して、明示的で閉じた形式、キャパシティ特性を得る。 有効手法は必要な数値評価の量を著しく削減するが、究極的な fl RDT の有用性と成功は依然として残余の数値処理の確実な部分を必要とする。 具体的なキャパシティ値を得るために、非常に有名なアクティベーションの例が4つある: \emph{\textbf{relu}}, \textbf{\emph{quadratic}}, \textbf{\emph{erf}}, \textbf{\emph{tanh}} である。 これらすべてに対して残余の数値計算を成功させた結果、リフティング機構全体が、リフティングの第3レベルにおいて既に発生している$\sim 0.1\%$ 以下の相対的な改善で驚くほど高速に収束していることが判明した。 簡便なボーナスとして,第1段階と第2段階の昇降で得られたキャパシティ特性が,統計物理学のレプリカ理論法で得られたものと,一般に対しては \cite{zavpeh21} で,reluアクティベーションでは \cite{balmalzech19} で正確に一致していることを明らかにする。

Recent progress in studying \emph{treelike committee machines} (TCM) neural networks (NN) in \cite{Stojnictcmspnncaprdt23,Stojnictcmspnncapliftedrdt23,Stojnictcmspnncapdiffactrdt23} showed that the Random Duality Theory (RDT) and its a \emph{partially lifted}(pl RDT) variant are powerful tools that can be used for very precise networks capacity analysis. Here, we consider \emph{wide} hidden layer networks and uncover that certain aspects of numerical difficulties faced in \cite{Stojnictcmspnncapdiffactrdt23} miraculously disappear. In particular, we employ recently developed \emph{fully lifted} (fl) RDT to characterize the \emph{wide} ($d\rightarrow \infty$) TCM nets capacity. We obtain explicit, closed form, capacity characterizations for a very generic class of the hidden layer activations. While the utilized approach significantly lowers the amount of the needed numerical evaluations, the ultimate fl RDT usefulness and success still require a solid portion of the residual numerical work. To get the concrete capacity values, we take four very famous activations examples: \emph{\textbf{ReLU}}, \textbf{\emph{quadratic}}, \textbf{\emph{erf}}, and \textbf{\emph{tanh}}. After successfully conducting all the residual numerical work for all of them, we uncover that the whole lifting mechanism exhibits a remarkably rapid convergence with the relative improvements no better than $\sim 0.1\%$ happening already on the 3-rd level of lifting. As a convenient bonus, we also uncover that the capacity characterizations obtained on the first and second level of lifting precisely match those obtained through the statistical physics replica theory methods in \cite{ZavPeh21} for the generic and in \cite{BalMalZech19} for the ReLU activations.
翻訳日:2024-02-09 14:41:11 公開日:2024-02-08
# remedi: 神経エントロピー推定を改善するための補正変換

REMEDI: Corrective Transformations for Improved Neural Entropy Estimation ( http://arxiv.org/abs/2402.05718v1 )

ライセンス: Link先を確認
Viktor Nilsson, Anirban Samaddar, Sandeep Madireddy, Pierre Nyquist(参考訳) 情報理論量は機械学習において中心的な役割を果たす。 近年、データとモデルの複雑さの増大により、これらの量の正確な推定に対する需要が高まっている。 しかし、次元が大きくなるにつれて、既存の手法は比較的低次元で既に苦労しているため、推定には大きな課題が生じる。 この問題に対処するため,本研究では,情報理論の基本量である微分エントロピーの効率的かつ正確な推定のために,$\texttt{remedi}$を導入する。 このアプローチは、単純で適応的なベースモデルに対するクロスエントロピーの最小化と、データ密度から相対エントロピーの観点からそれらの偏差を推定するものである。 提案手法は, 合成データと自然データの両方におけるエントロピー推定を包含して, 幅広い推定タスクにわたる改善を示す。 さらに,提案手法で要求されるより一般化された設定まで,重要な理論的一貫性結果を拡張する。 我々は、情報ボトルネックアプローチに特に焦点をあてて、このフレームワークを情報理論的教師付き学習モデルに自然に拡張する方法を説明する。 本手法は,情報ボトルネックの既存手法と比較して精度が向上することを示す。 さらに,$\texttt{remedi}$と,リジェクションサンプリングとlangevin dynamicsを用いた生成モデルとの自然な関係を探索する。

Information theoretic quantities play a central role in machine learning. The recent surge in the complexity of data and models has increased the demand for accurate estimation of these quantities. However, as the dimension grows the estimation presents significant challenges, with existing methods struggling already in relatively low dimensions. To address this issue, in this work, we introduce $\texttt{REMEDI}$ for efficient and accurate estimation of differential entropy, a fundamental information theoretic quantity. The approach combines the minimization of the cross-entropy for simple, adaptive base models and the estimation of their deviation, in terms of the relative entropy, from the data density. Our approach demonstrates improvement across a broad spectrum of estimation tasks, encompassing entropy estimation on both synthetic and natural data. Further, we extend important theoretical consistency results to a more generalized setting required by our approach. We illustrate how the framework can be naturally extended to information theoretic supervised learning models, with a specific focus on the Information Bottleneck approach. It is demonstrated that the method delivers better accuracy compared to the existing methods in Information Bottleneck. In addition, we explore a natural connection between $\texttt{REMEDI}$ and generative modeling using rejection sampling and Langevin dynamics.
翻訳日:2024-02-09 14:40:21 公開日:2024-02-08
# 協調的非パラメトリック2サンプル試験

Collaborative non-parametric two-sample testing ( http://arxiv.org/abs/2402.05715v1 )

ライセンス: Link先を確認
Alejandro de la Concha, Nicolas Vayatis, Argyris Kalogeratos(参考訳) 本稿では、空間統計学や神経科学などの分野において一般的なシナリオであるグラフ構造化環境での複数の2サンプルテスト問題に対処する。 固定グラフの各ノード$v$は、2つのノード固有の確率密度関数(pdfs)、$p_v$および$q_v$の間の2サンプルテスト問題を扱う。 目的は、接続ノードが同様のテスト結果をもたらすという仮定の下で、null仮説である$p_v = q_v$を拒否すべきノードを特定することである。 グラフ構造を効率的に活用し,$p_v$と$q_v$の仮定を最小化する,非パラメトリック協調型2サンプルテスト(CTST)フレームワークを提案する。 提案手法は,f-divergence Estimation, Kernel Methods, Multitask Learningなどの要素を統合する。 我々は, 地震活動を検出する実センサネットワークと合成実験を用いて, CTSTが各ノードに独立して適用する非パラメトリック統計試験より優れていることを示す。

This paper addresses the multiple two-sample test problem in a graph-structured setting, which is a common scenario in fields such as Spatial Statistics and Neuroscience. Each node $v$ in fixed graph deals with a two-sample testing problem between two node-specific probability density functions (pdfs), $p_v$ and $q_v$. The goal is to identify nodes where the null hypothesis $p_v = q_v$ should be rejected, under the assumption that connected nodes would yield similar test outcomes. We propose the non-parametric collaborative two-sample testing (CTST) framework that efficiently leverages the graph structure and minimizes the assumptions over $p_v$ and $q_v$. Our methodology integrates elements from f-divergence estimation, Kernel Methods, and Multitask Learning. We use synthetic experiments and a real sensor network detecting seismic activity to demonstrate that CTST outperforms state-of-the-art non-parametric statistical tests that apply at each node independently, hence disregard the geometry of the problem.
翻訳日:2024-02-09 14:39:58 公開日:2024-02-08
# 導波路結合型キャビティに基づく高能率単光子スイッチ

Efficient, High-Fidelity Single-Photon Switch Based on Waveguide-Coupled Cavities ( http://arxiv.org/abs/2402.05714v1 )

ライセンス: Link先を確認
Mateusz Duda, Luke Brunswick, Luke R. Wilson, and Pieter Kok(参考訳) 2レベルエミッタを内蔵した導波路共役キャビティは、導波路内の入力光子の高効率で高忠実な量子スイッチとして機能する。 スイッチは弱いエミッタ-キャビティ結合状態の光子を反射し、強い結合状態の光子を伝達する。 量子光学の入力出力形式と伝達行列アプローチを用いて透過スペクトルと反射スペクトルを計算することにより、両状態におけるスイッチの忠実度と効率を得る。 3つの導波管結合キャビティは、F_r = 98.1%、効率E_r = 96.8%、効率E_t = 99.2%の半最大0.5nmのガウス波束を反射することができる。

We demonstrate theoretically that waveguide-coupled cavities with embedded two-level emitters can act as a highly efficient, high-fidelity quantum switch for input photons in the waveguide. The switch reflects photons in the weak emitter-cavity coupling regime and transmits photons in the strong coupling regime. By calculating transmission and reflection spectra using the input-output formalism of quantum optics and the transfer matrix approach, we obtain the fidelity and efficiency of the switch in both regimes. We find that three waveguide-coupled cavities can reflect a Gaussian wavepacket with a full width at half-maximum of 0.5 nm with fidelity F_r = 98.1% and efficiency E_r = 96.8%, or transmit the wavepacket with fidelity F_t = 98.7% and efficiency E_t = 99.2%.
翻訳日:2024-02-09 14:39:38 公開日:2024-02-08
# 身元不明の患者集団に対する非検出的敵対的バイアス攻撃

Hidden in Plain Sight: Undetectable Adversarial Bias Attacks on Vulnerable Patient Populations ( http://arxiv.org/abs/2402.05713v1 )

ライセンス: Link先を確認
Pranav Kulkarni, Andrew Chan, Nithya Navarathna, Skylar Chan, Paul H. Yi, Vishwa S. Parekh(参考訳) 放射線学における人工知能(AI)の増殖は、深層学習(DL)モデルが患者集団に対する臨床バイアスを悪化させるリスクに光を当てている。 従来の文献では、訓練されたDLモデルによって示されるバイアスの定量化に焦点が当てられていたが、人口統計学的にDLモデルに対する敵対的バイアス攻撃とその臨床環境への影響は、医用画像研究の未調査分野である。 本研究は,人口統計学的に標的としたラベル中毒攻撃は,DLモデルに逆行性下垂体症バイアスを生じさせ,全体のモデル性能に影響を与えることなく,低表現群のパフォーマンスを低下させることを実証する。 さらに、複数のパフォーマンス指標と性別、年齢、交叉するサブグループなどの集団間での結果から、検出不能な逆バイアス攻撃に対するグループの脆弱性は、モデルのトレーニングデータにおけるその表現と直接相関していることが示された。

The proliferation of artificial intelligence (AI) in radiology has shed light on the risk of deep learning (DL) models exacerbating clinical biases towards vulnerable patient populations. While prior literature has focused on quantifying biases exhibited by trained DL models, demographically targeted adversarial bias attacks on DL models and its implication in the clinical environment remains an underexplored field of research in medical imaging. In this work, we demonstrate that demographically targeted label poisoning attacks can introduce adversarial underdiagnosis bias in DL models and degrade performance on underrepresented groups without impacting overall model performance. Moreover, our results across multiple performance metrics and demographic groups like sex, age, and their intersectional subgroups indicate that a group's vulnerability to undetectable adversarial bias attacks is directly correlated with its representation in the model's training data.
翻訳日:2024-02-09 14:39:18 公開日:2024-02-08
# diffspeaker:拡散トランスフォーマーを用いた音声駆動3d顔アニメーション

DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer ( http://arxiv.org/abs/2402.05712v1 )

ライセンス: Link先を確認
Zhiyuan Ma, Xiangyu Zhu, Guojun Qi, Chen Qian, Zhaoxiang Zhang, Zhen Lei(参考訳) 音声駆動の3d顔アニメーションは多くのマルチメディアアプリケーションにとって重要である。 最近の研究は、このタスクにDiffusionモデルまたはTransformerアーキテクチャを使用する際の有望さを示している。 しかし、それらのアグリゲーションはパフォーマンスの向上にはつながりません。 これは、TransformerがDiffusionフレームワーク内で事実上デノイザとして機能することが不可欠であるペアオーディオ4Dデータが不足しているためではないかと考えています。 そこで本稿では,新しいバイアス付き条件付注意モジュールを備えたトランスフォーマネットワークdiffspeakerを提案する。 これらのモジュールは、通常のトランスフォーマーにおける従来の自己/クロス・アテンションの代用として機能し、関連するタスク固有の条件と拡散関連条件の両方に集中するための注意のメカニズムを適切に設計したバイアスを組み込む。 また,Diffusion パラダイム内では,正確な唇同期と非言語的表情のトレードオフについても検討する。 実験の結果,既存のベンチマークで最先端のパフォーマンスを実現するだけでなく,並列に顔の動きを生成できるため,推論速度も速いことがわかった。

Speech-driven 3D facial animation is important for many multimedia applications. Recent work has shown promise in using either Diffusion models or Transformer architectures for this task. However, their mere aggregation does not lead to improved performance. We suspect this is due to a shortage of paired audio-4D data, which is crucial for the Transformer to effectively perform as a denoiser within the Diffusion framework. To tackle this issue, we present DiffSpeaker, a Transformer-based network equipped with novel biased conditional attention modules. These modules serve as substitutes for the traditional self/cross-attention in standard Transformers, incorporating thoughtfully designed biases that steer the attention mechanisms to concentrate on both the relevant task-specific and diffusion-related conditions. We also explore the trade-off between accurate lip synchronization and non-verbal facial expressions within the Diffusion paradigm. Experiments show our model not only achieves state-of-the-art performance on existing benchmarks, but also fast inference speed owing to its ability to generate facial motions in parallel.
翻訳日:2024-02-09 14:39:02 公開日:2024-02-08
# 変更セット記述をデータソースとして利用して特徴位置を補助する

Using Changeset Descriptions as a Data Source to Assist Feature Location ( http://arxiv.org/abs/2402.05711v1 )

ライセンス: Link先を確認
Muslim Chochlov, Michael English, Jim Buckley(参考訳) 機能ロケーションは、開発者がソースコード内の機能を発見するのを支援する。 多くのテキスト特徴位置技術は情報検索を利用し、ソフトウェアエンティティを記述するためにソースコードのコメントや識別子に依存している。 興味深い代替手段は、変更セットで変更されたコードのチェンジセット記述を、そのようなソフトウェアエンティティを記述するためのデータソースとして使うことである。 そこで本研究では,変更セット記述を用いた手法を実装し,その全体的な性能を実証的に観察する。 さらに、粒度(ソフトウェアエンティティのファイルやメソッドレベル)と変更セット範囲の包摂性(最近のものやすべての歴史的変更セット)がそのようなアプローチにどのように影響するかを検討する。 Rhino と Mylyn.Tasks システムによる予備研究の結果,このアプローチが潜在的に効率的な特徴位置推定技術に繋がる可能性が示唆された。 彼らはまた、メソッドレベルの粒度でテクニックを設定することの取り組みにおいて有利であり、古いシステムからの古い変更セットはテクニックの有効性を低下させる可能性があることを示唆している。

Feature location attempts to assist developers in discovering functionality in source code. Many textual feature location techniques utilize information retrieval and rely on comments and identifiers of source code to describe software entities. An interesting alternative would be to employ the changeset descriptions of the code altered in that changeset as a data source to describe such software entities. To investigate this we implement a technique utilizing changeset descriptions and conduct an empirical study to observe this technique's overall performance. Moreover, we study how the granularity (i.e. file or method level of software entities) and changeset range inclusion (i.e. most recent or all historical changesets) affect such an approach. The results of a preliminary study with Rhino and Mylyn.Tasks systems suggest that the approach could lead to a potentially efficient feature location technique. They also suggest that it is advantageous in terms of the effort to configure the technique at method level granularity and that older changesets from older systems may reduce the effectiveness of the technique.
翻訳日:2024-02-09 14:38:41 公開日:2024-02-08
# 音声対話モデリングのための統一音声テキスト事前学習

Unified Speech-Text Pretraining for Spoken Dialog Modeling ( http://arxiv.org/abs/2402.05706v1 )

ライセンス: Link先を確認
Heeseung Kim, Soonshin Seo, Kyeongseok Jeong, Ohsung Kwon, Jungwhan Kim, Jaehong Lee, Eunwoo Song, Myungwoo Oh, Sungroh Yoon, Kang Min Yoo(参考訳) 最近の研究は、音声を直接理解し合成する大規模言語モデル(LLM)の能力を拡大する有望な成果を示しているが、音声対話をモデル化するためのLLMベースの戦略はいまだ解明されていない。 本研究は,自動音声認識 (asr) やtext-to-speech (tts) ソリューションに頼らずに,与えられた入力音声に関連する有機的韻律的特徴を持つコヒーレントな音声応答を生成する,統一音声対話モデル (usdm) と呼ばれる広範な音声テキストllmフレームワークを提案する。 提案手法では,LLMのチェイン・オブ・レーソン機能を利用した多段階音声文推論方式を用いる。 また,クロスモーダルセマンティクスを捉えるのに役立つ汎用音声テキスト事前学習方式を提案する。 自動評価と人的評価は,提案手法が音声の自然な発声生成に有効であることを示す。 詳細な比較研究により、個々のコンポーネントにおいてカスケードなアプローチが強いにもかかわらず、音声認識エラーや音声品質に対するロバスト性が向上することが明らかとなった。 Demoはhttps://unifiedsdm.github.ioで公開されている。

While recent work shows promising results in expanding the capabilities of large language models (LLM) to directly understand and synthesize speech, an LLM-based strategy for modeling spoken dialogs remains elusive and calls for further investigation. This work proposes an extensive speech-text LLM framework, named the Unified Spoken Dialog Model (USDM), to generate coherent spoken responses with organic prosodic features relevant to the given input speech without relying on automatic speech recognition (ASR) or text-to-speech (TTS) solutions. Our approach employs a multi-step speech-text inference scheme that leverages chain-of-reasoning capabilities exhibited by the underlying LLM. We also propose a generalized speech-text pretraining scheme that helps with capturing cross-modal semantics. Automatic and human evaluations show that the proposed approach is effective in generating natural-sounding spoken responses, outperforming both prior and cascaded baselines. Detailed comparative studies reveal that, despite the cascaded approach being stronger in individual components, the joint speech-text modeling improves robustness against recognition errors and speech quality. Demo is available at https://unifiedsdm.github.io.
翻訳日:2024-02-09 14:38:24 公開日:2024-02-08
# 人間-ロボットチームにおける部分可観測性を有するオフラインリスクセンシティブrlの性能向上

Offline Risk-sensitive RL with Partial Observability to Enhance Performance in Human-Robot Teaming ( http://arxiv.org/abs/2402.05703v1 )

ライセンス: Link先を確認
Giorgio Angelotti, Caroline P. C. Chanel, Adam H. M. Pinto, Christophe Lounis, Corentin Chauffaut, Nicolas Drougard(参考訳) 複合開始型人間-ロボット相互作用システムへの生理的コンピューティングの統合は、人間の状態観察としてリアルタイム特徴を意思決定システムに組み込むことによって、自律的なタスク割り当てにおいて重要な利点を提供する。 このアプローチは、エージェント間のミッションタスクをインテリジェントに割り当てることで、人間のオペレータに対する認知負荷を軽減することができる。 それでも、さまざまな生理的・行動的測定で多様な参加者プールを適応させることは、大きな課題となっている。 これに対処するには、人間の状態に対する固有の不確実性と部分的可観測性を考えると、確率的枠組みに頼る必要がある。 近年の研究では、オフライン強化学習(ORL)手法を用いて解決可能な、以前に収集した経験のデータセットから、部分観測可能なマルコフ決定プロセス(POMDP)モデルを学習することを示唆している。 本研究では,人間操作者の状態推定と性能を向上させるために,部分的に観察可能な表現と生理的測定の可能性に留意するだけでなく,人間-ロボットチーム全体のミッション効率を向上させる。 重要なことは、固定データセットは複雑な確率過程を完全に表現するのに十分な情報を含んでいないため、モデルの不確実性を取り入れ、リスクに敏感なシーケンシャルな意思決定を可能にする方法を提案する。 シミュレーションロボット遠隔操作環境において,26人の被験者を対象に実験を行い,その有効性の実証的証拠を得た。 得られた適応的タスク割り当てポリシーは、データセットの収集に使用されたものよりも統計的に高いスコアをもたらし、リスクに敏感な指標を考慮に入れた様々な参加者の一般化を可能にした。

The integration of physiological computing into mixed-initiative human-robot interaction systems offers valuable advantages in autonomous task allocation by incorporating real-time features as human state observations into the decision-making system. This approach may alleviate the cognitive load on human operators by intelligently allocating mission tasks between agents. Nevertheless, accommodating a diverse pool of human participants with varying physiological and behavioral measurements presents a substantial challenge. To address this, resorting to a probabilistic framework becomes necessary, given the inherent uncertainty and partial observability on the human's state. Recent research suggests to learn a Partially Observable Markov Decision Process (POMDP) model from a data set of previously collected experiences that can be solved using Offline Reinforcement Learning (ORL) methods. In the present work, we not only highlight the potential of partially observable representations and physiological measurements to improve human operator state estimation and performance, but also enhance the overall mission effectiveness of a human-robot team. Importantly, as the fixed data set may not contain enough information to fully represent complex stochastic processes, we propose a method to incorporate model uncertainty, thus enabling risk-sensitive sequential decision-making. Experiments were conducted with a group of twenty-six human participants within a simulated robot teleoperation environment, yielding empirical evidence of the method's efficacy. The obtained adaptive task allocation policy led to statistically significant higher scores than the one that was used to collect the data set, allowing for generalization across diverse participants also taking into account risk-sensitive metrics.
翻訳日:2024-02-09 14:38:02 公開日:2024-02-08
# トランスフォーマーは文脈内自己回帰学習をどのように実行するのか?

How do Transformers perform In-Context Autoregressive Learning? ( http://arxiv.org/abs/2402.05787v1 )

ライセンス: Link先を確認
Michael E. Sander, Raja Giryes, Taiji Suzuki, Mathieu Blondel, Gabriel Peyr\'e(参考訳) トランスフォーマーは言語モデリングタスクで最先端のパフォーマンスを達成した。 しかし、その大成功の背景にはいまだ不明な点がある。 本稿では,より理解を深めるために,1次自己回帰プロセス $s_{t+1} = w s_t$ としてシーケンスを生成する単純なnextトークン予測タスクでトランスフォーマーモデルをトレーニングする。 トレーニングされたトランスフォーマーが次のトークンを予測する方法を,まず$w$ in-contextを学習し,次に予測マッピングを適用することで示す。 結果の手順を文脈内自己回帰学習と呼ぶ。 より正確には、直交行列の可換化に焦点をあてて、訓練された一層線形トランスフォーマーが、拡張トークンを考える際に、内部目的関数の最小化のために勾配降下の一段階を実装することを最初に示す。 トークンが拡張されない場合、一層対角形線形多ヘッドトランスのグローバルミニマを特徴付ける。 重要なことは、頭部間の直交性を示し、位置符号化がデータの三角関係を捉えることを示す。 実験面では,非可換直交行列の一般事例を考察し,理論的な知見を一般化する。

Transformers have achieved state-of-the-art performance in language modeling tasks. However, the reasons behind their tremendous success are still unclear. In this paper, towards a better understanding, we train a Transformer model on a simple next token prediction task, where sequences are generated as a first-order autoregressive process $s_{t+1} = W s_t$. We show how a trained Transformer predicts the next token by first learning $W$ in-context, then applying a prediction mapping. We call the resulting procedure in-context autoregressive learning. More precisely, focusing on commuting orthogonal matrices $W$, we first show that a trained one-layer linear Transformer implements one step of gradient descent for the minimization of an inner objective function, when considering augmented tokens. When the tokens are not augmented, we characterize the global minima of a one-layer diagonal linear multi-head Transformer. Importantly, we exhibit orthogonality between heads and show that positional encoding captures trigonometric relations in the data. On the experimental side, we consider the general case of non-commuting orthogonal matrices and generalize our theoretical findings.
翻訳日:2024-02-09 14:30:30 公開日:2024-02-08
# UAV-Rain1k:UAV航空画像からの雨滴除去ベンチマーク

UAV-Rain1k: A Benchmark for Raindrop Removal from UAV Aerial Imagery ( http://arxiv.org/abs/2402.05773v1 )

ライセンス: Link先を確認
Wenhui Chang, Hongming Chen, Xin He, Xiang Chen, Liangduo Shen(参考訳) UAVのレンズに付着した雨滴は背景の視認性を阻害し、画質を低下させる。 画像デヴァイニング手法やデータセットの最近の進歩にもかかわらず、ドローン飛行中に様々な角度や急速移動によって生じる固有の課題により、UAVの空中画像からの雨滴除去に焦点が当てられていない。 この研究のギャップを埋めるために、UAV-Rain1kと呼ばれるUAV画像から雨滴を除去する新しいベンチマークデータセットを構築した。 このレターでは,ブレンダを用いた雨滴形状のモデル化,さまざまなuavアングルからの背景画像の収集,雨面のランダムサンプリングなどを含むデータセット生成パイプラインを提供する。 提案するベンチマークに基づいて,既存の代表画像デクリニングアルゴリズムの総合的な評価を行い,今後の探索研究の機会を明らかにする。 提案されたデータセットはhttps://github.com/cschenxiang/UAV-Rain1kで公開される。

Raindrops adhering to the lens of UAVs can obstruct visibility of the background scene and degrade image quality. Despite recent progress in image deraining methods and datasets, there is a lack of focus on raindrop removal from UAV aerial imagery due to the unique challenges posed by varying angles and rapid movement during drone flight. To fill the gap in this research, we first construct a new benchmark dataset for removing raindrops from UAV images, called UAV-Rain1k. In this letter, we provide a dataset generation pipeline, which includes modeling raindrop shapes using Blender, collecting background images from various UAV angles, random sampling of rain masks and etc. Based on the proposed benchmark, we further present a comprehensive evaluation of existing representative image deraining algorithms, and reveal future research opportunities worth exploring. The proposed dataset will be publicly available at https://github.com/cschenxiang/UAV-Rain1k.
翻訳日:2024-02-09 14:30:11 公開日:2024-02-08
# Off-policy Distributional Q($\lambda$): 重要サンプリングなしの分散RL

Off-policy Distributional Q($\lambda$): Distributional RL without Importance Sampling ( http://arxiv.org/abs/2402.05766v1 )

ライセンス: Link先を確認
Yunhao Tang, Mark Rowland, R\'emi Munos, Bernardo \'Avila Pires, Will Dabney(参考訳) 我々は,オフ・ポリシー分布評価アルゴリズムのファミリに新たな付加であるオフ・ポリシー分布q($\lambda$)を導入する。 オフポリティ分布 Q($\lambda$) は、符号付き測度との興味深い相互作用をもたらす、オフポリティ学習に重要サンプリングを適用しない。 このような一意な性質の分布 Q($\lambda$) は、分布 Retrace のような既存の代替品から得られる。 分布 Q($\lambda$) のアルゴリズム特性を特徴付け、グラフ実験による理論的洞察を検証する。 我々は,Q($\lambda$)とC51エージェントの組み合わせである分散Q($\lambda$)-C51が,深いRLベンチマークで有望な結果を示すことを示す。

We introduce off-policy distributional Q($\lambda$), a new addition to the family of off-policy distributional evaluation algorithms. Off-policy distributional Q($\lambda$) does not apply importance sampling for off-policy learning, which introduces intriguing interactions with signed measures. Such unique properties distributional Q($\lambda$) from other existing alternatives such as distributional Retrace. We characterize the algorithmic properties of distributional Q($\lambda$) and validate theoretical insights with tabular experiments. We show how distributional Q($\lambda$)-C51, a combination of Q($\lambda$) with the C51 agent, exhibits promising results on deep RL benchmarks.
翻訳日:2024-02-09 14:29:55 公開日:2024-02-08
# 構造的欠如を伴う高次元点過程の潜在変数モデル

Latent variable model for high-dimensional point process with structured missingness ( http://arxiv.org/abs/2402.05758v1 )

ライセンス: Link先を確認
Maksim Sinelnikov, Manuel Haussmann and Harri L\"ahdesm\"aki(参考訳) 縦断データは医療、社会学、地震学など多くの分野で重要であるが、実世界のデータセットは、高次元であり、構造化された欠落パターンを含み、測定時刻は未知の確率過程によって制御されるため、実践者にとって注目すべき課題である。 様々な解決策が提案されているが、その大半はこれらの課題の1つだけを考慮するように設計されている。 本研究では,これらの制限に対処可能な,柔軟で効率的な潜在変数モデルを提案する。 提案手法はガウス過程を用いて,サンプルとその関連欠落マスク間の時間的相関を捉え,その基礎となる点過程をモデル化する。 我々は,深層ニューラルネットワークのパラメータ付きエンコーダとデコーダモデルとともに,変分オートエンコーダとしてモデルを構築し,効率的なモデルトレーニングのためのスケーラブルなamortized variational inference手法を開発した。 シミュレーションと実データの両方を用いて競合性能を示す。

Longitudinal data are important in numerous fields, such as healthcare, sociology and seismology, but real-world datasets present notable challenges for practitioners because they can be high-dimensional, contain structured missingness patterns, and measurement time points can be governed by an unknown stochastic process. While various solutions have been suggested, the majority of them have been designed to account for only one of these challenges. In this work, we propose a flexible and efficient latent-variable model that is capable of addressing all these limitations. Our approach utilizes Gaussian processes to capture temporal correlations between samples and their associated missingness masks as well as to model the underlying point process. We construct our model as a variational autoencoder together with deep neural network parameterised encoder and decoder models, and develop a scalable amortised variational inference approach for efficient model training. We demonstrate competitive performance using both simulated and real datasets.
翻訳日:2024-02-09 14:29:41 公開日:2024-02-08
# 非マルコフ量子mpemba効果

Non-Markovian Quantum Mpemba effect ( http://arxiv.org/abs/2402.05756v1 )

ライセンス: Link先を確認
David J. Strachan, Archak Purkayastha, Stephen R. Clark(参考訳) 20世紀の再粘性のため、非平衡状態が平衡に近い状態よりも速く緩和することのできるムペンバ効果は古典的なシステムで広く研究され、近年量子システムにおいて大きな注目を集めている。 古典システムにおけるこの反直観的行動を説明する多くの理論は、記憶効果に依存する。 しかし、量子系では、Mpemba効果とメモリの関係は未解明のままである。 本研究では、一般の非マルコフ的開量子集合を考察し、マルコフ的量子力学に類似しない新しい量子Mpemba効果のクラスを明らかにする。 本質的には、開量子力学は有限記憶時間と一意の定常状態を持つ。 非マルコフ力学のため、システムが定常状態において初期化されているとしても、緩和するのに長い時間がかかる。 定常状態に達するのをはるかに速くする他の初期状態を見つけます。 最も注目すべきは、システムが有限メモリ時間内で定常状態に達する初期状態が存在することを示し、それによって定常性に最も早く緩和できることを示すことである。 電子貯水池に結合した量子ドット系が、弱い、中間的、強い結合、相互作用のない相互作用において、平衡状態および非平衡状態における効果を検証する。 我々の研究は、量子系の加速緩和の基礎となるリッチ物理に関する新たな洞察を提供する。

Since it's rediscovery in the twentieth century, the Mpemba effect, where a far-from-equilibrium state may relax faster than a state closer to equilibrium, has been extensively studied in classical systems and has recently received significant attention in quantum systems. Many theories explaining this counter-intuitive behavior in classical systems rely on memory effects. However, in quantum systems, the relation between the Mpemba effect and memory has remained unexplored. In this work, we consider a general non-Markovian open quantum setting and reveal new classes of quantum Mpemba effects, with no analog in Markovian quantum dynamics. Generically, open quantum dynamics possess a finite memory time and a unique steady state. Due to non-Markovian dynamics, even if the system is initialized in the steady state it can take a long time to relax back. We find other initial states that reach the steady state much faster. Most notably, we demonstrate that there can be an initial state in which the system reaches the steady state within the finite memory time itself, therefore giving the fastest possible relaxation to stationarity. We verify the effect for quantum dot systems coupled to electronic reservoirs in equilibrium and non-equilibrium setups at weak, intermediate and strong coupling, and both with and without interactions. Our work provides new insights into the rich physics underlying accelerated relaxation in quantum systems.
翻訳日:2024-02-09 14:29:24 公開日:2024-02-08
# SpiRit-LM: インターリーブされた言語モデル

SpiRit-LM: Interleaved Spoken and Written Language Model ( http://arxiv.org/abs/2402.05755v1 )

ライセンス: Link先を確認
Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux(参考訳) テキストと音声を自由に混合する基礎的マルチモーダル言語モデルであるSPIRIT-LMを紹介する。 本モデルは,テキスト単位と音声単位を連続的に訓練することにより,音声モダリティに拡張した事前学習されたテキスト言語モデルに基づいている。 音声とテキストのシーケンスは1組のトークンとして連結され、小さな自動計算された音声テキスト並列コーパスを用いて単語レベルのインターリーブ法で訓練される。 SPIRIT-LMは、音声意味単位を使用するBASEバージョンと、意味単位に加えてピッチとスタイル単位を使用して表現率をモデル化するExpressionIVEバージョンである。 どちらのバージョンでも、テキストはサブワードのBPEトークンでエンコードされる。 得られたモデルは、テキストモデルの意味能力と音声モデルの表現能力の両方を表示する。 さらに、SPIRIT-LMは、モーダル性(ASR, TTS, 音声分類)にまたがって、数ショットで新しいタスクを学習できることを実証する。

We introduce SPIRIT-LM, a foundation multimodal language model that freely mixes text and speech. Our model is based on a pretrained text language model that we extend to the speech modality by continuously training it on text and speech units. Speech and text sequences are concatenated as a single set of tokens, and trained with a word-level interleaving method using a small automatically-curated speech-text parallel corpus. SPIRIT-LM comes in two versions: a BASE version that uses speech semantic units and an EXPRESSIVE version that models expressivity using pitch and style units in addition to the semantic units. For both versions, the text is encoded with subword BPE tokens. The resulting model displays both the semantic abilities of text models and the expressive abilities of speech models. Additionally, we demonstrate that SPIRIT-LM is able to learn new tasks in a few-shot fashion across modalities (i.e. ASR, TTS, Speech Classification).
翻訳日:2024-02-09 14:29:05 公開日:2024-02-08
# 一般選好最適化:オフラインアライメントへの統一アプローチ

Generalized Preference Optimization: A Unified Approach to Offline Alignment ( http://arxiv.org/abs/2402.05749v1 )

ライセンス: Link先を確認
Yunhao Tang, Zhaohan Daniel Guo, Zeyu Zheng, Daniele Calandriello, R\'emi Munos, Mark Rowland, Pierre Harvey Richemond, Michal Valko, Bernardo \'Avila Pires, Bilal Piot(参考訳) オフライン優先最適化により、オフラインデータから直接大規模なモデルを微調整することが可能となり、最近のアライメントプラクティスで有効であることが証明された。 凸関数の一般クラスによってパラメータ化されるオフライン損失の族である一般化優先最適化(GPO)を提案する。 GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含みながら、優先最適化に関する統一的なビューを可能にします。 gpoフレームワークはまた、損失を定義する凸関数の設計を通じて、オフラインアルゴリズムがレギュライゼーションを強制する方法にも光を当てている。 解析および実験により、正準RLHFの定式化を意図したオフライン正則化とKL分散正則化の関連性および微妙な相違が明らかとなった。 以上の結果から,新たなアルゴリズムツールキットと経験的洞察が得られた。

Offline preference optimization allows fine-tuning large models directly from offline data, and has proved effective in recent alignment practices. We propose generalized preference optimization (GPO), a family of offline losses parameterized by a general class of convex functions. GPO enables a unified view over preference optimization, encompassing existing algorithms such as DPO, IPO and SLiC as special cases, while naturally introducing new variants. The GPO framework also sheds light on how offline algorithms enforce regularization, through the design of the convex function that defines the loss. Our analysis and experiments reveal the connections and subtle differences between the offline regularization and the KL divergence regularization intended by the canonical RLHF formulation. In all, our results present new algorithmic toolkits and empirical insights to alignment practitioners.
翻訳日:2024-02-09 14:28:48 公開日:2024-02-08
# 中性原子量子プロセッサを用いたブレンダー分解を用いた混合整数線形計画法

Mixed Integer Linear Programming Solver Using Benders Decomposition Assisted by Neutral Atom Quantum Processor ( http://arxiv.org/abs/2402.05748v1 )

ライセンス: Link先を確認
M.Yassine Naghmouchi and Wesley da Silva Coelho(参考訳) 本稿では,中性原子量子計算を用いたMILP(Mixed Integer Linear Programming)の解法を提案する。 そこで,我々はBenders decomposition (BD) を用いてMILPをマスター問題 (MP) とサブプロブレム (SP) に分割し,MPを準非拘束バイナリ最適化 (QUBO) モデルに変換した後,中性原子デバイスを用いて対処する。 QUBOを解くために、原子レジスタ埋め込みのためのヒューリスティックを開発し、パルス整形のための量子近似最適化アルゴリズム(QAOA)を適用した。 さらに、既存のソリューションよりも優れたPoC(Proof of Concept)を実装します。 シミュレーションアニーリングを用いてMPを解いた古典的BD手法よりも優れた,高品質な実現可能な解の95%以上を,我々のアルゴリズムが同定する。 我々の知る限り、この研究は、BDを通してMILPを解くための、自動化された問題に依存しないフレームワークを開発する際に、中性原子量子プロセッサを利用する最初のものである。

This paper presents a new hybrid classical-quantum approach to solve Mixed Integer Linear Programming (MILP) using neutral atom quantum computations. We apply Benders decomposition (BD) to segment MILPs into a master problem (MP) and a subproblem (SP), where the MP is addressed using a neutral-atom device, after being transformed into a Quadratic Unconstrained Binary Optimization (QUBO) model. To solve the QUBO, we develop a heuristic for atom register embedding and apply Quantum Approximate Optimization Algorithm (QAOA) for pulse shaping. In addition, we implement a Proof of Concept (PoC) that outperforms existing solutions. We also conduct preliminary numerical results: in a series of small MILP instances our algorithm identifies over 95\% of feasible solutions of high quality, outperforming classical BD approaches where the MP is solved using simulated annealing. To the best of our knowledge, this work is the first to utilize a neutral atom quantum processor in developing an automated, problem-agnostic framework for solving MILPs through BD.
翻訳日:2024-02-09 14:28:33 公開日:2024-02-08
# Jacquard V2:人間のループデータ補正法によるデータセットの精製

Jacquard V2: Refining Datasets using the Human In the Loop Data Correction Method ( http://arxiv.org/abs/2402.05747v1 )

ライセンス: Link先を確認
Qiuhao Li and Shenghai Yuan(参考訳) 産業自動化の急速な進歩の中で、視覚に基づくロボットの把握はますます重要な役割を担っている。 視覚的認識精度を高めるために,大規模データセットの利用は,各種オブジェクトの処理に関する暗黙的な知識を学習モデルで取得するために不可欠である。 スクラッチからデータセットを作成するのは時間と労力を要するプロセスです。 さらに、既存のデータセットには、迅速性を目的とした自動アノテーションによるエラーがしばしば含まれており、これらのデータセットの改善が大きな研究課題となっている。 その結果、人気のある Jacquard Grasp 内の有界ボックスをつかむというアノテーションでいくつかの問題が特定されている。 本稿では,human-in-the-loop(hil)法によるデータセットの品質向上を提案する。 このアプローチは、ロボット把持のためのオブジェクトの位置と方向を予測するために、バックボーンディープラーニングネットワークに依存している。 iou(intersection over union)値が0.2未満の予測は、人間のオペレーターによる評価を受ける。 評価後、データはFalse Negatives(FN)とTrue Negatives(TN)に分類される。 次にFNは、欠落したアノテーションまたは破滅的なラベリングエラーに分類される。 ラベルを欠いた画像は適切な把持バウンディングボックス情報で追加され、壊滅的なラベリングエラーに苦しむ画像は完全に削除される。 オープンソースのツールである labelbee は hil データセット拡張の53,026 回のイテレーションで採用され、2,884 枚の画像が削除され、30,292 枚の画像に基底真理情報が組み込まれた。 Jacquard V2 Grasping Datasetと名付けられた拡張データセットは、さまざまなニューラルネットワークのトレーニングデータとして機能した。

In the context of rapid advancements in industrial automation, vision-based robotic grasping plays an increasingly crucial role. In order to enhance visual recognition accuracy, the utilization of large-scale datasets is imperative for training models to acquire implicit knowledge related to the handling of various objects. Creating datasets from scratch is a time and labor-intensive process. Moreover, existing datasets often contain errors due to automated annotations aimed at expediency, making the improvement of these datasets a substantial research challenge. Consequently, several issues have been identified in the annotation of grasp bounding boxes within the popular Jacquard Grasp. We propose utilizing a Human-In-The-Loop(HIL) method to enhance dataset quality. This approach relies on backbone deep learning networks to predict object positions and orientations for robotic grasping. Predictions with Intersection over Union (IOU) values below 0.2 undergo an assessment by human operators. After their evaluation, the data is categorized into False Negatives(FN) and True Negatives(TN). FN are then subcategorized into either missing annotations or catastrophic labeling errors. Images lacking labels are augmented with valid grasp bounding box information, whereas images afflicted by catastrophic labeling errors are completely removed. The open-source tool Labelbee was employed for 53,026 iterations of HIL dataset enhancement, leading to the removal of 2,884 images and the incorporation of ground truth information for 30,292 images. The enhanced dataset, named the Jacquard V2 Grasping Dataset, served as the training data for a range of neural networks.
翻訳日:2024-02-09 14:28:11 公開日:2024-02-08
# 協調LLMエージェントによる自律走行のための編集可能なシーンシミュレーション

Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents ( http://arxiv.org/abs/2402.05746v1 )

ライセンス: Link先を確認
Yuxi Wei, Zi Wang, Yifan Lu, Chenxin Xu, Changxing Liu, Hao Zhao, Siheng Chen, Yanfeng Wang(参考訳) 自動運転におけるシーンシミュレーションは、カスタマイズされたデータを生成する大きな可能性から注目されている。 しかし,既存の編集可能なシーンシミュレーションでは,ユーザインタラクション効率,マルチカメラフォトリアリスティックレンダリング,外部デジタルアセット統合といった面で制限に直面している。 これらの課題に対処するために,外部デジタル資産を用いた自然言語コマンドによる編集可能な3次元実写シーンシミュレーションを可能にするChatSimを提案する。 コマンドの柔軟性を高めるために、~ChatSimは大きな言語モデル(LLM)エージェントコラボレーションフレームワークを活用している。 フォトリアリスティックな結果を生成するため、ChatSimは新しいマルチカメラニューラル放射場法を採用している。 さらに、広範囲な高品質デジタル資産の可能性を明らかにするため、チャットシムはシーン一貫性のある資産のレンダリングを実現するために、新しいマルチカメラ照明推定手法を採用している。 Waymo Open Datasetの実験は、ChatSimが複雑な言語コマンドを処理し、対応する写真リアリスティックシーンビデオを生成することを示した。

Scene simulation in autonomous driving has gained significant attention because of its huge potential for generating customized data. However, existing editable scene simulation approaches face limitations in terms of user interaction efficiency, multi-camera photo-realistic rendering and external digital assets integration. To address these challenges, this paper introduces ChatSim, the first system that enables editable photo-realistic 3D driving scene simulations via natural language commands with external digital assets. To enable editing with high command flexibility,~ChatSim leverages a large language model (LLM) agent collaboration framework. To generate photo-realistic outcomes, ChatSim employs a novel multi-camera neural radiance field method. Furthermore, to unleash the potential of extensive high-quality digital assets, ChatSim employs a novel multi-camera lighting estimation method to achieve scene-consistent assets' rendering. Our experiments on Waymo Open Dataset demonstrate that ChatSim can handle complex language commands and generate corresponding photo-realistic scene videos.
翻訳日:2024-02-09 14:27:49 公開日:2024-02-08
# ファンデーションモデルの実世界のロボット応用:レビュー

Real-World Robot Applications of Foundation Models: A Review ( http://arxiv.org/abs/2402.05741v1 )

ライセンス: Link先を確認
Kento Kawaharazuka, Tatsuya Matsushima, Andrew Gambardella, Jiaxian Guo, Chris Paxton, Andy Zeng(参考訳) 大規模言語モデル(LLMs)やビジョン言語モデル(VLMs)といった基盤モデルの最近の発展は、広範なデータに基づいて訓練され、さまざまなタスクやモダリティにわたる柔軟なアプリケーションを容易にします。 その影響は医療、教育、ロボット工学など様々な分野に及んでいる。 本稿では,実世界のロボット工学における基礎モデルの実用的応用について概説し,既存のロボットシステムにおける特定の部品の置き換えに重点を置いている。 要約は、基盤モデルにおける入出力関係の観点と、ロボット工学の分野における知覚、運動計画、制御におけるそれらの役割を包含する。 本稿では,ロボット応用における今後の課題と意義について考察する。

Recent developments in foundation models, like Large Language Models (LLMs) and Vision-Language Models (VLMs), trained on extensive data, facilitate flexible application across different tasks and modalities. Their impact spans various fields, including healthcare, education, and robotics. This paper provides an overview of the practical application of foundation models in real-world robotics, with a primary emphasis on the replacement of specific components within existing robot systems. The summary encompasses the perspective of input-output relationships in foundation models, as well as their role in perception, motion planning, and control within the field of robotics. This paper concludes with a discussion of future challenges and implications for practical robot applications.
翻訳日:2024-02-09 14:27:31 公開日:2024-02-08
# 自己着脱に対する暗黙のバイアスと高速収束率

Implicit Bias and Fast Convergence Rates for Self-attention ( http://arxiv.org/abs/2402.05738v1 )

ライセンス: Link先を確認
Bhavya Vasudeva, Puneesh Deora, Christos Thrampoulidis(参考訳) トランスのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、優れたパフォーマンスを駆動する。 セルフアテンションの基本最適化原理の開発に向けて,二元分類における固定線形デコーダを用いた自己アテンション層の訓練において,勾配降下の暗黙的バイアス(gd)について検討する。 分離可能なデータに対する線形ロジスティック回帰におけるGDの研究から着想を得た最近の研究は、反復数$t$が無限に近づくにつれて、キー・クエリ行列$W_t$は(初期化方向に関して)局所的に、ハードマージンのSVM解$W_{mm}$に収束することを示した。 私たちの仕事は、この結果を4つの側面で強化します。 まず,収束が実現可能な大域的な非自明なデータ設定を特定し,最適化の展望に光を当てる。 第二に、最初の有限時間収束率を$W_t$から$W_{mm}$に対して提供し、注意写像のスペーサー化の速度を定量化する。 第3に、正規化gdとpolyakのステップサイズの分析により、適応ステップサイズルールが自己着脱の収束を加速できることを解析的に示す。 さらに,固定線形デコーダにおける事前作業の制限を除去する。 以上より,自意識の暗黙的バイアス視点を補強し,線形ロジスティック回帰における暗黙的バイアスとの関連性を強化した。

Self-attention, the core mechanism of transformers, distinguishes them from traditional neural networks and drives their outstanding performance. Towards developing the fundamental optimization principles of self-attention, we investigate the implicit bias of gradient descent (GD) in training a self-attention layer with fixed linear decoder in binary classification. Drawing inspiration from the study of GD in linear logistic regression over separable data, recent work demonstrates that as the number of iterations $t$ approaches infinity, the key-query matrix $W_t$ converges locally (with respect to the initialization direction) to a hard-margin SVM solution $W_{mm}$. Our work enhances this result in four aspects. Firstly, we identify non-trivial data settings for which convergence is provably global, thus shedding light on the optimization landscape. Secondly, we provide the first finite-time convergence rate for $W_t$ to $W_{mm}$, along with quantifying the rate of sparsification in the attention map. Thirdly, through an analysis of normalized GD and Polyak step-size, we demonstrate analytically that adaptive step-size rules can accelerate the convergence of self-attention. Additionally, we remove the restriction of prior work on a fixed linear decoder. Our results reinforce the implicit-bias perspective of self-attention and strengthen its connections to implicit-bias in linear logistic regression, despite the intricate non-convex nature of the former.
翻訳日:2024-02-09 14:27:18 公開日:2024-02-08
# 有限差分法による二重井戸トラップ内のボース・アインシュタイン凝縮の数値的研究

A numerical study of the Bose-Einstein condensates in a double-well trap using finite differences ( http://arxiv.org/abs/2402.05735v1 )

ライセンス: Link先を確認
D. J. Nader and E. Serrano-Ens\'astiga(参考訳) ボース=アインシュタインは二重井戸ポテンシャルで凝縮し、不安定点とセパラトリクスを含むリッチな古典位相空間内で多体系を研究するための必須成分を含む。 自己整合有限差分法を用いて,それらの量子特性とボソン-ボソン相互作用の強度依存性について検討する。 システムのエネルギー分布と固有状態の両方における行動変化に関連する臨界パラメータの偏差を観察する。 また,gross-pitaevskii方程式の非線形性に関して,ウィグナー関数,トンネル伝達係数,固有状態の非直交性といった非古典性の動向についても検討した。

Bose-Einstein condensates in a double-well potential contain the essential ingredients to study many-body systems within a rich classical phase-space that includes an unstable point and a separatrix. Employing a selfconsistent finite difference method, we study some of their quantum properties and their dependency on the strength of the boson-boson interaction. We observe a deviation in the critical parameters associated with a behavior change in both the energy distribution and the eigenstates of the system. We also examine the trends of the nonclassicality via the Wigner function, the tunneling transmission coefficient, and the nonorthogonality of eigenstates associated with the nonlinearity aspects of the Gross-Pitaevskii equation.
翻訳日:2024-02-09 14:26:33 公開日:2024-02-08
# TimeArena: Time-Aware シミュレーションによる効率的なマルチタスク言語エージェントの作成

TimeArena: Shaping Efficient Multitasking Language Agents in a Time-Aware Simulation ( http://arxiv.org/abs/2402.05733v1 )

ライセンス: Link先を確認
Yikai Zhang, Siyu Yuan, Caiyu Hu, Kyle Richardson, Yanghua Xiao, Jiangjie Chen(参考訳) LLM(Large Language Models)による人間のような行動のエミュレートの顕著な進歩にもかかわらず、現在のテキストシミュレーションは時間の概念に十分対応していない。 そこで本稿では,リアルタイム計画シナリオをよりよく反映する複雑な時間ダイナミクスと制約を組み込んだ,テキストシミュレーション環境であるtimearenaを紹介する。 TimeArenaでは、エージェントはできるだけ早く複数のタスクを完了するよう求められ、並列処理で時間を節約できる。 我々は、アクション間の依存性、各アクションの時間長、エージェントと環境内のオブジェクトの占有度を実装します。 TimeArenaは、料理、家庭活動、実験室の仕事で30の現実世界の仕事をこなす。 我々はTimeArena を用いた様々な最先端 LLM 実験を行った。 以上の結果から, GPT-4のような最も強力なモデルでさえ, 効果的なマルチタスキングにおいて人間に遅れをとっており, 言語エージェントの開発における時間的意識の向上の必要性が示唆された。

Despite remarkable advancements in emulating human-like behavior through Large Language Models (LLMs), current textual simulations do not adequately address the notion of time. To this end, we introduce TimeArena, a novel textual simulated environment that incorporates complex temporal dynamics and constraints that better reflect real-life planning scenarios. In TimeArena, agents are asked to complete multiple tasks as soon as possible, allowing for parallel processing to save time. We implement the dependency between actions, the time duration for each action, and the occupancy of the agent and the objects in the environment. TimeArena grounds to 30 real-world tasks in cooking, household activities, and laboratory work. We conduct extensive experiments with various state-of-the-art LLMs using TimeArena. Our findings reveal that even the most powerful models, e.g., GPT-4, still lag behind humans in effective multitasking, underscoring the need for enhanced temporal awareness in the development of language agents.
翻訳日:2024-02-09 14:26:11 公開日:2024-02-08
# 視覚接地音声モデルによる疑似単語レベル目標と自己教師あり音声モデルの統合

Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model ( http://arxiv.org/abs/2402.05819v1 )

ライセンス: Link先を確認
Hung-Chieh Fang, Nai-Xuan Ye, Yi-Jen Shih, Puyuan Peng, Hsuan-Fu Wang, Layne Berry, Hung-yi Lee, David Harwath(参考訳) 近年の自己教師付き音声モデルの進歩は, 下流課題の多くにおいて有意な改善が見られた。 しかし、これらのモデルは主にフレームレベルのトレーニング目標に集中しており、意味的理解を必要とする音声言語理解タスクでは不足する可能性がある。 既存の作品では、中間ターゲットとして追加の音声テキストデータに依存することが多い。 この課題に対処するために、擬似単語レベルのターゲットをトレーニングプロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。 4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。

Recent advances in self-supervised speech models have shown significant improvement in many downstream tasks. However, these models predominantly centered on frame-level training objectives, which can fall short in spoken language understanding tasks that require semantic comprehension. Existing works often rely on additional speech-text data as intermediate targets, which is costly in the real-world setting. To address this challenge, we propose Pseudo-Word HuBERT (PW-HuBERT), a framework that integrates pseudo word-level targets into the training process, where the targets are derived from a visually-ground speech model, notably eliminating the need for speech-text paired data. Our experimental results on four spoken language understanding (SLU) benchmarks suggest the superiority of our model in capturing semantic information.
翻訳日:2024-02-09 14:16:56 公開日:2024-02-08
# TaE:Long Tail Class Incremental Learningのためのタスク認識拡張型表現

TaE: Task-aware Expandable Representation for Long Tail Class Incremental Learning ( http://arxiv.org/abs/2402.05797v1 )

ライセンス: Link先を確認
Linjie Li, S. Liu, Zhenyu Wu, JI yang(参考訳) class-incremental learning (cil) は、古いクラスを忘れずに新しいクラスを学ぶ分類器を訓練することを目的としている。 ほとんどのCIL手法は、現実世界の長い尾の分布を見渡すことで、各タスクのバランスの取れたデータ分布に焦点を当てている。 そのため,ヘッドクラスがテールクラスよりも多くのサンプルを持つデータに基づいてトレーニングを行う,long-tailed class-incremental learning (lt-cil)が導入された。 既存の方法は主に、破滅的な忘れと戦うために、以前のクラスからの代表サンプルを保存することに焦点を当てている。 最近、動的ネットワークアルゴリズムは古いネットワーク構造を凍結し、新しい構造を拡張し、大きな性能を実現した。 しかし、ロングテール問題の導入により、単にタスク固有のパラメータを拡張すれば誤った予測を導き、モデル全体を拡張すればメモリサイズが爆発する。 これらの問題に対処するために,我々は,タスク固有のトレーニング可能なパラメータを動的に割り当て,更新し,各インクリメンタルタスクから多様な表現を学習する新しいタスクアウェア拡張(tae)フレームワークを導入する。 クラス固有の特徴表現をさらに促進するために,これらのタスク認識パラメータの更新をガイドするCentroid-Enhanced (CEd) 手法を開発した。 このアプローチはクラス内特徴間の距離を適応的に最小化し、クラス間特徴間の距離を最大化するように設計されている。 このcentroid-enhanced法の有用性は、すべての "training from scratch" cilアルゴリズムに及んでいる。 CIFAR-100とImageNet100を異なる設定で大規模な実験を行い、TaEが最先端の性能を発揮することを示した。

Class-incremental learning (CIL) aims to train classifiers that learn new classes without forgetting old ones. Most CIL methods focus on balanced data distribution for each task, overlooking real-world long-tailed distributions. Therefore, Long-Tailed Class-Incremental Learning (LT-CIL) has been introduced, which trains on data where head classes have more samples than tail classes. Existing methods mainly focus on preserving representative samples from previous classes to combat catastrophic forgetting. Recently, dynamic network algorithms frozen old network structures and expanded new ones, achieving significant performance. However, with the introduction of the long-tail problem, merely extending task-specific parameters can lead to miscalibrated predictions, while expanding the entire model results in an explosion of memory size. To address these issues, we introduce a novel Task-aware Expandable (TaE) framework, dynamically allocating and updating task-specific trainable parameters to learn diverse representations from each incremental task, while resisting forgetting through the majority of frozen model parameters. To further encourage the class-specific feature representation, we develop a Centroid-Enhanced (CEd) method to guide the update of these task-aware parameters. This approach is designed to adaptively minimize the distances between intra-class features while simultaneously maximizing the distances between inter-class features across all seen classes. The utility of this centroid-enhanced method extends to all "training from scratch" CIL algorithms. Extensive experiments were conducted on CIFAR-100 and ImageNet100 under different settings, which demonstrates that TaE achieves state-of-the-art performance.
翻訳日:2024-02-09 14:16:43 公開日:2024-02-08
# unruh-dewittモデルとその相互作用ヒルベルト空間

The Unruh-DeWitt model and its joint interacting Hilbert space ( http://arxiv.org/abs/2402.05795v1 )

ライセンス: Link先を確認
Erickson Tjoa and Finnian Gray(参考訳) 本研究では、曲線時空における量子場理論に応用されたUnruh-DeWitt粒子検出器モデルとスピン-ボソンモデルの厳密な構成とを関連付ける。 いくつかの修正により、スピンボソン基底状態の存在に関する既存の結果は、Unruh-DeWittモデルに適応できることを示す。 unruh-dewittモデルが光-物質相互作用の簡易モデルを記述する (3+1)-次元大域的双曲的時空における質量のないスカラー場を含む最も関連するシナリオでは、時空スカラー関数の一般的な選択はモデルの紫外線挙動を調節するが、赤外線の発散を示すことができる。 特にこれは、モデルのヒルベルト空間と相互作用する結合が、二次元複素ヒルベルト空間のテンソル積と真空表現のフォック空間によって説明できないというよく知られた予想を意味する。 本稿では,この問題が起こらない条件と,粒子検出器モデルの理解を深めるための演算子-代数的アプローチの関連性について論じる。

In this work we make the connection between the Unruh-DeWitt particle detector model applied to quantum field theory in curved spacetimes and the rigorous construction of the spin-boson model. With some modifications, we show that existing results about the existence of a spin-boson ground state can be adapted to the Unruh-DeWitt model. In the most relevant scenario involving massless scalar fields in (3+1)-dimensional globally hyperbolic spacetimes, where the Unruh-DeWitt model describes a simplified model of light-matter interaction, we argue that common choices of the spacetime smearing functions regulate the ultraviolet behaviour of the model but can still exhibit infrared divergences. In particular, this implies the well-known expectation that the joint interacting Hilbert space of the model cannot be described by the tensor product of a two-dimensional complex Hilbert space and the Fock space of the vacuum representation. We discuss the conditions under which this problem does not arise and the relevance of the operator-algebraic approach for better understanding of particle detector models and their applications.
翻訳日:2024-02-09 14:16:12 公開日:2024-02-08
# 低語源言語のための音韻豊かなコーパス構成

Phonetically rich corpus construction for a low-resourced language ( http://arxiv.org/abs/2402.05794v1 )

ライセンス: Link先を確認
Marcellus Amadeus and William Alberto Cruz Casta\~neda and Wilmer Lobato and Niasche Aquino(参考訳) 音声技術は、包括的言語情報を取得しながら話者の声の変動を捉えることに依存する。 文献において、このような適切な音声データを構成するために、テキストプロンプトと文選択法が提案されている。 しかし、音響モデリングにはまだ不十分であり、資源が限られている言語には特に重要である。 そこで,本稿では,ブラジルポルトガル語の低リソース言語に対する幅広い音声カバレッジを持つ「textit{corpus}」の作成に必要な方法論的側面を概説する。 提案手法は,三声分布に基づく文選択アルゴリズムまでのテキストデータセットの収集を含む。 さらに, 分離三音節や低確率三音節の絶対個数が, 可能なすべての組み合わせの適切な表現を保証できないため, 音響-調音音声の特徴に応じた新たな音韻分類を提案する。 我々のアルゴリズムを用いて、同じ大きさのサンプルに対して、55.8\%の異なるトリフォンを、現在利用可能な音声に富んだコーパスであるCETUCとTS-Portugueseは、非音声に富んだデータセットと比較して12.6\%と12.3\%を達成する。

Speech technologies rely on capturing a speaker's voice variability while obtaining comprehensive language information. Textual prompts and sentence selection methods have been proposed in the literature to comprise such adequate phonetic data, referred to as a phonetically rich \textit{corpus}. However, they are still insufficient for acoustic modeling, especially critical for languages with limited resources. Hence, this paper proposes a novel approach and outlines the methodological aspects required to create a \textit{corpus} with broad phonetic coverage for a low-resourced language, Brazilian Portuguese. Our methodology includes text dataset collection up to a sentence selection algorithm based on triphone distribution. Furthermore, we propose a new phonemic classification according to acoustic-articulatory speech features since the absolute number of distinct triphones, or low-probability triphones, does not guarantee an adequate representation of every possible combination. Using our algorithm, we achieve a 55.8\% higher percentage of distinct triphones -- for samples of similar size -- while the currently available phonetic-rich corpus, CETUC and TTS-Portuguese, 12.6\% and 12.3\% in comparison to a non-phonetically rich dataset.
翻訳日:2024-02-09 14:15:51 公開日:2024-02-08
# ボソニックデファスメントチャネルの厳密な量子センシング限界

Exact quantum sensing limits for bosonic dephasing channels ( http://arxiv.org/abs/2402.05793v1 )

ライセンス: Link先を確認
Zixin Huang, Ludovico Lami, and Mark M. Wilde(参考訳) Dephasingは量子情報キャリアを悩ませる顕著なノイズメカニズムであり、有用な量子計算、通信、センシングを実現する上での大きな課題の1つである。 ここでは,量子力学によって許容される最も一般的な適応戦略を用いて,ボソニックデファスチャネルの識別と推定について検討する。 これらの難解な量子問題を、ボゾンデファスチャネルを定義する確率密度に基づいて、単純な古典的問題に還元する。 これにより、様々な識別性と推定タスクの最適性能を厳格に確立し、この性能を達成するための明示的な戦略を構築する。 我々の知る限りでは、これは非ガウスボソニックチャネルの最初の例であり、これらのタスクに対して正確な解が存在する。

Dephasing is a prominent noise mechanism that afflicts quantum information carriers, and it is one of the main challenges towards realizing useful quantum computation, communication, and sensing. Here we consider discrimination and estimation of bosonic dephasing channels, when using the most general adaptive strategies allowed by quantum mechanics. We reduce these difficult quantum problems to simple classical ones based on the probability densities defining the bosonic dephasing channels. By doing so, we rigorously establish the optimal performance of various distinguishability and estimation tasks and construct explicit strategies to achieve this performance. To the best of our knowledge, this is the first example of a non-Gaussian bosonic channel for which there are exact solutions for these tasks.
翻訳日:2024-02-09 14:15:31 公開日:2024-02-08
# 統計ツールを用いたシミュレーションクエンチングアルゴリズムのパラメータの重要性と相対的重要性の決定

Determining the significance and relative importance of parameters of a simulated quenching algorithm using statistical tools ( http://arxiv.org/abs/2402.05791v1 )

ライセンス: Link先を確認
Pedro A. Castillo, Maribel Garc\'ia Arenas, Nuria Rico, Antonio Miguel Mora, Pablo Garc\'ia-S\'anchez, Juan Luis Jim\'enez Laredo, Juan Juli\'an Merelo Guerv\'os(参考訳) 探索手法が設計されている場合,どのパラメータがアルゴリズムの動作や性能に最も影響を与えるかを知ることが重要である。 この目的のために、アルゴリズムパラメータは理論解析または集中的な実験によって、一般的に校正される。 各パラメータの影響を詳細に統計的に分析する場合、デザイナは主に統計的に重要なパラメータに注意を払わなければならない。 本稿では,ANOVA (Analysis of the VAriance)法を用いて,模擬アニール法とそれに必要なパラメータの徹底的な解析を行う。 この考えに従って, 4つのよく知られた関数最適化問題と, 対数正規拡散過程に係わるパラメータを推定する可能性関数について, ANOVA とポストホックの Tukey HSD テストを用いて, 得られた結果に関するパラメータの意義と相対的重要性と, それぞれに適切な値を得た。 本研究では,パラメトリック仮説テストを用いて,書誌で利用可能なパラメータ値の妥当性を検証した。

When search methods are being designed it is very important to know which parameters have the greatest influence on the behaviour and performance of the algorithm. To this end, algorithm parameters are commonly calibrated by means of either theoretic analysis or intensive experimentation. When undertaking a detailed statistical analysis of the influence of each parameter, the designer should pay attention mostly to the parameters that are statistically significant. In this paper the ANOVA (ANalysis Of the VAriance) method is used to carry out an exhaustive analysis of a simulated annealing based method and the different parameters it requires. Following this idea, the significance and relative importance of the parameters regarding the obtained results, as well as suitable values for each of these, were obtained using ANOVA and post-hoc Tukey HSD test, on four well known function optimization problems and the likelihood function that is used to estimate the parameters involved in the lognormal diffusion process. Through this statistical study we have verified the adequacy of parameter values available in the bibliography using parametric hypothesis tests.
翻訳日:2024-02-09 14:15:20 公開日:2024-02-08
# Prompting Fairness: ゲームプレイヤーとしての人工知能

Prompting Fairness: Artificial Intelligence as Game Players ( http://arxiv.org/abs/2402.05786v1 )

ライセンス: Link先を確認
Jazmia Henry(参考訳) 公正度を測定する独裁者ゲームのようなユーティリティゲームは、社会科学において何十年にもわたって研究されてきた。 これらのゲームは、人間が公正さをどのように見ているかだけでなく、公正さ、利他主義、欲求の頻度が増加または減少する状況についても洞察を与えてくれました。 これらのゲームは伝統的に人間に焦点を当ててきたが、AIの台頭により、これらのモデルがどのようにゲームをプレイするかを研究することができる。 AIは人間のインタラクションにおいて常に存在しており、これらのモデルがどのようにゲームプレイの公平性を表現しているかを調べることで、AIが意思決定を行う方法に関する洞察を得ることができます。 独裁者のゲームの101ラウンド以上において、私はAIは信頼に値する人物とみなすような公正さの強い感覚を持っていると結論付け、フレーミングはAIが理事に指名されたときの受取人にどれだけの影響力を与えるかに強く影響し、AIが人間と同じように不平等の回避を経験しているという証拠があるかもしれない。

Utilitarian games such as dictator games to measure fairness have been studied in the social sciences for decades. These games have given us insight into not only how humans view fairness but also in what conditions the frequency of fairness, altruism and greed increase or decrease. While these games have traditionally been focused on humans, the rise of AI gives us the ability to study how these models play these games. AI is becoming a constant in human interaction and examining how these models portray fairness in game play can give us some insight into how AI makes decisions. Over 101 rounds of the dictator game, I conclude that AI has a strong sense of fairness that is dependant of it it deems the person it is playing with as trustworthy, framing has a strong effect on how much AI gives a recipient when designated the trustee, and there may be evidence that AI experiences inequality aversion just as humans.
翻訳日:2024-02-09 14:14:58 公開日:2024-02-08
# アルゴリズム学習におけるトランスフォーマー言語モデルの限界

Limits of Transformer Language Models on Algorithmic Learning ( http://arxiv.org/abs/2402.05785v1 )

ライセンス: Link先を確認
Jonathan Thomm, Aleksandar Terzic, Geethan Karunaratne, Giacomo Camposampiero, Bernhard Sch\"olkopf, Abbas Rahimi(参考訳) 離散アルゴリズム学習におけるトランスフォーマー言語モデルの性能解析を行う。 この目的のために,複数の個別サブタスクの構成を要求する2つの新しいタスクを導入する。 LLaMAモデルをスクラッチからトレーニングし,GPT-4とGeminiで学習プリミティブの学習組成を測定する。 最新のトランスフォーマー言語モデルの合成能力は非常に限定的であり、新しいアルゴリズム構成のために全てのサブタスクを再学習するよりもサンプル単位のスケールが最悪である。 また、複雑性理論の定理として、フィードフォワードモデルを記憶する勾配勾配が指数関数的に非効率であることを示す。

We analyze the capabilities of Transformer language models on learning discrete algorithms. To this end, we introduce two new tasks demanding the composition of several discrete sub-tasks. On both training LLaMA models from scratch and prompting on GPT-4 and Gemini we measure learning compositions of learned primitives. We observe that the compositional capabilities of state-of-the-art Transformer language models are very limited and sample-wise scale worse than relearning all sub-tasks for a new algorithmic composition. We also present a theorem in complexity theory, showing that gradient descent on memorizing feedforward models can be exponentially data inefficient.
翻訳日:2024-02-09 14:14:40 公開日:2024-02-08
# Modality-relative pre-training を用いたテキスト・コード生成

Text-to-Code Generation with Modality-relative Pre-training ( http://arxiv.org/abs/2402.05783v1 )

ライセンス: Link先を確認
Fenia Christopoulou, Guchun Zhang, Gerasimos Lampouras(参考訳) 大規模な事前学習された言語モデルは、しばしば厳密な自然言語モデルの事前学習を通じて、非常に成功したプログラミング言語のタスクに拡張され、適用されてきた。 このようなアプローチは、列の両様相を同じ埋め込み空間に効果的にマッピングする。 しかしながら、プログラミング言語のキーワード(例えば ``while'')は、しばしば非常に厳密に定義された意味を持つ。 そのため、自然言語の使用から学習を移すことは、必ずしもコードアプリケーションにとって有益ではないかもしれない。 本研究は,すでに事前学習済みの言語モデルを仮定し,シーケンストークンがどのようなモダリティを持つのか,そして下流タスクの究極のメリットに応じて,どのように適応・表現できるかを検討する。 モーダリティ-相対的学習目標を用いたモデル事前学習において,モーダリティ間の埋め込み空間の分離実験を行った。 2つのバックボーンモデルと2つのテストセットにまたがる一貫した改善を観察し、pass@$k$を測定し、新しいインクリメンタルな変動を計測する。

Large pre-trained language models have recently been expanded and applied to programming language tasks with great success, often through further pre-training of a strictly-natural language model--where training sequences typically contain both natural and (linearised) programming language. Such approaches effectively map both modalities of the sequence into the same embedding space. However, programming language keywords (e.g. ``while'') often have very strictly defined semantics. As such, transfer learning from their natural language usage may not necessarily be beneficial to their code application and vise versa. Assuming an already pre-trained language model, in this work we investigate how sequence tokens can be adapted and represented differently, depending on which modality they belong to, and to the ultimate benefit of the downstream task. We experiment with separating embedding spaces between modalities during further model pre-training with modality-relative training objectives. We focus on text-to-code generation and observe consistent improvements across two backbone models and two test sets, measuring pass@$k$ and a novel incremental variation.
翻訳日:2024-02-09 14:14:31 公開日:2024-02-08
# 対物形状のサンプル複雑度の解析

Analysing the Sample Complexity of Opponent Shaping ( http://arxiv.org/abs/2402.05782v1 )

ライセンス: Link先を確認
Kitty Fung, Qizhen Zhang, Chris Lu, Jia Wan, Timon Willi, Jakob Foerster(参考訳) 一般サムゲームでの学習は、しばしば集合的な準最適結果をもたらす。 これに対応するために、対戦型シェーピング(OS)メソッドは、他のエージェントの学習プロセスを積極的にガイドし、多くの設定における個人およびグループのパフォーマンスを実証的に改善する。 初期のOSでは、高階微分を使ってコプレイヤーの学習を形作り、複数の学習ステップを形作るのに適さない。 フォローアップ作業、M-FOS(Model-free Opponent Shaping)は、OS問題をメタゲームとして再定義することでこれらに対処する。 初期のOSメソッドとは対照的に、M-FOSフレームワークに関する理論的理解はほとんどない。 A)メタ強化学習のための理論的なサンプル複雑性境界に関する文献はほとんどない(メタ強化学習B) M-FOSは連続状態と作用空間で動作するので、理論解析は困難である。 本稿では,理論解析に適したM-FOSの表形式であるR-FOSについて述べる。 R-FOS は連続メタゲーム MDP を表型 MDP に識別する。 この離散化MDPでは、R-FOSアルゴリズムのメタラーナーとして、MDPのPACバウンドを導出するために最も顕著な$R_{max}$アルゴリズムを適用する。 我々は、内部状態と作用空間の濃度とエージェントの数において指数関数的であるサンプル複雑性境界を導出する。 我々の限界は、高い確率で、R-FOSエージェントによって学習された最終ポリシーが、定数係数を除いて最適ポリシーに近いことを保証します。 最後に、R-FOSのサンプル複雑性が状態-作用空間の大きさにどのようにスケールするかを検討する。 スケーリングに関する理論的結果は,マッチングペニー環境において実証的に支持される。

Learning in general-sum games often yields collectively sub-optimal results. Addressing this, opponent shaping (OS) methods actively guide the learning processes of other agents, empirically leading to improved individual and group performances in many settings. Early OS methods use higher-order derivatives to shape the learning of co-players, making them unsuitable for shaping multiple learning steps. Follow-up work, Model-free Opponent Shaping (M-FOS), addresses these by reframing the OS problem as a meta-game. In contrast to early OS methods, there is little theoretical understanding of the M-FOS framework. Providing theoretical guarantees for M-FOS is hard because A) there is little literature on theoretical sample complexity bounds for meta-reinforcement learning B) M-FOS operates in continuous state and action spaces, so theoretical analysis is challenging. In this work, we present R-FOS, a tabular version of M-FOS that is more suitable for theoretical analysis. R-FOS discretises the continuous meta-game MDP into a tabular MDP. Within this discretised MDP, we adapt the $R_{max}$ algorithm, most prominently used to derive PAC-bounds for MDPs, as the meta-learner in the R-FOS algorithm. We derive a sample complexity bound that is exponential in the cardinality of the inner state and action space and the number of agents. Our bound guarantees that, with high probability, the final policy learned by an R-FOS agent is close to the optimal policy, apart from a constant factor. Finally, we investigate how R-FOS's sample complexity scales in the size of state-action space. Our theoretical results on scaling are supported empirically in the Matching Pennies environment.
翻訳日:2024-02-09 14:14:12 公開日:2024-02-08
# マジッククラスと畳み込みグループ

Magic Class and the Convolution Group ( http://arxiv.org/abs/2402.05780v1 )

ライセンス: Link先を確認
Kaifeng Bu, Arthur Jaffe, Zixia Wei(参考訳) 多体量子状態の分類は、物質の量子相の研究において基本的な役割を果たす。 本研究では,魔法のクラスの概念を導入して量子状態を分類する手法を提案する。 さらに,「畳み込み群(CG)」と呼ばれる状態の魔法的特徴を抽出する効率的な粗粒化手法を導入する。 我々は、CGの固定点と回路等価度を用いて、量子状態を異なるマジッククラスに分類する。 また,CG固定点の対称性と量子エントロピーにより,マジッククラスが特徴づけられることを示す。 最後に,CGと再正規化群との関係について考察する。 これらの結果は、物質の状態分類と量子相の研究に新たな洞察を与えるかもしれない。

The classification of many-body quantum states plays a fundamental role in the study of quantum phases of matter. In this work, we propose an approach to classify quantum states by introducing the concept of magic class. In addition, we introduce an efficient coarse-graining procedure to extract the magic feature of states, which we call the ``convolution group (CG).'' We classify quantum states into different magic classes using the fixed points of the CG and circuit equivalence. We also show that magic classes can be characterized by symmetries and the quantum entropy of the CG fixed points. Finally, we discuss the connection between the CG and the renormalization group. These results may provide new insight into the study of the state classification and quantum phases of matter.
翻訳日:2024-02-09 14:13:42 公開日:2024-02-08
# 並列画像の新しいデータセットを用いた大規模視覚言語モデルにおける性別と人種バイアスの検討

Examining Gender and Racial Bias in Large Vision-Language Models Using a Novel Dataset of Parallel Images ( http://arxiv.org/abs/2402.05779v1 )

ライセンス: Link先を確認
Kathleen C. Fraser and Svetlana Kiritchenko(参考訳) 大型言語モデル(llms)とその後のチャットモデルの最近の進歩に続いて、新しい大きなビジョン言語モデル(lvlms)の波が現れた。 このようなモデルは、テキストに加えて入力としてイメージを組み込むことができ、視覚的な質問応答、画像キャプション、ストーリー生成などのタスクを実行することができる。 本稿では,入力画像中の人物の知覚的特徴に基づいて,このようなシステムの潜在的な性別や人種的偏見について検討する。 これを実現するために、新しいデータセット PAIRS (Parallel Images for eveRyday Scenarios) を提案する。 PAIRSデータセットには、背景と視覚的内容の点で非常に類似しているが、性別(男性、女性)と人種(黒人、白人)の寸法によって異なるような、AI生成された人々の画像が含まれている。 このような画像を用いてLVLMを問合せすることにより,人物の知覚的性別や人種による応答の有意差を観察する。

Following on recent advances in large language models (LLMs) and subsequent chat models, a new wave of large vision-language models (LVLMs) has emerged. Such models can incorporate images as input in addition to text, and perform tasks such as visual question answering, image captioning, story generation, etc. Here, we examine potential gender and racial biases in such systems, based on the perceived characteristics of the people in the input images. To accomplish this, we present a new dataset PAIRS (PArallel Images for eveRyday Scenarios). The PAIRS dataset contains sets of AI-generated images of people, such that the images are highly similar in terms of background and visual content, but differ along the dimensions of gender (man, woman) and race (Black, white). By querying the LVLMs with such images, we observe significant differences in the responses according to the perceived gender or race of the person depicted.
翻訳日:2024-02-09 14:13:31 公開日:2024-02-08
# $\phi^n$ trajectory bootstrap

The $\phi^n$ trajectory bootstrap ( http://arxiv.org/abs/2402.05778v1 )

ライセンス: Link先を確認
Wenliang Li(参考訳) グリーン函数 $G_n=\langle\phi^n\rangle$ とその自己整合方程式は複素$n$への解析的連続性を認める。 ブートストラップ問題の不確定性は最小特異性の原理によって解決できる。 我々は高調波発振器を用いてブートストラップ解析の様々な側面を説明する。例えば、大きな$n$展開、マッチング条件、正確な量子化条件、高エネルギー漸近挙動などである。 エルミート四量体および非エルミート立方体振動子については、標準波動関数の定式化により、非整数の n$ における $\phi^n$ 軌道を再検討する。 結果は極小特異解と一致している。 マッチング手法を用いて高出力の非調和発振器の正確な解を求める。 特に、非整数$n$を持つ$G_n$の存在は、非整数パワーを持つ$\mathcal{PT}$不変発振器をブートストラップすることができる。

The Green's functions $G_n=\langle\phi^n\rangle$ and their self-consistent equations admit analytic continuations to complex $n$. The indeterminacy of bootstrap problems can be resolved by the principle of minimal singularity. We use the harmonic oscillator to illustrate various aspects of the bootstrap analysis, such as the large $n$ expansion, matching conditions, exact quantization condition, and high energy asymptotic behavior. For the Hermitian quartic and non-Hermitian cubic oscillators, we revisit the $\phi^n$ trajectories at non-integer $n$ by the standard wave function formulation. The results are in agreement with the minimally singular solutions. Using the matching procedure, we obtain accurate solutions for anharmonic oscillators with higher powers. In particular, the existence of $G_n$ with non-integer $n$ allows us to bootstrap the $\mathcal{PT}$ invariant oscillators with non-integer powers.
翻訳日:2024-02-09 14:13:15 公開日:2024-02-08
# 安定な自律フローマッチング

Stable Autonomous Flow Matching ( http://arxiv.org/abs/2402.05774v1 )

ライセンス: Link先を確認
Christopher Iliffe Sprague, Arne Elofsson, Hossein Azizpour(参考訳) データサンプルが物理的に安定した状態を表す文脈では、データポイントがエネルギーランドスケープのローカルなミニマを表していると仮定されることが多い。 制御理論では、エネルギーは有効なリアプノフ関数として機能することが知られている。 それにもかかわらず、制御理論と文学における生成モデルとの接続は、物理的に安定なデータポイントを持つ機械学習応用がいくつかあるにもかかわらず、わずかである。 本稿では,このようなデータと,フローマッチングと呼ばれる近年の深層生成モデルに焦点をあてる。 流れマッチングモデルに時間非依存システムに対する確率安定性のツールを適用する。 そうすることで、この処理に適応可能なフローマッチングモデルの空間を特徴づけると同時に、他の制御理論の原理とのつながりも引き出すことができる。 理論的結果を2つの例に示す。

In contexts where data samples represent a physically stable state, it is often assumed that the data points represent the local minima of an energy landscape. In control theory, it is well-known that energy can serve as an effective Lyapunov function. Despite this, connections between control theory and generative models in the literature are sparse, even though there are several machine learning applications with physically stable data points. In this paper, we focus on such data and a recent class of deep generative models called flow matching. We apply tools of stochastic stability for time-independent systems to flow matching models. In doing so, we characterize the space of flow matching models that are amenable to this treatment, as well as draw connections to other control theory principles. We demonstrate our theoretical results on two examples.
翻訳日:2024-02-09 14:12:59 公開日:2024-02-08
# rfマイクロモーションを用いたトラップイオンの個別アドレス化と状態読み出し

Individual addressing and state readout of trapped ions utilizing rf micromotion ( http://arxiv.org/abs/2402.05857v1 )

ライセンス: Link先を確認
Nathan K Lysne, Justin F Niedermeyer, Andrew C Wilson, Daniel H Slichter, Dietrich Leibfried(参考訳) 余剰電波周波数(rf)トラップ場による捕捉イオンの「微小移動」は、しばしば望ましくないものであり、通常は慎重に最小化される。 そこで我々は, 局所的な静電場を調整し, 個々のイオンの超過マイクロモーションを正確に誘導する。 マイクロモーションは、イオンとレーザー場の結合を変調し、イオンがトラップのrf nullから遠ざかるにつれて、その最大値から0に調整することが理想である。 波長可変マイクロモーションを用いて2桁以上のラマン遷移のrabi周波数を変化させ、駆動光界に変化を生じさせることなく3イオンの共鳴蛍光率を個別に制御した。 この手法は、集束したレーザービームで個々のイオンに対処するのが難しい状況、例えば、密集した線形イオン列や側面から照らされた2次元イオンアレイに適応できる。

Excess "micromotion" of trapped ions due to the residual radio frequency (rf) trapping field at their location is often undesirable and is usually carefully minimized. Here, we induce precise amounts of excess micromotion on individual ions by adjusting the local static electric field they experience. Micromotion modulates the coupling of an ion to laser fields, ideally tuning it from its maximum value to zero as the ion is moved away from the trap's rf null. We use tunable micromotion to vary the Rabi frequency of stimulated Raman transitions over two orders of magnitude, and to individually control the rates of resonant fluorescence from three ions under global laser illumination without any changes to the driving light fields. The technique is amenable to situations where addressing individual ions with focused laser beams is challenging, such as tightly packed linear ion strings or two-dimensional ion arrays illuminated from the side.
翻訳日:2024-02-09 14:06:04 公開日:2024-02-08
# 一次元ボース気体中の損失誘起集合モード

Loss induced collective mode in one-dimensional Bose gases ( http://arxiv.org/abs/2402.05824v1 )

ライセンス: Link先を確認
Jeff Maki, Lorenzo Rosso, Leonardo Mazza, Alberto Biella(参考訳) トラップ内のクエンチや外部摂動が存在しない場合においても, 2体損失は1次元ボースガス中における集合励起を誘導することを示した。 散逸したフェルミ化状態に着目して,ラピシティ分布関数の正確なモード展開を行い,集団運動の出現を特徴付ける。 ガスの位相空間四極子モードと同様に、ポテンシャルと運動エネルギーの両方において明確なコヒーレント振動が見られる。 また, この損失誘発集団モードが, 散逸の有無で研究されている呼吸モードとどのように異なるかについても検討した。

We show that two-body losses induce a collective excitation in a harmonically trapped one-dimensional Bose gas, even in the absence of a quench in the trap or any other external perturbation. Focusing on the dissipatively fermionized regime, we perform an exact mode expansion of the rapidity distribution function and characterize the emergence of the collective motion. We find clear coherent oscillations in both the potential and kinetic energies as well as in the phase space quadrupole mode of the gas. We also discuss how this loss induced collective mode differs from the well known breathing mode studied in the absence of dissipation.
翻訳日:2024-02-09 14:05:46 公開日:2024-02-08
# fusionsf:ロバストな太陽エネルギー予測のためのベクトル量子化枠組みにおける不均一性融合

FusionSF: Fuse Heterogeneous Modalities in a Vector Quantized Framework for Robust Solar Power Forecasting ( http://arxiv.org/abs/2402.05823v1 )

ライセンス: Link先を確認
Ziqing Ma, Wenwei Wang, Tian Zhou, Chao Chen, Bingqing Peng, Liang Sun, Rong Jin(参考訳) 太陽光発電プラントを電力網に統合し、電力網の安全性を確保するためには、正確な太陽光発電予測が不可欠である。 この問題は、データ不足で新たに設置された太陽光発電所の需要が高まる。 現在の研究は主に、異なるモードで提供される補完的な情報を無視して、過去の太陽エネルギーデータや、単一のモーダリティ形式での数値的な天気予報に依存している。 本稿では,過去の電力データ,気象予報,衛星画像を統合し,予測性能を大幅に向上させるマルチモダリティ融合フレームワークを提案する。 我々は,情報密度の異なるモダリティを整列するベクトル量子化フレームワークを導入し,十分な情報の統合とモデルのオーバーフィットのバランスを取る。 本フレームワークは,新たに設置した植物に特に有用である強いゼロショット予測能力を示す。 さらに、実世界の植物からマルチモーダルソーラーパワー(MMSP)データセットを収集、リリースし、マルチモーダルソーラー予測アルゴリズムの研究をさらに促進する。 大規模な実験により、我々のモデルは堅牢性だけでなく、ゼロショット予測とトレーニングデータに富んだシナリオの精度も向上し、先行モデルを上回ることが示されている。 私たちはそれをeForecasterプラットフォームに組み込んで,容量が15GWを超える300以上のソーラープラントに展開しました。

Accurate solar power forecasting is crucial to integrate photovoltaic plants into the electric grid, schedule and secure the power grid safety. This problem becomes more demanding for those newly installed solar plants which lack sufficient data. Current research predominantly relies on historical solar power data or numerical weather prediction in a single-modality format, ignoring the complementary information provided in different modalities. In this paper, we propose a multi-modality fusion framework to integrate historical power data, numerical weather prediction, and satellite images, significantly improving forecast performance. We introduce a vector quantized framework that aligns modalities with varying information densities, striking a balance between integrating sufficient information and averting model overfitting. Our framework demonstrates strong zero-shot forecasting capability, which is especially useful for those newly installed plants. Moreover, we collect and release a multi-modal solar power (MMSP) dataset from real-world plants to further promote the research of multi-modal solar forecasting algorithms. Our extensive experiments show that our model not only operates with robustness but also boosts accuracy in both zero-shot forecasting and scenarios rich with training data, surpassing leading models. We have incorporated it into our eForecaster platform and deployed it for more than 300 solar plants with a capacity of over 15GW.
翻訳日:2024-02-09 14:05:36 公開日:2024-02-08
# MLプログラム探索のための二項判別器によるガイド付き進化

Guided Evolution with Binary Discriminators for ML Program Search ( http://arxiv.org/abs/2402.05821v1 )

ライセンス: Link先を確認
John D. Co-Reyes, Yingjie Miao, George Tucker, Aleksandra Faust, Esteban Real(参考訳) より良い機械学習プログラムを自動的に設計する方法は、AutoML内のオープンな問題である。 進化はより良いMLプログラムを探すツールとして人気があるが、学習そのものを使って検索をガイドすることは成功せず、難しい問題に対する理解も少ないが、最適化プロセスのスピードと最終的なパフォーマンスを劇的に向上させるという約束がある。 オンライン上の2進判別器を用いて,どのプログラムがよいプログラムであるかを識別する指導手法を提案する。 判別器は、コストのかかる評価を行うことなくより良いプログラムを選択し、進化の収束を高速化する。 本手法は, 記号最適化, ニューラルアーキテクチャ, RL損失関数, および同じ有向非巡回グラフ表現を持つ記号回帰方程式を含む多種多様なML成分を符号化することができる。 この表現を現代のGNNと適応的突然変異戦略を組み合わせることで、MLオプティマイザのシンボル探索における3.7倍の高速化、RL損失関数の4倍の高速化など、様々な問題における進化を高速化できることを示す。

How to automatically design better machine learning programs is an open problem within AutoML. While evolution has been a popular tool to search for better ML programs, using learning itself to guide the search has been less successful and less understood on harder problems but has the promise to dramatically increase the speed and final performance of the optimization process. We propose guiding evolution with a binary discriminator, trained online to distinguish which program is better given a pair of programs. The discriminator selects better programs without having to perform a costly evaluation and thus speed up the convergence of evolution. Our method can encode a wide variety of ML components including symbolic optimizers, neural architectures, RL loss functions, and symbolic regression equations with the same directed acyclic graph representation. By combining this representation with modern GNNs and an adaptive mutation strategy, we demonstrate our method can speed up evolution across a set of diverse problems including a 3.7x speedup on the symbolic search for ML optimizers and a 4x speedup for RL loss functions.
翻訳日:2024-02-09 14:05:14 公開日:2024-02-08
# 磁気共鳴イメージングにおけるヨロv7を用いた腎臓検出 : 教師付きコントラスト学習

Using YOLO v7 to Detect Kidney in Magnetic Resonance Imaging: A Supervised Contrastive Learning ( http://arxiv.org/abs/2402.05817v1 )

ライセンス: Link先を確認
Pouria Yazdian Anari, Fiona Obiezu, Nathan Lay, Fatemeh Dehghani Firouzabadi, Aditi Chaurasia, Mahshid Golagha, Shiva Singh, Fatemeh Homayounieh, Aryan Zahergivar, Stephanie Harmon, Evrim Turkbey, Rabindra Gautam, Kevin Ma, Maria Merino, Elizabeth C. Jones, Mark W. Ball, W. Marston Linehan, Baris Turkbey, Ashkan A. Malayeri(参考訳) 本研究は, 医療用画像フォーマットの修正型YOLO V7の訓練および試験により, 腎臓検出を向上するための最新のYou Only Look Once (YOLO V7) オブジェクト検出法について検討する。 Methods Studyは腎細胞癌(RCC)の亜型878例と正常腎の206例を含む。 計5657回のMRI検査で1084例が検索された。 振り返り維持データベースから1034個の腫瘍を抽出した症例は326例で, 腫瘍周囲に境界箱を引いた。 主要なモデルは、アノテーション付きケースの80%でトレーニングされ、20%はテストに費やされた(最初のテストセット)。 次に、最も優れた一次モデルを用いて、残りの861患者の腫瘍を同定し、そのモデルを用いてスキャンで境界ボックス座標を作成した。 10のベンチマークトレーニングセットが生成され、未登録患者の座標が生成された。 最終モデルは、最初のテストセットで腎臓を予測するために使用されました。 正の予測値 (PPV) , 感度, 平均平均精度 (mAP) を報告した。 結果】初等訓練では平均PPV0.94+/-0.01,感度0.87+/-0.04,mAP0.91+/-0.02であった。 最良の一次モデルは、ppv 0.97、感度 0.92、マップ 0.95であった。 最終モデルは平均PSV 0.95 +/- 0.03、感度 0.98 +/- 0.004、mAP 0.95 +/- 0.01 を示した。 結語 医用画像ライブラリーを用いた半教師付きアプローチにより, 腎検出のための高性能モデルを開発した。 モデルの一般化性を評価するには、さらなる外部検証が必要となる。

Introduction This study explores the use of the latest You Only Look Once (YOLO V7) object detection method to enhance kidney detection in medical imaging by training and testing a modified YOLO V7 on medical image formats. Methods Study includes 878 patients with various subtypes of renal cell carcinoma (RCC) and 206 patients with normal kidneys. A total of 5657 MRI scans for 1084 patients were retrieved. 326 patients with 1034 tumors recruited from a retrospective maintained database, and bounding boxes were drawn around their tumors. A primary model was trained on 80% of annotated cases, with 20% saved for testing (primary test set). The best primary model was then used to identify tumors in the remaining 861 patients and bounding box coordinates were generated on their scans using the model. Ten benchmark training sets were created with generated coordinates on not-segmented patients. The final model used to predict the kidney in the primary test set. We reported the positive predictive value (PPV), sensitivity, and mean average precision (mAP). Results The primary training set showed an average PPV of 0.94 +/- 0.01, sensitivity of 0.87 +/- 0.04, and mAP of 0.91 +/- 0.02. The best primary model yielded a PPV of 0.97, sensitivity of 0.92, and mAP of 0.95. The final model demonstrated an average PPV of 0.95 +/- 0.03, sensitivity of 0.98 +/- 0.004, and mAP of 0.95 +/- 0.01. Conclusion Using a semi-supervised approach with a medical image library, we developed a high-performing model for kidney detection. Further external validation is required to assess the model's generalizability.
翻訳日:2024-02-09 14:04:54 公開日:2024-02-08
# Selective Forgetting: 機械学習技術の向上と言語モデルの評価

Selective Forgetting: Advancing Machine Unlearning Techniques and Evaluation in Language Models ( http://arxiv.org/abs/2402.05813v1 )

ライセンス: Link先を確認
Lingzhi Wang, Xingshan Zeng, Jinsong Guo, Kam-Fai Wong and Georg Gottlob(参考訳) 本研究の目的は、個人または機密データを不注意に保持するニューラルモデルに関連する懸念に対処することに焦点を当てた新興分野であるマシン・アンラーニング(MU)を調査することである。 ここでは、言語モデル内で正確かつ選択的に忘れることを実現するために、新しいアプローチが導入された。 完全に反対のトレーニング目標を採用する従来の方法論とは異なり、このアプローチは言語モデルのパフォーマンス、特に生成タスクに対する悪影響を軽減することを目的としている。 さらに、感度情報抽出類似度(S-EL)と感度情報記憶精度(S-MA)の2つの革新的な評価指標が提案されている。 忘れ去られたフレームワークを強化するために、オンラインとオフラインの両方の戦略を含む、センシティブなスコープを注釈する効果的な方法が提示される。 オンライン選択メカニズムは、言語確率スコアを活用して計算効率を確保する一方で、オフラインアノテーションは、LLM(Large Language Models)に基づいた堅牢な2段階プロセスを必要とする。

The aim of this study is to investigate Machine Unlearning (MU), a burgeoning field focused on addressing concerns related to neural models inadvertently retaining personal or sensitive data. Here, a novel approach is introduced to achieve precise and selective forgetting within language models. Unlike previous methodologies that adopt completely opposing training objectives, this approach aims to mitigate adverse effects on language model performance, particularly in generation tasks. Furthermore, two innovative evaluation metrics are proposed: Sensitive Information Extraction Likelihood (S-EL) and Sensitive Information Memory Accuracy (S-MA), designed to gauge the effectiveness of sensitive information elimination. To reinforce the forgetting framework, an effective method for annotating sensitive scopes is presented, involving both online and offline strategies. The online selection mechanism leverages language probability scores to ensure computational efficiency, while the offline annotation entails a robust two-stage process based on Large Language Models (LLMs).
翻訳日:2024-02-09 14:04:24 公開日:2024-02-08
# FAQ-Gen:コンテンツ理解を支援するドメイン固有FAQの自動生成システム

FAQ-Gen: An automated system to generate domain-specific FAQs to aid content comprehension ( http://arxiv.org/abs/2402.05812v1 )

ライセンス: Link先を確認
Sahil Kale, Gautam Khaire, Jay Patankar(参考訳) 頻繁に質問される質問(FAQ)は、特定のコンテンツに関する最も一般的な質問を指す。 トピックを単純化し、情報を簡潔に提示することで理解を強化することで、コンテンツ理解支援として機能する。 本稿では,テキストからテキストへの変換モデルを利用したエンドツーエンドシステムの開発を通じて,FAQ生成を自然言語処理(NLP)タスクとして扱う。 本稿では,従来の質問応答システムに関する文献レビューを行い,FAQ生成タスクに直接適用した場合の限界を明らかにする。 本システムでは,特定のドメインに適したテキストコンテンツからFAQを作成でき,精度と妥当性を高めることができる。 我々は、入力として提供される情報の最適な表現を得るための自己計算アルゴリズムと、人間の理解を最大化するための質問応答ペアのランキングを利用する。 定性的な人間の評価は、生成されたFAQをよく構築し、読みやすくすると同時に、ドメイン固有の構造を利用して、元のコンテンツにドメインベースのニュアンスとジャーゴンをハイライトする。

Frequently Asked Questions (FAQs) refer to the most common inquiries about specific content. They serve as content comprehension aids by simplifying topics and enhancing understanding through succinct presentation of information. In this paper, we address FAQ generation as a well-defined Natural Language Processing (NLP) task through the development of an end-to-end system leveraging text-to-text transformation models. We present a literature review covering traditional question-answering systems, highlighting their limitations when applied directly to the FAQ generation task. We propose our system capable of building FAQs from textual content tailored to specific domains, enhancing their accuracy and relevance. We utilise self-curated algorithms for obtaining optimal representation of information to be provided as input and also for ranking the question-answer pairs to maximise human comprehension. Qualitative human evaluation showcases the generated FAQs to be well-constructed and readable, while also utilising domain-specific constructs to highlight domain-based nuances and jargon in the original content.
翻訳日:2024-02-09 14:03:57 公開日:2024-02-08
# ダイヤモンド薄膜における色中心の高Qキャビティ界面

High-Q Cavity Interface for Color Centers in Thin Film Diamond ( http://arxiv.org/abs/2402.05811v1 )

ライセンス: Link先を確認
Sophie W. Ding, Michael Haas, Xinghan Guo, Kazuhiro Kuruma, Chang Jin, Zixi Li, David D. Awschalom, Nazar Delegan, F. Joseph Heremans, Alex High, Marko Loncar(参考訳) 量子情報技術は、量子コンピュータ間の絡み合いを分散できるセキュアなチャネルを通じて、前例のない計算資源を実現することができる。 ダイヤモンドは、光学的にアクセス可能なスピン量子ビットを持つ原子のような欠陥のホストとして、量子リンクの範囲を広げるために必要な量子メモリノードを実現するための主要なプラットフォームである。 フォトニック結晶(PhC)キャビティは光-マター相互作用を促進し、それぞれ量子情報の保存と伝達に使用されるスピンと光子の効率的な界面の必須成分である。 しかしながら、ダイヤモンドでは、高い品質因子(q)と設計の柔軟性を備えた可視性phcキャビティの実現が困難である。 本稿では,最近開発された薄膜ダイヤモンドで作製された1次元および2次元のPhCキャビティを,各材料で実現された可視性PhCキャビティの最高値である1.8x10$^5$と1.6x10$^5$のQファクターで示す。 重要視されるのは, 従来の平面造形技術に基く, 複雑な下方切削法に依存する従来の手法とは対照的に, 単純かつ高収率な製造プロセスである。 また,光子抽出効率の高い繊維結合型1D PhCキャビティと,Purcell factorが13である4Kにおいて,単一のSiV中心とそのようなキャビティとの光結合を実証した。 証明されたダイヤモンド薄膜フォトニックプラットフォームは、量子ノードの性能とスケーラビリティを改善し、量子技術の範囲を広げる。

Quantum information technology offers the potential to realize unprecedented computational resources via secure channels capable of distributing entanglement between quantum computers. Diamond, as a host to atom-like defects with optically-accessible spin qubits, is a leading platform to realize quantum memory nodes needed to extend the reach of quantum links. Photonic crystal (PhC) cavities enhance light-matter interaction and are essential ingredients of an efficient interface between spins and photons that are used to store and communicate quantum information respectively. Despite great effort, however, the realization of visible PhC cavities with high quality factor (Q) and design flexibility is challenging in diamond. Here, we demonstrate one- and two-dimensional PhC cavities fabricated in recently developed thin-film diamonds, featuring Q-factors of 1.8x10$^5$ and 1.6x10$^5$, respectively, the highest Qs for visible PhC cavities realized in any material. Importantly, our fabrication process is simple and high-yield, based on conventional planar fabrication techniques, in contrast to previous approaches that rely on complex undercut methods. We also demonstrate fiber-coupled 1D PhC cavities with high photon extraction efficiency, and optical coupling between a single SiV center and such a cavity at 4K achieving a Purcell factor of 13. The demonstrated diamond thin-film photonic platform will improve the performance and scalability of quantum nodes and expand the range of quantum technologies.
翻訳日:2024-02-09 14:03:38 公開日:2024-02-08
# 色空間は1つだけ:低照度画像強調のための効率的なネットワーク

You Only Need One Color Space: An Efficient Network for Low-light Image Enhancement ( http://arxiv.org/abs/2402.05809v1 )

ライセンス: Link先を確認
Yixu Feng, Cheng Zhang, Pei Wang, Peng Wu, Qingsen Yan, Yanning Zhang(参考訳) 低照度画像強調(LLIE)タスクは、劣化した低照度画像から詳細と視覚情報を復元する傾向がある。 既存のほとんどの手法は、sRGBとHSV色空間上のディープニューラルネットワーク(DNN)により、低/正常光画像間のマッピング関数を学習する。 それにもかかわらず、強調は画像信号の増幅を伴い、これらの色空間を低信号対雑音比の低光画像に適用することで、強調過程に感度と不安定性をもたらす可能性がある。 その結果、拡張された画像に色アーティファクトと明るさアーティファクトが存在することが判明した。 この問題を軽減するために,HVI (Horizontal/Vertical-Intensity) と呼ばれる新しいトレーニング可能なカラー空間を提案する。 輝度と色をRGBチャネルから切り離して、拡張中の不安定性を緩和するだけでなく、トレーニング可能なパラメータによって異なる照明範囲の低照度画像にも適応する。 さらに,hvi空間におけるデカップリング画像の輝度と色を処理できる2つの分枝を持つ新しい色強度デカップリングネットワーク(cidnet)を設計する。 CIDNet内では、低照度画像におけるノイズを抑えつつ、画像構造とコンテンツ情報の相互作用を容易にする軽量クロスアテンション(LCA)モジュールを導入する。 最後に,22種類の定量定性実験を行い,提案したCIDNetが11データセットの最先端手法より優れていることを示す。 コードはhttps://github.com/Fediory/HVI-CIDNetで入手できる。

Low-Light Image Enhancement (LLIE) task tends to restore the details and visual information from corrupted low-light images. Most existing methods learn the mapping function between low/normal-light images by Deep Neural Networks (DNNs) on sRGB and HSV color space. Nevertheless, enhancement involves amplifying image signals, and applying these color spaces to low-light images with a low signal-to-noise ratio can introduce sensitivity and instability into the enhancement process. Consequently, this results in the presence of color artifacts and brightness artifacts in the enhanced images. To alleviate this problem, we propose a novel trainable color space, named Horizontal/Vertical-Intensity (HVI). It not only decouples brightness and color from RGB channels to mitigate the instability during enhancement but also adapts to low-light images in different illumination ranges due to the trainable parameters. Further, we design a novel Color and Intensity Decoupling Network (CIDNet) with two branches dedicated to processing the decoupled image brightness and color in the HVI space. Within CIDNet, we introduce the Lightweight Cross-Attention (LCA) module to facilitate interaction between image structure and content information in both branches, while also suppressing noise in low-light images. Finally, we conducted 22 quantitative and qualitative experiments to show that the proposed CIDNet outperforms the state-of-the-art methods on 11 datasets. The code will be available at https://github.com/Fediory/HVI-CIDNet.
翻訳日:2024-02-09 14:03:10 公開日:2024-02-08
# 逆カリキュラム強化学習による推論のための大規模言語モデルの訓練

Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning ( http://arxiv.org/abs/2402.05808v1 )

ライセンス: Link先を確認
Zhiheng Xi, Wenxiang Chen, Boyang Hong, Senjie Jin, Rui Zheng, Wei He, Yiwen Ding, Shichun Liu, Xin Guo, Junzhe Wang, Honglin Guo, Wei Shen, Xiaoran Fan, Yuhao Zhou, Shihan Dou, Xiao Wang, Xinbo Zhang, Peng Sun, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 本稿では,大規模言語モデルにおけるプロセス監督の利点を達成するために,成果監督のみを用いる新しい手法であるr$^3$: learning reasoning through reverse curriculum reinforcement learning (rl)を提案する。 複雑な推論にRLを適用する上での課題は、正の報酬をもたらす一連の行動を特定し、最適化のための適切な監督を提供することである。 結果監視はエラー箇所を識別せずに最終結果に対してスパースな報酬を提供するが、プロセス監視は段階的な報酬を提供するが、広範な手動アノテーションを必要とする。 r$^3$は、正しいデモから学ぶことでこれらの制限を克服する。 具体的には、r$^3$はデモの終了から開始までの推論の開始状態を段階的にスライドさせ、すべての段階でのモデル探索を容易にする。 したがって、R$^3$は段階的なカリキュラムを確立し、結果の監督がステップレベルの信号と正確なピンポイントエラーを提供する。 Llama2-7Bを用いて、8つの推論タスクにおけるRLベースラインを平均4.1ドルポイント越える。 GSM8Kのプログラムベースの推論では、ベースラインを3つのバックボーンモデルで4.2ドル、追加データなしではCodellama-7B + R$^3$はより大きなモデルやクローズドソースモデルに匹敵する性能を持つ。

In this paper, we propose R$^3$: Learning Reasoning through Reverse Curriculum Reinforcement Learning (RL), a novel method that employs only outcome supervision to achieve the benefits of process supervision for large language models. The core challenge in applying RL to complex reasoning is to identify a sequence of actions that result in positive rewards and provide appropriate supervision for optimization. Outcome supervision provides sparse rewards for final results without identifying error locations, whereas process supervision offers step-wise rewards but requires extensive manual annotation. R$^3$ overcomes these limitations by learning from correct demonstrations. Specifically, R$^3$ progressively slides the start state of reasoning from a demonstration's end to its beginning, facilitating easier model exploration at all stages. Thus, R$^3$ establishes a step-wise curriculum, allowing outcome supervision to offer step-level signals and precisely pinpoint errors. Using Llama2-7B, our method surpasses RL baseline on eight reasoning tasks by $4.1$ points on average. Notebaly, in program-based reasoning on GSM8K, it exceeds the baseline by $4.2$ points across three backbone models, and without any extra data, Codellama-7B + R$^3$ performs comparable to larger models or closed-source models.
翻訳日:2024-02-09 14:02:44 公開日:2024-02-08
# 深部分類器の校正と等角予測について

On Calibration and Conformal Prediction of Deep Classifiers ( http://arxiv.org/abs/2402.05806v1 )

ライセンス: Link先を確認
Lahav Dabah, Tom Tirer(参考訳) 多くの分類応用において、ディープニューラルネットワーク(DNN)に基づく分類器の予測には、ある程度の信頼感が伴わなければならない。 その目的のための2つの一般的な後処理アプローチは以下のとおりである。 1)校正:分類器のソフトマックス値を、その最大値(予測と関連する)が正確性確率をより正確に推定するように修正する。 2) 正則予測(CP): 正しいクラスの限界被覆を理論的に保証した一連の予測が生成されるスコア(ソフトマックス値に基づく)を考案する。 実際にはどちらの種類の指示も望まれるが、今のところ両者の相互作用は研究されていない。 本稿では,このギャップを埋めるため,最も一般的なキャリブレーション手法である温度スケーリングがcp法に与える影響について検討する。 我々は、他の知見の中で、キャリブレーションが一般的な適応型CP手法に有害な効果をもたらすことを示す広範な実証的研究から始めます。 そして、理論上、この行動を分析します。 手順の数学的特性を明らかにし,この現象の推論を行う。 本研究は,温度スケーリング校正の前(またはキャンセル後)のソフトマックス値に基づいて,条件範囲の強化のために選択された適応cp法を活用すべきであることを示唆している。

In many classification applications, the prediction of a deep neural network (DNN) based classifier needs to be accompanied with some confidence indication. Two popular post-processing approaches for that aim are: 1) calibration: modifying the classifier's softmax values such that their maximum (associated with the prediction) better estimates the correctness probability; and 2) conformal prediction (CP): devising a score (based on the softmax values) from which a set of predictions with theoretically guaranteed marginal coverage of the correct class is produced. While in practice both types of indications can be desired, so far the interplay between them has not been investigated. Toward filling this gap, in this paper we study the effect of temperature scaling, arguably the most common calibration technique, on prominent CP methods. We start with an extensive empirical study that among other insights shows that, surprisingly, calibration has a detrimental effect on popular adaptive CP methods: it frequently leads to larger prediction sets. Then, we turn to theoretically analyze this behavior. We reveal several mathematical properties of the procedure, according to which we provide a reasoning for the phenomenon. Our study suggests that it may be worthwhile to utilize adaptive CP methods, chosen for their enhanced conditional coverage, based on softmax values prior to (or after canceling) temperature scaling calibration.
翻訳日:2024-02-09 14:02:18 公開日:2024-02-08
# InkSight: 読み書き学習によるオフラインからオフラインへの手書き変換

InkSight: Offline-to-Online Handwriting Conversion by Learning to Read and Write ( http://arxiv.org/abs/2402.05804v1 )

ライセンス: Link先を確認
Blagoj Mitrevski, Arina Rak, Julian Schnitzler, Chengkun Li, Andrii Maksai, Jesse Berent, Claudiu Musat(参考訳) デジタルノートテイクが人気を博し、デジタルインクと呼ばれるベクタライズされた形式でメモを保存する、耐久性があり、編集可能で、簡単にインデックスできる方法を提供している。 しかし、このようなノートテイクと従来のペン・アンド・ペーパーのノートテイクの間には大きなギャップが残っている。 私たちの仕事であるInkSightは、物理的なメモ取り者に、自分の仕事(オフライン手書き)をデジタルインク(オンライン手書き)に変換する力を与え、ギャップを埋めることを目指しています。 このトピックに関する以前の研究は、画像の幾何学的性質に焦点を当てており、トレーニング領域を越えての一般化は限られている。 提案手法では,事前の読み書きを組み合わせ,大量のペア化サンプルがない場合にモデルを訓練することが可能であり,入手が困難である。 私たちの知る限り、これは様々な視覚特性と背景を持つ任意の写真に手書きのテキストを効果的に導出する最初の作品である。 さらに、トレーニングドメインを超えて単純なスケッチに一般化する。 人間による評価の結果,挑戦的なhiertextデータセットを用いたモデルが生成したサンプルの87%は,入力画像の有効な追跡と見なされ,67%は人間が追跡したペンの軌跡のように見えることがわかった。

Digital note-taking is gaining popularity, offering a durable, editable, and easily indexable way of storing notes in the vectorized form, known as digital ink. However, a substantial gap remains between this way of note-taking and traditional pen-and-paper note-taking, a practice still favored by a vast majority. Our work, InkSight, aims to bridge the gap by empowering physical note-takers to effortlessly convert their work (offline handwriting) to digital ink (online handwriting), a process we refer to as Derendering. Prior research on the topic has focused on the geometric properties of images, resulting in limited generalization beyond their training domains. Our approach combines reading and writing priors, allowing training a model in the absence of large amounts of paired samples, which are difficult to obtain. To our knowledge, this is the first work that effectively derenders handwritten text in arbitrary photos with diverse visual characteristics and backgrounds. Furthermore, it generalizes beyond its training domain into simple sketches. Our human evaluation reveals that 87% of the samples produced by our model on the challenging HierText dataset are considered as a valid tracing of the input image and 67% look like a pen trajectory traced by a human.
翻訳日:2024-02-09 14:01:57 公開日:2024-02-08
# AvatarMMC:マルチモーダルコンディショニングによる3次元アバター生成と編集

AvatarMMC: 3D Head Avatar Generation and Editing with Multi-Modal Conditioning ( http://arxiv.org/abs/2402.05803v1 )

ライセンス: Link先を確認
Wamiq Reyaz Para, Abdelrahman Eldesokey, Zhenyu Li, Pradyumna Reddy, Jiankang Deng, Peter Wonka(参考訳) 本稿では,3次元生成共振器ネットワーク(GAN)と遅延拡散モデル(LDM)に基づくマルチモーダルコンディショニングによる3次元頭部アバター生成と編集手法を提案する。 3D GANは、単一または無条件で高品質なヘッドアバターを生成することができる。 しかし、異なるモードの複数の条件に従うサンプルを生成することは困難である。 一方, LDMは複雑な条件分布の学習に優れる。 そこで本研究では,LDMの条件付け機能を利用して,事前学習した3D GANの潜伏空間に対するマルチモーダル制御を実現することを提案する。 本手法は,rgb入力,セグメンテーションマスク,グローバル属性などの制御信号が混在した3次元頭部アバターを生成・編集することができる。 これにより、グローバルおよびローカルの両方で合成アバターの生成と編集をより良く制御できる。 実験の結果,提案手法は,生成タスクと編集タスクの質的,定量的にのみGANベースのアプローチよりも優れていることがわかった。 私たちの知る限りでは、我々のアプローチは3dアバターの生成と編集にマルチモーダルコンディショニングを導入する最初の方法です。 \\href{avatarmmc-sig24.github.io}{Project Page}

We introduce an approach for 3D head avatar generation and editing with multi-modal conditioning based on a 3D Generative Adversarial Network (GAN) and a Latent Diffusion Model (LDM). 3D GANs can generate high-quality head avatars given a single or no condition. However, it is challenging to generate samples that adhere to multiple conditions of different modalities. On the other hand, LDMs excel at learning complex conditional distributions. To this end, we propose to exploit the conditioning capabilities of LDMs to enable multi-modal control over the latent space of a pre-trained 3D GAN. Our method can generate and edit 3D head avatars given a mixture of control signals such as RGB input, segmentation masks, and global attributes. This provides better control over the generation and editing of synthetic avatars both globally and locally. Experiments show that our proposed approach outperforms a solely GAN-based approach both qualitatively and quantitatively on generation and editing tasks. To the best of our knowledge, our approach is the first to introduce multi-modal conditioning to 3D avatar generation and editing. \\href{avatarmmc-sig24.github.io}{Project Page}
翻訳日:2024-02-09 14:01:33 公開日:2024-02-08
# 確率的独立性を用いた臨床疾患の発見

Unsupervised Discovery of Clinical Disease Signatures Using Probabilistic Independence ( http://arxiv.org/abs/2402.05802v1 )

ライセンス: Link先を確認
Thomas A. Lasko, John M. Still, Thomas Z. Li, Marco Barbero Mota, William W. Stead, Eric V. Strobl, Bennett A. Landman, Fabien Maldonado(参考訳) 臨床疾患の十分な正確な診断は、一般的な状態や治療であっても、多くの治療失敗の原因となる可能性がある。 十分なデータセットがあれば、教師なし機械学習を使用して臨床疾患パターンをより正確に定義することができる。 本稿では,これらのパターンを確率的独立性を用いて学習し,因果性潜伏病源の医学的記録を乱すアプローチを提案する。 269,099個の電子健康記録の9195変数から2000個の潜伏源の臨床署名を推定した。 学習したシグネチャは、推定アルゴリズムに未知な肺がん予測タスクにおいて、元の変数よりも優れた識別を示し、孤立性肺結節が発見される前に、がん歴のない患者の3年間の悪性度を予測する。 さらに重要なことに、署名者による説明力の増大は、これらの患者の多くで、明らかに診断されていない癌の前結節の署名を特定した。

Insufficiently precise diagnosis of clinical disease is likely responsible for many treatment failures, even for common conditions and treatments. With a large enough dataset, it may be possible to use unsupervised machine learning to define clinical disease patterns more precisely. We present an approach to learning these patterns by using probabilistic independence to disentangle the imprint on the medical record of causal latent sources of disease. We inferred a broad set of 2000 clinical signatures of latent sources from 9195 variables in 269,099 Electronic Health Records. The learned signatures produced better discrimination than the original variables in a lung cancer prediction task unknown to the inference algorithm, predicting 3-year malignancy in patients with no history of cancer before a solitary lung nodule was discovered. More importantly, the signatures' greater explanatory power identified pre-nodule signatures of apparently undiagnosed cancer in many of those patients.
翻訳日:2024-02-09 14:01:15 公開日:2024-02-08
# 「Can You Play Anything Else? league of legendsにおけるプレイスタイル柔軟性の理解

"Can You Play Anything Else?" Understanding Play Style Flexibility in League of Legends ( http://arxiv.org/abs/2402.05865v1 )

ライセンス: Link先を確認
Emily Chen, Alexander Bisberg, Emilio Ferrara(参考訳) 本研究では,オンラインマルチプレイヤーゲームであるLeague of Legendsにおける柔軟性の概念を考察し,ユーザ適応性とチームの成功との関係に着目した。 異なるスキルレベルとプレイスタイルを持つプレイヤーを包含するデータセットを用いて,各プレイヤーに対する柔軟性の尺度を,全体的な柔軟性と時間的柔軟性の2つで計算する。 以上の結果から,ユーザの柔軟性はユーザの好みのプレイスタイルに依存し,柔軟性は結果に一致することが示唆された。 この研究は、スキルレベルがプレイヤーがプレイスタイルに適応する意思を示すだけでなく、時間とともに適応性がどのように変化するかを示す。 本稿では、熟達と柔軟性の両立とバランスを強調し、競争環境における戦略的計画、コラボレーション、リソース割り当てを知らせる洞察を提供する。

This study investigates the concept of flexibility within League of Legends, a popular online multiplayer game, focusing on the relationship between user adaptability and team success. Utilizing a dataset encompassing players of varying skill levels and play styles, we calculate two measures of flexibility for each player: overall flexibility and temporal flexibility. Our findings suggest that the flexibility of a user is dependent upon a user's preferred play style, and flexibility does impact match outcome. This work also shows that skill level not only indicates how willing a player is to adapt their play style but also how their adaptability changes over time. This paper highlights the the duality and balance of mastery versus flexibility, providing insights that can inform strategic planning, collaboration and resource allocation in competitive environments.
翻訳日:2024-02-09 13:52:15 公開日:2024-02-08
# Permute-and-Flip:LLMのための最適に堅牢で透かしやすいデコーダ

Permute-and-Flip: An optimally robust and watermarkable decoder for LLMs ( http://arxiv.org/abs/2402.05864v1 )

ライセンス: Link先を確認
Xuandong Zhao, Lei Li, Yu-Xiang Wang(参考訳) 本稿では,Permute-and-Flip(PF)デコーダと呼ばれる新しいデコーダを提案する。 標準サンプリングデコーダと同様のロバスト性を備えているが、サンプリングよりも品質ロバスト性トレードオフが最大2倍優れているため、他のどのデコーダよりも悪くなることはない。 また、AaronsonのGumbel透かしと同様の暗号透かし方式を設計するが、自然にPFデコーダ用に調整する。 ウォーターマーキング方式は、生成したテキストがエントロピーが高い場合には任意に低い偽陽性率と高いリコールを許容しながら、分布をサンプルに変更しない。 我々の実験は、PFデコーダ(およびその透かし付き)が、同じ堅牢性(および検出可能性)を維持しつつも、難易度の観点からかなり優れたサンプリング(およびガムベル透かし付きサンプリング)を行い、LCMデコーダの新たなアプローチとして有望であることを示している。 コードはhttps://github.com/xuandongzhao/pf-decodingで入手できる。

In this paper, we propose a new decoding method called Permute-and-Flip (PF) decoder. It enjoys robustness properties similar to the standard sampling decoder, but is provably up to 2x better in its quality-robustness tradeoff than sampling and never worse than any other decoder. We also design a cryptographic watermarking scheme analogous to Aaronson's Gumbel watermark, but naturally tailored for PF decoder. The watermarking scheme does not change the distribution to sample, while allowing arbitrarily low false positive rate and high recall whenever the generated text has high entropy. Our experiments show that the PF decoder (and its watermarked counterpart) significantly outperform(s) naive sampling (and it's Gumbel watermarked counterpart) in terms of perplexity, while retaining the same robustness (and detectability), hence making it a promising new approach for LLM decoding. The code is available at https://github.com/XuandongZhao/pf-decoding
翻訳日:2024-02-09 13:52:01 公開日:2024-02-08
# LLMはどのように交渉できるのか? NegotiationArenaプラットフォームと解析

How Well Can LLMs Negotiate? NegotiationArena Platform and Analysis ( http://arxiv.org/abs/2402.05863v1 )

ライセンス: Link先を確認
Federico Bianchi, Patrick John Chia, Mert Yuksekgonul, Jacopo Tagliabue, Dan Jurafsky, James Zou(参考訳) 人間は自動車の価格から共通の資源の共有方法まで、あらゆることを交渉する。 大規模言語モデル(LLM)を人間の代理エージェントとして使うことへの関心が急速に高まっているため、そのようなLLMエージェントも交渉できる必要がある。 本稿では,LLMが相互にどのように交渉できるかを考察する。 我々は,LLMエージェントの交渉能力を評価するための柔軟なフレームワークであるNegotiationArenaを開発した。 我々はNegotiationArenaの3種類のシナリオを実装し、共有リソース(最後試合)、集約リソース(取引ゲーム)、購入・販売商品(価格交渉)の割り当てにおけるLCMの挙動を評価した。 各シナリオはLLMエージェント間の複数のフレキシブルな対話を可能にし、より複雑な交渉を可能にする。 興味深いことに、LLMエージェントは特定の行動戦術を用いて交渉結果を著しく向上させることができる。 例えば、老朽化と絶望のふりをして、標準のGPT-4と交渉する場合、LCMは20倍の報酬を得られる。 また,LLMエージェントが提示する不合理な交渉行動の定量化も行い,その多くが人間にも現れる。 ニューゴタライズアリーナは、LLMの相互作用を研究する新しい環境を提供し、LLMの心の理論、不合理性、推論能力に関する新たな洞察を可能にする。

Negotiation is the basis of social interactions; humans negotiate everything from the price of cars to how to share common resources. With rapidly growing interest in using large language models (LLMs) to act as agents on behalf of human users, such LLM agents would also need to be able to negotiate. In this paper, we study how well LLMs can negotiate with each other. We develop NegotiationArena: a flexible framework for evaluating and probing the negotiation abilities of LLM agents. We implemented three types of scenarios in NegotiationArena to assess LLM's behaviors in allocating shared resources (ultimatum games), aggregate resources (trading games) and buy/sell goods (price negotiations). Each scenario allows for multiple turns of flexible dialogues between LLM agents to allow for more complex negotiations. Interestingly, LLM agents can significantly boost their negotiation outcomes by employing certain behavioral tactics. For example, by pretending to be desolate and desperate, LLMs can improve their payoffs by 20\% when negotiating against the standard GPT-4. We also quantify irrational negotiation behaviors exhibited by the LLM agents, many of which also appear in humans. Together, \NegotiationArena offers a new environment to investigate LLM interactions, enabling new insights into LLM's theory of mind, irrationality, and reasoning abilities.
翻訳日:2024-02-09 13:51:40 公開日:2024-02-08
# グラフで話す: LLMの構造化データをエンコードする

Let Your Graph Do the Talking: Encoding Structured Data for LLMs ( http://arxiv.org/abs/2402.05862v1 )

ライセンス: Link先を確認
Bryan Perozzi, Bahare Fatemi, Dustin Zelle, Anton Tsitsulin, Mehran Kazemi, Rami Al-Rfou, Jonathan Halcrow(参考訳) 構造化データを大規模言語モデル(LLM)で使用するシーケンシャルな形式にどのようにエンコードするか? 本研究では,LLMの構造化データを明示的に表現するためのパラメータ係数法を提案する。 提案手法は,明示的な構造化情報でプロンプトを拡張するエンコード関数を学習する。 限られた領域(例えば知識グラフ表現)に焦点を当てた他の作業とは異なり、我々の研究は様々な推論タスクに使用される構造化データの一般的なエンコーディングに焦点を当てた最初の取り組みである。 グラフ構造を明示的に表現することで、グラフ推論タスクを大幅に改善できることを示す。 具体的には、GraphQAベンチマークのノード、エッジ、グラフレベルのタスクにおいて、ボード全体の最大73%の改善が見られます。

How can we best encode structured data into sequential form for use in large language models (LLMs)? In this work, we introduce a parameter-efficient method to explicitly represent structured data for LLMs. Our method, GraphToken, learns an encoding function to extend prompts with explicit structured information. Unlike other work which focuses on limited domains (e.g. knowledge graph representation), our work is the first effort focused on the general encoding of structured data to be used for various reasoning tasks. We show that explicitly representing the graph structure allows significant improvements to graph reasoning tasks. Specifically, we see across the board improvements - up to 73% points - on node, edge and, graph-level tasks from the GraphQA benchmark.
翻訳日:2024-02-09 13:51:15 公開日:2024-02-08
# 長期ビデオ理解を可能にするメモリ統合

Memory Consolidation Enables Long-Context Video Understanding ( http://arxiv.org/abs/2402.05861v1 )

ライセンス: Link先を確認
Ivana Bala\v{z}evi\'c, Yuge Shi, Pinelopi Papalampidi, Rahma Chaabouni, Skanda Koppula, Olivier J. H\'enaff(参考訳) ほとんどの変換器ベースのビデオエンコーダは、その2次複雑さのため、短い時間的コンテキストに限定される。 この文脈を拡張するために様々な試みがなされてきたが、概念と計算の複雑さの両面でコストがかかることがしばしばある。 そこで本稿では,過去のアクティベーションから非パラメトリックに派生した記憶への出席を単純に微調整することで,既存のビデオトランスフォーマーを再利用することを提案する。 冗長性低減を活用することで,メモリ集約型視覚トランスフォーマ(mc-vit)は,そのコンテキストを過去まで無力に拡張し,長いビデオから学ぶと優れたスケーリング行動を示す。 その際、mc-vitは egoschema, perception test, dive48 のlong-context video understanding で新たな最先端の手法を設定し、桁違いに多くのパラメータの恩恵を受ける手法よりも優れています。

Most transformer-based video encoders are limited to short temporal contexts due to their quadratic complexity. While various attempts have been made to extend this context, this has often come at the cost of both conceptual and computational complexity. We propose to instead re-purpose existing pre-trained video transformers by simply fine-tuning them to attend to memories derived non-parametrically from past activations. By leveraging redundancy reduction, our memory-consolidated vision transformer (MC-ViT) effortlessly extends its context far into the past and exhibits excellent scaling behavior when learning from longer videos. In doing so, MC-ViT sets a new state-of-the-art in long-context video understanding on EgoSchema, Perception Test, and Diving48, outperforming methods that benefit from orders of magnitude more parameters.
翻訳日:2024-02-09 13:51:05 公開日:2024-02-08
# ロボット手術のためのプライバシ保存型連続意味セグメンテーション

Privacy-Preserving Synthetic Continual Semantic Segmentation for Robotic Surgery ( http://arxiv.org/abs/2402.05860v1 )

ライセンス: Link先を確認
Mengya Xu, Mobarakol Islam, Long Bai and Hongliang Ren(参考訳) 深層ニューラルネットワーク(dnns)に基づくロボット機器と組織の意味セグメンテーションは、ロボット支援手術における手術活動の精度を高めることができる。 しかし、生物学習においては、DNNは時間とともに漸進的なタスクを学習できず、破滅的な忘れを見せることができない。 具体的には、データ不足が問題となる場合、新しい機器で新しいデータを学んだ後、事前に学習した機器の性能が急速に低下することを示す。 プライバシー上の懸念と、継続的な学習モデルのための新しいまたは更新された機器のデータの有効性のために、古いモデルの古い機器のデータセットのリリースを制限すると、問題はさらに悪化する。 この目的のために,混合と調和によるプライバシ保存型連続的意味セグメンテーションフレームワークを開発した。 (i)一般の患者データを明かすことなく、合成背景に先行するオープンソース古楽器 (二)背景を広く拡張する新しい楽器を前景とする。 従来のモデルから連続学習モデルへのバランスの取れたロジット蒸留を向上するため,モデル学習ユーティリティを制御してクラス認識温度正規化(CAT)の重複を設計する。 また,sd(multi-scale shift-feature distillation)を導入することで,情報量が少ない従来の短距離空間的特徴が特徴蒸留のパワーを低下させるセマンティックオブジェクト間の長短距離空間関係を維持できる。 本研究では,2017年と2018年の楽器セグメンテーションデータセットにおけるフレームワークの有効性を示す。 コードは~\url{https://github.com/XuMengyaAmy/Synthetic_CAT_SD}で入手できる。

Deep Neural Networks (DNNs) based semantic segmentation of the robotic instruments and tissues can enhance the precision of surgical activities in robot-assisted surgery. However, in biological learning, DNNs cannot learn incremental tasks over time and exhibit catastrophic forgetting, which refers to the sharp decline in performance on previously learned tasks after learning a new one. Specifically, when data scarcity is the issue, the model shows a rapid drop in performance on previously learned instruments after learning new data with new instruments. The problem becomes worse when it limits releasing the dataset of the old instruments for the old model due to privacy concerns and the unavailability of the data for the new or updated version of the instruments for the continual learning model. For this purpose, we develop a privacy-preserving synthetic continual semantic segmentation framework by blending and harmonizing (i) open-source old instruments foreground to the synthesized background without revealing real patient data in public and (ii) new instruments foreground to extensively augmented real background. To boost the balanced logit distillation from the old model to the continual learning model, we design overlapping class-aware temperature normalization (CAT) by controlling model learning utility. We also introduce multi-scale shifted-feature distillation (SD) to maintain long and short-range spatial relationships among the semantic objects where conventional short-range spatial features with limited information reduce the power of feature distillation. We demonstrate the effectiveness of our framework on the EndoVis 2017 and 2018 instrument segmentation dataset with a generalized continual learning setting. Code is available at~\url{https://github.com/XuMengyaAmy/Synthetic_CAT_SD}.
翻訳日:2024-02-09 13:50:48 公開日:2024-02-08
# ゼロショット一般化のための専門知識者間の経路学習

Learning to Route Among Specialized Experts for Zero-Shot Generalization ( http://arxiv.org/abs/2402.05859v1 )

ライセンス: Link先を確認
Mohammed Muqeeth, Haokun Liu, Yufan Liu, Colin Raffel(参考訳) 近年、パラメーター効率の良い微調整によって特定のタスクやドメインに特化した「専門家」言語モデルが広く普及している。 ゼロショットの一般化を改善するために、専門家言語モデルの大規模なコレクションをどうやって再利用できるのか? 本研究では,パラメータ効率のよい微調整により生成した特殊モジュール間の経路を学習するPATGOOSE(Post-Hoc Adaptive Tokenwise Gating Over a Ocean of Specialized Experts)を提案する。 特殊モデル間の経路を学習する過去の方法とは異なり、PHATGOOSEは、各トークンとモデルの各層で異なる専門家が適応的に選択できれば、ゼロショットの一般化が改善される可能性を探っている。 重要なことに、我々の手法はポストホックであり、特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算を必要とする。 特殊なモデルコレクションとゼロショット一般化ベンチマークをカバーする実験では、ファトグースがポストホックルーティングの過去のメソッドを上回り、場合によっては明示的なマルチタスクトレーニング(同時データアクセスを必要とする)を上回っていることが判明した。 PHATGOOSEが学習したルーティング戦略をよりよく理解するために,PHATGOOSEの性能が適応的かつモジュールごとのエキスパート選択に起因していることを示す定性的な実験を行った。 専門知識のリサイクルによるゼロショット一般化の改善に向けた今後の取り組みを支援するため,全コードをリリースする。

Recently, there has been a widespread proliferation of "expert" language models that are specialized to a specific task or domain through parameter-efficient fine-tuning. How can we recycle large collections of expert language models to improve zero-shot generalization to unseen tasks? In this work, we propose Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE), which learns to route among specialized modules that were produced through parameter-efficient fine-tuning. Unlike past methods that learn to route among specialized models, PHATGOOSE explores the possibility that zero-shot generalization will be improved if different experts can be adaptively chosen for each token and at each layer in the model. Crucially, our method is post-hoc - it does not require simultaneous access to the datasets used to create the specialized models and only requires a modest amount of additional compute after each expert model is trained. In experiments covering a range of specialized model collections and zero-shot generalization benchmarks, we find that PHATGOOSE outperforms past methods for post-hoc routing and, in some cases, outperforms explicit multitask training (which requires simultaneous data access). To better understand the routing strategy learned by PHATGOOSE, we perform qualitative experiments to validate that PHATGOOSE's performance stems from its ability to make adaptive per-token and per-module expert choices. We release all of our code to support future work on improving zero-shot generalization by recycling specialized experts.
翻訳日:2024-02-09 13:50:20 公開日:2024-02-08
# ディリクレフローマッチングとDNA配列設計への応用

Dirichlet Flow Matching with Applications to DNA Sequence Design ( http://arxiv.org/abs/2402.05841v1 )

ライセンス: Link先を確認
Hannes Stark, Bowen Jing, Chenyu Wang, Gabriele Corso, Bonnie Berger, Regina Barzilay, Tommi Jaakkola(参考訳) 離散拡散やフローモデルは自己回帰モデルよりも高速で制御可能なシーケンス生成を可能にする。 本研究は, 単純軸上のna\"ive linear flow matching が, 訓練目標の不連続性, さらなる病理に苦しむため, この目標に対して不十分であることを示す。 そこで我々は, ディリクレ分布の混合を確率経路として, simplex 上のディリクレフローマッチングを開発した。 本フレームワークでは,混合器のスコアとフローベクトル場との接続を導出し,分類器と分類器フリーガイダンスを実現する。 さらに,1ステップのシーケンス生成を最小限のパフォーマンスヒットで可能とし,自己回帰モデルと比較してo(l)$の高速化を実現する蒸留ディリクレフローマッチングを提供する。 複雑なDNAシークエンス生成タスクにおいて、分布指標のすべてのベースラインと比較して優れた性能を示し、生成シーケンスの設計目標を達成する。 最後に, 分類器を含まない誘導手法が無条件生成を改善し, 設計目標を満たすdna生成に有効であることを示す。 コードはhttps://github.com/HannesStark/dirichlet-flow-matchingで入手できる。

Discrete diffusion or flow models could enable faster and more controllable sequence generation than autoregressive models. We show that na\"ive linear flow matching on the simplex is insufficient toward this goal since it suffers from discontinuities in the training target and further pathologies. To overcome this, we develop Dirichlet flow matching on the simplex based on mixtures of Dirichlet distributions as probability paths. In this framework, we derive a connection between the mixtures' scores and the flow's vector field that allows for classifier and classifier-free guidance. Further, we provide distilled Dirichlet flow matching, which enables one-step sequence generation with minimal performance hits, resulting in $O(L)$ speedups compared to autoregressive models. On complex DNA sequence generation tasks, we demonstrate superior performance compared to all baselines in distributional metrics and in achieving desired design targets for generated sequences. Finally, we show that our classifier-free guidance approach improves unconditional generation and is effective for generating DNA that satisfies design targets. Code is available at https://github.com/HannesStark/dirichlet-flow-matching.
翻訳日:2024-02-09 13:49:39 公開日:2024-02-08
# 目に見えないものは、主に写真に関する情報に依存している

How Much is Unseen Depends Chiefly on Information About the Seen ( http://arxiv.org/abs/2402.05835v1 )

ライセンス: Link先を確認
Seongmin Lee and Marcel B\"ohme(参考訳) 予想では、トレーニングデータに現れないクラスに属する未知の集団のデータポイントの割合は、トレーニングデータに同じ回数で現れるクラスの数$f_k$でほぼ完全に決定されている。 理論上は, 誘導推定器の差が試料の大きさで指数関数的に減少することを示すが, 実際には, 高分散は試料被覆の推定器を直接使用することを妨げている。 しかし、$f_k$ 間の依存性の正確な特徴付けは、期待値の異なる表現を持つ大きな探索空間を誘導し、決定論的に推定子としてインスタンス化することができる。 したがって, サンプルのみを与えられた場合, 最小平均二乗誤差 (mse) を持つ推定器を探索する遺伝的アルゴリズムを最適化し開発する。 我々の遺伝的アルゴリズムは、現在最先端のグッドチューリング推定器よりもかなり小さいMSEを持つ推定器を発見する。 クラスとして少なくとも多くのサンプルが存在する場合、これは96%以上実行されます。 私たちの推定器のMSEはグッドチューリング推定器の約80%です。

It might seem counter-intuitive at first: We find that, in expectation, the proportion of data points in an unknown population-that belong to classes that do not appear in the training data-is almost entirely determined by the number $f_k$ of classes that do appear in the training data the same number of times. While in theory we show that the difference of the induced estimator decays exponentially in the size of the sample, in practice the high variance prevents us from using it directly for an estimator of the sample coverage. However, our precise characterization of the dependency between $f_k$'s induces a large search space of different representations of the expected value, which can be deterministically instantiated as estimators. Hence, we turn to optimization and develop a genetic algorithm that, given only the sample, searches for an estimator with minimal mean-squared error (MSE). In our experiments, our genetic algorithm discovers estimators that have a substantially smaller MSE than the state-of-the-art Good-Turing estimator. This holds for over 96% of runs when there are at least as many samples as classes. Our estimators' MSE is roughly 80% of the Good-Turing estimator's.
翻訳日:2024-02-09 13:49:19 公開日:2024-02-08
# Sparse-VQ Transformer: 拡張時系列予測のためのベクトル量子化付きFFNフリーフレームワーク

Sparse-VQ Transformer: An FFN-Free Framework with Vector Quantization for Enhanced Time Series Forecasting ( http://arxiv.org/abs/2402.05830v1 )

ライセンス: Link先を確認
Yanjun Zhao, Tian Zhou, Chao Chen, Liang Sun, Yi Qian, Rong Jin(参考訳) 時系列解析は多くのアプリケーションで不可欠であり、トランスフォーマーはこの領域でますます顕著になっている。 リード方式は、連続的な信号をセグメントに変換するパッチ技術を利用して、NLPとCVからトランスフォーマーアーキテクチャをカスタマイズする。 しかし、時系列データは、大きな分布シフトと内在的なノイズレベルのため、一意に困難である。 これら2つの課題に対処するため,Sparse Vector Quantized FFN-Free Transformer (Sparse-VQ)を提案する。 提案手法は,逆インスタンス正規化(RevIN)と組み合わせたスパースベクトル量子化手法を用いて,ノイズの影響を低減し,予測のための十分な統計情報を収集し,トランスフォーマーアーキテクチャにおけるフィードフォワード層(FFN)の代替として機能する。 ffnフリーアプローチはパラメータ数をトリミングし、計算効率を高め、過剰フィッティングを減らす。 新たに導入されたCAISOデータセットを含む10のベンチマークデータセットの評価を通じて、Sparse-VQは、それぞれ、単変量および多変量時系列予測のMAEが7.84%と4.17%減少する主要なモデルを上回っている。 さらに、既存のトランスフォーマーベースのモデルとシームレスに統合してパフォーマンスを高めることもできる。

Time series analysis is vital for numerous applications, and transformers have become increasingly prominent in this domain. Leading methods customize the transformer architecture from NLP and CV, utilizing a patching technique to convert continuous signals into segments. Yet, time series data are uniquely challenging due to significant distribution shifts and intrinsic noise levels. To address these two challenges,we introduce the Sparse Vector Quantized FFN-Free Transformer (Sparse-VQ). Our methodology capitalizes on a sparse vector quantization technique coupled with Reverse Instance Normalization (RevIN) to reduce noise impact and capture sufficient statistics for forecasting, serving as an alternative to the Feed-Forward layer (FFN) in the transformer architecture. Our FFN-free approach trims the parameter count, enhancing computational efficiency and reducing overfitting. Through evaluations across ten benchmark datasets, including the newly introduced CAISO dataset, Sparse-VQ surpasses leading models with a 7.84% and 4.17% decrease in MAE for univariate and multivariate time series forecasting, respectively. Moreover, it can be seamlessly integrated with existing transformer-based models to elevate their performance.
翻訳日:2024-02-09 13:48:58 公開日:2024-02-08
# 予測モデルによるエージェントの制限

Limitations of Agents Simulated by Predictive Models ( http://arxiv.org/abs/2402.05829v1 )

ライセンス: Link先を確認
Raymond Douglas, Jacek Karwowski, Chan Bae, Andis Draguns, Victoria Krakovna(参考訳) エージェントのようなシステム、特に言語モデルに基づくAIアシスタントへの予測モデルの適用に焦点が当てられている。 これらのモデルがエージェントになるときに失敗する2つの構造的理由を概説する。 まず,自己提案的妄想について論じる。 先行研究は、モデルが隠れた観察に依存するエージェントがトレーニングデータを生成するエージェントを模倣しないことを理論的に証明した:隠れた観察は変数の結合として作用し、モデルが生成したアクションは存在していない観察の証拠として扱う。 第2に、関連する新しい制限、予測と政治の不整合を正式に導入し、研究する。 モデルが一連のアクションを生成するとき、モデルがこれらのアクションを生成するポリシーの暗黙の予測は、相反する変数として機能する。 その結果、モデルが将来のアクションが最適でないと期待するようなアクションを選択し、それらは過度に保守的になる。 これら2つの障害は、環境からのフィードバックループ、すなわち、自身のアクションでモデルを再トレーニングすることで、それぞれが修正されていることを示す。 決定変換器を用いて,両制約の簡単な実演を行い,実験結果が我々の概念的および形式的分析と一致することを確認した。 我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を質問する。

There is increasing focus on adapting predictive models into agent-like systems, most notably AI assistants based on language models. We outline two structural reasons for why these models can fail when turned into agents. First, we discuss auto-suggestive delusions. Prior work has shown theoretically that models fail to imitate agents that generated the training data if the agents relied on hidden observations: the hidden observations act as confounding variables, and the models treat actions they generate as evidence for nonexistent observations. Second, we introduce and formally study a related, novel limitation: predictor-policy incoherence. When a model generates a sequence of actions, the model's implicit prediction of the policy that generated those actions can serve as a confounding variable. The result is that models choose actions as if they expect future actions to be suboptimal, causing them to be overly conservative. We show that both of those failures are fixed by including a feedback loop from the environment, that is, re-training the models on their own actions. We give simple demonstrations of both limitations using Decision Transformers and confirm that empirical results agree with our conceptual and formal analysis. Our treatment provides a unifying view of those failure modes, and informs the question of why fine-tuning offline learned policies with online learning makes them more effective.
翻訳日:2024-02-09 13:48:35 公開日:2024-02-08
# 時間対応強化学習アルゴリズムの発見

Discovering Temporally-Aware Reinforcement Learning Algorithms ( http://arxiv.org/abs/2402.05828v1 )

ライセンス: Link先を確認
Matthew Thomas Jackson, Chris Lu, Louis Kirsch, Robert Tjarko Lange, Shimon Whiteson, Jakob Nicolaus Foerster(参考訳) 近年のメタラーニングの進歩により、目的関数を代用した新しい強化学習アルゴリズムの自動発見が可能となった。 手動で設計したアルゴリズムを改善するために、この学習対象関数のパラメータ化は、メタトレーニング分布以外の幅広い設定に一般化しつつも、学習の新たな原則(単に確立済みのものを回復するだけでなく)を表現するのに十分な表現力を持つ必要がある。 しかし、既存の手法では、強化学習における多くの広く使われている目的関数と同様に、訓練に許されるステップの総数や「訓練地平線」を考慮していない目的関数の発見に重点を置いている。 対照的に、人間は新たな能力を獲得する過程で、さまざまな学習目標を多用している。 例えば、学生は試験期限の近さや自己評価能力に基づいて学習技術を変更することができる。 本稿では,最適化の時間軸を無視することで,探索学習アルゴリズムの表現能力が著しく制限されることを示す。 提案手法は,エージェントの訓練手順を通じて,目的関数を動的に更新し,表現的なスケジュールと,異なる訓練地平線をまたいだ一般化を実現するための,既存の2つの目的探索手法に対する簡易な拡張を提案する。 この過程では、進化戦略が高度にダイナミックな学習規則を発見する一方で、一般的に使用されるメタ勾配アプローチはこのような適応的客観的関数を発見できないことが分かる。 エージェントの生涯を通して,学習ルールの構造を変更することで,探索と利用のバランスを効果的に保ちながら,学習したアルゴリズムを解析し,幅広いタスクに対するアプローチの有効性を実証する。

Recent advancements in meta-learning have enabled the automatic discovery of novel reinforcement learning algorithms parameterized by surrogate objective functions. To improve upon manually designed algorithms, the parameterization of this learned objective function must be expressive enough to represent novel principles of learning (instead of merely recovering already established ones) while still generalizing to a wide range of settings outside of its meta-training distribution. However, existing methods focus on discovering objective functions that, like many widely used objective functions in reinforcement learning, do not take into account the total number of steps allowed for training, or "training horizon". In contrast, humans use a plethora of different learning objectives across the course of acquiring a new ability. For instance, students may alter their studying techniques based on the proximity to exam deadlines and their self-assessed capabilities. This paper contends that ignoring the optimization time horizon significantly restricts the expressive potential of discovered learning algorithms. We propose a simple augmentation to two existing objective discovery approaches that allows the discovered algorithm to dynamically update its objective function throughout the agent's training procedure, resulting in expressive schedules and increased generalization across different training horizons. In the process, we find that commonly used meta-gradient approaches fail to discover such adaptive objective functions while evolution strategies discover highly dynamic learning rules. We demonstrate the effectiveness of our approach on a wide range of tasks and analyze the resulting learned algorithms, which we find effectively balance exploration and exploitation by modifying the structure of their learning rules throughout the agent's lifetime.
翻訳日:2024-02-09 13:48:13 公開日:2024-02-08
# 大規模言語モデルをロバストに編集することは可能か?

Is it Possible to Edit Large Language Models Robustly? ( http://arxiv.org/abs/2402.05827v1 )

ライセンス: Link先を確認
Xinbei Ma, Tianjie Ju, Jiyang Qiu, Zhuosheng Zhang, Hai Zhao, Lifeng Liu, Yulong Wang(参考訳) 大規模言語モデル(LLM)は、人間の振る舞いを模倣するコミュニケーションAIを構築する上で重要な役割を担っているが、効率的なカスタマイズの課題に直面している。 この課題に取り組むために、近年の研究は、言語モデルの特定の記憶を操作し、関連する言語生成を変更するモデル編集の領域に目を向けている。 しかし、モデル編集の堅牢性は未解決の問題である。 この研究は、編集方法の強みと限界を理解し、コミュニケーションAIの堅牢で現実的な応用を促進する。 具体的には,3つの重要な研究課題に対する広範な分析を行う。 Q1: 編集済みLLMは現実的な状況においてコミュニケーション型AIと一貫して類似しているか? Q2: プロンプトの言い直しは、LLMを編集された知識記憶から逸脱させるのか? Q3:どの知識特徴が編集性能と堅牢性に相関しているか? 実験結果から,既存の編集手法とLLMの実用性との相違が明らかとなった。 複雑でフレキシブルだが現実的なアプリケーションでは一般的なリフレッシュプロンプトでは、編集性能が著しく低下する。 さらなる分析は、より一般的な知識が記憶されやすく、思い出しやすく、効果的に編集することがより困難であることを示している。

Large language models (LLMs) have played a pivotal role in building communicative AI to imitate human behaviors but face the challenge of efficient customization. To tackle this challenge, recent studies have delved into the realm of model editing, which manipulates specific memories of language models and changes the related language generation. However, the robustness of model editing remains an open question. This work seeks to understand the strengths and limitations of editing methods, thus facilitating robust, realistic applications of communicative AI. Concretely, we conduct extensive analysis to address the three key research questions. Q1: Can edited LLMs behave consistently resembling communicative AI in realistic situations? Q2: To what extent does the rephrasing of prompts lead LLMs to deviate from the edited knowledge memory? Q3: Which knowledge features are correlated with the performance and robustness of editing? Our experimental results uncover a substantial disparity between existing editing methods and the practical application of LLMs. On rephrased prompts that are complex and flexible but common in realistic applications, the performance of editing experiences a significant decline. Further analysis shows that more popular knowledge is memorized better, easier to recall, and more challenging to edit effectively.
翻訳日:2024-02-09 13:47:46 公開日:2024-02-08
# FACT-GPT:LCMとのクレームマッチングによるFact-Checking Augmentation

FACT-GPT: Fact-Checking Augmentation via Claim Matching with LLMs ( http://arxiv.org/abs/2402.05904v1 )

ライセンス: Link先を確認
Eun Cheol Choi, Emilio Ferrara(参考訳) 私たちの社会は、公衆の健康と信頼を害する激しい誤報に直面しています。 本稿では,FACT-GPT(Large Language Models (LLM) を利用したファクトチェックのクレームマッチングの自動化システム)を紹介する。 FACT-GPT(英: FACT-GPT)は、合成データセットに基づいてトレーニングされ、ソーシャルメディアの内容を特定する。 評価の結果,我々の特殊llmは,人間の判断を忠実に反映し,関連するクレームの同定において,より大きなモデルの精度に適合することがわかった。 この研究は、効率的なクレームマッチングのための自動化ソリューションを提供し、ファクトチェッカをサポートするためのllmの可能性を示し、この分野におけるさらなる研究のための貴重なリソースを提供する。

Our society is facing rampant misinformation harming public health and trust. To address the societal challenge, we introduce FACT-GPT, a system leveraging Large Language Models (LLMs) to automate the claim matching stage of fact-checking. FACT-GPT, trained on a synthetic dataset, identifies social media content that aligns with, contradicts, or is irrelevant to previously debunked claims. Our evaluation shows that our specialized LLMs can match the accuracy of larger models in identifying related claims, closely mirroring human judgment. This research provides an automated solution for efficient claim matching, demonstrates the potential of LLMs in supporting fact-checkers, and offers valuable resources for further research in the field.
翻訳日:2024-02-09 13:41:33 公開日:2024-02-08
# ClickSAM: 超音波画像分割のためのクリックプロンプトを用いた微調整セグメンテーションモデル

ClickSAM: Fine-tuning Segment Anything Model using click prompts for ultrasound image segmentation ( http://arxiv.org/abs/2402.05902v1 )

ライセンス: Link先を確認
Aimee Guo, Gace Fei, Hemanth Pasupuletic, and Jing Wang(参考訳) 新たにリリースされたsegment anything model(sam)は、セグメンテーション精度、入力プロンプトの多様性、トレーニング能力、効率的なモデル設計のため、画像処理で使用される一般的なツールである。 しかし、現在のモデルは医療画像、特に超音波画像に適合しない多様なデータセットで訓練されている。 超音波画像にはノイズが多く、重要な構造を分割することは困難である。 このプロジェクトでは,超音波画像のクリックプロンプトを用いて,セグメンテーションモデル(Segment Anything Model)を微調整するClickSAMを開発した。 ClickSAMには2つのトレーニングステージがある。第1ステージは、接地輪郭を中心としたワンクリックプロンプトでトレーニングされ、第2ステージは、追加のプラスクリックプロンプトと負クリックプロンプトによるモデルパフォーマンスの改善に焦点を当てている。 第1段階の予測を地対面と比較することにより、真正、偽正、偽負のセグメントを算出する。 正の正負のセグメントと偽の負のセグメントで正のクリックを生成し、偽の正のセグメントで負のクリックを生成する。 次に,Centroidal Voronoi Tessellationアルゴリズムを用いて,第2段階のトレーニングにおいてモデル性能を向上させるために使用するセグメント毎に,正および負のクリックプロンプトを収集する。 クリックトレイン法では、ClickSAMは他の超音波画像分割モデルと比較して優れた性能を示す。

The newly released Segment Anything Model (SAM) is a popular tool used in image processing due to its superior segmentation accuracy, variety of input prompts, training capabilities, and efficient model design. However, its current model is trained on a diverse dataset not tailored to medical images, particularly ultrasound images. Ultrasound images tend to have a lot of noise, making it difficult to segment out important structures. In this project, we developed ClickSAM, which fine-tunes the Segment Anything Model using click prompts for ultrasound images. ClickSAM has two stages of training: the first stage is trained on single-click prompts centered in the ground-truth contours, and the second stage focuses on improving the model performance through additional positive and negative click prompts. By comparing the first stage predictions to the ground-truth masks, true positive, false positive, and false negative segments are calculated. Positive clicks are generated using the true positive and false negative segments, and negative clicks are generated using the false positive segments. The Centroidal Voronoi Tessellation algorithm is then employed to collect positive and negative click prompts in each segment that are used to enhance the model performance during the second stage of training. With click-train methods, ClickSAM exhibits superior performance compared to other existing models for ultrasound image segmentation.
翻訳日:2024-02-09 13:41:18 公開日:2024-02-08
# 知識蒸留におけるグラフニューラルネットワークと大規模言語モデル

Large Language Model Meets Graph Neural Network in Knowledge Distillation ( http://arxiv.org/abs/2402.05894v1 )

ライセンス: Link先を確認
Shengxiang Hu, Guobing Zou, Song Yang, Bofeng Zhang, Yixin Chen(参考訳) テキスト属性グラフ(tag)の理解における大規模言語モデル(llm)の進歩と可能性に関する最近のコミュニティの暴露にもかかわらず、プロダクション向けのllmの配置は、高い計算能力とストレージ要件と推論中の長いレイテンシによって妨げられている。 同時に、従来のグラフニューラルネットワーク(GNN)は軽量であり、グラフの構造的特徴の学習に適しているが、TAGにおける複雑なセマンティクスを理解する能力は、実際のアプリケーションには多少制約がある。 これらの制約に対処するため、我々はTAGにおけるノード分類の下流タスクに集中し、LinguGKD(LinguGKD)と呼ばれる新しいグラフ知識蒸留フレームワークを提案し、LLMを教師モデル、GNNを生徒モデルとして知識蒸留を行う。 設計したノード分類プロンプト上でのLLMのTAG指向の命令チューニングと、教師のLLMと学生のGNNの階層的に学習されたノード特徴を遅延空間で整列させ、層適応型コントラスト学習戦略を採用する。 様々なLLMモデルとGNNモデルおよび複数のベンチマークデータセットに関する広範な実験を通じて、LinguGKDは、追加のデータやモデルパラメータを必要とせずに、学生GNNの予測精度と収束率を大幅に向上させる。 教師のLLMと比較して、蒸留したGNNは、いくつかのベンチマークデータセットにおける教師のLLMの分類性能を上回る場合、はるかに少ない計算とストレージ要求を備えた推論速度を達成する。

Despite recent community revelations about the advancements and potential of Large Language Models (LLMs) in understanding Text-Attributed Graphs (TAG), the deployment of LLMs for production is hindered by their high computational and storage requirements, as well as long latencies during inference. Simultaneously, although traditional Graph Neural Networks (GNNs) are light weight and adept at learning structural features of graphs, their ability to grasp the complex semantics in TAGs is somewhat constrained for real applications. To address these limitations, we concentrate on the downstream task of node classification in TAG and propose a novel graph knowledge distillation framework, termed Linguistic Graph Knowledge Distillation (LinguGKD), using LLMs as teacher models and GNNs as student models for knowledge distillation. It involves TAG-oriented instruction tuning of LLM on designed node classification prompts, followed by aligning the hierarchically learned node features of the teacher LLM and the student GNN in latent space, employing a layer-adaptive contrastive learning strategy. Through extensive experiments on a variety of LLM and GNN models and multiple benchmark datasets, the proposed LinguGKD significantly boosts the student GNN's predictive accuracy and convergence rate, without the need of extra data or model parameters. Compared to teacher LLM, distilled GNN achieves superior inference speed equipped with much fewer computing and storage demands, when surpassing the teacher LLM's classification performance on some of benchmark datasets.
翻訳日:2024-02-09 13:40:50 公開日:2024-02-08
# Mamba-ND:多次元データのための選択状態空間モデリング

Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data ( http://arxiv.org/abs/2402.05892v1 )

ライセンス: Link先を確認
Shufan Li, Harkanwar Singh, Aditya Grover(参考訳) 近年、トランスフォーマーはテキストのシーケンスモデリングや画像やビデオといった様々な多次元データのためのデファクトアーキテクチャとなっている。 しかし、Transformerにおける自己アテンション層の使用は、シーケンス長の4次スケールの計算とメモリの複雑さを禁止している。 状態空間モデルに基づく最近のアーキテクチャであるmambaは、シーケンス長と線形にスケーリングしながら、テキストシーケンスのモデリングで同等の性能を達成することが示されている。 本研究では,mambaアーキテクチャを任意の多次元データに拡張する汎用設計であるmamba-ndを提案する。 我々の設計では、行長順序に従って異なる次元の入力データを解き放ちます。 我々は,2方向LSTMやS4NDといった先行的多次元拡張に基づいて,Mamba-NDを他の代替品と体系的に比較する。 実験により,Mamba-NDは,ImageNet-1K分類,HMDB-51行動認識,ERA5天気予報など,多次元のベンチマークにおいて,最先端技術との競合性を実証した。

In recent years, Transformers have become the de-facto architecture for sequence modeling on text and a variety of multi-dimensional data, such as images and video. However, the use of self-attention layers in a Transformer incurs prohibitive compute and memory complexity that scales quadratically w.r.t. the sequence length. A recent architecture, Mamba, based on state space models has been shown to achieve comparable performance for modeling text sequences, while scaling linearly with the sequence length. In this work, we present Mamba-ND, a generalized design extending the Mamba architecture to arbitrary multi-dimensional data. Our design alternatively unravels the input data across different dimensions following row-major orderings. We provide a systematic comparison of Mamba-ND with several other alternatives, based on prior multi-dimensional extensions such as Bi-directional LSTMs and S4ND. Empirically, we show that Mamba-ND demonstrates performance competitive with the state-of-the-art on a variety of multi-dimensional benchmarks, including ImageNet-1K classification, HMDB-51 action recognition, and ERA5 weather forecasting.
翻訳日:2024-02-09 13:40:20 公開日:2024-02-08
# CREMA: 効率的なモジュール適応と融合によるマルチモーダル合成ビデオ推論

CREMA: Multimodal Compositional Video Reasoning via Efficient Modular Adaptation and Fusion ( http://arxiv.org/abs/2402.05889v1 )

ライセンス: Link先を確認
Shoubin Yu, Jaehong Yoon, Mohit Bansal(参考訳) マルチモーダル合成推論アプローチの素晴らしい進歩にもかかわらず、多くのモデルパラメータを更新しながら固定モダリティ入力を処理することで、柔軟性と効率にはまだ限界がある。 本稿では,ビデオ推論に新たなモダリティを注入するための効率的かつモジュール化されたモダリティ・フュージョンフレームワークであるcrimaを提案する。 まず,既存の事前学習モデルを活用することで,人間の注意を余分に必要とせずに,映像から複数の情報的モダリティ(オプティカルフロー,3dポイントクラウド,オーディオなど)を付加する。 次に、複数のパラメータ効率のモジュールが各アクセス可能なモダリティに関連付けられたクエリ変換器を提案する。 LLMトークンの埋め込みスペースに様々なモダリティ機能を提供しており、モデルが応答生成のために異なるデータタイプを統合することができる。 さらに,マルチモーダルクエリを圧縮し,余分なモダリティを組み合わせつつ,LLMの計算効率を維持できる融合モジュールを提案する。 BLIP-2, 3D-LLM, SeViLA などの強力なマルチモーダル LLM に対して, トレーニング可能なパラメータを 96% 削減した上で, より優れた, 等価な性能を実現する。 本稿では,各モダリティが推論領域に与える影響,融合モジュールの設計,サンプル可視化など,CREMAの広範な分析を行う。

Despite impressive advancements in multimodal compositional reasoning approaches, they are still limited in their flexibility and efficiency by processing fixed modality inputs while updating a lot of model parameters. This paper tackles these critical challenges and proposes CREMA, an efficient and modular modality-fusion framework for injecting any new modality into video reasoning. We first augment multiple informative modalities (such as optical flow, 3D point cloud, audio) from given videos without extra human annotation by leveraging existing pre-trained models. Next, we introduce a query transformer with multiple parameter-efficient modules associated with each accessible modality. It projects diverse modality features to the LLM token embedding space, allowing the model to integrate different data types for response generation. Furthermore, we propose a fusion module designed to compress multimodal queries, maintaining computational efficiency in the LLM while combining additional modalities. We validate our method on video-3D, video-audio, and video-language reasoning tasks and achieve better/equivalent performance against strong multimodal LLMs, including BLIP-2, 3D-LLM, and SeViLA while using 96% fewer trainable parameters. We provide extensive analyses of CREMA, including the impact of each modality on reasoning domains, the design of the fusion module, and example visualizations.
翻訳日:2024-02-09 13:40:01 公開日:2024-02-08
# 分散2モードスクイーズによる振動子とクイディットの保護

Safeguarding Oscillators and Qudits with Distributed Two-Mode Squeezing ( http://arxiv.org/abs/2402.05888v1 )

ライセンス: Link先を確認
Anthony J. Brady, Jing Wu and Quntao Zhuang(参考訳) マルチモード Gottesman-Kitaev-Preskill (GKP) 符号の最近の進歩は、離散およびアナログ量子情報の保護を強化することに大きな期待を示している。 この広い範囲の保護は、多くの量子メソロジープロトコルで不可欠なリソースであるスクイージングを保護することによって、量子センシングの恩恵を受ける、量子コンピューティングを超える機会をもたらす。 しかし、量子センシングが量子誤差の補正にどう役立つかは明らかにされていない。 本研究では,マルチモードGKPコードを改善するために量子センシングの技法を応用できるユニークな例を示す。 分散量子センシングに着想を得て,最小限の能動符号化操作で誤り訂正を行う分散2モードスクイーズ(dtms)GKP符号を提案する。 実際、提案符号は、連続変数分散量子センシングと同様に、連続変数の相関を多くのGKPアンシラに効果的に分散する単一の(アクティブな)2モードのスクイーズ素子とビームスプリッターの配列に依存している。 この単純な構成にもかかわらず、dtms-GKP量子ビット符号で達成可能な符号距離は、ブルートフォース数値探索(PRX Quantum 4, 040334 (2023))による以前の結果に匹敵する。 さらに、これらの符号は、最もよく知られている2モード符号(Phys. 125, 080503 (2020))のそれを超えるアナログノイズ抑圧を可能にする。 また,提案符号の2段階デコーダも提供し,2モードの場合,ほぼ最適に見え,解析的評価が可能である。

Recent advancements in multimode Gottesman-Kitaev-Preskill (GKP) codes have shown great promise in enhancing the protection of both discrete and analog quantum information. This broadened range of protection brings opportunities beyond quantum computing to benefit quantum sensing by safeguarding squeezing -- the essential resource in many quantum metrology protocols. However, it is less explored how quantum sensing can benefit quantum error correction. In this work, we provide a unique example where techniques from quantum sensing can be applied to improve multimode GKP codes. Inspired by distributed quantum sensing, we propose the distributed two-mode squeezing (dtms) GKP codes that offer benefits in error correction with minimal active encoding operations. In fact, the proposed codes rely on a single (active) two-mode squeezing element and an array of beamsplitters that effectively distributes continuous-variable correlations to many GKP ancillae, similar to continuous-variable distributed quantum sensing. Despite this simple construction, the code distance achievable with dtms-GKP qubit codes is comparable to previous results obtained through brute-force numerical search [PRX Quantum 4, 040334 (2023)]. Moreover, these codes enable analog noise suppression beyond that of the best-known two-mode codes [Phys. Rev. Lett. 125, 080503 (2020)] without requiring an additional squeezer. We also provide a simple two-stage decoder for the proposed codes, which appears near-optimal for the case of two modes and permits analytical evaluation.
翻訳日:2024-02-09 13:39:35 公開日:2024-02-08
# EUGENE: グラフ編集距離の説明不能な近似

EUGENE: Explainable Unsupervised Approximation of Graph Edit Distance ( http://arxiv.org/abs/2402.05885v1 )

ライセンス: Link先を確認
Aditya Bommakanti, Harshith Reddy Vonteri, Sayan Ranu, Panagiotis Karras(参考訳) クエリから小さな構造的距離を持つグラフを識別する必要性は、生物学、化学、推薦システム、およびソーシャルネットワーク分析において生じる。 グラフ間距離を測定するいくつかの方法の中で、グラフ編集距離(GED)はその理解性に好まれるが、計算のNP硬度によって妨げられる。 最先端のGED近似では、主にニューラルな手法が採用されている。 i) 近似されたGEDに対応する説明的編集パスがないこと。 (二)トレーニングには、NP硬化型GEDの育成が必要である。 (iii)データセットごとに個別のトレーニングが必要となる。 本稿では,gedを近似し,近似したコストに対応する編集パスを生成する効率的な代数的非スーパーved手法であるeugeneを提案する。 大規模な実験的評価は、前述のEUGENEの利点が効果の犠牲にならないことを示している。 具体的には、EUGENEは、すべてのベンチマークデータセットの中で最も正確な方法の1つであり、ほとんどのニューラルネットワークアプローチより優れている。

The need to identify graphs having small structural distance from a query arises in biology, chemistry, recommender systems, and social network analysis. Among several methods to measure inter graph distance, Graph Edit Distance (GED) is preferred for its comprehensibility, yet hindered by the NP-hardness of its computation. State-of-the-art GED approximations predominantly employ neural methods, which, however, (i) lack an explanatory edit path corresponding to the approximated GED; (ii) require the NP-hard generation of ground-truth GEDs for training; and (iii) necessitate separate training on each dataset. In this paper, we propose an efficient algebraic unsuper vised method, EUGENE, that approximates GED and yields edit paths corresponding to the approx imated cost, while eliminating the need for ground truth generation and data-specific training. Extensive experimental evaluation demonstrates that the aforementioned benefits of EUGENE do not come at the cost of efficacy. Specifically, EUGENE consistently ranks among the most accurate methods across all of the benchmark datasets and outperforms majority of the neural approaches.
翻訳日:2024-02-09 13:39:01 公開日:2024-02-08
# GET-Tok:2022年のペルーでの対決を文書化したGenAI強化マルチモーダルTikTokデータセット

GET-Tok: A GenAI-Enriched Multimodal TikTok Dataset Documenting the 2022 Attempted Coup in Peru ( http://arxiv.org/abs/2402.05882v1 )

ライセンス: Link先を確認
Gabriela Pinto, Keith Burghardt, Kristina Lerman, Emilio Ferrara(参考訳) TikTokは世界最大の急成長中のソーシャルメディアサイトの一つだ。 しかし、音声書き起こしのようなtiktokの機能はしばしば欠落しており、ocrやビデオ記述といった他の重要な機能は存在していない。 我々は、TikTok Research APIを生成AIモデルで拡張することにより、TikTokビデオの収集とデータ強化のためのパイプラインであるGenerative AI Enriched TikTok(GET-Tok)データを紹介する。 ケーススタディとして、前大統領ペドロ・カスティーリョ(pedro castillo)がペルーで起こしたクーデターと、それに伴う抗議活動に関するビデオを集めた。 データには2022年11月20日から2023年3月1日までの43,697本のビデオが含まれている。 Generative AIは、収集したデータを、TikTokビデオの書き起こし、ビデオに表示されているものに関するテキスト記述、ビデオ内で表示されているテキスト、ビデオに表示されるスタンスを通じて強化する。 全体として、このパイプラインは、生成aiのアプリケーションとマルチモーダル環境でのオンライン議論の理解を深め、特に非英語のソーシャルメディアにおけるこのパイプラインの有用性を概説するのに役立つだろう。 パイプラインを生成するのに使われたコードは、公開のGithubリポジトリにある: https://github.com/gabbypinto/GET-Tok-Peru。

TikTok is one of the largest and fastest-growing social media sites in the world. TikTok features, however, such as voice transcripts, are often missing and other important features, such as OCR or video descriptions, do not exist. We introduce the Generative AI Enriched TikTok (GET-Tok) data, a pipeline for collecting TikTok videos and enriched data by augmenting the TikTok Research API with generative AI models. As a case study, we collect videos about the attempted coup in Peru initiated by its former President, Pedro Castillo, and its accompanying protests. The data includes information on 43,697 videos published from November 20, 2022 to March 1, 2023 (102 days). Generative AI augments the collected data via transcripts of TikTok videos, text descriptions of what is shown in the videos, what text is displayed within the video, and the stances expressed in the video. Overall, this pipeline will contribute to a better understanding of online discussion in a multimodal setting with applications of Generative AI, especially outlining the utility of this pipeline in non-English-language social media. Our code used to produce the pipeline is in a public Github repository: https://github.com/gabbypinto/GET-Tok-Peru.
翻訳日:2024-02-09 13:38:44 公開日:2024-02-08
# 生成型Echoチャンバー? llmを用いた検索システムが多様な情報検索に与える影響

Generative Echo Chamber? Effects of LLM-Powered Search Systems on Diverse Information Seeking ( http://arxiv.org/abs/2402.05880v1 )

ライセンス: Link先を確認
Nikhil Sharma, Q. Vera Liao, Ziang Xiao(参考訳) 大規模言語モデル(llms)による対話型検索システムは、すでに数億人の人々が使用しており、従来の検索に多くの利点をもたらすと考えられている。 しかし、何十年にもわたっての研究と公衆の議論は、選択的な露出の増加とエコーチャンバーの作成において、検索システムのリスクを疑問視し、様々な意見への露出を制限し、意見の偏化につながる一方で、LLMによる会話検索のリスクについてはほとんど知られていない。 調査する実験は2つある。 1)従来の検索と比較してLLMによる会話検索が選択的露出を増加させるか否か 2) LLM の意見バイアスは, ユーザの見解を補強するか, 異議を唱えるかによって影響が変化する。 全体として、参加者はllmによる会話検索でより偏りのある情報クエリに取り組み、見解を補強する意見のllmがこのバイアスを悪化させたことが分かりました。 これらの結果は,llmおよび対話型検索システムの開発,およびこれらの技術を管理する政策に重要な意味を持つ。

Large language models (LLMs) powered conversational search systems have already been used by hundreds of millions of people, and are believed to bring many benefits over conventional search. However, while decades of research and public discourse interrogated the risk of search systems in increasing selective exposure and creating echo chambers -- limiting exposure to diverse opinions and leading to opinion polarization, little is known about such a risk of LLM-powered conversational search. We conduct two experiments to investigate: 1) whether and how LLM-powered conversational search increases selective exposure compared to conventional search; 2) whether and how LLMs with opinion biases that either reinforce or challenge the user's view change the effect. Overall, we found that participants engaged in more biased information querying with LLM-powered conversational search, and an opinionated LLM reinforcing their views exacerbated this bias. These results present critical implications for the development of LLMs and conversational search systems, and the policy governing these technologies.
翻訳日:2024-02-09 13:38:20 公開日:2024-02-08
# ベイジアン固定型ベストアーム同定のための事前依存配置法

Prior-Dependent Allocations for Bayesian Fixed-Budget Best-Arm Identification in Structured Bandits ( http://arxiv.org/abs/2402.05878v1 )

ライセンス: Link先を確認
Nicolas Nguyen, Imad Aouali, Andr\'as Gy\"orgy, Claire Vernade(参考訳) 本研究では, ベイジアン固定予算ベストアーム識別(BAI)の問題について検討する。 本稿では,事前情報と環境構造に基づく固定配置を用いたアルゴリズムを提案する。 我々は、線形および階層的 bai に対する最初の事前依存上界を含む、様々なモデルにおけるその性能に関する理論的境界を提供する。 我々の重要な貢献は、既存の方法に比べて、より厳密なBAI境界をもたらす新しい証明方法の導入である。 我々は,我々のアプローチを他の固定予算BAI手法と比較し,その一貫性と堅牢性を示す。 本研究は,ベイジアン固定予算BAIの構造化帯域における理解を改善し,実践シナリオにおけるアプローチの有効性を強調した。

We study the problem of Bayesian fixed-budget best-arm identification (BAI) in structured bandits. We propose an algorithm that uses fixed allocations based on the prior information and the structure of the environment. We provide theoretical bounds on its performance across diverse models, including the first prior-dependent upper bounds for linear and hierarchical BAI. Our key contribution is introducing new proof methods that result in tighter bounds for multi-armed BAI compared to existing methods. We extensively compare our approach to other fixed-budget BAI methods, demonstrating its consistent and robust performance in various settings. Our work improves our understanding of Bayesian fixed-budget BAI in structured bandits and highlights the effectiveness of our approach in practical scenarios.
翻訳日:2024-02-09 13:38:02 公開日:2024-02-08
# Federated Offline Reinforcement Learning:Collaborative Single-Policy Coverage Suffices

Federated Offline Reinforcement Learning: Collaborative Single-Policy Coverage Suffices ( http://arxiv.org/abs/2402.05876v1 )

ライセンス: Link先を確認
Jiin Woo, Laixi Shi, Gauri Joshi, Yuejie Chi(参考訳) オフラインデータを用いた最適なポリシの学習を目指すオフライン強化学習(RL)は,オンラインデータ収集が不可能あるいは高価である重要なアプリケーションにおいて,大きな関心を集めている。 この研究は、複数のエージェントでオフラインデータセットを協調的に活用することを目的とした、オフラインrlのための連合学習の利点を探求する。 有限水平表層型マルコフ決定過程(MDPs)に着目し,フェデレーション付きオフラインRLに適したモデルフリーQ-ラーニングアルゴリズムであるFedLCB-Qを設計する。 FedLCB-Qは、新しい学習率スケジュールを持つエージェントのローカルQ関数を更新し、重要平均化と慎重に設計された悲観的なペナルティ項を用いて中央サーバに集約する。 サンプル複雑性分析により,federcb-qは,選択されたパラメータと同期スケジュールを用いて,個々のエージェントに対して高品質なデータセットを必要とせずに,エージェント数の観点から線形速度アップを実現する。 実際、サンプルの複雑さは、すべてのデータが中央の場所に格納されているかのように、水平線の長さの多項式係数まで、シングルエージェントのそれとほぼ一致する。 さらに、FedLCB-Qは通信効率が高く、通信ラウンドの数は対数的要因までの水平線長に対してのみ線形である。

Offline reinforcement learning (RL), which seeks to learn an optimal policy using offline data, has garnered significant interest due to its potential in critical applications where online data collection is infeasible or expensive. This work explores the benefit of federated learning for offline RL, aiming at collaboratively leveraging offline datasets at multiple agents. Focusing on finite-horizon episodic tabular Markov decision processes (MDPs), we design FedLCB-Q, a variant of the popular model-free Q-learning algorithm tailored for federated offline RL. FedLCB-Q updates local Q-functions at agents with novel learning rate schedules and aggregates them at a central server using importance averaging and a carefully designed pessimistic penalty term. Our sample complexity analysis reveals that, with appropriately chosen parameters and synchronization schedules, FedLCB-Q achieves linear speedup in terms of the number of agents without requiring high-quality datasets at individual agents, as long as the local datasets collectively cover the state-action space visited by the optimal policy, highlighting the power of collaboration in the federated setting. In fact, the sample complexity almost matches that of the single-agent counterpart, as if all the data are stored at a central location, up to polynomial factors of the horizon length. Furthermore, FedLCB-Q is communication-efficient, where the number of communication rounds is only linear with respect to the horizon length up to logarithmic factors.
翻訳日:2024-02-09 13:37:50 公開日:2024-02-08
# クリフォード回路によるグラフ状態形成の複雑さ

Complexity of graph-state preparation by Clifford circuits ( http://arxiv.org/abs/2402.05874v1 )

ライセンス: Link先を確認
Soh Kumabe, Ryuhei Mori, Yusei Yoshimura(参考訳) 本研究では,グラフ状態準備の複雑さについて検討する。 グラフ状態の準備のために少なくとも2つの量子ビット上のクリフォード演算からなる一般量子アルゴリズムを考える。 グラフ状態 $|G\rangle$ の CZ-複素性を、自明な状態 $|0\rangle^{\otimes n}$ から $|G\rangle$ を生成する2量子クリフォード演算の最小数として定義する。 グラフ状態 $|g\rangle$ が最大$t$ two-qubit clifford演算によって生成されることを最初に証明するのは、$|g\rangle$ が少なくとも$t$ controlled-z (cz)演算によって生成されるときである。 次に、グラフ状態 $|g\rangle$ が別のグラフ状態 $|h\rangle$ by $t$ cz 演算から生成されることを証明します。 主な結果として、グラフ状態のCZ-複素度$|G\rangle$とグラフのランク幅$G$との接続を示す。 実際、任意のグラフ $G$ に対して $n$ vertices と rank-width $r$, 1 に対して $|G\rangle$ の CZ-複素性は $O(rn\log n)$ であることを示す。 2.$G$ が連結であれば、$|G\rangle$ の CZ-複素性は少なくとも $n + r2$ である。 また、CZ-複雑度が上界と下界に近いグラフ状態の存在を示す。 最後に、$g$ がグラフの特別なクラス、すなわちコグラフ、区間グラフ、置換グラフ、円グラフに含まれる場合、$|g\rangle$ を$o(n)$ cz-複素性で作成する量子アルゴリズムを示す。

In this work, we study a complexity of graph-state preparation. We consider general quantum algorithms consisting of the Clifford operations on at most two qubits for graph-state preparations. We define the CZ-complexity of graph state $|G\rangle$ as the minimum number of two-qubit Clifford operations (excluding single-qubit Clifford operations) for generating $|G\rangle$ from a trivial state $|0\rangle^{\otimes n}$. We first prove that a graph state $|G\rangle$ is generated by at most $t$ two-qubit Clifford operations if and only if $|G\rangle$ is generated by at most $t$ controlled-Z (CZ) operations. We next prove that a graph state $|G\rangle$ is generated from another graph state $|H\rangle$ by $t$ CZ operations if and only if the graph $G$ is generated from $H$ by some combinatorial graph transformation with cost $t$. As the main results, we show a connection between the CZ-complexity of graph state $|G\rangle$ and the rank-width of the graph $G$. Indeed, we prove that for any graph $G$ with $n$ vertices and rank-width $r$, 1. The CZ-complexity of $|G\rangle$ is $O(rn\log n)$. 2. If $G$ is connected, the CZ-complexity of $|G\rangle$ is at least $n + r - 2$. We also show the existence of graph states whose CZ-complexities are close to the upper and lower bounds. Finally, we present quantum algorithms preparing $|G\rangle$ with $O(n)$ CZ-complexity when $G$ is included in special classes of graphs, namely, cographs, interval graphs, permutation graphs and circle graphs.
翻訳日:2024-02-09 13:37:23 公開日:2024-02-08
# 協調活動がオーガニックユーザーの行動と感情を調節する:ガザ紛争に関するつぶやきを事例として

Coordinated Activity Modulates the Behavior and Emotions of Organic Users: A Case Study on Tweets about the Gaza Conflict ( http://arxiv.org/abs/2402.05873v1 )

ライセンス: Link先を確認
Priyanka Dey, Luca Luceri, Emilio Ferrara(参考訳) ソーシャルメディアは、世界的な危機の間、情報を素早く広めるための重要なコンジットとなっている。 しかし、これは悪意のある俳優による物語の操作の道を開いた。 この研究は、ガザ紛争の最中にTwitter上でコーディネートされた(悪意のある)エンティティとオーガニックな(正規な)ユーザの間の相互作用のダイナミクスを詳しく調べる。 1.3億人以上のユーザーから約350万件のツイートを分析した結果、ユーザーのコーディネートが情報のランドスケープに大きく影響を与え、ネットワークを通じてコンテンツを拡散させることに成功したことが判明した。 さらに本研究は,コミュニケーションにおける感情的分極表現への変化と並行して,協調コンテンツに対する有機的ユーザの関与の漸進的な増加を示す。 これらの結果は、ソーシャルメディアプラットフォーム上での情報操作に対する警戒と微妙な理解の必要性を強調している。

Social media has become a crucial conduit for the swift dissemination of information during global crises. However, this also paves the way for the manipulation of narratives by malicious actors. This research delves into the interaction dynamics between coordinated (malicious) entities and organic (regular) users on Twitter amidst the Gaza conflict. Through the analysis of approximately 3.5 million tweets from over 1.3 million users, our study uncovers that coordinated users significantly impact the information landscape, successfully disseminating their content across the network: a substantial fraction of their messages is adopted and shared by organic users. Furthermore, the study documents a progressive increase in organic users' engagement with coordinated content, which is paralleled by a discernible shift towards more emotionally polarized expressions in their subsequent communications. These results highlight the critical need for vigilance and a nuanced understanding of information manipulation on social media platforms.
翻訳日:2024-02-09 13:36:49 公開日:2024-02-08
# 単眼画像からの幾何推定のための適応表面正規化

Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images ( http://arxiv.org/abs/2402.05869v1 )

ライセンス: Link先を確認
Xiaoxiao Long, Yuhang Zheng, Yupeng Zheng, Beiwen Tian, Cheng Lin, Lingjie Liu, Hao Zhao, Guyue Zhou, Wenping Wang(参考訳) 幾何学的文脈を取り入れつつ,画像から深度や表面正規性などのジオメトリを学習する新しい手法を提案する。 既存の手法における幾何学的文脈を確実に捉えることの難しさは、異なる幾何学的性質間の一貫性を正しく強制する能力を妨げるため、幾何学的推定品質のボトルネックとなる。 そこで本研究では,単純かつ効率的な適応面正規化(adaptive surface normal, asn)制約を提案する。 提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。 ランダムにサンプリングされた候補から信頼できる局所幾何を動的に決定することにより、これらの候補の妥当性を幾何学的文脈を用いて評価する曲面正規制約を確立する。 さらに,我々は幾何学的文脈を活用し,重要な幾何学的変動を示す領域を優先し,予測された正規化が複雑で詳細な幾何学的情報を正確に捉えられるようにした。 幾何学的文脈の統合により,結束フレームワーク内での深度と表面の正規分布推定を統一し,画像から高品質な3次元幾何を生成する。 室内および屋外の多様なデータセットに対する広範な評価と比較を通じて、最先端手法に対するアプローチの優位性を検証し、その効率性と堅牢性を示す。

We introduce a novel approach to learn geometries such as depth and surface normal from images while incorporating geometric context. The difficulty of reliably capturing geometric context in existing methods impedes their ability to accurately enforce the consistency between the different geometric properties, thereby leading to a bottleneck of geometric estimation quality. We therefore propose the Adaptive Surface Normal (ASN) constraint, a simple yet efficient method. Our approach extracts geometric context that encodes the geometric variations present in the input image and correlates depth estimation with geometric constraints. By dynamically determining reliable local geometry from randomly sampled candidates, we establish a surface normal constraint, where the validity of these candidates is evaluated using the geometric context. Furthermore, our normal estimation leverages the geometric context to prioritize regions that exhibit significant geometric variations, which makes the predicted normals accurately capture intricate and detailed geometric information. Through the integration of geometric context, our method unifies depth and surface normal estimations within a cohesive framework, which enables the generation of high-quality 3D geometry from images. We validate the superiority of our approach over state-of-the-art methods through extensive evaluations and comparisons on diverse indoor and outdoor datasets, showcasing its efficiency and robustness.
翻訳日:2024-02-09 13:36:33 公開日:2024-02-08
# PromptCrypt: 大規模言語モデルによるセキュア通信のためのプロンプト暗号化

PromptCrypt: Prompt Encryption for Secure Communication with Large Language Models ( http://arxiv.org/abs/2402.05868v1 )

ライセンス: Link先を確認
Guo Lin, Wenyue Hua, Yongfeng Zhang(参考訳) ChatGPTのようなクラウドベースの大規模言語モデル(LLM)は、日々の運用に不可欠なものとなり、さまざまなアプリケーションにまたがる重要なツールとなっている。 While these models offer substantial benefits in terms of accessibility and functionality, they also introduce significant privacy concerns: the transmission and storage of user data in cloud infrastructures pose substantial risks of data breaches and unauthorized access to sensitive information; even if the transmission and storage of data is encrypted, the LLM service provider itself still knows the real contents of the data, preventing individuals or entities from confidently using such LLM services. これらの問題に対処するため,ユーザプライバシ保護のためのシンプルかつ効果的なPromptCryptを提案する。 ユーザ入力をLLMに送信する前に暗号化するために絵文字を使用しており、プロンプトの本来の意図を維持しながら、人間やLLMの検査では解読できないので、モデルの性能に影響を与えない。 パーソナライズドレコメンデーション,感情分析,表データ分析という3つのタスクについて実験を行った。 実験結果によると、PromptCryptは、人間やLDM自体による機密データの識別を防止できるだけでなく、さらなるチューニングをすることなく精度を維持・改善できるだけでなく、即時暗号化なしで直接LLMを誘導するよりも、同等またはそれ以上のタスク精度を達成できる。 これらの結果は,LLMの機能的整合性と性能を損なうことなく,ユーザのプライバシを保護する暗号化手法を採用する実践性を強調した。 コードとデータセットはhttps://github.com/agiresearch/promptcryptで入手できる。

Cloud-based large language models (LLMs) such as ChatGPT have increasingly become integral to daily operations, serving as vital tools across various applications. While these models offer substantial benefits in terms of accessibility and functionality, they also introduce significant privacy concerns: the transmission and storage of user data in cloud infrastructures pose substantial risks of data breaches and unauthorized access to sensitive information; even if the transmission and storage of data is encrypted, the LLM service provider itself still knows the real contents of the data, preventing individuals or entities from confidently using such LLM services. To address these concerns, this paper proposes a simple yet effective mechanism PromptCrypt to protect user privacy. It uses Emoji to encrypt the user inputs before sending them to LLM, effectively rendering them indecipherable to human or LLM's examination while retaining the original intent of the prompt, thus ensuring the model's performance remains unaffected. We conduct experiments on three tasks, personalized recommendation, sentiment analysis, and tabular data analysis. Experiment results reveal that PromptCrypt can encrypt personal information within prompts in such a manner that not only prevents the discernment of sensitive data by humans or LLM itself, but also maintains or even improves the precision without further tuning, achieving comparable or even better task accuracy than directly prompting the LLM without prompt encryption. These results highlight the practicality of adopting encryption measures that safeguard user privacy without compromising the functional integrity and performance of LLMs. Code and dataset are available at https://github.com/agiresearch/PromptCrypt.
翻訳日:2024-02-09 13:36:09 公開日:2024-02-08
# InstaGen: 合成データセットのトレーニングによるオブジェクト検出の強化

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset ( http://arxiv.org/abs/2402.05937v1 )

ライセンス: Link先を確認
Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie and Lin Ma(参考訳) 本稿では,拡散モデルから生成された合成データセットをトレーニングすることにより,カテゴリの拡大や検出性能の向上など,オブジェクト検出能力を高める新しいパラダイムを提案する。 具体的には、インスタンスレベルの接地ヘッドを事前訓練された生成拡散モデルに統合し、生成した画像に任意のインスタンスをローカライズする機能を拡張します。 接地ヘッドは、既設物体検出器からの監督と、検出器でカバーされていない(ノベル)カテゴリに関する新しい自己学習スキームを用いて、カテゴリ名のテキスト埋め込みを拡散モデルの地域視覚特徴に合わせるように訓練される。 この拡張バージョンの拡散モデルはInstaGenと呼ばれ、オブジェクト検出のためのデータシンセサイザーとして機能する。 InstaGenからの合成データセットのトレーニング中にオブジェクト検出器を拡張できることを示し、オープン語彙(+4.5 AP)およびデータスパース(+1.2から5.2 AP)シナリオにおける既存の最先端手法よりも優れた性能を示す。

In this paper, we introduce a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising arbitrary instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. This enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer for object detection. We conduct thorough experiments to show that, object detector can be enhanced while training on the synthetic dataset from InstaGen, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios.
翻訳日:2024-02-09 13:28:57 公開日:2024-02-08
# sphinx-x: マルチモーダル大規模言語モデルにおけるデータとパラメータのスケーリング

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models ( http://arxiv.org/abs/2402.05935v1 )

ライセンス: Link先を確認
Peng Gao, Renrui Zhang, Chris Liu, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao(参考訳) SPHINXをベースとしたMLLMシリーズであるSPHINX-Xを提案する。 アーキテクチャとトレーニング効率を改善するため、冗長なビジュアルエンコーダを除去し、完全にパッド化されたサブイメージをスキップトークンで通過させ、マルチステージトレーニングを1段階のオールインワンパラダイムに単純化することで、SPHINXフレームワークを修正した。 MLLMの可能性をフルに解き放つために、言語、ビジョン、ビジョン言語タスクにおいて利用可能なリソースを網羅した、包括的なマルチドメインおよびマルチモーダルデータセットを組み立てる。 我々はさらに、このコレクションをOCR集約データセットとSet-of-Markデータセットで強化し、多様性と一般化を広げます。 TinyLlama1.1B、InternLM2-7B、LLaMA2-13B、Mixtral8x7Bなどの異なるベースLLMのトレーニングにより、パラメータサイズと多言語能力の異なるMLLMのスペクトルを得る。 総合的なベンチマークでは、マルチモーダル性能とデータとパラメータスケールの間に強い相関関係が示されている。 コードとモデルはhttps://github.com/alpha-vllm/llama2-accessoryでリリース

We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory
翻訳日:2024-02-09 13:28:19 公開日:2024-02-08
# GNNなしでグラフでノードを分類する

Classifying Nodes in Graphs without GNNs ( http://arxiv.org/abs/2402.05934v1 )

ライセンス: Link先を確認
Daniel Winter, Niv Cohen, Yedid Hoshen(参考訳) グラフニューラルネットワーク(GNN)は、グラフ内のノードを分類する主要なパラダイムであるが、メッセージパッシングアーキテクチャに由来するいくつかの望ましくない属性を持っている。 近年, 蒸留法がgnnの使用を試験時に排除することに成功したが, 訓練中はそれを必要としていた。 我々は,蒸留法においてGNNが果たす役割を慎重に分析する。 この分析により,ノード分類にはgnnフリーな手法が提案されている。 本手法は, 滑らかさ制約, 擬似ラベル反復, 近傍ラベルヒストグラムの3成分からなる。 我々の最終アプローチは、GNNを訓練することなく、引用や共購入ネットワークなどの一般的なベンチマークの最先端の精度と一致させることができる。

Graph neural networks (GNNs) are the dominant paradigm for classifying nodes in a graph, but they have several undesirable attributes stemming from their message passing architecture. Recently, distillation methods succeeded in eliminating the use of GNNs at test time but they still require them during training. We perform a careful analysis of the role that GNNs play in distillation methods. This analysis leads us to propose a fully GNN-free approach for node classification, not requiring them at train or test time. Our method consists of three key components: smoothness constraints, pseudo-labeling iterations and neighborhood-label histograms. Our final approach can match the state-of-the-art accuracy on standard popular benchmarks such as citation and co-purchase networks, without training a GNN.
翻訳日:2024-02-09 13:27:54 公開日:2024-02-08
# 周波数領域における時系列拡散

Time Series Diffusion in the Frequency Domain ( http://arxiv.org/abs/2402.05933v1 )

ライセンス: Link先を確認
Jonathan Crabb\'e, Nicolas Huynh, Jan Stanczuk, Mihaela van der Schaar(参考訳) フーリエ解析は信号処理の開発における道具である。 これにより、このフレームワークが同様に生成モデリングに有用かどうか疑問が持たれる。 本稿では,時系列拡散モデルの範囲を通してこの問題を考察する。 より具体的には、周波数領域における時系列表現がスコアに基づく拡散モデルにとって有用な帰納的バイアスであるか否かを分析する。 時間領域における拡散の標準sde定式化から始めると、二重拡散過程は重要なニュアンスを持つ周波数領域で起こることが示される:ブラウン運動は、我々がミラードブラウン運動と呼ぶ運動に置き換えられ、それらの成分間のミラー対称性によって特徴づけられる。 この知見に基づいて、周波数領域に拡散モデルを実装するために、デノナイジングスコアマッチングアプローチをどのように適応するかを示す。 これにより周波数拡散モデルが得られ、標準時間拡散モデルと比較する。 医療や金融といったさまざまな領域をカバーする実世界のデータセットに関する経験的評価から,時間拡散モデルよりも頻度拡散モデルの方がトレーニング分布を捉えやすいことが示された。 これらのデータセットからの時系列は、時間領域よりも周波数領域においてより局所化される傾向があり、前者の場合のモデル化がより容易であることを示す。 全ての観測はフーリエ解析と拡散モデルの間の衝撃的な相乗効果を示している。

Fourier analysis has been an instrumental tool in the development of signal processing. This leads us to wonder whether this framework could similarly benefit generative modelling. In this paper, we explore this question through the scope of time series diffusion models. More specifically, we analyze whether representing time series in the frequency domain is a useful inductive bias for score-based diffusion models. By starting from the canonical SDE formulation of diffusion in the time domain, we show that a dual diffusion process occurs in the frequency domain with an important nuance: Brownian motions are replaced by what we call mirrored Brownian motions, characterized by mirror symmetries among their components. Building on this insight, we show how to adapt the denoising score matching approach to implement diffusion models in the frequency domain. This results in frequency diffusion models, which we compare to canonical time diffusion models. Our empirical evaluation on real-world datasets, covering various domains like healthcare and finance, shows that frequency diffusion models better capture the training distribution than time diffusion models. We explain this observation by showing that time series from these datasets tend to be more localized in the frequency domain than in the time domain, which makes them easier to model in the former case. All our observations point towards impactful synergies between Fourier analysis and diffusion models.
翻訳日:2024-02-09 13:27:41 公開日:2024-02-08
# 大規模言語モデルポリシー適応による至る所での運転

Driving Everywhere with Large Language Model Policy Adaptation ( http://arxiv.org/abs/2402.05932v1 )

ライセンス: Link先を確認
Boyi Li and Yue Wang and Jiageng Mao and Boris Ivanovic and Sushant Veer and Karen Leung and Marco Pavone(参考訳) 新しい環境、習慣、法律に運転行動を適用することは、自動運転における長年の問題であり、自動運転車(avs)の広範な展開を妨げている。 本稿では、人間ドライバーや自動運転車が、新しい場所での交通ルールにタスクや運動計画を適用することで、どこにでも運転できるシンプルな強力なツールであるLLaDAを提案する。 LLaDAは、ローカルドライバハンドブックにおけるトラフィックルールの解釈において、大きな言語モデル(LLM)の印象的なゼロショット一般化性を活用することで、これを実現する。 広範にわたるユーザスタディを通じて、LLaDAの指示は、夢中予想外の状況を曖昧にするために有用であることを示す。 また、実世界のデータセットにAV動作計画ポリシーを適用するLLaDAの能力も示しています。 詳細はwebサイトhttps://boyiliee.github.io/llada.com/を参照。

Adapting driving behavior to new environments, customs, and laws is a long-standing problem in autonomous driving, precluding the widespread deployment of autonomous vehicles (AVs). In this paper, we present LLaDA, a simple yet powerful tool that enables human drivers and autonomous vehicles alike to drive everywhere by adapting their tasks and motion plans to traffic rules in new locations. LLaDA achieves this by leveraging the impressive zero-shot generalizability of large language models (LLMs) in interpreting the traffic rules in the local driver handbook. Through an extensive user study, we show that LLaDA's instructions are useful in disambiguating in-the-wild unexpected situations. We also demonstrate LLaDA's ability to adapt AV motion planning policies in real-world datasets; LLaDA outperforms baseline planning approaches on all our metrics. Please check our website for more details: https://boyiliee.github.io/llada.
翻訳日:2024-02-09 13:27:21 公開日:2024-02-08
# WebLINX: マルチターン対話による実世界のWebサイトナビゲーション

WebLINX: Real-World Website Navigation with Multi-Turn Dialogue ( http://arxiv.org/abs/2402.05930v1 )

ライセンス: Link先を確認
Xing Han L\`u, Zden\v{e}k Kasner, Siva Reddy(参考訳) 本稿では,デジタルエージェントがwebブラウザを制御し,ユーザの指示に従って実世界のタスクをマルチターン対話方式で解く対話型webナビゲーションの問題を提案する。 WEBLINXは,対話型Webナビゲーションの2300件のエキスパートによる実演において,100Kインタラクションの大規模ベンチマークである。 私たちのベンチマークでは、150以上の現実世界のWebサイト上の幅広いパターンをカバーし、さまざまなシナリオにおけるエージェントのトレーニングと評価に使用しています。 情報量が大きいため、LLM(Large Language Models)はWebページ全体をリアルタイムで処理することはできない。 このボトルネックを解決するために,関連する要素をランク付けすることで,htmlページを効率的にプルーピングする検索モデルを設計した。 選択した要素とスクリーンショットとアクション履歴を使用して、Webをナビゲートする際の人間の振る舞いを再現するさまざまなモデルを評価します。 我々の実験は、小さなテキストのみからプロプライエタリなマルチモーダル LLM まで多岐にわたる。 より小型の微調整デコーダは、最高のゼロショットLCM(GPT-4Vを含む)を超えるが、スクリーンショット上で明示的に事前訓練された大型の細調整マルチモーダルモデルも見出した。 しかし、全ての微調整されたモデルは、見えないウェブサイトに一般化するのに苦労している。 その結果,新しい設定に一般化可能な大規模マルチモーダルモデルの必要性が明らかになった。 私たちのコード、データ、モデルは研究のために利用可能です。

We propose the problem of conversational web navigation, where a digital agent controls a web browser and follows user instructions to solve real-world tasks in a multi-turn dialogue fashion. To support this problem, we introduce WEBLINX - a large-scale benchmark of 100K interactions across 2300 expert demonstrations of conversational web navigation. Our benchmark covers a broad range of patterns on over 150 real-world websites and can be used to train and evaluate agents in diverse scenarios. Due to the magnitude of information present, Large Language Models (LLMs) cannot process entire web pages in real-time. To solve this bottleneck, we design a retrieval-inspired model that efficiently prunes HTML pages by ranking relevant elements. We use the selected elements, along with screenshots and action history, to assess a variety of models for their ability to replicate human behavior when navigating the web. Our experiments span from small text-only to proprietary multimodal LLMs. We find that smaller finetuned decoders surpass the best zero-shot LLMs (including GPT-4V), but also larger finetuned multimodal models which were explicitly pretrained on screenshots. However, all finetuned models struggle to generalize to unseen websites. Our findings highlight the need for large multimodal models that can generalize to novel settings. Our code, data and models are available for research: https://mcgill-nlp.github.io/weblinx
翻訳日:2024-02-09 13:27:04 公開日:2024-02-08
# 対話型エージェント基礎モデル

An Interactive Agent Foundation Model ( http://arxiv.org/abs/2402.05929v1 )

ライセンス: Link先を確認
Zane Durante, Bidipta Sarkar, Ran Gong, Rohan Taori, Yusuke Noda, Paul Tang, Ehsan Adeli, Shrinidhi Kowshika Lakshmikanth, Kevin Schulman, Arnold Milstein, Demetri Terzopoulos, Ade Famoti, Noboru Kuno, Ashley Llorens, Hoi Vo, Katsu Ikeuchi, Li Fei-Fei, Jianfeng Gao, Naoki Wake, Qiuyuan Huang(参考訳) 人工知能システムの開発は、静的なタスク固有のモデルの作成から、幅広いアプリケーションでうまく機能する動的エージェントベースのシステムへと移行しつつある。 多様なドメイン,データセット,タスクを対象としたAIエージェントのトレーニングに,新しいマルチタスクエージェントトレーニングパラダイムを使用するインタラクティブエージェント財団モデルを提案する。 私たちのトレーニングパラダイムは、ビジュアルマスク付きオートエンコーダ、言語モデリング、次世代予測など、さまざまな事前トレーニング戦略を統合することで、汎用的で適応可能なAIフレームワークを実現しています。 私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。 本モデルは,各領域において意味的かつ文脈的に関連する出力を生成する能力を示す。 このアプローチの強みは,ロボットシーケンス,ゲームプレイデータ,大規模ビデオデータセット,テキスト情報など,さまざまなデータソースを有効マルチモーダルおよびマルチタスク学習に活用することにある。 私たちのアプローチは、ジェネラリスト、アクションテイク、マルチモーダルシステムの開発に有望な手段を提供します。

The development of artificial intelligence systems is transitioning from creating static, task-specific models to dynamic, agent-based systems capable of performing well in a wide range of applications. We propose an Interactive Agent Foundation Model that uses a novel multi-task agent training paradigm for training AI agents across a wide range of domains, datasets, and tasks. Our training paradigm unifies diverse pre-training strategies, including visual masked auto-encoders, language modeling, and next-action prediction, enabling a versatile and adaptable AI framework. We demonstrate the performance of our framework across three separate domains -- Robotics, Gaming AI, and Healthcare. Our model demonstrates its ability to generate meaningful and contextually relevant outputs in each area. The strength of our approach lies in its generality, leveraging a variety of data sources such as robotics sequences, gameplay data, large-scale video datasets, and textual information for effective multimodal and multi-task learning. Our approach provides a promising avenue for developing generalist, action-taking, multimodal systems.
翻訳日:2024-02-09 13:26:41 公開日:2024-02-08
# 依存学習理論におけるシャープレート:正方形損失に対するサンプルサイズデフレを回避する

Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss ( http://arxiv.org/abs/2402.05928v1 )

ライセンス: Link先を確認
Ingvar Ziemann, Stephen Tu, George J. Pappas, Nikolai Matni(参考訳) 本研究では,従属データ (\beta$-mixing) と二乗損失 (square loss) を用いた統計的学習について,$\mathscr{f}\subset l_{\psi_p}$ ここで$\psi_p$はノルム$\|f\|_{\psi_p} \triangleq \sup_{m\geq 1} m^{-1/p} \|f\|_{l^m} $ for some $p\in [2,\infty]$である。 我々の調査は、依存データを用いた学習において、鋭いノイズ相互作用項(distribution proxy)の探索に動機づけられている。 任意の実現可能性の仮定を欠いて、典型的な非漸近的な結果は、下層の共変量過程の混合時間によってデフレーションされる分散プロキシを示す。 L^2$ と $\Psi_p$ の位相が我々の仮説類 $\mathscr{F}$ -- つまり、$\mathscr{F}$ は弱準ガウス類であることを示す: $\|f\|_{\Psi_p} \lesssim \|f\|_{L^2}^\eta$ for some $\eta\in (0,1]$ -- 経験的リスク最小化は、その先行項におけるクラスと二階統計の複雑さにのみ依存する率を達成する。 この結果から,問題は実現可能かどうかを判断し,混合に対する直接依存は加法的な高次項に委譲されるため,これを<emph{near mixed-free rate}>と呼ぶ。 我々は上記の弱準ガウス類の概念と混合テール一般連鎖を組み合わせることで結果に到達する。 この組み合わせにより、幅広い問題に対して、鋭いインスタンス最適化レートを計算できます。 %のアプローチは、混合テールジェネリックチェインに依存しており、鋭いインスタンス最適化率を得ることができる。 我々のフレームワークを満たす例としては、準ガウス線型回帰、より一般的なスムーズなパラメータ化関数クラス、有限仮説クラス、有界滑らか性クラスがある。

In this work, we study statistical learning with dependent ($\beta$-mixing) data and square loss in a hypothesis class $\mathscr{F}\subset L_{\Psi_p}$ where $\Psi_p$ is the norm $\|f\|_{\Psi_p} \triangleq \sup_{m\geq 1} m^{-1/p} \|f\|_{L^m} $ for some $p\in [2,\infty]$. Our inquiry is motivated by the search for a sharp noise interaction term, or variance proxy, in learning with dependent data. Absent any realizability assumption, typical non-asymptotic results exhibit variance proxies that are deflated \emph{multiplicatively} by the mixing time of the underlying covariates process. We show that whenever the topologies of $L^2$ and $\Psi_p$ are comparable on our hypothesis class $\mathscr{F}$ -- that is, $\mathscr{F}$ is a weakly sub-Gaussian class: $\|f\|_{\Psi_p} \lesssim \|f\|_{L^2}^\eta$ for some $\eta\in (0,1]$ -- the empirical risk minimizer achieves a rate that only depends on the complexity of the class and second order statistics in its leading term. Our result holds whether the problem is realizable or not and we refer to this as a \emph{near mixing-free rate}, since direct dependence on mixing is relegated to an additive higher order term. We arrive at our result by combining the above notion of a weakly sub-Gaussian class with mixed tail generic chaining. This combination allows us to compute sharp, instance-optimal rates for a wide range of problems. %Our approach, reliant on mixed tail generic chaining, allows us to obtain sharp, instance-optimal rates. Examples that satisfy our framework include sub-Gaussian linear regression, more general smoothly parameterized function classes, finite hypothesis classes, and bounded smoothness classes.
翻訳日:2024-02-09 13:26:24 公開日:2024-02-08
# 大言語モデルにおけるゼロ次フェデレート調律の収束について

On the Convergence of Zeroth-Order Federated Tuning in Large Language Models ( http://arxiv.org/abs/2402.05926v1 )

ライセンス: Link先を確認
Zhenqing Ling, Daoyuan Chen, Liuyi Yao, Yaliang Li, Ying Shen(参考訳) 連合学習(fl)と大規模言語モデル(llms)の融合は、プライバシ保護自然言語処理の新しい時代を告げている。 しかし、微調整LDMのメモリ要求は、特に計算資源が限られているエッジデバイスにデプロイする場合に、大きな課題をもたらす。 これを回避するために,フェデレーション設定におけるメモリ効率のよいゼロ次最適化の新たな統合について検討する。 本研究では, LLMの文脈におけるFedMeZOの理論的基盤について, 大きなパラメータ空間が最適化行動に与える影響, 収束特性の確立, パーソナライズされたフェデレーション戦略を伝えるための重要なパラメータの同定について, 主要な疑問に対処する。 我々は、FedMeZOが従来のSGDのような一階法よりも高速に収束するだけでなく、トレーニング中のGPUメモリ使用量を推論時に同等のレベルまで大幅に削減することを示した。 さらに,クライアントサイド学習率をカスタマイズするための理論的洞察に基づいて構築したパーソナライズされたfl戦略は,損失削減を効果的に促進する。 我々は,LLMのフェデレーションファインチューニングの理論的および実践的な側面を橋渡しし,さらなる開発と研究を促進することができることを願っている。

The confluence of Federated Learning (FL) and Large Language Models (LLMs) is ushering in a new era in privacy-preserving natural language processing. However, the intensive memory requirements for fine-tuning LLMs pose significant challenges, especially when deploying on edge devices with limited computational resources. To circumvent this, we explore the novel integration of Memory-efficient Zeroth-Order Optimization within a federated setting, a synergy we denote as FedMeZO. Our study is the first to examine the theoretical underpinnings of FedMeZO in the context of LLMs, tackling key questions regarding the influence of large parameter spaces on optimization behavior, the establishment of convergence properties, and the identification of critical parameters for convergence to inform personalized federated strategies. Our extensive empirical evidence supports the theory, showing that FedMeZO not only converges faster than traditional first-order methods such as SGD but also significantly reduces GPU memory usage during training to levels comparable to those during inference. Moreover, the proposed personalized FL strategy that is built upon the theoretical insights to customize the client-wise learning rate can effectively accelerate loss reduction. We hope our work can help to bridge theoretical and practical aspects of federated fine-tuning for LLMs and facilitate further development and research.
翻訳日:2024-02-09 13:25:35 公開日:2024-02-08
# PBR画像生成のための協調制御

Collaborative Control for Geometry-Conditioned PBR Image Generation ( http://arxiv.org/abs/2402.05919v1 )

ライセンス: Link先を確認
Shimon Vainer, Mark Boss, Mathias Parger, Konstantin Kutsy, Dante De Nigris, Ciara Rowles, Nicolas Perony, Simon Donn\'e(参考訳) 現在の3Dコンテンツ生成は、RGB画像を出力する生成モデルに基づいている。 しかし、現代のグラフィックスパイプラインは物理ベースのレンダリング(PBR)材料特性を必要とする。 本稿では,RGB 生成における測光的不正確さと,RGB からの PBR 抽出における固有曖昧性を回避するために,PBR 画像分布を直接モデル化することを提案する。 既存のクロスモーダルファインタニングのパラダイムは、データ不足と出力モダリティの高次元性のため、PBR生成には適していない。我々は、凍結したRGBモデルを保持し、新しいクロスネットワーク通信パラダイムを用いて、新しく訓練されたPBRモデルを強くリンクすることによって、両方の課題を克服する。 基本RGBモデルは完全に凍結されているため、提案手法は微調整中に破滅的な忘れをし、ベースRGBモデルのために事前訓練されたIPAdapterなどの技術と互換性がある。 我々は、設計選択、データの分散性に対する堅牢性を検証し、広範な実験セクションで既存のパラダイムと比較する。

Current 3D content generation builds on generative models that output RGB images. Modern graphics pipelines, however, require physically-based rendering (PBR) material properties. We propose to model the PBR image distribution directly to avoid photometric inaccuracies in RGB generation and the inherent ambiguity in extracting PBR from RGB. Existing paradigms for cross-modal finetuning are not suited for PBR generation due to a lack of data and the high dimensionality of the output modalities: we overcome both challenges by retaining a frozen RGB model and tightly linking a newly trained PBR model using a novel cross-network communication paradigm. As the base RGB model is fully frozen, the proposed method does not risk catastrophic forgetting during finetuning and remains compatible with techniques such as IPAdapter pretrained for the base RGB model. We validate our design choices, robustness to data sparsity, and compare against existing paradigms with an extensive experimental section.
翻訳日:2024-02-09 13:25:07 公開日:2024-02-08
# Point-VOS:ビデオオブジェクトセグメンテーションのポイントアップ

Point-VOS: Pointing Up Video Object Segmentation ( http://arxiv.org/abs/2402.05917v1 )

ライセンス: Link先を確認
Idil Esen Zulfikar, Sabarinath Mahadevan, Paul Voigtlaender, Bastian Leibe(参考訳) 現在の最先端のビデオオブジェクトセグメンテーション(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。 これは時間とコストのかかるビデオアノテーション機構を必要とする。 本稿では,時空間的スパースなポイントワイズアノテーションスキームを用いた新しいポイントボーズタスクを提案し,アノテーションの労力を大幅に削減する。 テキスト記述を伴う2つの大規模ビデオデータセットにアノテーションスキームを適用し,32kビデオ中の133kオブジェクトに19万点以上の注釈を付与する。 提案のアノテーションに基づいて,新しいpoint-vosベンチマークと,それに対応するpoint-based training機構を提案する。 既存の VOS メソッドはトレーニング中のポイントアノテーションに容易に適用でき、これらのポイントから生成された擬似マスクでトレーニングした場合に、完全に教師されたパフォーマンスに近い結果が得られることを示す。 さらに,ビデオナラティブグラウンド(VNG)タスクで評価することで,視覚と言語を接続するモデルを改善するために,我々のデータを利用することができることを示す。 コードとアノテーションはhttps://pointvos.github.io.comで公開します。

Current state-of-the-art Video Object Segmentation (VOS) methods rely on dense per-object mask annotations both during training and testing. This requires time-consuming and costly video annotation mechanisms. We propose a novel Point-VOS task with a spatio-temporally sparse point-wise annotation scheme that substantially reduces the annotation effort. We apply our annotation scheme to two large-scale video datasets with text descriptions and annotate over 19M points across 133K objects in 32K videos. Based on our annotations, we propose a new Point-VOS benchmark, and a corresponding point-based training mechanism, which we use to establish strong baseline results. We show that existing VOS methods can easily be adapted to leverage our point annotations during training, and can achieve results close to the fully-supervised performance when trained on pseudo-masks generated from these points. In addition, we show that our data can be used to improve models that connect vision and language, by evaluating it on the Video Narrative Grounding (VNG) task. We will make our code and annotations available at https://pointvos.github.io.
翻訳日:2024-02-09 13:24:49 公開日:2024-02-08
# GenEFT:有効理論によるモデル一般化の静的とダイナミクスの理解

GenEFT: Understanding Statics and Dynamics of Model Generalization via Effective Theory ( http://arxiv.org/abs/2402.05916v1 )

ライセンス: Link先を確認
David D. Baek, Ziming Liu, Max Tegmark(参考訳) 我々は、ニューラルネットワークの一般化の静的性とダイナミクスに光を当てる効果的な理論フレームワークGenEFTを紹介し、それをグラフ学習の例で説明する。 まず,データサイズの増加に伴う一般化相転移について検討し,実験結果と情報理論に基づく近似との比較を行った。 我々は、デコーダが弱すぎても強すぎるわけでもないgoldilocksゾーンで一般化を見つける。 次に, 潜在空間表現を相互作用粒子としてモデル化する表現学習のダイナミクスに関する効果的な理論(応答)を導入し, エンコーダとデコーダ学習率として一般化と過剰フィッティングの位相遷移を実験的に観察した。 これは、理論予測と機械学習の実践の間のギャップを埋めるための物理学に着想を得た効果的な理論の力を強調している。

We present GenEFT: an effective theory framework for shedding light on the statics and dynamics of neural network generalization, and illustrate it with graph learning examples. We first investigate the generalization phase transition as data size increases, comparing experimental results with information-theory-based approximations. We find generalization in a Goldilocks zone where the decoder is neither too weak nor too powerful. We then introduce an effective theory for the dynamics of representation learning, where latent-space representations are modeled as interacting particles (repons), and find that it explains our experimentally observed phase transition between generalization and overfitting as encoder and decoder learning rates are scanned. This highlights the power of physics-inspired effective theories for bridging the gap between theoretical predictions and practice in machine learning.
翻訳日:2024-02-09 13:24:30 公開日:2024-02-08
# プログレッシブサブネットワークによる効率的ステージワイズ事前学習

Efficient Stagewise Pretraining via Progressive Subnetworks ( http://arxiv.org/abs/2402.05913v1 )

ライセンス: Link先を確認
Abhishek Panigrahi, Nikunj Saunshi, Kaifeng Lyu, Sobhan Miryoosefi, Sashank Reddi, Satyen Kale, Sanjiv Kumar(参考訳) 近年の大規模言語モデルの発展は、効率的な事前学習手法への関心を喚起している。 最近の効果的なパラダイムは、段階的なトレーニングを行うことであり、トレーニングの過程でモデルのサイズが徐々に増大する(例えば、段階的な積み重ね(Reddi et al., 2023))。 資源と壁面の節約は魅力的だが、特に初期の段階ではモデル全体を評価できないこと、初期段階でのモデル容量の減少によるモデル品質の低下など、制限がある。 そこで本研究では,トレーニング全体を通じて完全なモデルを維持しつつ,各ステップでモデル内のサブネットワークをトレーニングする新たなフレームワークであるプログレッシブサブネットワークトレーニングを提案する。 このフレームワークの単純なインスタンス化であるraptr(random path training)に注目して,各ステップにおけるレイヤのサブパスのみをトレーニングし,段階的なパス長を段階的に増加させる。 RaPTr は BERT と UL2 言語モデルの事前トレーニング損失が向上すると同時に,標準的なトレーニングに比べて 20-33% のFLOP の削減が要求される。 さらに、RaPTrはUL2のダウンストリームパフォーマンスを改善し、標準的なトレーニングやスタックよりもQAタスクとSuperGLUEを1-5%改善した。 最後に、RapTrが正当化する理論的基礎を提供する。 (a)段階におけるサブネットワークの複雑さの増大 b) 残差接続と層ノルムによるステージ遷移における損失の安定性。

Recent developments in large language models have sparked interest in efficient pretraining methods. A recent effective paradigm is to perform stage-wise training, where the size of the model is gradually increased over the course of training (e.g. gradual stacking (Reddi et al., 2023)). While the resource and wall-time savings are appealing, it has limitations, particularly the inability to evaluate the full model during earlier stages, and degradation in model quality due to smaller model capacity in the initial stages. In this work, we propose an alternative framework, progressive subnetwork training, that maintains the full model throughout training, but only trains subnetworks within the model in each step. We focus on a simple instantiation of this framework, Random Path Training (RaPTr) that only trains a sub-path of layers in each step, progressively increasing the path lengths in stages. RaPTr achieves better pre-training loss for BERT and UL2 language models while requiring 20-33% fewer FLOPs compared to standard training, and is competitive or better than other efficient training methods. Furthermore, RaPTr shows better downstream performance on UL2, improving QA tasks and SuperGLUE by 1-5% compared to standard training and stacking. Finally, we provide a theoretical basis for RaPTr to justify (a) the increasing complexity of subnetworks in stages, and (b) the stability in loss across stage transitions due to residual connections and layer norm.
翻訳日:2024-02-09 13:24:14 公開日:2024-02-08
# 背景独立テンソルネットワーク

Background independent tensor networks ( http://arxiv.org/abs/2402.05910v1 )

ライセンス: Link先を確認
Chris Akers and Annie Y. Wei(参考訳) 従来のホログラフィックテンソルネットワークは、多くの小さな線型写像が空間的に局所的に作用し、すべて '`background entanglement'' で連結されたおもちゃのホログラフィック写像として記述できる。 しかし、これらの構造は実際のホログラフィックマップをモデル化するに足らない。 一つの理由は、幾何学が動的である重力とは異なり、それらの `areas'' は自明であり、全ての状態に対して同じ値を取るからである。 近年,「リンク上に生きている」自由度を付加することで,この問題を改善している。 これにより、背景の絡み合い部分と等しい領域を非自明にし、また、リンクの度合いに依存する新しい正の要素を新たに持つ。 それでも、背景絡み合いが存在するという欠点があり、従って、背景絡み合いによって与えられる任意の最小値を持つ領域が比較的限定されたコード部分空間をモデル化するだけである。 ここでは、これらの構成の1つのバージョンは、ホログラムマップに背景の絡みが無く、背景の独立性を持つことができる。 これはテンソルネットワークがより大きなコード部分空間のホログラフィックマップをモデル化できるので有利である。 これに加えて、動作させるのにいくつかの微妙な問題に対処し、最近のランダムCFTデータに関する議論に、それがもたらす良いつながりを指摘する。

Conventional holographic tensor networks can be described as toy holographic maps constructed from many small linear maps acting in a spatially local way, all connected together with ``background entanglement'', i.e. links of a fixed state, often the maximally entangled state. However, these constructions fall short of modeling real holographic maps. One reason is that their ``areas'' are trivial, taking the same value for all states, unlike in gravity where the geometry is dynamical. Recently, new constructions have ameliorated this issue by adding degrees of freedom that ``live on the links''. This makes areas non-trivial, equal to the background entanglement piece plus a new positive piece that depends on the state of the link degrees of freedom. Nevertheless, this still has the downside that there is background entanglement, and hence it only models relatively limited code subspaces in which every area has a definite minimum value given by the background entanglement. In this note, we simply point out that a version of these constructions goes one step further: they can be background independent, with no background entanglement in the holographic map. This is advantageous because it allows tensor networks to model holographic maps for larger code subspaces. In addition to pointing this out, we address some subtleties involved in making it work and point out a nice connection it offers to recent discussions of random CFT data.
翻訳日:2024-02-09 13:23:49 公開日:2024-02-08
# ネットワーク集約マルコフゲームにおけるリスク感性多エージェント強化学習

Risk-Sensitive Multi-Agent Reinforcement Learning in Network Aggregative Markov Games ( http://arxiv.org/abs/2402.05906v1 )

ライセンス: Link先を確認
Hafez Ghaemi, Hamed Kebriaei, Alireza Ramezani Moghaddam, Majid Nili Ahamdabadi(参考訳) 古典的マルチエージェント強化学習(MARL)は、エージェントに対するリスク中立性と完全な客観性を仮定する。 しかしながら、エージェントが人間の経済や社会的嗜好を考慮またはモデル化する必要がある場合、リスクの概念をRL最適化問題に組み込む必要がある。 これは、他のヒトまたは非ヒトエージェントが関与するMARLにおいて、おそらくは自身のリスク感受性ポリシーにおいてより重要である。 本研究では,リスク感受性と非協調的MARLを累積予測理論(CPT),非凸リスク尺度,コヒーレントリスク尺度の一般化とともに考察する。 CPTは、ヒトの損失回避と、その過大評価/過小評価傾向を説明することができる。 我々は,分散Nested CPT-ACと呼ぶネットワーク集約型マルコフゲーム(NAMG)のCPTリスクを考慮した分散サンプリングベースアクタクリティカル(AC)アルゴリズムを提案する。 一連の仮定の下で、namgsにおけるマルコフ完全ナッシュ均衡の主観的概念へのアルゴリズムの収束を証明する。 実験の結果,本アルゴリズムによって得られた主観的cptポリシーはリスク中立と異なる可能性を示し,高い損失回避傾向を持つエージェントはnamgで社会的に分離する傾向が強いことがわかった。

Classical multi-agent reinforcement learning (MARL) assumes risk neutrality and complete objectivity for agents. However, in settings where agents need to consider or model human economic or social preferences, a notion of risk must be incorporated into the RL optimization problem. This will be of greater importance in MARL where other human or non-human agents are involved, possibly with their own risk-sensitive policies. In this work, we consider risk-sensitive and non-cooperative MARL with cumulative prospect theory (CPT), a non-convex risk measure and a generalization of coherent measures of risk. CPT is capable of explaining loss aversion in humans and their tendency to overestimate/underestimate small/large probabilities. We propose a distributed sampling-based actor-critic (AC) algorithm with CPT risk for network aggregative Markov games (NAMGs), which we call Distributed Nested CPT-AC. Under a set of assumptions, we prove the convergence of the algorithm to a subjective notion of Markov perfect Nash equilibrium in NAMGs. The experimental results show that subjective CPT policies obtained by our algorithm can be different from the risk-neutral ones, and agents with a higher loss aversion are more inclined to socially isolate themselves in an NAMG.
翻訳日:2024-02-09 13:23:23 公開日:2024-02-08
# OHQ:オンチップのハードウェア対応量子化

OHQ: On-chip Hardware-aware Quantization ( http://arxiv.org/abs/2309.01945v4 )

ライセンス: Link先を確認
Wei Huang, Haotong Qin, Yangdong Liu, Jingzhuo Liang, Yulun Zhang, Ying Li, Xianglong Liu(参考訳) 量子化は、リソース制約のあるハードウェアに高度なディープモデルをデプロイするための最も有望なアプローチの1つとして現れます。 mixed-precision quantizationは、複数のビット幅アーキテクチャを活用して、量子化モデルの精度と効率性を解き放つ。 しかし、既存の混合精度量子化は、膨大な計算オーバーヘッドを引き起こす網羅的な探索空間に苦しむ。 したがって、量子化プロセスはローカルではなく別の高性能デバイスに依存しており、ハードウェアメトリクスと実際のデプロイメントの間に大きなギャップが生じる。 本稿では,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア対応量子化(OHQ)フレームワークを提案する。 まず、オンチップ量子化認識(OQA)パイプラインを構築し、ハードウェア上の量子化演算子の実際の効率指標を知覚する。 第2に,オンチップレベルの計算能力の制約下で演算子の精度を効率的に推定するMask-guided Quantization Estimation (MQE) 手法を提案する。 線形計画によるネットワークとハードウェアの洞察を合成することにより、最適化されたビット幅構成を得る。 特に、量子化プロセスは、追加のコンピューティングデバイスやデータアクセスなしで、オンチップで完全に実行される。 ResNet-18とMobileNetV3では,それぞれ70%,73%の精度を実現した。 OHQは、デプロイメント時のINT8と比較して、レイテンシを15~30%改善する。

Quantization emerges as one of the most promising approaches for deploying advanced deep models on resource-constrained hardware. Mixed-precision quantization leverages multiple bit-width architectures to unleash the accuracy and efficiency potential of quantized models. However, existing mixed-precision quantization suffers exhaustive search space that causes immense computational overhead. The quantization process thus relies on separate high-performance devices rather than locally, which also leads to a significant gap between the considered hardware metrics and the real deployment. In this paper, we propose an On-chip Hardware-aware Quantization (OHQ) framework that performs hardware-aware mixed-precision quantization without accessing online devices. First, we construct the On-chip Quantization Awareness (OQA) pipeline, enabling perceive the actual efficiency metrics of the quantization operator on the hardware. Second, we propose Mask-guided Quantization Estimation (MQE) technique to efficiently estimate the accuracy metrics of operators under the constraints of on-chip-level computing power. By synthesizing network and hardware insights through linear programming, we obtain optimized bit-width configurations. Notably, the quantization process occurs on-chip entirely without any additional computing devices and data access. We demonstrate accelerated inference after quantization for various architectures and compression ratios, achieving 70% and 73% accuracy for ResNet-18 and MobileNetV3, respectively. OHQ improves latency by 15~30% compared to INT8 on deployment.
翻訳日:2024-02-09 11:34:56 公開日:2024-02-08
# 軽度過パラメータのreluネットワークは、好適なロスランドスケープを持つ

Mildly Overparameterized ReLU Networks Have a Favorable Loss Landscape ( http://arxiv.org/abs/2305.19510v3 )

ライセンス: Link先を確認
Kedar Karhadkar, Michael Murray, Hanna Tseran, Guido Mont\'ufar(参考訳) 本研究では,2乗誤差損失のための汎用有限入力データセット上での,浅層と深層,軽度過パラメータのreluニューラルネットワークの損失状況について検討した。 その結果,ほとんどのアクティベーションパターンは,局所最小値が低いパラメータ領域に対応していることがわかった。 さらに、1次元の入力データに対して、ネットワークによって実現可能なほとんどの活性化領域は、高次元のグローバルミニマと悪いローカルミニマを含むことを示す。 過パラメータ化の量によっては,ジャコビアンがフルランクの領域から多くの領域への位相遷移を見いだすことにより,これらの結果が実験的に確認される。

We study the loss landscape of both shallow and deep, mildly overparameterized ReLU neural networks on a generic finite input dataset for the squared error loss. We show both by count and volume that most activation patterns correspond to parameter regions with no bad local minima. Furthermore, for one-dimensional input data, we show most activation regions realizable by the network contain a high dimensional set of global minima and no bad local minima. We experimentally confirm these results by finding a phase transition from most regions having full rank Jacobian to many regions having deficient rank depending on the amount of overparameterization.
翻訳日:2024-02-09 11:33:43 公開日:2024-02-08
# テキスト生成モデルのための(スコアベース)概念代数

Concept Algebra for (Score-Based) Text-Controlled Generative Models ( http://arxiv.org/abs/2302.03693v6 )

ライセンス: Link先を確認
Zihao Wang, Lin Gui, Jeffrey Negrea, Victor Veitch(参考訳) 本稿では,テキスト誘導生成モデルにおける学習表現の構造を,スコアベースモデルに焦点をあてる。 そのようなモデルの鍵となる性質は、異なる概念を 'disentangled' な方法で構成できることである。 これはこれらのモデルが、概念を 'disentangled' な方法でエンコードする内部表現を持っていることを示唆している。 ここでは、概念がある表現空間の部分空間として符号化されるという考えに焦点を当てる。 これは何を意味するのかを形式化し、表現に自然な選択があることを示し、与えられた概念に対応する表現の一部を識別する簡単な方法を開発する。 特に、表現の代数的操作を通じてモデルによって表現される概念を操作することができる。 このアイデアを安定拡散を用いて実例で示す。 https://github.com/zihao12/concept-algebra-code

This paper concerns the structure of learned representations in text-guided generative models, focusing on score-based models. A key property of such models is that they can compose disparate concepts in a `disentangled' manner. This suggests these models have internal representations that encode concepts in a `disentangled' manner. Here, we focus on the idea that concepts are encoded as subspaces of some representation space. We formalize what this means, show there's a natural choice for the representation, and develop a simple method for identifying the part of the representation corresponding to a given concept. In particular, this allows us to manipulate the concepts expressed by the model through algebraic manipulation of the representation. We demonstrate the idea with examples using Stable Diffusion. Code in https://github.com/zihao12/concept-algebra-code
翻訳日:2024-02-09 11:33:29 公開日:2024-02-08
# シングルイメージデハージングのためのU字型視覚マンバ

U-shaped Vision Mamba for Single Image Dehazing ( http://arxiv.org/abs/2402.04139v2 )

ライセンス: Link先を確認
Zhuoran Zheng and Chen Wu(参考訳) 現在、トランスフォーマーは画像デハジングで最も一般的なアーキテクチャであるが、計算の複雑さが大きいため、長距離依存を扱う能力はリソース制約のあるデバイスに限定されている。 この課題に対処するために、効率的なシングルイメージデハージングネットワークであるUVM-Net(Vision Mamba)を導入する。 長いシーケンスを処理できることで知られる新しいディープシーケンスモデルであるState Space Sequence Models (SSM) にインスパイアされた我々は、畳み込み層の局所的特徴抽出能力と、長距離依存関係をキャプチャするSSMの機能を統合するBi-SSMブロックを設計した。 本手法の有効性を実験的に検証した。 本手法は,画像デハジングや画像復元作業において,より効率的な長距離依存性モデリング手法を提供する。 コードのURLは \url{https://github.com/zzr-idam/UVM-Net} である。 I/O処理時間なしで325ドルの325ドルの解像度画像 (100FPS) を推測するには, textbf{0.009} 秒しかかからない。

Currently, Transformer is the most popular architecture for image dehazing, but due to its large computational complexity, its ability to handle long-range dependency is limited on resource-constrained devices. To tackle this challenge, we introduce the U-shaped Vision Mamba (UVM-Net), an efficient single-image dehazing network. Inspired by the State Space Sequence Models (SSMs), a new deep sequence model known for its power to handle long sequences, we design a Bi-SSM block that integrates the local feature extraction ability of the convolutional layer with the ability of the SSM to capture long-range dependencies. Extensive experimental results demonstrate the effectiveness of our method. Our method provides a more highly efficient idea of long-range dependency modeling for image dehazing as well as other image restoration tasks. The URL of the code is \url{https://github.com/zzr-idam/UVM-Net}. Our method takes only \textbf{0.009} seconds to infer a $325 \times 325$ resolution image (100FPS) without I/O handling time.
翻訳日:2024-02-09 11:30:29 公開日:2024-02-08
# 奥行き画像の事前解析と自己誘導による画像再構成

Analysis of Deep Image Prior and Exploiting Self-Guidance for Image Reconstruction ( http://arxiv.org/abs/2402.04097v2 )

ライセンス: Link先を確認
Shijun Liang, Evan Bell, Qing Qu, Rongrong Wang, Saiprasad Ravishankar(参考訳) 画像修復やMRI(MRI)を含む医用画像の逆問題において、深部画像前処理(DIP)が不完全あるいは劣化した測定から高品質な画像の復元に役立っている。 しかし、従来のディップは重度の過剰フィッティングとスペクトルバイアスの影響に苦しむ。 本研究は,DIPが基盤となるネットワークのトレーニングダイナミクスを異なるアーキテクチャで解析することにより,アンダーサンプル画像計測からどのように情報を回復するかを,まず分析する。 本研究は、DIPベースの回復のための重要な基礎特性について光を当てる。 現在の研究では、参照画像をネットワーク入力として組み込むことで、ランダム入力よりも画像再構成におけるDIPの性能を向上させることが示唆されている。 しかし、適切な基準画像を得るには監督が必要であり、実用上の困難が伴う。 この障害を克服するために,我々はさらに,ネットワーク重みと入力の両方を同時に最適化し,トレーニングデータの必要性をなくす自己駆動型再構築プロセスを導入する。 提案手法は,ネットワーク入力画像と再構成画像の両方の堅牢かつ安定した関節推定を可能にする,新しいデノイザ正規化項を含む。 本手法は,mr画像再構成性能の観点から,従来のディップ法と近代的教師あり法を両立させ,従来のディップ法よりも優れていることを示す。

The ability of deep image prior (DIP) to recover high-quality images from incomplete or corrupted measurements has made it popular in inverse problems in image restoration and medical imaging including magnetic resonance imaging (MRI). However, conventional DIP suffers from severe overfitting and spectral bias effects. In this work, we first provide an analysis of how DIP recovers information from undersampled imaging measurements by analyzing the training dynamics of the underlying networks in the kernel regime for different architectures. This study sheds light on important underlying properties for DIP-based recovery. Current research suggests that incorporating a reference image as network input can enhance DIP's performance in image reconstruction compared to using random inputs. However, obtaining suitable reference images requires supervision, and raises practical difficulties. In an attempt to overcome this obstacle, we further introduce a self-driven reconstruction process that concurrently optimizes both the network weights and the input while eliminating the need for training data. Our method incorporates a novel denoiser regularization term which enables robust and stable joint estimation of both the network input and reconstructed image. We demonstrate that our self-guided method surpasses both the original DIP and modern supervised methods in terms of MR image reconstruction performance and outperforms previous DIP-based schemes for image inpainting.
翻訳日:2024-02-09 11:30:08 公開日:2024-02-08
# カーネルパケットの一般理論:状態空間モデルからコンパクト支持基底へ

A General Theory for Kernel Packets: from state space model to compactly supported basis ( http://arxiv.org/abs/2402.04022v3 )

ライセンス: Link先を確認
Liang Ding and Rui Tuo(参考訳) 状態空間 (SS) がガウス過程 (GP) の定式化によって訓練時間と予測時間をn個のデータポイントのO(n) に短縮できることはよく知られている。 gp の $m$ 次元 ss モデル定式化は、我々が一般右核パケット (kp) として導入した概念と等価であることを証明する: $\sum_{i=0}^{m}a_id_t^{(j)}k(t,t_i)=0$ 任意の $t \leq t_1$, 0 $\leq j \leq m-1$, and $m+1$ 連続点 $t_i$, ここで ${d}_t^{(j)}f(t)$ は$t$ に作用する$j$-次微分を表す。 このアイデアは GP の後方 SS モデルの定式化にまで拡張され、次の$m$連続点に対する左 KP の概念が導かれる: $\sum_{i=0}^{m}b_i{D}_t^{(j)}K(t,t_{m+i})=0$ for any $t\geq t_{2m}$。 左右の KP を組合せることで、これらの共分散関数の適当な線型結合がコンパクトに支持された KP 関数を$m$ で得られることを証明できる: $\phi^{(j)}(t)=0$ for any $t\not\in(t_0,t_{2m})$ and $j=0,\cdots,m-1$。 KPs はさらに GP の O(log n) あるいは O(1) への予測時間を減少させ、GP の微分を含むより一般的な問題に適用でき、分散データに対する多次元の一般化を持つ。

It is well known that the state space (SS) model formulation of a Gaussian process (GP) can lower its training and prediction time both to O(n) for n data points. We prove that an $m$-dimensional SS model formulation of GP is equivalent to a concept we introduce as the general right Kernel Packet (KP): a transformation for the GP covariance function $K$ such that $\sum_{i=0}^{m}a_iD_t^{(j)}K(t,t_i)=0$ holds for any $t \leq t_1$, 0 $\leq j \leq m-1$, and $m+1$ consecutive points $t_i$, where ${D}_t^{(j)}f(t) $ denotes $j$-th order derivative acting on $t$. We extend this idea to the backward SS model formulation of the GP, leading to the concept of the left KP for next $m$ consecutive points: $\sum_{i=0}^{m}b_i{D}_t^{(j)}K(t,t_{m+i})=0$ for any $t\geq t_{2m}$. By combining both left and right KPs, we can prove that a suitable linear combination of these covariance functions yields $m$ compactly supported KP functions: $\phi^{(j)}(t)=0$ for any $t\not\in(t_0,t_{2m})$ and $j=0,\cdots,m-1$. KPs further reduce the prediction time of GP to O(log n) or even O(1), can be applied to more general problems involving the derivative of GPs, and have multi-dimensional generalization for scattered data.
翻訳日:2024-02-09 11:29:44 公開日:2024-02-08
# 大規模言語モデルはソーシャルメディアの噂を検知できるか?

Can Large Language Models Detect Rumors on Social Media? ( http://arxiv.org/abs/2402.03916v2 )

ライセンス: Link先を確認
Qiang Liu, Xiang Tao, Junfei Wu, Shu Wu, Liang Wang(参考訳) 本研究では,ソーシャルメディア上でのうわさ検出にLarge Language Models (LLMs) を用いることを検討した。 しかし、llmは、複雑な伝播情報における重要な手がかりに集中せず、大規模で冗長な情報に直面した際に推論に支障をきたす可能性があるため、ニュース内容や多数のコメントを含むソーシャルメディア上の伝達情報全体をllmが推論することは困難である。 そこで,本研究では,ニュースやコメントにおいて重要な手がかりを推論するために,llmに提案手法を考案し,伝達情報全体をチェーン・オブ・プロパゲーションに分割し,llmの負担を軽減する手法を提案する。 我々はTwitterとWeiboデータセットで広範な実験を行い、LeRuDは最先端の噂検出モデルを3.2%から7.7%上回っている。 一方、LLMを適用することで、LeRuDはトレーニングにデータを必要としないため、ほとんどショットやゼロショットのシナリオでより有望な噂検出能力を示す。

In this work, we investigate to use Large Language Models (LLMs) for rumor detection on social media. However, it is challenging for LLMs to reason over the entire propagation information on social media, which contains news contents and numerous comments, due to LLMs may not concentrate on key clues in the complex propagation information, and have trouble in reasoning when facing massive and redundant information. Accordingly, we propose an LLM-empowered Rumor Detection (LeRuD) approach, in which we design prompts to teach LLMs to reason over important clues in news and comments, and divide the entire propagation information into a Chain-of-Propagation for reducing LLMs' burden. We conduct extensive experiments on the Twitter and Weibo datasets, and LeRuD outperforms several state-of-the-art rumor detection models by 3.2% to 7.7%. Meanwhile, by applying LLMs, LeRuD requires no data for training, and thus shows more promising rumor detection ability in few-shot or zero-shot scenarios.
翻訳日:2024-02-09 11:28:58 公開日:2024-02-08
# 強化学習エージェントのための論理仕様誘導動的タスクサンプリング

Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents ( http://arxiv.org/abs/2402.03678v2 )

ライセンス: Link先を確認
Yash Shukla, Tanushree Burman, Abhishek Kulkarni, Robert Wright, Alvaro Velasquez, Jivko Sinapov(参考訳) 強化学習(rl)は、人工エージェントが多様な行動を学ぶために大きな進歩を遂げた。 しかし、効果的な政策を学ぶには、しばしば多くの環境相互作用を必要とする。 サンプル複雑性の問題を緩和するために、近年のアプローチでは、LTL$_f$(Linear Temporal Logic)式やReward Machines(RM)のような高レベルのタスク仕様を使用してエージェントの学習進捗をガイドしている。 本稿では,エージェントを初期状態から高レベルタスク仕様に基づく目標状態へと導くためのrlポリシーのセットを学習し,環境相互作用の数を最小化しながら,論理仕様に基づく動的タスクサンプリング(lsts)と呼ばれる新しい手法を提案する。 以前の作業とは異なり、lstsは環境ダイナミクスや報酬マシンに関する情報を仮定せず、ゴールポリシーを成功させる有望なタスクを動的にサンプリングする。 我々は,LSTSをグリッドワールド上で評価し,最先端のRMやオートマトン誘導RLベースライン(Q-Learning for Reward Machines)や論理仕様(DIRL)など)と比較して,複雑なシーケンシャルな意思決定問題に対する時間対閾値性能の向上を実現することを示す。 さらに,本手法は,部分的に観察可能なロボットタスクと連続制御ロボット操作タスクの両方において,RMおよびオートマトン誘導RLベースラインよりも優れていることを示す。

Reinforcement Learning (RL) has made significant strides in enabling artificial agents to learn diverse behaviors. However, learning an effective policy often requires a large number of environment interactions. To mitigate sample complexity issues, recent approaches have used high-level task specifications, such as Linear Temporal Logic (LTL$_f$) formulas or Reward Machines (RM), to guide the learning progress of the agent. In this work, we propose a novel approach, called Logical Specifications-guided Dynamic Task Sampling (LSTS), that learns a set of RL policies to guide an agent from an initial state to a goal state based on a high-level task specification, while minimizing the number of environmental interactions. Unlike previous work, LSTS does not assume information about the environment dynamics or the Reward Machine, and dynamically samples promising tasks that lead to successful goal policies. We evaluate LSTS on a gridworld and show that it achieves improved time-to-threshold performance on complex sequential decision-making problems compared to state-of-the-art RM and Automaton-guided RL baselines, such as Q-Learning for Reward Machines and Compositional RL from logical Specifications (DIRL). Moreover, we demonstrate that our method outperforms RM and Automaton-guided RL baselines in terms of sample-efficiency, both in a partially observable robotic task and in a continuous control robotic manipulation task.
翻訳日:2024-02-09 11:28:38 公開日:2024-02-08
# 医用AI画像における見えない透かしの有効性の評価

Assessing the Efficacy of Invisible Watermarks in AI-Generated Medical Images ( http://arxiv.org/abs/2402.03473v2 )

ライセンス: Link先を確認
Xiaodan Xing, Huiyu Zhou, Yingying Fang, and Guang Yang(参考訳) AIが生成する医療画像は、現実世界におけるデータ不足問題に対処する可能性から、人気が高まっている。 しかし、これらの合成画像の正確な識別の問題、特に実際の複製で顕著なリアリズムを示す場合、依然として懸念されている。 この課題を軽減するため、dalleやimagenのような画像生成装置は、合成画像の真正性の識別を容易にするデジタル透かしを統合した。 これらの透かしは画像のピクセル内に埋め込まれており、検出性を維持しながら人間の目からは見えない。 それにもかかわらず、これらの見えない透かしが合成医療画像の有用性に与える影響に関する包括的な調査は欠落している。 本研究では,合成医用画像に目に見えない透かしを取り入れ,下流分類作業の文脈で有効性を評価することを提案する。 私たちの目標は、合成医用画像の検出性の向上、倫理基準の強化、データ汚染と潜在的な詐欺に対する保護といった、このような透かしの存続可能性に関する議論の道を開くことです。

AI-generated medical images are gaining growing popularity due to their potential to address the data scarcity challenge in the real world. However, the issue of accurate identification of these synthetic images, particularly when they exhibit remarkable realism with their real copies, remains a concern. To mitigate this challenge, image generators such as DALLE and Imagen, have integrated digital watermarks aimed at facilitating the discernment of synthetic images' authenticity. These watermarks are embedded within the image pixels and are invisible to the human eye while remains their detectability. Nevertheless, a comprehensive investigation into the potential impact of these invisible watermarks on the utility of synthetic medical images has been lacking. In this study, we propose the incorporation of invisible watermarks into synthetic medical images and seek to evaluate their efficacy in the context of downstream classification tasks. Our goal is to pave the way for discussions on the viability of such watermarks in boosting the detectability of synthetic medical images, fortifying ethical standards, and safeguarding against data pollution and potential scams.
翻訳日:2024-02-09 11:28:08 公開日:2024-02-08
# IGUANe:脳MR画像のマルチセンター調和のための3次元一般化可能なサイクロンGAN

IGUANe: a 3D generalizable CycleGAN for multicenter harmonization of brain MR images ( http://arxiv.org/abs/2402.03227v2 )

ライセンス: Link先を確認
Vincent Roca, Gr\'egory Kuchcinski, Jean-Pierre Pruvo, Dorian Manouvriez, Renaud Lopes(参考訳) mri研究において、複数の取得サイトからの画像データの集約はサンプルサイズを増加させるが、その後の分析における一貫性を妨げるサイト関連変異をもたらす可能性がある。 画像翻訳のための深層学習手法が, MR画像との調和のためのソリューションとして登場した。 本研究では,ドメイン翻訳の強みを活かしたオリジナル3次元モデルであるiguane(unified adversarial networksを用いた画像生成)と,多施設脳mr画像調和のためのスタイル伝達手法の簡易適用について紹介する。 IGUANeは、任意の数のドメインを統合することで、CycleGANアーキテクチャを拡張している。 推論中、モデルは未知の取得サイトからでも任意の画像に適用でき、調和のための普遍的な生成装置となる。 IGUANeは11種類のスキャナーからのT1強調画像からなるデータセットでトレーニングされ、見えないサイトのデータに基づいて評価された。 評価対象は、旅行者によるMR画像の変換、ドメイン内のMR画像間の相互距離の保存、年齢とアルツハイマードル^\prime$s病(AD)に関連する容積パターンの進化、年齢回帰と患者分類タスクのパフォーマンスなどであった。 他の調和化法や正規化法と比較すると、IGUANeはMR画像の個々の情報をより保存し、年齢やADに関連する変動の維持と強化に適していると考えられる。 将来の研究は、IGUANeを他のマルチセンターのコンテキストでさらに評価し、同じモデルを使ったり、異なる画像モダリティに応用するために再訓練したりすることができる。

In MRI studies, the aggregation of imaging data from multiple acquisition sites enhances sample size but may introduce site-related variabilities that hinder consistency in subsequent analyses. Deep learning methods for image translation have emerged as a solution for harmonizing MR images across sites. In this study, we introduce IGUANe (Image Generation with Unified Adversarial Networks), an original 3D model that leverages the strengths of domain translation and straightforward application of style transfer methods for multicenter brain MR image harmonization. IGUANe extends CycleGAN architecture by integrating an arbitrary number of domains for training through a many-to-one strategy. During inference, the model can be applied to any image, even from an unknown acquisition site, making it a universal generator for harmonization. Trained on a dataset comprising T1-weighted images from 11 different scanners, IGUANe was evaluated on data from unseen sites. The assessments included the transformation of MR images with traveling subjects, the preservation of pairwise distances between MR images within domains, the evolution of volumetric patterns related to age and Alzheimer$^\prime$s disease (AD), and the performance in age regression and patient classification tasks. Comparisons with other harmonization and normalization methods suggest that IGUANe better preserves individual information in MR images and is more suitable for maintaining and reinforcing variabilities related to age and AD. Future studies may further assess IGUANe in other multicenter contexts, either using the same model or retraining it for applications to different image modalities.
翻訳日:2024-02-09 11:27:50 公開日:2024-02-08
# bge m3-embedding: 自己認識蒸留による多言語多機能多粒テキスト埋め込み

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation ( http://arxiv.org/abs/2402.03216v2 )

ライセンス: Link先を確認
Jianlv Chen, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian, Zheng Liu(参考訳) 本稿では,多言語性,多機能性,多言語性,多言語性において,m3-embeddingと呼ばれる新しい埋め込みモデルを提案する。 100以上の作業言語をサポートすることができ、マルチ言語およびクロス言語検索タスクにおける最先端のパフォーマンス向上に繋がる。 組込みモデルの3つの共通検索機能 – 密集検索,マルチベクトル検索,スパース検索 – を同時に実行し,現実世界のIRアプリケーションに統一されたモデル基盤を提供する。 短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。 M3-Embeddingの効果的なトレーニングには、以下の技術貢献が含まれる。 そこで本研究では, 異なる検索機能による関連性スコアを教師信号として統合し, 学習品質を高めるための自己知識蒸留手法を提案する。 また、バッチ処理戦略を最適化し、大規模なバッチサイズと高いトレーニングスループットを実現し、埋め込みの識別性を確保します。 私たちの知る限り、M3-Embeddingはそのような強力な汎用性を実現する最初の埋め込みモデルです。 モデルとコードはhttps://github.com/FlagOpen/FlagEmbedding.comで公開される。

In this paper, we present a new embedding model, called M3-Embedding, which is distinguished for its versatility in Multi-Linguality, Multi-Functionality, and Multi-Granularity. It can support more than 100 working languages, leading to new state-of-the-art performances on multi-lingual and cross-lingual retrieval tasks. It can simultaneously perform the three common retrieval functionalities of embedding model: dense retrieval, multi-vector retrieval, and sparse retrieval, which provides a unified model foundation for real-world IR applications. It is able to process inputs of different granularities, spanning from short sentences to long documents of up to 8192 tokens. The effective training of M3-Embedding involves the following technical contributions. We propose a novel self-knowledge distillation approach, where the relevance scores from different retrieval functionalities can be integrated as the teacher signal to enhance the training quality. We also optimize the batching strategy, enabling a large batch size and high training throughput to ensure the discriminativeness of embeddings. To the best of our knowledge, M3-Embedding is the first embedding model which realizes such a strong versatility. The model and code will be publicly available at https://github.com/FlagOpen/FlagEmbedding.
翻訳日:2024-02-09 11:27:21 公開日:2024-02-08
# アクション認識のためのTaylor Videos

Taylor Videos for Action Recognition ( http://arxiv.org/abs/2402.03019v3 )

ライセンス: Link先を確認
Lei Wang and Xiuyuan Yuan and Tom Gedeon and Liang Zheng(参考訳) 映像から運動を効果的に抽出することは、アクション認識にとって重要かつ長期にわたる問題である。 この問題は運動のため非常に難しい (i)明示的な形式を持たないこと。 (ii)変位、速度、加速度など様々な概念を持ち、 (iii)不安定な画素によるノイズがしばしば含まれる。 これらの課題に対処するために,我々はテイラーフレームと呼ばれる各フレームにおける支配的な動き(例えば手を振る)を強調する新しいビデオフォーマットであるtaylor videoを提案する。 テイラー級数 (Taylor series) は、ある点における関数を重要な項で近似するテイラー級数 (Taylor series) にちなむ。 ビデオのシナリオでは,映像時間ブロックから動きを抽出することを目的とした暗黙的モーション抽出関数を定義する。 このブロックでは、フレーム、差分フレーム、高次差分フレームを用いて、開始フレームでこの関数を近似するためにテイラー展開を行う。 テイラー級数における高次項の和は、静的な物体が小さく不安定な動きを取り除かれるような支配的な動きパターンを与える。 実験により,Taylorビデオは2次元CNN,3次元CNN,トランスフォーマーなどの一般的なアーキテクチャへの効果的な入力であることを示す。 個別に使用すると、テイラービデオはRGBビデオや光学フローと比較して、競合する動作認識精度が得られる。 RGBや光フロービデオと融合すると、さらなる精度向上が達成される。

Effectively extracting motions from video is a critical and long-standing problem for action recognition. This problem is very challenging because motions (i) do not have an explicit form, (ii) have various concepts such as displacement, velocity, and acceleration, and (iii) often contain noise caused by unstable pixels. Addressing these challenges, we propose the Taylor video, a new video format that highlights the dominate motions (e.g., a waving hand) in each of its frames named the Taylor frame. Taylor video is named after Taylor series, which approximates a function at a given point using important terms. In the scenario of videos, we define an implicit motion-extraction function which aims to extract motions from video temporal block. In this block, using the frames, the difference frames, and higher-order difference frames, we perform Taylor expansion to approximate this function at the starting frame. We show the summation of the higher-order terms in the Taylor series gives us dominant motion patterns, where static objects, small and unstable motions are removed. Experimentally we show that Taylor videos are effective inputs to popular architectures including 2D CNNs, 3D CNNs, and transformers. When used individually, Taylor videos yield competitive action recognition accuracy compared to RGB videos and optical flow. When fused with RGB or optical flow videos, further accuracy improvement is achieved.
翻訳日:2024-02-09 11:26:23 公開日:2024-02-08
# GIRT-Model:イシューレポートテンプレートの自動生成

GIRT-Model: Automated Generation of Issue Report Templates ( http://arxiv.org/abs/2402.02632v2 )

ライセンス: Link先を確認
Nafiseh Nikeghbal, Amir Hossein Kargaran, Abbas Heydarnoori(参考訳) GitHubやGitLabのようなプラットフォームはイシューレポートテンプレート(IRT)を導入し、より効果的なイシュー管理と開発者の期待との整合性を高める。 しかし、これらのテンプレートは殆どのリポジトリでは広く採用されておらず、現在、開発者がそれらを生成するのを助けるツールが存在しない。 本稿では,GIRT-Modelを紹介する。GIRT-Modelは,その構造と必要なフィールドに関する開発者の指示に基づいて,IRTを自動的に生成するアシスタント言語モデルである。 GIRT-Instructは、インストラクションとIRTのペアからなるデータセットで、IRTはGitHubリポジトリからソースされています。 girt-instruct を使って t5-base モデルを命令調整して girt-model を作成する。 実験では,irt生成における一般的な言語モデル(t5,flan-t5のパラメータサイズが異なる)よりも,ルージュ,ブルー,流星,ヒトの評価において有意に高いスコアを得られる。 さらに、参加者が短いIRTをGIRT-Modelで作成するユーザスタディにおいて、GIRT-Modelの有効性を分析する。 その結果,girt-modelはテンプレートの自動生成に有用であることが判明した。 girt-modelを使用することで、より多くの開発者がirtsをリポジトリに採用できることを願っています。 コード、データセット、モデルをhttps://github.com/ISE-Research/girt-modelで公開しています。

Platforms such as GitHub and GitLab introduce Issue Report Templates (IRTs) to enable more effective issue management and better alignment with developer expectations. However, these templates are not widely adopted in most repositories, and there is currently no tool available to aid developers in generating them. In this work, we introduce GIRT-Model, an assistant language model that automatically generates IRTs based on the developer's instructions regarding the structure and necessary fields. We create GIRT-Instruct, a dataset comprising pairs of instructions and IRTs, with the IRTs sourced from GitHub repositories. We use GIRT-Instruct to instruction-tune a T5-base model to create the GIRT-Model. In our experiments, GIRT-Model outperforms general language models (T5 and Flan-T5 with different parameter sizes) in IRT generation by achieving significantly higher scores in ROUGE, BLEU, METEOR, and human evaluation. Additionally, we analyze the effectiveness of GIRT-Model in a user study in which participants wrote short IRTs with GIRT-Model. Our results show that the participants find GIRT-Model useful in the automated generation of templates. We hope that through the use of GIRT-Model, we can encourage more developers to adopt IRTs in their repositories. We publicly release our code, dataset, and model at https://github.com/ISE-Research/girt-model.
翻訳日:2024-02-09 11:26:00 公開日:2024-02-08
# 逆強化学習における悲観主義の徳

The Virtues of Pessimism in Inverse Reinforcement Learning ( http://arxiv.org/abs/2402.02616v2 )

ライセンス: Link先を確認
David Wu and Gokul Swamy and J. Andrew Bagnell and Zhiwei Steven Wu and Sanjiban Choudhury(参考訳) 逆強化学習(IRL)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。 しかし、伝統的に計算に高価な強化学習(RL)問題を内部ループで繰り返し解く必要がある。 内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。 例えば、最近の研究は、学習者を専門家状態にリセットし、学習者に高水準の専門家状態を伝える。 しかし、そのようなアプローチは現実世界では実現不可能である。 本研究では、IRLにおけるRLサブルーチンを高速化する代替手法について考察する: \emph{pessimism}、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化される専門家のデータ分布に近づき続ける。 オフラインRLとIRLの接続を形式化し、任意のオフラインRLアルゴリズムを用いてIRLのサンプリング効率を向上させる。 我々は,オフラインrlアルゴリズムの有効性と,irl手続きの一部としての有効性との間に強い相関関係を実証し,実験的に検証した。 強力なオフラインRLアルゴリズムをIRLプロシージャの一部として使用することにより、専門家のパフォーマンスに匹敵するポリシーを従来よりもはるかに効率的に見つけることができる。

Inverse Reinforcement Learning (IRL) is a powerful framework for learning complex behaviors from expert demonstrations. However, it traditionally requires repeatedly solving a computationally expensive reinforcement learning (RL) problem in its inner loop. It is desirable to reduce the exploration burden by leveraging expert demonstrations in the inner-loop RL. As an example, recent work resets the learner to expert states in order to inform the learner of high-reward expert states. However, such an approach is infeasible in the real world. In this work, we consider an alternative approach to speeding up the RL subroutine in IRL: \emph{pessimism}, i.e., staying close to the expert's data distribution, instantiated via the use of offline RL algorithms. We formalize a connection between offline RL and IRL, enabling us to use an arbitrary offline RL algorithm to improve the sample efficiency of IRL. We validate our theory experimentally by demonstrating a strong correlation between the efficacy of an offline RL algorithm and how well it works as part of an IRL procedure. By using a strong offline RL algorithm as part of an IRL procedure, we are able to find policies that match expert performance significantly more efficiently than the prior art.
翻訳日:2024-02-09 11:25:36 公開日:2024-02-08
# apt-pipe:ソーシャルコンピューティングデータアノテーションのための自動プロンプトチューニングツール

APT-Pipe: An Automatic Prompt-Tuning Tool for Social Computing Data Annotation ( http://arxiv.org/abs/2402.01697v3 )

ライセンス: Link先を確認
Yiming Zhu, Zhizhuo Yin, Gareth Tyson, Ehsan-Ul Haq, Lik-Hang Lee, Pan Hui(参考訳) 最近の研究は、ソーシャルコンピューティングテキストにラベルアノテーションを実行するための、ChatGPTのようなLLMアプリケーションの可能性を強調している。 しかし、パフォーマンスが入力プロンプトの品質にかかっていることは、すでによく知られている。 これに対処するために、プロンプトのチューニング -- プロンプトの品質を改善するためのテクニックとガイドライン -- に関する多くの研究が行われてきた。 しかし、これらは主に手動の労力と注釈付きデータセットの事前知識に依存している。 この制限に対処するために,自動プロンプトチューニングパイプラインであるAPT-Pipeを提案する。 APT-Pipeは、任意のデータセット上でChatGPTのテキスト分類性能を高めるために、プロンプトを自動的にチューニングすることを目的としている。 APT-Pipeを実装し、12の異なるテキスト分類データセットでテストする。 APT-Pipeによって調整されたプロンプトは、ChatGPTが12つの実験データセットのうち9つの重み付きF1スコアを達成するのに役立つ。 さらに、APT-Pipeの柔軟性をフレームワークとして強調し、追加のチューニングメカニズムをサポートするためにどのように拡張できるかを示す。

Recent research has highlighted the potential of LLM applications, like ChatGPT, for performing label annotation on social computing text. However, it is already well known that performance hinges on the quality of the input prompts. To address this, there has been a flurry of research into prompt tuning -- techniques and guidelines that attempt to improve the quality of prompts. Yet these largely rely on manual effort and prior knowledge of the dataset being annotated. To address this limitation, we propose APT-Pipe, an automated prompt-tuning pipeline. APT-Pipe aims to automatically tune prompts to enhance ChatGPT's text classification performance on any given dataset. We implement APT-Pipe and test it across twelve distinct text classification datasets. We find that prompts tuned by APT-Pipe help ChatGPT achieve higher weighted F1-score on nine out of twelve experimented datasets, with an improvement of 7.01% on average. We further highlight APT-Pipe's flexibility as a framework by showing how it can be extended to support additional tuning mechanisms.
翻訳日:2024-02-09 11:25:16 公開日:2024-02-08
# フェアネスの制約はどれくらいでバイアスデータから回復できるのか?

How Far Can Fairness Constraints Help Recover From Biased Data? ( http://arxiv.org/abs/2312.10396v3 )

ライセンス: Link先を確認
Mohit Sharma, Amit Deshpande(参考訳) 公平な分類に対する一般的な信念は、公平性の制約が正確さとトレードオフを伴い、バイアスのあるデータが悪化する可能性があることである。 この信念に反して、blum & stangl (2019) は、極度に偏ったデータでも等しく機会制約のある公平な分類は、元のデータ分布上で最適に正確かつ公平な分類を回復できることを示した。 彼らの結果は、公正性の制約がデータバイアスを暗黙的に修正し、公正さと正確さのトレードオフを同時に克服できることを示しているので興味深い。 彼らのデータバイアスモデルは、少数人口における下層表現とラベルバイアスをシミュレートし、データ分布とバイアスパラメータの簡単な条件下で、ラベルノイズを用いたスタイリングされたデータ分布で上記の結果を示す。 本稿では、blum & stangl(2019)の結果を異なる公平性制約、データバイアスモデル、データ分布、仮説クラスに拡張するための一般的なアプローチを提案する。 我々はそれらの結果を強化し、そのスタイル化された分布がi.d.ノイズの代わりにMassartノイズを持つラベルを持つ場合に拡張する。 任意のデータ分布に対してfair rejectオプション分類器を用いて同様の回復結果を示す。 さらに任意のデータ分布や任意の仮説クラスに一般化する、すなわち、任意のデータ分布に対して、与えられた仮説クラスの最適精度の分類器が公平で堅牢であれば、バイアスパラメータが一定の単純な条件を満たすとき、バイアス分布に等しい機会制約を課した公正な分類によって回復できることを示す。 最後に,この手法を,分類と公平な機械学習パイプラインにおける時間変動データバイアスに適用することを示す。

A general belief in fair classification is that fairness constraints incur a trade-off with accuracy, which biased data may worsen. Contrary to this belief, Blum & Stangl (2019) show that fair classification with equal opportunity constraints even on extremely biased data can recover optimally accurate and fair classifiers on the original data distribution. Their result is interesting because it demonstrates that fairness constraints can implicitly rectify data bias and simultaneously overcome a perceived fairness-accuracy trade-off. Their data bias model simulates under-representation and label bias in underprivileged population, and they show the above result on a stylized data distribution with i.i.d. label noise, under simple conditions on the data distribution and bias parameters. We propose a general approach to extend the result of Blum & Stangl (2019) to different fairness constraints, data bias models, data distributions, and hypothesis classes. We strengthen their result, and extend it to the case when their stylized distribution has labels with Massart noise instead of i.i.d. noise. We prove a similar recovery result for arbitrary data distributions using fair reject option classifiers. We further generalize it to arbitrary data distributions and arbitrary hypothesis classes, i.e., we prove that for any data distribution, if the optimally accurate classifier in a given hypothesis class is fair and robust, then it can be recovered through fair classification with equal opportunity constraints on the biased distribution whenever the bias parameters satisfy certain simple conditions. Finally, we show applications of our technique to time-varying data bias in classification and fair machine learning pipelines.
翻訳日:2024-02-09 11:24:57 公開日:2024-02-08
# 2$-to-$1$PN関数とLi境界による$\varepsilon_{d}$-ASIC-POVMの構成

Construction of $\varepsilon_{d}$-ASIC-POVMs via $2$-to-$1$ PN functions and the Li bound ( http://arxiv.org/abs/2310.06418v3 )

ライセンス: Link先を確認
Meng Cao and Xiantao Deng(参考訳) 有限次元$d$の対称情報完備作用素値測度 (SIC-POVMs) は情報完備POVM (IC-POVMs) の特に魅力的な場合である。 しかし、SIC-POVMの構築は困難であり、SIC-POVMの無限族が存在するかどうかさえ明らかではない。 量子情報処理におけるいくつかの応用を実現するために、Klappenecker et al。 [37]は、ほぼ対称な情報完全POVM(ASIC-POVM)と呼ばれるSIC-POVMの近似バージョンを導入した。 本稿では、次元 $d=q$ の $\varepsilon_{d}$-asic-povm と次元 $d=q+1$の $\varepsilon_{d}$-asic-povm のクラスを構築し、ここで $q$ は素数である。 完全非線形(pn)関数はすべて$\varepsilon_{q}$-asic-povmの構築に使用できることを証明します。 我々は、$\varepsilon_{q}$-ASIC-POVMに対応するベクトルの集合が双角フレームを形成することを示す。 $\varepsilon_{q+1}$-ASIC-POVMs の構成は、Li 境界と呼ばれる乗法的文字和推定に基づいている。 我々は、$\varepsilon_{q+1}$-ASIC-POVMに対応するベクトルの集合が漸近的に最適なコードブックを形成することを示す。 我々は$\varepsilon_{q}$-ASIC-POVMs (resp) の "how close" を特徴付ける。 $\varepsilon_{q+1}$-ASIC-POVMs は次元 $q$ (resp. dimension $q+1$) の SIC-POVMs に由来する。 最後に、$\varepsilon_{d}$-ASIC-POVMsを構築することの重要性を説明する。

Symmetric informationally complete positive operator-valued measures (SIC-POVMs) in finite dimension $d$ are a particularly attractive case of informationally complete POVMs (IC-POVMs), which consist of $d^{2}$ subnormalized projectors with equal pairwise fidelity. However, it is difficult to construct SIC-POVMs, and it is not even clear whether there exists an infinite family of SIC-POVMs. To realize some possible applications in quantum information processing, Klappenecker et al. [37] introduced an approximate version of SIC-POVMs called approximately symmetric informationally complete POVMs (ASIC-POVMs). In this paper, we construct a class of $\varepsilon_{d}$-ASIC-POVMs in dimension $d=q$ and a class of $\varepsilon_{d}$-ASIC-POVMs in dimension $d=q+1$, respectively, where $q$ is a prime power. We prove that all $2$-to-$1$ perfect nonlinear (PN) functions can be used for constructing $\varepsilon_{q}$-ASIC-POVMs. We show that the set of vectors corresponding to the $\varepsilon_{q}$-ASIC-POVM forms a biangular frame. The construction of $\varepsilon_{q+1}$-ASIC-POVMs is based on a multiplicative character sum estimate called the Li bound. We show that the set of vectors corresponding to the $\varepsilon_{q+1}$-ASIC-POVM forms an asymptotically optimal codebook. We characterize "how close" the $\varepsilon_{q}$-ASIC-POVMs (resp. $\varepsilon_{q+1}$-ASIC-POVMs) are from being SIC-POVMs of dimension $q$ (resp. dimension $q+1$). Finally, we explain the significance of constructing $\varepsilon_{d}$-ASIC-POVMs.
翻訳日:2024-02-09 11:24:25 公開日:2024-02-08
# 交互量子ウォークによる三方絡み及び非局所二方絡み単一粒子状態の設計

Designing three-way entangled and nonlocal two-way entangled single particle states via alternate quantum walks ( http://arxiv.org/abs/2402.05080v2 )

ライセンス: Link先を確認
Dinesh Kumar Panda, Colin Benjamin(参考訳) 単一粒子状態との絡み合いは、多粒子アナログよりもセキュアに情報をエンコードし処理できるため、量子技術において有利である。 この文脈では、3方向および非局所の2方向の絡み合った単粒子状態が望ましい。 ここでは,資源節約シングルキュービットコインを用いた2次元代替量子ウォークを通じて進化する量子粒子の3自由度を含む初期分離状態から3方向の絡み合いを生成する。 3自由度の間の$\pi$-tangle によって定量化された3方向絡み合いの最大値を達成する。 また,粒子の非局所位置自由度間のネガティビティによって定量化された最適2方向非局所絡み合いを生成する。 この量子ウォークを用いたアーキテクチャは光子を用いて実験的に実現することができる。

Entanglement with single-particle states is advantageous in quantum technology because of their ability to encode and process information more securely than their multi-particle analogs. Three-way and nonlocal two-way entangled single-particle states are desirable in this context. Herein, we generate three-way entanglement from an initially separable state involving three degrees of freedom of a quantum particle, which evolves via a 2D alternate quantum walk employing a resource-saving single-qubit coin. We achieve maximum possible values for the three-way entanglement quantified by the $\pi$-tangle between the three degrees of freedom. We also generate optimal two-way nonlocal entanglement, quantified by the negativity between the nonlocal position degrees of freedom of the particle. This prepared architecture using quantum walks can be experimentally realized with a photon.
翻訳日:2024-02-09 11:16:52 公開日:2024-02-08
# 物理インフォームドニューラルネットワークを用いたマルチスケールモデリング:大規模ダイナミクスから複雑系の小規模予測へ

Multiscale Modelling with Physics-informed Neural Network: from Large-scale Dynamics to Small-scale Predictions in Complex Systems ( http://arxiv.org/abs/2402.05067v2 )

ライセンス: Link先を確認
Jing Wang and Zheng Li and Pengyu Lai and Rui Wang and Di Yang and Dewu Yang and Hui Xu(参考訳) 多スケール現象は様々な科学領域にまたがって現れ、複雑系における多スケールダイナミクスを正確にかつ効果的に予測するためのユビキタスな課題を提示する。 本稿では,大規模ダイナミクスを独立にモデル化し,小規模ダイナミクスをスレーブシステムとして扱うことにより,新しいデカップリング解法を提案する。 小型システムを効率的かつ高精度に特徴付けるために,スペクトル物理インフォームドニューラルネットワーク(pinn)を開発した。 この手法の有効性は, 1次元のクラモット・シヴァシンスキー方程式, 2次元と3次元のナビエ・ストークス方程式など, 流体力学の問題に対する汎用性を示す広範な数値実験によって実証された。 さらに,非一様メッシュ,複雑なジオメトリ,ノイズを伴う大規模データ,高次元の小型ダイナミックスなど,より複雑な問題への提案手法の適用についても検討する。 これらのシナリオに関する議論は、メソッドの能力と制限の包括的理解に寄与する。 本稿では,大規模データを最小限の計算要求で取得し,続いてSpectral PINNによって効率と精度を向上した小型ダイナミックスを捕捉する,マルチスケール時空間システムの計算シミュレーションを強化する,価値があり有望なアプローチを提案する。

Multiscale phenomena manifest across various scientific domains, presenting a ubiquitous challenge in accurately and effectively predicting multiscale dynamics in complex systems. In this paper, a novel decoupling solving mode is proposed through modelling large-scale dynamics independently and treating small-scale dynamics as a slaved system. A Spectral Physics-informed Neural Network (PINN) is developed to characterize the small-scale system in an efficient and accurate way. The effectiveness of the method is demonstrated through extensive numerical experiments, including one-dimensional Kuramot-Sivashinsky equation, two- and three-dimensional Navier-Stokes equations, showcasing its versatility in addressing problems of fluid dynamics. Furthermore, we also delve into the application of the proposed approach to more complex problems, including non-uniform meshes, complex geometries, large-scale data with noise, and high-dimensional small-scale dynamics. The discussions about these scenarios contribute to a comprehensive understanding of the method's capabilities and limitations. This paper presents a valuable and promising approach to enhance the computational simulations of multiscale spatiotemporal systems, which enables the acquisition of large-scale data with minimal computational demands, followed by Spectral PINN to capture small-scale dynamics with improved efficiency and accuracy.
翻訳日:2024-02-09 11:16:40 公開日:2024-02-08
# 連合学習は、有益である友人を見つけることができる

Federated Learning Can Find Friends That Are Beneficial ( http://arxiv.org/abs/2402.05050v2 )

ライセンス: Link先を確認
Nazarii Tupitsa and Samuel Horv\'ath and Martin Tak\'a\v{c} and Eduard Gorbunov(参考訳) フェデレーション学習(fl)では、クライアントデータの分散的性質と多様性は、機会と課題の両方を示す。 クライアント間のコラボレーションは学習プロセスを大幅に強化するが、すべてのコラボレーションが有益であるわけではない。 本研究では,fl訓練に参加する顧客に対して適応的集約重みを割り当て,特定の学習目標に最も寄与するデータ分布を持つ顧客を特定する新しいアルゴリズムを提案する。 本手法は,同じデータ分布を持つクライアントから受信した更新のみを集約する手法と同等に収束することを示す。 さらに、経験的評価により、我々のアルゴリズムによるコラボレーションは従来のflアプローチよりも優れていることが明らかとなった。 これはjudicious client選択の重要役割を強調するものであり、今後数年間でより合理化され効果的なfl実装の基盤となる。

In Federated Learning (FL), the distributed nature and heterogeneity of client data present both opportunities and challenges. While collaboration among clients can significantly enhance the learning process, not all collaborations are beneficial; some may even be detrimental. In this study, we introduce a novel algorithm that assigns adaptive aggregation weights to clients participating in FL training, identifying those with data distributions most conducive to a specific learning objective. We demonstrate that our aggregation method converges no worse than the method that aggregates only the updates received from clients with the same data distribution. Furthermore, empirical evaluations consistently reveal that collaborations guided by our algorithm outperform traditional FL approaches. This underscores the critical role of judicious client selection and lays the foundation for more streamlined and effective FL implementations in the coming years.
翻訳日:2024-02-09 11:16:14 公開日:2024-02-08
# SALAD-Bench: 大規模言語モデルの階層的で総合的な安全性ベンチマーク

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models ( http://arxiv.org/abs/2402.05044v2 )

ライセンス: Link先を確認
Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, Jing Shao(参考訳) 大規模言語モデル(LLM)の急速な発展の中で、堅牢な安全性確保が最重要である。 この重要なニーズを満たすために, LLM, 攻撃, 防御方法の評価に特化して設計された安全ベンチマークである \emph{SALAD-Bench} を提案する。 SALAD-Benchは、その規模、多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて従来のベンチマークを超越し、標準的なクエリから、攻撃、防御修正、多重選択に富んだ複雑なものまで、厳密な質問によって構築されている。 そこで本研究では,QA 対に対する LLM ベースの MD-Judge という,攻撃強化クエリに特化して,シームレスで信頼性の高い評価を実現する,革新的な評価手法を提案する。 SALAD-Bench を標準 LLM の安全性評価から LLM 攻撃および防御手法評価まで拡張し、共同用途の実用性を確保する。 我々の広範な実験は、新興脅威に対するLLMの弾力性と、現代の防衛戦術の有効性に光を当てた。 データと評価はhttps://github.com/OpenSafetyLab/SALAD-BENCHで公開されている。

In the rapidly evolving landscape of Large Language Models (LLMs), ensuring robust safety measures is paramount. To meet this crucial need, we propose \emph{SALAD-Bench}, a safety benchmark specifically designed for evaluating LLMs, attack, and defense methods. Distinguished by its breadth, SALAD-Bench transcends conventional benchmarks through its large scale, rich diversity, intricate taxonomy spanning three levels, and versatile functionalities.SALAD-Bench is crafted with a meticulous array of questions, from standard queries to complex ones enriched with attack, defense modifications and multiple-choice. To effectively manage the inherent complexity, we introduce an innovative evaluators: the LLM-based MD-Judge for QA pairs with a particular focus on attack-enhanced queries, ensuring a seamless, and reliable evaluation. Above components extend SALAD-Bench from standard LLM safety evaluation to both LLM attack and defense methods evaluation, ensuring the joint-purpose utility. Our extensive experiments shed light on the resilience of LLMs against emerging threats and the efficacy of contemporary defense tactics. Data and evaluator are released under https://github.com/OpenSafetyLab/SALAD-BENCH.
翻訳日:2024-02-09 11:16:01 公開日:2024-02-08
# multi-sender persuasion -- 計算論的視点

Multi-Sender Persuasion -- A Computational Perspective ( http://arxiv.org/abs/2402.04971v2 )

ライセンス: Link先を確認
Safwan Hossain, Tonghan Wang, Tao Lin, Yiling Chen, David C. Parkes, Haifeng Xu(参考訳) 情報的アドバンテージシグナリングを有する複数の送信者が、特定の行動に対して単一の利己的なアクタを説得する。 独創的なベイズ説得フレームワークの一般化は、計算経済学、マルチエージェント学習、および複数の目的を持つ機械学習においてユビキタスである。 ここでのコアソリューションの概念は、送信者のシグナル伝達ポリシーのナッシュ均衡である。 理論的には、一般に平衡を見つけることはPPAD-Hardであり、実際、送信者の最良の応答を計算してもNP-Hardである。 こうした本質的な困難を考えると、局所的なナッシュ均衡を見つけることになる。 本稿では,このゲームの非線形かつ不連続な効用を近似する,新しい微分可能なニューラルネットワークを提案する。 これを段階外アルゴリズムで補うことで、Paretoが全相対平衡と既存のニューラルネットワークが支配する局所平衡を発見する。 概して、我々の理論的かつ実証的な貢献は、幅広い経済問題に対する関心である。

We consider multiple senders with informational advantage signaling to convince a single self-interested actor towards certain actions. Generalizing the seminal Bayesian Persuasion framework, such settings are ubiquitous in computational economics, multi-agent learning, and machine learning with multiple objectives. The core solution concept here is the Nash equilibrium of senders' signaling policies. Theoretically, we prove that finding an equilibrium in general is PPAD-Hard; in fact, even computing a sender's best response is NP-Hard. Given these intrinsic difficulties, we turn to finding local Nash equilibria. We propose a novel differentiable neural network to approximate this game's non-linear and discontinuous utilities. Complementing this with the extra-gradient algorithm, we discover local equilibria that Pareto dominates full-revelation equilibria and those found by existing neural networks. Broadly, our theoretical and empirical contributions are of interest to a large class of economic problems.
翻訳日:2024-02-09 11:15:33 公開日:2024-02-08
# 2つの取引はバッフルされていない:有理勾配マッチングによる凝縮グラフ

Two Trades is not Baffled: Condensing Graph via Crafting Rational Gradient Matching ( http://arxiv.org/abs/2402.04924v2 )

ライセンス: Link先を確認
Tianle Zhang and Yuchen Zhang and Kun Wang and Kai Wang and Beining Yang and Kaipeng Zhang and Wenqi Shao and Ping Liu and Joey Tianyi Zhou and Yang You(参考訳) 大規模グラフのトレーニングはグラフ表現学習で目覚ましい成果を上げているが、そのコストとストレージには懸念が高まっている。 最も有望な方向の1つとして、グラフ凝縮法は勾配マッチングを用いてこれらの問題に対処し、全グラフをより簡潔で情報豊富な合成集合に凝縮することを目指している。 奨励的ではあるが、これらの戦略は主に勾配の一致方向を強調し、訓練軌道のずれにつながる。 このような偏差は、凝縮相と評価相の違いによってさらに拡大され、累積誤差となり、凝縮グラフの性能に悪影響を及ぼす。 そこで本研究では,データセットの特徴分布に近い最適化された出発点と勾配マッチングのより洗練された戦略を提供する,新しいグラフ凝縮法である \textbf{c}raf\textbf{t}ing \textbf{r}ationa\textbf{l} track (\textbf{ctrl})を提案する。 理論的には、CTRLは凝縮グラフの性能に対する累積誤差の影響を効果的に中和することができる。 ctrlの有効性をサポートするために,様々なグラフデータセットと下流タスクに関する広範な実験を行った。 コードはhttps://github.com/NUS-HPC-AI-Lab/CTRLで公開されている。

Training on large-scale graphs has achieved remarkable results in graph representation learning, but its cost and storage have raised growing concerns. As one of the most promising directions, graph condensation methods address these issues by employing gradient matching, aiming to condense the full graph into a more concise yet information-rich synthetic set. Though encouraging, these strategies primarily emphasize matching directions of the gradients, which leads to deviations in the training trajectories. Such deviations are further magnified by the differences between the condensation and evaluation phases, culminating in accumulated errors, which detrimentally affect the performance of the condensed graphs. In light of this, we propose a novel graph condensation method named \textbf{C}raf\textbf{T}ing \textbf{R}ationa\textbf{L} trajectory (\textbf{CTRL}), which offers an optimized starting point closer to the original dataset's feature distribution and a more refined strategy for gradient matching. Theoretically, CTRL can effectively neutralize the impact of accumulated errors on the performance of condensed graphs. We provide extensive experiments on various graph datasets and downstream tasks to support the effectiveness of CTRL. Code is released at https://github.com/NUS-HPC-AI-Lab/CTRL.
翻訳日:2024-02-09 11:15:16 公開日:2024-02-08
# LLMによるスマートコントラクトの自動要約

Automated Smart Contract Summarization via LLMs ( http://arxiv.org/abs/2402.04863v2 )

ライセンス: Link先を確認
Yingjie Mao, Xiaoqi Li, Zongwei Li, Wenkai Li(参考訳) 自動コード要約生成技術はスマートコントラクトの開発と保守に広く利用されている。 近年,Large Language Models (LLMs) の出現に伴い,Gemini はマルチモーダル入力をサポートする最初のLMM (Large Multimodal Model) として注目されている。 しかし、LMMがマルチモーダル入力から契約コード要約を生成する方法は不明である。 本稿では,実世界のスマートコントラクト上でのGeminiの評価,MMTransとの比較,マルチモーダルプロンプトの組み合わせによる契約コード要約の方法について検討する。 我々は、生成した要約の質を測定するために、いくつかの広く使われている指標(BLEU、METEOR、ROUGE-L)を使用した。 実験の結果,METEORとROUGELのメトリクスであるGemini-Pro-Visionが3発のプロンプトで生成されたコードコメントに対して21.17%と21.05%のスコアを達成した。 これらのスコアは、ワンショットプロンプトと5ショットプロンプトで生成されたスコアよりも優れている。

Automatic code Summarization generation technology is widely used in the development and maintenance of smart contracts. In recent years, with the advent of Large Language Models (LLMs), Gemini has received a lot of attention as the first Large Multimodal models (LMMs) to support multimodal input. However, it is unclear how LMMs can generate contract code summarization from multimodal inputs. In this paper, we focus on evaluating Gemini on real-world smart contracts, comparing it to the MMTrans, and exploring how to combine multimodal prompts to generate a contract code summarization. We used several widely used metrics (BLEU, METEOR, and ROUGE-L) to measure the quality of the generated summarization. Our experiments show that METEOR and ROUGEL metrics, Gemini-Pro-Vision achieves 21.17% and 21.05% scores for code comments generated by three-shot prompts. These scores are better than those generated by one-shot and five-shot prompts.
翻訳日:2024-02-09 11:14:50 公開日:2024-02-08
# 高速同期型潜時音声拡散

Fast Timing-Conditioned Latent Audio Diffusion ( http://arxiv.org/abs/2402.04825v2 )

ライセンス: Link先を確認
Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons(参考訳) テキストプロンプトから44.1khzの長いステレオ音声を生成することは計算的に要求される。 さらに、以前の作品の多くは、音楽や音響効果が持続時間によって自然に変化することに対処していない。 本研究では,テキストプロンプトと生成モデルを用いて,44.1khzの長尺な可変長ステレオ音楽と音の効率的な生成に焦点をあてた。 安定オーディオは潜時拡散に基づいており、潜時拡散は完全畳み込み変分オートエンコーダによって定義される。 テキストプロンプトとタイミング埋め込みに条件付けされており、生成された音楽や音の内容と長さの両方を細かく制御することができる。 安定オーディオは、A100 GPU上で8秒で95秒までのステレオ信号を44.1kHzでレンダリングすることができる。 計算効率と高速な推論にもかかわらず、2つの公開テキスト・音楽・オーディオのベンチマークで最高の1つであり、最先端のモデルとは違い、構造とステレオの音で音楽を生成することができる。

Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.
翻訳日:2024-02-09 11:14:32 公開日:2024-02-08
# CLIF: スパイクニューラルネットワークのための相補的漏洩積分と火炎ニューロン

CLIF: Complementary Leaky Integrate-and-Fire Neuron for Spiking Neural Networks ( http://arxiv.org/abs/2402.04663v2 )

ライセンス: Link先を確認
Yulong Huang, Xiaopeng Lin, Hongwei Ren, Yue Zhou, Zunchang Liu, Haotian Fu, Biao Pan, Bojun Cheng(参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。 従来のディープニューラルネットワーク(ANN)と比較して、SNNは時間情報を処理するための優れた効率と能力を示す。 しかし、SNNのスパイク機構の区別が難しいため、SNNを訓練することは依然として困難である。 シュロゲート勾配法は一般にSNNの訓練に使用されるが、ANNに比べて精度が劣ることが多い。 我々は、分解された精度と時間次元の勾配の消失をLeaky Integrate-and-Fire(LIF)neuron-based SNNのトレーニング過程の分析および実験的研究を通して関連付ける。 さらに,CLIF(Complementary Leaky Integrate-and-Fire)ニューロンを提案する。 CLIFは、バイナリ出力を維持しながら、時間勾配の計算におけるバックプロパゲーションを容易にするために、余分なパスを生成する。 CLIFはハイパーパラメータフリーで、幅広い適用性を備えている。 さまざまなデータセットに対する大規模な実験は、他のニューロンモデルに対するCLIFの明確なパフォーマンス上の優位性を示している。 さらに、CLIFのパフォーマンスは、ネットワーク構造とトレーニング条件が同じである優れたANNをわずかに上回っている。

Spiking neural networks (SNNs) are promising brain-inspired energy-efficient models. Compared to conventional deep Artificial Neural Networks (ANNs), SNNs exhibit superior efficiency and capability to process temporal information. However, it remains a challenge to train SNNs due to their undifferentiable spiking mechanism. The surrogate gradients method is commonly used to train SNNs, but often comes with an accuracy disadvantage over ANNs counterpart. We link the degraded accuracy to the vanishing of gradient on the temporal dimension through the analytical and experimental study of the training process of Leaky Integrate-and-Fire (LIF) Neuron-based SNNs. Moreover, we propose the Complementary Leaky Integrate-and-Fire (CLIF) Neuron. CLIF creates extra paths to facilitate the backpropagation in computing temporal gradient while keeping binary output. CLIF is hyperparameter-free and features broad applicability. Extensive experiments on a variety of datasets demonstrate CLIF's clear performance advantage over other neuron models. Moreover, the CLIF's performance even slightly surpasses superior ANNs with identical network structure and training conditions.
翻訳日:2024-02-09 11:14:14 公開日:2024-02-08
# Fithfulness vs. Plausibility:大規模言語モデルからの説明の信頼性について

Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models ( http://arxiv.org/abs/2402.04614v2 )

ライセンス: Link先を確認
Chirag Agarwal, Sree Harsha Tanneru, Himabindu Lakkaraju(参考訳) 大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。 最近の研究は、現代のLLMが自己説明(SE)を生成できることを示している。 自己説明は、会話的かつもっともらしい性質のために広く採用されている。 しかし、彼らの忠実さをほとんど理解していない。 本研究では, LLM によるSEs の忠実度と妥当性の両立を論じる。 我々は、llmは、一見人間にとって論理的で一貫性のある、妥当な説明を生成するのに長けているが、これらの説明は、必ずしもllmの推論プロセスと一致せず、その忠実性に関する懸念を提起していると主張している。 ユーザフレンドリーなインターフェースの需要に起因した説明の妥当性向上に対する現在の傾向は、彼らの忠実さを損なう可能性があることを強調する。 我々は、高い意思決定に使用されるLCMにおいて、説明の忠実さが重要であると断言する。 さらに,実世界のアプリケーションの忠実性要件を特定し,そのニーズを満たす説明をコミュニティに求める。 最後に,多種多様なハイテイク領域におけるLCMの透過的展開に不可欠な,自己説明の忠実さを損なうことなく向上させる新たな方法論やフレームワークの必要性を強調し,今後の研究の方向性を提案する。

Large Language Models (LLMs) are deployed as powerful tools for several natural language processing (NLP) applications. Recent works show that modern LLMs can generate self-explanations (SEs), which elicit their intermediate reasoning steps for explaining their behavior. Self-explanations have seen widespread adoption owing to their conversational and plausible nature. However, there is little to no understanding of their faithfulness. In this work, we discuss the dichotomy between faithfulness and plausibility in SEs generated by LLMs. We argue that while LLMs are adept at generating plausible explanations -- seemingly logical and coherent to human users -- these explanations do not necessarily align with the reasoning processes of the LLMs, raising concerns about their faithfulness. We highlight that the current trend towards increasing the plausibility of explanations, primarily driven by the demand for user-friendly interfaces, may come at the cost of diminishing their faithfulness. We assert that the faithfulness of explanations is critical in LLMs employed for high-stakes decision-making. Moreover, we urge the community to identify the faithfulness requirements of real-world applications and ensure explanations meet those needs. Finally, we propose some directions for future work, emphasizing the need for novel methodologies and frameworks that can enhance the faithfulness of self-explanations without compromising their plausibility, essential for the transparent deployment of LLMs in diverse high-stakes domains.
翻訳日:2024-02-09 11:13:56 公開日:2024-02-08
# S-Agents:オープンエンド環境における自己組織化剤

S-Agents: self-organizing agents in open-ended environment ( http://arxiv.org/abs/2402.04578v2 )

ライセンス: Link先を確認
Jiaqi Chen and Yuxian Jiang and Jiachen Lu and Li Zhang(参考訳) 大規模言語モデル(LLM)を活用することで、自律エージェントは大幅に改善され、さまざまなタスクを処理できるようになった。 オープンエンド設定では、効率と有効性のためのコラボレーションの最適化は柔軟な調整を必要とする。 それにもかかわらず、現在の研究は主に固定的でタスク指向のワークフローを強調し、エージェント中心の組織構造を見落としています。 人間の組織行動からインスピレーションを得て,動的ワークフローのための「エージェントツリー」構造を備えた自己組織化エージェントシステム(S-Agents),情報優先順位のバランスをとる「時間ガラスエージェントアーキテクチャ」,エージェント間の非同期タスク実行を可能にする「非障害物協調」手法を導入する。 この構造はエージェントのグループを自律的に調整でき、人間の介入なしにオープンでダイナミックな環境の課題に効率的に対処できる。 実験の結果,S-AgentsはMinecraft環境で協調作業や資源収集を行い,その効果を検証した。

Leveraging large language models (LLMs), autonomous agents have significantly improved, gaining the ability to handle a variety of tasks. In open-ended settings, optimizing collaboration for efficiency and effectiveness demands flexible adjustments. Despite this, current research mainly emphasizes fixed, task-oriented workflows and overlooks agent-centric organizational structures. Drawing inspiration from human organizational behavior, we introduce a self-organizing agent system (S-Agents) with a "tree of agents" structure for dynamic workflow, an "hourglass agent architecture" for balancing information priorities, and a "non-obstructive collaboration" method to allow asynchronous task execution among agents. This structure can autonomously coordinate a group of agents, efficiently addressing the challenges of an open and dynamic environment without human intervention. Our experiments demonstrate that S-Agents proficiently execute collaborative building tasks and resource collection in the Minecraft environment, validating their effectiveness.
翻訳日:2024-02-09 11:13:32 公開日:2024-02-08
# 連続多次元スケーリング

Continuous Multidimensional Scaling ( http://arxiv.org/abs/2402.04436v2 )

ライセンス: Link先を確認
Michael W. Trosset, Carey E. Priebe(参考訳) 多次元スケーリング (multidimensional scaling, mds) は、n$ のオブジェクトの集合の近接情報を $d$ 次元ユークリッド空間に埋め込む行為である。 もともと心理測定のコミュニティが考え出したように、MDSは固定されたオブジェクトの集合に関連する固定された確率のセットを埋めることに関心を持っていた。 現代の関心事、例えば、ランダムグラフの統計的推論のための漸近理論の開発において生じる、より一般的には、増大する対象の集合に関連する一連の公理の列の制限挙動を研究することである。 点対集合写像の理論の標準的な結果は、$n$ が固定され、一列の近さが収束すると、埋め込み構造の極限は制限された近さの埋め込み構造であることを意味する。 でも、$n$が上がったら? したがって、MDSを再構成し、埋め込み問題全体の列を固定空間における最適化問題の列と見なせるようにする必要がある。 このような改革を提示し、いくつかの結果をもたらす。

Multidimensional scaling (MDS) is the act of embedding proximity information about a set of $n$ objects in $d$-dimensional Euclidean space. As originally conceived by the psychometric community, MDS was concerned with embedding a fixed set of proximities associated with a fixed set of objects. Modern concerns, e.g., that arise in developing asymptotic theories for statistical inference on random graphs, more typically involve studying the limiting behavior of a sequence of proximities associated with an increasing set of objects. Standard results from the theory of point-to-set maps imply that, if $n$ is fixed and a sequence of proximities converges, then the limit of the embedded structures is the embedded structure of the limiting proximities. But what if $n$ increases? It then becomes necessary to reformulate MDS so that the entire sequence of embedding problems can be viewed as a sequence of optimization problems in a fixed space. We present such a reformulation and derive some consequences.
翻訳日:2024-02-09 11:13:15 公開日:2024-02-08
# 位相空間におけるガウス関数の線形結合の二次コヒーレンススケール

Quadrature Coherence Scale of Linear Combinations of Gaussian Functions in Phase Space ( http://arxiv.org/abs/2402.04404v2 )

ライセンス: Link先を確認
Anaelle Hertz, Aaron Z. Goldberg and Khabat Heshami(参考訳) 二次コヒーレンススケール(QCS)は、最近導入された尺度であり、非古典性の効率的な証人であることが示されている。 純粋な状態とガウス状態の単純な形式を取るが、混合状態の一般的な表現は違法に扱いにくい傾向にある。 本稿では,ガウス関数の線形結合として表現可能なウィグナー関数を特徴とする量子状態の二次コヒーレンススケールの計算法を提案する。 このフレームワークで注目すべき例として、猫の状態、GKP状態、ガウス変換、測定、繁殖プロトコルによる状態がある。 特に,二次コヒーレンススケールは,損失の存在下で非古典性のスケーラビリティを調べる上で有用なツールであることを示す。 以上の結果から,純状態は50%以上の損失を受けると,QCSに認定された非古典性を失うという推測が得られた。 また,2次コヒーレンス尺度を,育種プロトコルの出力状態の品質の尺度として検討した。

The quadrature coherence scale (QCS) is a recently introduced measure that was shown to be an efficient witness of nonclassicality. It takes a simple form for pure and Gaussian states, but a general expression for mixed states tends to be prohibitively unwieldy. In this paper, we introduce a method for computing the quadrature coherence scale of quantum states characterized by Wigner functions expressible as linear combinations of Gaussian functions. Notable examples within this framework include cat states, GKP states, and states resulting from Gaussian transformations, measurements, and breeding protocols. In particular, we show that the quadrature coherence scale serves as a valuable tool for examining the scalability of nonclassicality in the presence of loss. Our findings lead us to put forth a conjecture suggesting that, subject to 50% loss or more, all pure states lose any QCS-certifiable nonclassicality. We also consider the quadrature coherence scale as a measure of quality of the output state of the breeding protocol.
翻訳日:2024-02-09 11:12:57 公開日:2024-02-08
# MLのための温度計算:双曲型モデル埋め込みへの応用

Tempered Calculus for ML: Application to Hyperbolic Model Embedding ( http://arxiv.org/abs/2402.04163v2 )

ライセンス: Link先を確認
Richard Nock and Ehsan Amid and Frank Nielsen and Alexander Soen and Manfred K. Warmuth(参考訳) MLで使用されるほとんどの数学的歪みは、本質的には、$f$-divergences, Bregman divergences, (正規化された)最適輸送距離、積分確率測度、測地線距離などである。 本稿では,これらの歪みを改善するための基礎理論とツールを公表し,機械学習の要件に対処する。 まずリーマン積分の一般化から始め、厳密に加法的ではないがより一般的には非指数統計力学のように$t$-加法的である関数をカプセル化する。 特に、これはボルテラ積積分を特別な場合として回復させる。 次に、(ユークリッド)微分の拡張を用いて計算の基礎定理を一般化する。 これは、より具体的な定理のシリーズとともに、計量性、双曲性、エンコーディングといった幾何学的およびML関連の特性に特に重点を置いて、歪み測度の基本的な特性を簡単な方法で設計、変更、あるいは変更する方法を示す結果の基盤となる。 我々は、最近MLで注目を集めた問題、すなわち「チープ」による双曲的埋め込みと、双曲的対ユークリッド的スケールによる正確なエンコーディングにどのように適用するかを示す。 我々は、poincar\'eディスクモデルが非常に魅力的な機能を持つ新しいアプリケーションを公開し、我々の理論は、ログロス(trees)とロジスティックロス(combination)を使って訓練された決定木の強化された組み合わせのための、 \textit{model} 埋め込みである。

Most mathematical distortions used in ML are fundamentally integral in nature: $f$-divergences, Bregman divergences, (regularized) optimal transport distances, integral probability metrics, geodesic distances, etc. In this paper, we unveil a grounded theory and tools which can help improve these distortions to better cope with ML requirements. We start with a generalization of Riemann integration that also encapsulates functions that are not strictly additive but are, more generally, $t$-additive, as in nonextensive statistical mechanics. Notably, this recovers Volterra's product integral as a special case. We then generalize the Fundamental Theorem of calculus using an extension of the (Euclidean) derivative. This, along with a series of more specific Theorems, serves as a basis for results showing how one can specifically design, alter, or change fundamental properties of distortion measures in a simple way, with a special emphasis on geometric- and ML-related properties that are the metricity, hyperbolicity, and encoding. We show how to apply it to a problem that has recently gained traction in ML: hyperbolic embeddings with a "cheap" and accurate encoding along the hyperbolic vs Euclidean scale. We unveil a new application for which the Poincar\'e disk model has very appealing features, and our theory comes in handy: \textit{model} embeddings for boosted combinations of decision trees, trained using the log-loss (trees) and logistic loss (combinations).
翻訳日:2024-02-09 11:12:39 公開日:2024-02-08
# Read to Play (R2-Play):マルチモーダルゲーム指導による決定変換器

Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction ( http://arxiv.org/abs/2402.04154v2 )

ライセンス: Link先を確認
Yonggang Jin, Ge Zhang, Hao Zhao, Tianyu Zheng, Jiawei Guo, Liuyu Xiang, Shawn Yue, Stephen W. Huang, Wenhu Chen, Zhaofeng He and Jie Fu(参考訳) 汎用エージェントの開発は、人工知能の長年の目標である。 様々なタスクから広範囲なオフラインデータセットを利用する以前の取り組みは、強化学習におけるマルチタスクシナリオにおいて顕著なパフォーマンスを示している。 しかし、これらの作業は、新しいタスクに能力を拡張する上での課題に遭遇する。 近年,テキスト指導や視覚的軌跡を意思決定ネットワークに統合し,タスク固有の文脈的手がかりを提供する。 しかし,タスクの文脈情報を正確に伝達するには,テキスト指導や視覚的軌跡のみに頼るだけでは不十分であることがわかった。 本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイの指示を理解することで「読み上げ」機能を実現する。 視覚タスクにおけるマルチモーダル命令チューニングの成功から着想を得て,視覚ベースのrlタスクをロングホリゾンビジョンタスクとして扱い,マルチモーダルゲーム命令セットを構築し,命令チューニングを決定変換器に組み込む。 実験の結果,マルチモーダルゲームインストラクションの導入は,決定トランスフォーマーのマルチタスクと一般化能力を大幅に向上させることがわかった。

Developing a generalist agent is a longstanding objective in artificial intelligence. Previous efforts utilizing extensive offline datasets from various tasks demonstrate remarkable performance in multitasking scenarios within Reinforcement Learning. However, these works encounter challenges in extending their capabilities to new tasks. Recent approaches integrate textual guidance or visual trajectory into decision networks to provide task-specific contextual cues, representing a promising direction. However, it is observed that relying solely on textual guidance or visual trajectory is insufficient for accurately conveying the contextual information of tasks. This paper explores enhanced forms of task guidance for agents, enabling them to comprehend gameplay instructions, thereby facilitating a "read-to-play" capability. Drawing inspiration from the success of multimodal instruction tuning in visual tasks, we treat the visual-based RL task as a long-horizon vision task and construct a set of multimodal game instructions to incorporate instruction tuning into a decision transformer. Experimental results demonstrate that incorporating multimodal game instructions significantly enhances the decision transformer's multitasking and generalization capabilities.
翻訳日:2024-02-09 11:12:10 公開日:2024-02-08